NodeJS模块-Tesseract识别验证码图片

概述

NodeJS模块-Tesseract识别验证码图片,在验证码识别上,node.js其实也只是打酱油的角色,因为已经有成熟的工具做这个事情,而node只需要做调度就行了。

所需工具

那么介绍一下这些工具吧

  • Tesseract 开源的 OCR 识别工具,目前由 Google 维护,支持中文,默认的识别率很低哈,特别是中文,但是可以自己提供样本,训练提高识别率。
  • graphicsmagick 非常实用的图像处理工具,下面会讲到用途。

 

安装

npm install node-tesseract

npm中的示例

 

用node.js实现

最后在node.js中整合上面的操作,其中图像处理用 graphicsmagick 代替。
直接上源码吧,里面用到了 tesseractgraphicsmagicknode.js中对应的包装。

识别语言

 

最后

写完之后才发现示例中的验证码的第一个字符其实是 G,而不是识别出来的C。
默认样本对相近字符识别还是挺低的,可以搜索 tesseract 训练,提高相近字符的识别率。

资源

 

怎么升级node版本?nodejs升级的方法(Window、Linux)