概述
NodeJS模块-Tesseract识别验证码图片,在验证码识别上,node.js
其实也只是打酱油的角色,因为已经有成熟的工具做这个事情,而node
只需要做调度就行了。
所需工具
那么介绍一下这些工具吧
Tesseract
开源的OCR
识别工具,目前由Google
维护,支持中文,默认的识别率很低哈,特别是中文,但是可以自己提供样本,训练提高识别率。graphicsmagick
非常实用的图像处理工具,下面会讲到用途。
NodeJS模块-Tesseract识别验证码图片,在验证码识别上,node.js
其实也只是打酱油的角色,因为已经有成熟的工具做这个事情,而node
只需要做调度就行了。
那么介绍一下这些工具吧
Tesseract
开源的 OCR
识别工具,目前由 Google
维护,支持中文,默认的识别率很低哈,特别是中文,但是可以自己提供样本,训练提高识别率。graphicsmagick
非常实用的图像处理工具,下面会讲到用途。
Python爬虫识别验证码
安装tesserocr
pip3 install tesserocr pillow
识别测试
将验证码图片放到项目根目录下,用tesserocr库识别该验证码,代码如下所示:
0 1 2 3 4 5 6 7 |
import locale locale.setlocale(locale.LC_ALL, 'C') import tesserocr from PIL import Image image = Image.open('code.jpg') result = tesserocr.image_to_text(image) print(result) |