验证码识别tesseract的简单使用和总结(代码片段)

crazymanpj crazymanpj     2022-12-20     378

关键词:

Tesseract是什么

OCR即光学字符识别,是指通过电子设备扫描纸上的打印的字符,然后翻译成计算机文字的过程。也就是说通过输入图片,经过识别引擎,去识别图片上的文字。Tesseract是一种适用于各种操作系统的光学字符识别引擎,最早是hp公司的软件,2005年开源,2006年后由google一直赞助Tesseract开发和维护。2006年,Tesseract被认为是当时最准确的开源OCR引擎之一 。

 

验证码识别类型

这里讨论一般的验证码识别,即英文、数字、或者英文和数字的混合的验证码,不包括滑动和文字点击这些类型。

 

Tesseract的安装

Tesseract的github地址:https://github.com/tesseract-ocr/tesseract
Tesseract的安装github上有说明,Tesseract现在有3.05的版本,也有4.0beta版,我自己使用之后感觉2者差异不大,替换之后识别率也没有明显提升,所以只要使用其中一个就好。Tesseract支持windows和linux,windows下装完之后有个Tesseract-ocr的目录,目录下有个tesseract.exe的程序,可以通过调用这个exe的命令行去进行ocr的识别。

 

Tesseract的使用

简单的命令行使用如下:

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

 

  • 参数说明:

imagename  图片文件
outputbase   输出文件,也可以选择命令行输出stdout

 

  • 可选参数

-l lang                      识别库,默认是eng,也可以是自己训练出来的识别库
-psm pagesegmode     识别模式

 

pagesegmode    具体含义见下图

0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.

 

Tesseract训练

可以通过jTessBoxEditor去训练Tesseract,而且训练样本越多,识别准确度越好,实际使用中我训练了500张图片,对识别率的提升还是有的,但是还是没能达到自己想要的预期识别率,估计是样本还不够多吧。另外对样本一个个修正也是个繁琐的事情,尤其是验证码,一般都各种变形以防止程序轻易识别,不过总体来说只要样本够多,想要达到预期的识别率还是可以的。关于jTessBoxEditor训练的详细步骤,有兴趣的可以自己去搜索Tesseract相关资料了解。

 

 

 




tesseract图像识别验证码:安装使用和避免坑

安装使用https://blog.csdn.net/kk185800961/article/details/78747595避免的坑 查看详情

使用pytesseract+tesseract-ocr识别图片的简单步骤(代码片段)

1.首先安装Pytesseract,这个很简单,直接输入命令pipinstallpytesseract即可2.Tesseract-OCR https://pan.baidu.com/s/1sVYyKcPclZxWfFJDjy471g提取码:5ib2这个我也是在网上找到,可以直接下载使用下载好后去修改pytesseract.py中的内容如下图3.pycharm中... 查看详情

爬虫-tesseract(代码片段)

机器视觉从Google的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域。我们将重点介绍机器视觉的一个分支:文字识别,介绍如何用一些Python库来识别和使用在线... 查看详情

使用pytesseract识别验证码,报错windowserror:[error2]

问题现象:按照网上的方式进行代码编写,使用pytesseract模块,然后导入指定图片进行解析,报错WindowsError:[Error2]  问题原因:源代码里面的路径设置错误,这里有一个坑,就是下载下来的源码需要配置 解决方法:源... 查看详情

pytesseract的使用|python识别验证码(代码片段)

目录1.安装tesseract2.安装pytesseract3.修改包中部分代码4.代码网站测试1.安装tesseract详见:https://blog.csdn.net/lijiamingccc/article/details/1194597752.安装pytesseract在pycharm终端下,安装pytesseract,如图所示pipinstall 查看详情

tesseract不会识别png文件中的验证码,该文件包含英文字母的数字和字母(代码片段)

我需要从url中提取验证码并使用Tesseract识别它。我的代码是:#!/usr/bin/perl-X###$user='user';#Enteryourusernamehere$pass='pass';#Enteryourpasswordhere####Serversettings$home="http://perltest.adavice.com";$url="$home/c/test.cgi?u=$user&p=$pass";#GetHTMLcode!$html=`GET"$url"`#... 查看详情

ui自动化用tesseract类截取和识别验证码多测师

一)步骤封装一个工具函数来实现 二)第二步截屏保存起来 三)剪切验证码部位的图片并且识别  查看详情

selenium实战——登录过程验证码的获取(代码片段)

一、tesseract的安装 下载地址:https://digi.bib.uni-mannheim.de/tesseract/github地址:https://github.com/tesseract-ocr/tesseract具体安装参考博文:https://www.wj0511.com/site/detail.html?id=250DLL动态链接库:https://www.polarxiong.com/archives/python-pytesser-tesseract... 查看详情

python使用tesseract-ocr完成验证码识别

一、python验证码识别库安装Ubuntu版本:1.tesseract-ocr安装 sudoapt-getinstalltesseract-ocr2.pytesseract安装 sudopipinstallpytesseract3.Pillow安装 sudopipinstallpillow其他linux版本(如centos): 1.tess 查看详情

python使用tesseract-ocr完成验证码识别

一、python验证码识别库安装Ubuntu版本:1.tesseract-ocr安装 sudoapt-getinstalltesseract-ocr2.pytesseract安装 sudopipinstallpytesseract3.Pillow安装 sudopipinstallpillow其他linux版本(如centos): 1.tess 查看详情

图形验证码的识别(代码片段)

...b.com/sirfz/tesserocrtesserocrPyPI:https://pypi.python.org/pypi/tesserocrtesseract下载地址:http://digi.bib.uni-mannheim.de/tesseracttesseractGitHub:https://github.com/tesseract-ocr/tesseracttesseract语言包:https://github.com/tesseract-ocr/tessdatatesseract文档:https://github.com/t... 查看详情

java验证码识别:基于jtessboxeditorfx和tesseract-ocr训练样本

JAVA验证识别:基于jTessBoxEditorFX和Tesseract-OCR训练样本工具准备:jTessBoxEditorFX下载:https://github.com/nguyenq/jTessBoxEditorFXTesseract-OCR下载:https://sourceforge.net/projects/tesseract-ocr/主要步骤:JTessBoxEditorFX,Tes 查看详情

训练自己的tesseractlstm模型用于识别验证码(代码片段)

训练自己的TesseractLSTM模型用于识别验证码by阙荣文2022.12.12Github源码Tesseract-OCR官方仓库包含的训练数据直接用于识别验证码通常效果并不好,因为验证码字体往往会带有一定程度的扭曲,有必要训练自己的模型.根据我在网上找到的... 查看详情

webui智能识别验证码之tesseract

...cr/files/jTessBoxEditor/注意:官网:https://digi.bib.uni-mannheim.de/tesseract/pipinstallpytesseract以古诗文网的登录页面为例,获取验证码数据:结果图片:复制VeriCode.traineddata,放到tessdata(Tesseract安装目录的一个文件夹)文件夹下tesseractVeriCod... 查看详情

网络爬虫--验证码识别(代码片段)

0x00下载安装tesseract1、下载地址http://digi.bib.uni-mannheim.de/tesseract/2、安装成功后,配置环境变量3、检查是否设置成功tesseract-v4、安装tesseract库和pillow库文件pip3installtesserocrpillow0x01识别测试1、将该图片保存到桌面2、代码实现... 查看详情

网络爬虫--验证码识别(代码片段)

0x00下载安装tesseract1、下载地址http://digi.bib.uni-mannheim.de/tesseract/2、安装成功后,配置环境变量3、检查是否设置成功tesseract-v4、安装tesseract库和pillow库文件pip3installtesserocrpillow0x01识别测试1、将该图片保存到桌面2、代码实现... 查看详情

python使用tesseract-ocr完成验证码识别

一、python验证码识别库安装Ubuntu版本:1.tesseract-ocr安装 sudoapt-getinstalltesseract-ocr2.pytesseract安装 sudopipinstallpytesseract3.Pillow安装 sudopipinstallpillow其他linux版本(如centos): 1.tesseract-ocr安装 没找到直接命令安装࿰... 查看详情

爬虫进阶验证码处理:打码平台的使用(反反爬)(代码片段)

...用场景1.4图片验证码的处理方案2.图片识别引擎2.1什么是tesseract2.2图片识别引擎环境的安装2.3图片识别引擎的使用2.4图片识别引擎的使用扩展3.打码平台3.1为什么需要了解打码平台的使用3.2常见的打码平台3.3云打码的使用3.4云打... 查看详情