pytesseract的使用|python识别验证码(代码片段)

冰_墩_墩 冰_墩_墩     2022-12-26     658

关键词:

1. 安装tesseract

详见:
https://blog.csdn.net/lijiamingccc/article/details/119459775

2.安装pytesseract

在pycharm终端下,安装 pytesseract,如图所示

pip install pytesseract

3. 修改包中部分代码


文件中的这个路径,改成第一步你安装的位置,建议找到之后直接复制
前面加个r,是为了说明这个路径是一段字符串,防止转义

4.代码网站测试

代码:

网址可以自己随便找一个

    res = requests.get(url="x'x'x'x'x")

    with open('image.jpg', 'wb') as fw:
        fw.write(res.content)

    img = cv2.imread("image.jpg")

    # 四周置白色  图片降噪
    def around_white(img):
        w, h, s = img.shape
        for _w in range(w):
            for _h in range(h):
                if (_w <= 5) or (_h <= 5) or (_w >= w-5) or (_h >= h-5):
                    img.itemset((_w, _h, 0), 255)
                    img.itemset((_w, _h, 1), 255)
                    img.itemset((_w, _h, 2), 255)
        return img
	
    img2 = around_white(img)
    ret, img2 = cv2.threshold(img2, 150, 255, cv2.THRESH_BINARY)
	
	 # 前面需要添加一些图像降噪的操作
    code = pytesseract.image_to_string(img2,config="--psm 6 digits")
    code = re.findall('\\d+',code)[0]
    print("识别的验证码为:".format(code))

效果:

识别效果不一定保证每次都正确,但是基本上5次之内都是可以成功的,这里可以写一个循环,直到成功为止。

pytesseract——验证码的识别——pil库的介绍

1、简介Python-tesseract是一款用于光学字符识别(OCR)的python工具,即从图片中识别出其中嵌入的文字。Python-tesseract是对GoogleTesseract-OCR的一层封装。它也同时可以单独作为对tesseract引擎的调用脚本,支持使用PIL库(PythonImagingLibrary... 查看详情

使用python进行验证码识别案例无法验证通过,sos

源码:#coding:utf-8#buildbyLandGrey2016-05-17try:importpytesseractfromPILimportImageexceptImportError:print"模块导入错误,请用pip安装,pytesseract依赖以下库:"raiseSystemExitimg=Image.open(r'F://work//test//python//222.png')vcode=pytesseract.image_to_string(img... 查看详情

使用pytesseract识别简单验证码

fromPILimportImageimportpytesseractfrompytesseractimport*rep={‘O‘:‘0‘,#替换列表‘I‘:‘1‘,‘L‘:‘1‘,‘Z‘:‘2‘,‘S‘:‘8‘};definitTable(threshold=140):#二值化函数table=[]foriinrange(256):ifi<threshold:table.append(0)e 查看详情

使用pytesseract识别验证码,报错windowserror:[error2]

问题现象:按照网上的方式进行代码编写,使用pytesseract模块,然后导入指定图片进行解析,报错WindowsError:[Error2]  问题原因:源代码里面的路径设置错误,这里有一个坑,就是下载下来的源码需要配置 解决方法:源... 查看详情

python中的数字识别(OpenCV和pytesseract)

】python中的数字识别(OpenCV和pytesseract)【英文标题】:Digitrecognitioninpython(OpenCVandpytesseract)【发布时间】:2020-01-2116:53:49【问题描述】:我目前正在尝试从小屏幕截图中检测数字。但是,我发现准确性很差。我一直在使用OpenCV,... 查看详情

5行python实现验证码识别,太稳了(代码片段)

...Python代码实现验证码识别的办法。当时采用的是pillow+pytesseract,优点是免费,较为易用。但其识别精度一般,若想要更高要求的验证码识别,初学者就只能去选择使用百度API接口了。但其实百度API接口和pytessera... 查看详情

pytesseract识别验证码(代码片段)

pytesseract识别验证码0.下载https://tesseract-ocr.github.io/tessdoc/Installation.html`1.安装选择添加Math和Chinese包安装完成后,配置环境变量,之前我安装1201版本的会报错,win1064位下会报这种错误:所以我选择20190623的安装... 查看详情

pytesseract识别验证码(代码片段)

pytesseract识别验证码0.下载https://tesseract-ocr.github.io/tessdoc/Installation.html`1.安装选择添加Math和Chinese包安装完成后,配置环境变量,之前我安装1201版本的会报错,win1064位下会报这种错误:所以我选择20190623的安装... 查看详情

pytesseract识别验证码(代码片段)

pytesseract识别验证码0.下载https://tesseract-ocr.github.io/tessdoc/Installation.html`1.安装选择添加Math和Chinese包安装完成后,配置环境变量,之前我安装1201版本的会报错,win1064位下会报这种错误:所以我选择20190623的安装... 查看详情

python•图片识别pytesseract快速识别提取图片中的文字(代码片段)

...配置环境1.安装python依赖本程序用到了两个python库,pytesseract和PIL,所以先来安装。运行以下命令pipinstallPillowpipinstallpytesseract如果在python中没有报错,说明程序安装成功,2.安装识别引擎安装完以上两个依赖还需要... 查看详情

python开发文字点选验证码,有啥推荐的方法?

...处理,提取出验证码中的字符或单词,以便后续的识别。PyTesseract库:PyTesseract是一个Python的OCR库,基于Google的Tesseract-OCR引擎,可以对图像中的文字进行识别。可以使用PyTesseract库对验证码图片中的字符或单词进行识别和分类。KN... 查看详情

selenium&pytesseract模拟登录+验证码识别(代码片段)

验证码是爬虫需要解决的问题,因为很多网站的数据是需要登录成功后才可以获取的.验证码识别,即图片识别,很多人都有误区,觉得这是爬虫方面的知识,其实是不对的.验证码识别涉及到的知识:人工智能,模式识别,机器视... 查看详情

使用pytesseract+tesseract-ocr识别图片的简单步骤(代码片段)

1.首先安装Pytesseract,这个很简单,直接输入命令pipinstallpytesseract即可2.Tesseract-OCR https://pan.baidu.com/s/1sVYyKcPclZxWfFJDjy471g提取码:5ib2这个我也是在网上找到,可以直接下载使用下载好后去修改pytesseract.py中的内容如下图3.pycharm中... 查看详情

用pytesseract识别验证码报错(代码片段)

运行py文件出现下面报错pytesseract.pytesseract.TesseractError:(1,‘Erroropeningdatafile\\ProgramFiles\\Tesseract-OCR\\tessdata/eng.traineddata‘) 在py文件中指定tessdata_dirtestdata_dir_config=‘--tessdata-dir"C:\\Pr 查看详情

python使用tesseract-ocr完成验证码识别

...buntu版本:1.tesseract-ocr安装 sudoapt-getinstalltesseract-ocr2.pytesseract安装 sudopipinstallpytesseract3.Pillow安装 sudopipinstallpillow其他linux版本(如centos): 1.tesseract-ocr安装 没找到直接命令安装,所以需要手动下载安装包... 查看详情

python使用tesseract-ocr完成验证码识别

一、python验证码识别库安装Ubuntu版本:1.tesseract-ocr安装 sudoapt-getinstalltesseract-ocr2.pytesseract安装 sudopipinstallpytesseract3.Pillow安装 sudopipinstallpillow其他linux版本(如centos): 1.tess 查看详情

python使用tesseract-ocr完成验证码识别

一、python验证码识别库安装Ubuntu版本:1.tesseract-ocr安装 sudoapt-getinstalltesseract-ocr2.pytesseract安装 sudopipinstallpytesseract3.Pillow安装 sudopipinstallpillow其他linux版本(如centos): 1.tess 查看详情

如何使用 Pytesseract 文本识别改进 OCR?

】如何使用Pytesseract文本识别改进OCR?【英文标题】:HowtoimproveOCRwithPytesseracttextrecognition?【发布时间】:2020-06-2217:28:25【问题描述】:您好,我希望使用pytesseract提高我在数字识别方面的表现。我将原始图像分割成如下所示的部... 查看详情