pytesseract识别验证码(代码片段)

Harris-H Harris-H     2023-03-09     279

关键词:

pytesseract识别验证码

0.下载

https://tesseract-ocr.github.io/tessdoc/Installation.html
`

1.安装

选择添加Math 和Chinese 包

安装完成后,配置环境变量,之前我安装1201版本的会报错,
win10 64位下会报这种错误:

所以我选择20190623的

安装后配置环境变量。

2.测试


识别结果

3.使用pytesseract

安装

pip install pytesseract

找到安装路径下的pytesseract.py

修改为自己OCR的路径

https://www.cnblogs.com/xiao-apple36/p/8865387.html#_label3_3

from pytesseract import image_to_string
from PIL import Image


def depoint(image):  # 像素 判断一个点周围情况 4,8邻域
    """
    降噪
    :param image:
    :return:
    """
    pixdata = image.load()
    print(pixdata)
    w, h = image.size
    for y in range(1, h - 1):
        for x in range(1, w - 1):
            count = 0
            if pixdata[x, y - 1] > 245:
                count += 1
            if pixdata[x, y + 1] > 245:
                count += 1
            if pixdata[x - 1, y] > 245:
                count += 1
            if pixdata[x + 1, y] > 245:
                count += 1
            if count > 3:
                pixdata[x, y] = 255
    return image


def binaring(image, threshold=160):
    """
    对传入的图像进行灰度,二值化处理
    :param image:
    :param threshold:
    :return:
    """
    image = image.convert('L')
    image.show()
    pixdata = image.load()
    # print(pixdata)
    w, h = image.size
    for y in range(h):
        for x in range(w):
            # print(pixdata[x,y])
            if pixdata[x, y] < threshold:
                pixdata[x, y] = 0
            else:
                pixdata[x, y] = 255
    return image


if __name__ == '__main__':
    # image = Image.open('img.png')
    # # pix_l = []
    # # image.show()
    # # pix_l_set = sorted(list(set(pix_l)))
    # # print(pix_l_set[:len(pix_l_set)//2])  # 求平均数的值
    # image2 = binaring(image)  # 二值化
    # image3 = depoint(image2)  # 降噪
    # image3.show()
    # # 识别文字
    # print('code: ', image_to_string(image3, lang='eng'))
    image = Image.open('test.png')
    print(image_to_string(image, lang='chi_sim'))

https://www.cnblogs.com/xiao-apple36/p/8747351.html

pytesseract的使用|python识别验证码(代码片段)

目录1.安装tesseract2.安装pytesseract3.修改包中部分代码4.代码网站测试1.安装tesseract详见:https://blog.csdn.net/lijiamingccc/article/details/1194597752.安装pytesseract在pycharm终端下,安装pytesseract,如图所示pipinstall 查看详情

selenium&pytesseract模拟登录+验证码识别(代码片段)

验证码是爬虫需要解决的问题,因为很多网站的数据是需要登录成功后才可以获取的.验证码识别,即图片识别,很多人都有误区,觉得这是爬虫方面的知识,其实是不对的.验证码识别涉及到的知识:人工智能,模式识别,机器视... 查看详情

pytesseract识别验证码(代码片段)

pytesseract识别验证码0.下载https://tesseract-ocr.github.io/tessdoc/Installation.html`1.安装选择添加Math和Chinese包安装完成后,配置环境变量,之前我安装1201版本的会报错,win1064位下会报这种错误:所以我选择20190623的安装... 查看详情

pytesseract识别验证码(代码片段)

pytesseract识别验证码0.下载https://tesseract-ocr.github.io/tessdoc/Installation.html`1.安装选择添加Math和Chinese包安装完成后,配置环境变量,之前我安装1201版本的会报错,win1064位下会报这种错误:所以我选择20190623的安装... 查看详情

5行python实现验证码识别,太稳了(代码片段)

...Python代码实现验证码识别的办法。当时采用的是pillow+pytesseract,优点是免费,较为易用。但其识别精度一般,若想要更高要求的验证码识别,初学者就只能去选择使用百度API接口了。但其实百度API接口和pytessera... 查看详情

使用pytesseract识别验证码,报错windowserror:[error2]

问题现象:按照网上的方式进行代码编写,使用pytesseract模块,然后导入指定图片进行解析,报错WindowsError:[Error2]  问题原因:源代码里面的路径设置错误,这里有一个坑,就是下载下来的源码需要配置 解决方法:源... 查看详情

使用pytesseract识别简单验证码

fromPILimportImageimportpytesseractfrompytesseractimport*rep={‘O‘:‘0‘,#替换列表‘I‘:‘1‘,‘L‘:‘1‘,‘Z‘:‘2‘,‘S‘:‘8‘};definitTable(threshold=140):#二值化函数table=[]foriinrange(256):ifi<threshold:table.append(0)e 查看详情

使用pytesseract+tesseract-ocr识别图片的简单步骤(代码片段)

1.首先安装Pytesseract,这个很简单,直接输入命令pipinstallpytesseract即可2.Tesseract-OCR https://pan.baidu.com/s/1sVYyKcPclZxWfFJDjy471g提取码:5ib2这个我也是在网上找到,可以直接下载使用下载好后去修改pytesseract.py中的内容如下图3.pycharm中... 查看详情

[原]python使用pytesseract库识别验证码(mac系统)

1.安装pythonbrewinstallpython2.安装PIL及图片格式支持下载http://www.pythonware.com/products/pil/index.htm解压tar-xzfImaging-1.1.7.tar.gz安装PILcdImaging-1.1.7sudopythonsetup.pyinstall安装图片格式支持brewinstalllibpngbrewinstal 查看详情

pytesseract——验证码的识别——pil库的介绍

1、简介Python-tesseract是一款用于光学字符识别(OCR)的python工具,即从图片中识别出其中嵌入的文字。Python-tesseract是对GoogleTesseract-OCR的一层封装。它也同时可以单独作为对tesseract引擎的调用脚本,支持使用PIL库(PythonImagingLibrary... 查看详情

python-pytesseract机器视觉(代码片段)

...境变量(Path):搜索环境变量测试终端:tesseractxx.jpg文件名pytesseract 识别成功率取决你的 tessdata的质量自带的质量就很炸,所以基本上没什么用安装sudopip3installpyte 查看详情

使用python进行验证码识别案例无法验证通过,sos

源码:#coding:utf-8#buildbyLandGrey2016-05-17try:importpytesseractfromPILimportImageexceptImportError:print"模块导入错误,请用pip安装,pytesseract依赖以下库:"raiseSystemExitimg=Image.open(r'F://work//test//python//222.png')vcode=pytesseract.image_to_string(img... 查看详情

验证码识别——图形验证码(代码片段)

...到本地进行简单的灰度处理和二值化处理,能够提高不少识别正确率验证码:  代码: 1importtesserocr2fromPILimportImage34image=Image.open(‘code.jpg‘)5#灰度处理6image=image.convert(‘L‘)7#阈值8threshold=1279table=[ 查看详情

webui智能识别验证码之tesseract

...tor/注意:官网:https://digi.bib.uni-mannheim.de/tesseract/pipinstallpytesseract以古诗文网的登录页面为例,获取验证码数据:结果图片:复制VeriCode.traineddata,放到tessdata(Tesseract安装目录的一个文件夹)文件夹下tesseractVeriCode.font.exp1.tifVeriC... 查看详情

第二十三节:scrapy爬虫识别验证码图片验证码识别(代码片段)

...到验证码url链接 其次就是通过Pillow类库和tesserocr进行识别,代码如下:1#-*-coding:utf-8-*-2importtesserocr3fromPILimportIma 查看详情

8.2极验滑动验证码的识别(代码片段)

8.2极验滑动验证码的识别上节我们了解了可以直接利用tesserocr来识别简单的图形验证码。近几年出现了一些新型验证码,其中比较有代表性的就是极验验证码,它需要拖动拼合滑块才可以完成验证,相对图形验证码来说识别难度... 查看详情

古诗文网验证码识别(代码片段)

#!/usr/bin/pythonimportrequestsfromlxmlimportetreefromcodeClassimportYDMHTTP#封装识别验证码图片的函数defgetCodeText(imgPath,codeType):pass#将验证码下载到本地headers=‘User-Agent‘:‘Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebK 查看详情

python简单验证码识别的实现过程

参考技术Ademo:importpytesseractfromPILimportImageimage=Image.open("captcha.png")print(pytesseract.image_to_string(image))==================================================================================================中文识别importpytesseractfromPILimportImageimage=Image.open(&qu... 查看详情