python•图片识别pytesseract快速识别提取图片中的文字(代码片段)

广龙宇 广龙宇     2023-04-12     700

关键词:

提示:本文多图,请手机端注意流量。

文章目录


前言

利用python做图片识别,识别提取图片中的文字会有很多方法,但是想要简单一点怎么办,那就可以使用tesseract识别引擎来实现,一行代码就可以做到提取图片文本。


一、配置环境

1. 安装python依赖

本程序用到了两个python库,pytesseract和PIL,所以先来安装。

运行以下命令

pip install Pillow
pip install pytesseract 

如果在python中没有报错,说明程序安装成功,

2. 安装识别引擎

安装完以上两个依赖还需要对应的识别引擎。点击去下载

咱们直接使用5月10号构建的最新版本。

安装tesseract识别引擎(可跳过)

下载完成后打开程序进行安装,先选择语言,这里选择英语English就行,然后点ok


接下来就是next,完了点击I Agree同意协议,


为所有用户安装,然后点next,如图,

接下来安装中文的语言包用来识别中文,需要滑到下面,选择中文,我这里横排简体中文和竖排简体中文都选择了,完成后点击next,


选择安装路径,建议安装到C盘以外,然后点击next

这里点击安装install


等待安装完成

安装完成后,点击next,再点击finish完成安装,

验证是否安装成功

添加环境变量,就是你安装到的那个文件夹路径,直接加到path里面,

然后在命令行运行tesseract -v,如果和下图一样,说明你已经安装成功了,

二、使用步骤

1.引入库

from PIL import Image
import pytesseract

2.提取图片文字

将读取图片的一行代码封装为一个函数,

def read_image(name):
    print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))

main函数中直接调用即可,

def main():
    read_image('1657158527412.jpg')

3.运行效果

以以下图片为例,

运行效果如下,


总结

本文介绍了tesseract的python调用,也就是pytesseract库,其中还有一些其他的内容并没有涉及,仅涉及到了图片提取文字,如果你对其感兴趣,可以深入探索一下,也希望能和我探讨一下。

完整代码

from PIL import Image
import pytesseract


def read_image(name):
    print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))


def main():
    read_image('img.png')


if __name__ == '__main__':
    main()

pytesseract+tesseract-ocr图片文字识别(代码片段)

要识别的图片:代码:fromPILimportImageimportpytesseracttext=pytesseract.image_to_string(Image.open(‘denggao.jpeg‘),lang=‘chi_sim‘)print(text)效果截图:主要步骤:1.需要两个库:pytesseract和PIL(1)可以通过命令行安装pipinstallPILpipinstallpytesseract(2... 查看详情

快速实现图片文字识别的步骤

进行图片文字识别,相信大家都知道,在工作中我们经常会收到上级给我们的文件,其中肯定是有图片文件的,面对整理图片信息大家的方法是什么呢?下面小编就给大家介绍一个简单图片文字识别的步骤,以后再实现图片文字... 查看详情

python简单验证码识别的实现过程

参考技术Ademo:importpytesseractfromPILimportImageimage=Image.open("captcha.png")print(pytesseract.image_to_string(image))==================================================================================================中文识别importpytesseractfromPILimportImageimage=Image.open(&qu... 查看详情

[原]python使用pytesseract库识别验证码(mac系统)

1.安装pythonbrewinstallpython2.安装PIL及图片格式支持下载http://www.pythonware.com/products/pil/index.htm解压tar-xzfImaging-1.1.7.tar.gz安装PILcdImaging-1.1.7sudopythonsetup.pyinstall安装图片格式支持brewinstalllibpngbrewinstal 查看详情

pytesseract在识别只有一个数字的图片时识别不出来

...时,遇到了一个问题需要通过识别图片来实现,遂用到了pytesseract模块和tesseract-ocr这个工具。在使用过程中发现,识别带有数字的图片时,如果这个图片上仅有一个数字,则识别不出来,如下图。若识别2个数字以上的图片则可... 查看详情

pytesseract的使用|python识别验证码(代码片段)

目录1.安装tesseract2.安装pytesseract3.修改包中部分代码4.代码网站测试1.安装tesseract详见:https://blog.csdn.net/lijiamingccc/article/details/1194597752.安装pytesseract在pycharm终端下,安装pytesseract,如图所示pipinstall 查看详情

tesseract训练字库python怎么调用

...寸,2012年初期)Python2.72、需要软件包a、需要安装PIL以及pytesseract库Python-tesseract是一个基于google'sTesseract-OCR的独立封装包;Python-tesseract功能是识别图片文件中文字,并作为返回参数返回识别结果;Python-tesseract默认支持tiff、bmp... 查看详情

为啥 pytesseract 无法识别背景较暗的图像中的数字?

】为啥pytesseract无法识别背景较暗的图像中的数字?【英文标题】:Whydoespytesseractfailtorecognisedigitsfromimagewithdarkerbackground?为什么pytesseract无法识别背景较暗的图像中的数字?【发布时间】:2019-09-2311:25:24【问题描述】:我有这个py... 查看详情

python中的数字识别(OpenCV和pytesseract)

】python中的数字识别(OpenCV和pytesseract)【英文标题】:Digitrecognitioninpython(OpenCVandpytesseract)【发布时间】:2020-01-2116:53:49【问题描述】:我目前正在尝试从小屏幕截图中检测数字。但是,我发现准确性很差。我一直在使用OpenCV,... 查看详情

使用pytesseract+tesseract-ocr识别图片的简单步骤(代码片段)

1.首先安装Pytesseract,这个很简单,直接输入命令pipinstallpytesseract即可2.Tesseract-OCR https://pan.baidu.com/s/1sVYyKcPclZxWfFJDjy471g提取码:5ib2这个我也是在网上找到,可以直接下载使用下载好后去修改pytesseract.py中的内容如下图3.pycharm中... 查看详情

进行票证识别的简单操作方法

...数:☆☆☆☆☆  推荐理由:该软件是一款智能化的OCR图片文字识别软件,支持PDF识别、扫描件识别、图片文字识别、CAJ识别、票证识别、图片局部识别等功能,快速解析、精准识别。  操 查看详情

快速实现图片转文字的方法

在日常的生活和办公中,哪一种方法可以快速实现图片转文字呢,实现图片转文字的快速方法,可以尝试借助一种名叫OCR文字识别的工具,可以帮助我们快速的将图片转换成文字,下面小编就分享一个使用工具实现图片转文字的... 查看详情

职场专业图片文字识别的方法,你知道吗

在职场中又一个专业的图片文字识别方法,工作不是经常整理图片文字的员工不知道,那就是使用一下专业的OCR文字识别软件,在加上专业的操作方法,就可以快速的把图片上的文字识别出来了。在平时生活中实现图片文字识别... 查看详情

5行python实现验证码识别,太稳了(代码片段)

...Python代码实现验证码识别的办法。当时采用的是pillow+pytesseract,优点是免费,较为易用。但其识别精度一般,若想要更高要求的验证码识别,初学者就只能去选择使用百度API接口了。但其实百度API接口和pytessera... 查看详情

ocr识别问题(代码片段)

...别的语言Tesseract各个版本语言包获取方式和安装方法要在pytesseract 库的 image_to_string() 方法里加个参数lang=‘chi_sim‘,这个就是引用对应的中文语言包,中文语言包的全名是chi_sim.traineddata。image=Image.open(‘English.png‘)co... 查看详情

python开发文字点选验证码,有啥推荐的方法?

...处理,提取出验证码中的字符或单词,以便后续的识别。PyTesseract库:PyTesseract是一个Python的OCR库,基于Google的Tesseract-OCR引擎,可以对图像中的文字进行识别。可以使用PyTesseract库对验证码图片中的字符或单词进行识别和分类。KN... 查看详情

webui智能识别验证码之tesseract

...tor/注意:官网:https://digi.bib.uni-mannheim.de/tesseract/pipinstallpytesseract以古诗文网的登录页面为例,获取验证码数据:结果图片:复制VeriCode.traineddata,放到tessdata(Tesseract安装目录的一个文件夹)文件夹下tesseractVeriCode.font.exp1.tifVeriC... 查看详情

移动端车牌识别与云端车牌识别的区别

...头只需对准车辆车牌,视频自动触发车牌识别,输出抓拍图片和车牌识别结果拍照识别手机镜头对准车辆车牌之后,需要手动点击抓拍按钮,才进行车牌识别, 查看详情