基于tesseract模块python实现提取图片中的文字信息(安装+使用教程)(代码片段)

袁袁袁袁满 袁袁袁袁满     2023-04-11     455

关键词:


Python实现提取图片中的文字可以使用Optical Character Recognition (OCR) 技术来解决。OCR是指将图像中的文本转换成可编辑的文本的过程。Python有许多OCR库,但最流行和最广泛使用的是Tesseract库。

下面是一个使用Python和Tesseract来提取图像中的文本的简单示例代码。

文章目录

0. OCR技术介绍


OCR,即光学字符识别(Optical Character Recognition),是一种将印刷体字符转化为计算机可读文字的技术。OCR技术可以将纸质文档、扫描文档、照片等转化为可编辑的电子文件,方便用户进行编辑、存储和共享。

OCR技术的应用范围非常广泛。例如,银行和保险公司可以使用OCR技术来处理各种表格和文件,包括支票、发票、合同等,从而提高办公效率。医院可以使用OCR技术来处理病历、处方和医学报告,从而提高医疗质量和效率。政府机构可以使用OCR技术来处理各种表格和文件,例如税务申报表、选民登记表等,从而提高政府服务的效率和质量。

OCR技术的原理是利用光学扫描仪将纸质文档转化为数字图像,然后通过图像处理算法将图像中的字符识别出来,并转化为计算机可读的文字。OCR技术的核心是字符识别算法,这个算法需要考虑到各种字体、字号、字距、倾斜度、噪声等因素。

OCR技术的发展历史可以追溯到20世纪50年代,当时的OCR技术只能处理单一字体、字号、字距的文本。随着计算机技术的不断发展,OCR技术也不断进步,现在的OCR技术能够处理各种字体、字号、字距、倾斜度、噪声等复杂条件下的文本,并且具备高精度和高速度的特点。

总之,OCR技术是一种非常实用的技术,可以帮助用户将纸质文档转化为电子文件,从而提高办公效率和工作质量。随着计算机技术的不断进步,OCR技术也将不断发展,为用户提供更加高效和便捷的服务。

1. 安装模块


1、安装Tesseract、Tesseract、Pillow模块,可以使用以下命令:

pip install pytesseract
pip install pillow
pip install tesseract-ocr # 如果这个安装报错就用下面的手动安装方法

2、从网上找到相应的‘Tesseract-OCR’下载安装(自行寻找对应版本)https://digi.bib.uni-mannheim.de/tesseract/


3、无脑默认安装即可,安装后的默认文件路径为(这里使用的是Windows版本):C:\\Program Files\\Tesseract-OCR\\


4、找到python的安装路径下的pytesseract,不知道在哪里的的在cmd控制执行pip show pytesseract

例如我的就在D:\\Python3.8\\Lib\\site-packages\\pytesseract



5、进入上面的路径,打开pytesseract.py文件:




6、然后将源码中的tesseract_cmd = 'tesseract',更改为:

tesseract_cmd = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'

2. 导包


然后,导入必要的库:

import cv2
import pytesseract

3. 读取图像


接下来,读取图像并将其转换为灰度:

img = cv2.imread('image.png')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

4. 提取字符串


然后调用pytesseract库的“image_to_string”函数,将图像转换为字符串:

text = pytesseract.image_to_string(gray)

5. 打印输出


print(text)

运行结果:


6. 完整代码

import cv2
import pytesseract

img = cv2.imread(r'image.png')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)

《100天精通Python》专栏推荐白嫖80g Python全栈视频

《100天精通Python从入门到就业》:本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学,从0到100的不断进阶深入,后续还有实战项目,轻松应对面试,专栏订阅地址:https://blog.csdn.net/yuan2019035055/category_11466020.html

  • 优点订阅限时9.9付费专栏进入千人全栈VIP答疑群,作者优先解答机会(代码指导、远程服务),群里大佬众多可以抱团取暖(大厂内推机会)!
  • 专栏福利简历指导、招聘内推、每周送实体书、80G全栈学习视频、300本IT电子书:Python、Java、前端、大数据、数据库、算法、爬虫、数据分析、机器学习、面试题库等等

python提取图片中的文字(代码片段)

...OCR工具安装识别代码相关依赖库安装pipinstallPILpipinstallpytesseractOCR工具安装下载链接修改pytesseract源码中的路径,将tesseract_cmd的值改为安装Tesseract-OCR应用程序路径安装识别中文所需依赖库,下载链接将下载的中文库放在Tes... 查看详情

(源码分享)利用python识别提取图像文字(中文英文都可以)

...:(点击识别图像文字视频教程链接)一、首先需要安装Tesseract模块及语言包TesseractOCR光学字符识别Windows系统:安装网站(放在不需要权限的纯英文路径下)::https://digi.bib.uni-mannheim.de/tesseract/可以下载一些语言包:https://githu... 查看详情

数据挖掘——关键字提取—基于sklearn包实现(代码片段)

  什么是sklearn?  sklearn全名是Scikit-Learn,是基于Python的机器学习模块,基于BSD开源许可证,官方网址是:http://scikit-learn.org/stable  Scikit-Learn的数据结构基于Numpy和Pandas模块,数据计算基于Scipy模块,数据可视化基于Mat... 查看详情

python•图片识别pytesseract快速识别提取图片中的文字(代码片段)

...录前言一、配置环境1.安装python依赖2.安装识别引擎安装tesseract识别引擎`(可跳过)`验证是否安装成功二、使用步骤1.引入库2.提取图片文字3.运行效果总结完整代码前言利用python做图片识别,识别提取图片中的... 查看详情

tesseract训练字库python怎么调用

...寸,2012年初期)Python2.72、需要软件包a、需要安装PIL以及pytesseract库Python-tesseract是一个基于google'sTesseract-OCR的独立封装包;Python-tesseract功能是识别图片文件中文字,并作为返回参数返回识别结果;Python-tesseract默认支持tiff、bmp... 查看详情

python实现图片识别加翻译,高薪必备技能

Python使用百度AI接口实现图片识别加翻译pythonpython诞生30周年encoding:utf-8importrequestsimportbase64fromPILimportImageimportpytesseract这里需要安装一下Tesseract-OCR安装好之后别忘了把Tesseract-OCR路径添加到环境变量中importjsonimportrequestsimportk 查看详情

python实现图片识别加翻译,高薪必备技能

Python使用百度AI接口实现图片识别加翻译pythonpython诞生30周年encoding:utf-8importrequestsimportbase64fromPILimportImageimportpytesseract这里需要安装一下Tesseract-OCR安装好之后别忘了把Tesseract-OCR路径添加到环境变量中importjsonimportrequestsimportk 查看详情

基于python实现对pdf文件的ocr识别(代码片段)

...行OCR识别操作。在Python中,最出名的库便是Google所资助的tesseract。利用tesseract可以很轻松地对图像进行识别。现在问题来了, 查看详情

python可以做哪些有趣的事情

...8.使用Python解数学方程9.使用Python创建照片马赛克10.Python基于共现提取《釜山行》人物关系11.Python气象数据分析:《Python数据分析实战》12.NBA常规赛结果预测:利用Python进行比赛数据分析13.Python的循环语句和隐含波动率的计算14.K-... 查看详情

使用python,几行代码实现ocr图片识别,附测试图片和识别效果(代码片段)

目录1.具体如何做呢?1.1安装Tesseract-OCR1.2配置环境1.3安装Tesseract中文包1.4.安装pytesseract和pillow2.代码和测试效果2.1识别英文图片2.2识别中文图片1.具体如何做呢?1.1安装Tesseract-OCRwindows安装包下载地址:https://github.com/UB... 查看详情

使用python,几行代码实现ocr图片识别,附测试图片和识别效果(代码片段)

目录1.具体如何做呢?1.1安装Tesseract-OCR1.2配置环境1.3安装Tesseract中文包1.4.安装pytesseract和pillow2.代码和测试效果2.1识别英文图片2.2识别中文图片1.具体如何做呢?1.1安装Tesseract-OCRwindows安装包下载地址:https://github.com/UB... 查看详情

python能做啥有趣的东西

...8.使用Python解数学方程9.使用Python创建照片马赛克10.Python基于共现提取《釜山行》人物关系11.Python气象数据分析:《Python数据分析实战》12.NBA常规赛结果预测:利用Python进行比赛数据分析13.Python的循环语句和隐含波动率的计算14.K-... 查看详情

如何在 Python 中使用 tesseract 获得图像中最大的文本?

】如何在Python中使用tesseract获得图像中最大的文本?【英文标题】:HowdoIgetthelargesttextinanimageusingtesseractinPython?【发布时间】:2021-06-2200:08:45【问题描述】:我正在尝试提取PDF文件的标题。文件的元数据并没有真正的帮助。所以... 查看详情

opencv—python图片细化(骨架提取)二

...与分水岭算法也属于形态学处理范畴,都放在morphology子模块内。morphology子模块提供了两个函数用于骨架提取,分别是Skele 查看详情

python图片文字识别——windows下tesseract-ocr的安装与使用(代码片段)

Python图片文字识别——Windows下Tesseract-OCR的安装与使用前言Windows下Tesseract-OCR的安装与配置Tesseract-OCR简介与版本选择tesseract-OCR安装Tesseract-OCR配置安装Python调用TesseractAPI所需依赖项Tesseract-OCR测试与使用命令行模式使用Python调用Tess... 查看详情

如何使用 openCV 或 OCR tesseract 从图像中提取文本? [复制]

】如何使用openCV或OCRtesseract从图像中提取文本?[复制]【英文标题】:HowtoextracttextfromimageusingopenCVorOCRtesseract?[duplicate]【发布时间】:2012-05-2321:06:41【问题描述】:可能重复:androidOCR?我目前正在做一个基于Android手机中的图像捕... 查看详情

tesseract-ocr+java实现图片文字识别(代码片段)

...资料的图片进行识别,获取文本信息的技术。  目前tesseract-ocr这个工具可以很方便的在Windows、Linux、Mac下安装。  windows下的安装链接:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.1.20220118.exe  这个工具安装... 查看详情

python提取ppt中的图片(代码片段)

...提取PPT中的图片1、打开压缩包在Python中提供了一个zipfile模块用于处理压缩包文件。我们来看看它的简单操作:fromzipfileimportZipFile#打开压缩文件f=ZipFile("test.pptx")#查看压缩包所有文件forfileinf.namelist():print(file)#关闭压... 查看详情