正文

[c13]应用实例：图片文字识别（待整理）

keyshaw  keyshaw  2022-12-11  352

关键词：

十八、应用实例：图片文字识别(Application Example: Photo OCR)

18.1 问题描述和流程图

参考视频: 18 - 1 - Problem Description and Pipeline (7 min).mkv

图像文字识别应用所作的事是，从一张给定的图片中识别文字。这比从一份扫描文档中识别文字要复杂的多。

技术图片

为了完成这样的工作，需要采取如下步骤：

文字侦测（Text detection）——将图片上的文字与其他环境对象分离开来
字符切分（Character segmentation）——将文字分割成一个个单一的字符
字符分类（Character classification）——确定每一个字符是什么
可以用任务流程图来表达这个问题，每一项任务可以由一个单独的小队来负责解决：

技术图片

18.2 滑动窗口

参考视频: 18 - 2 - Sliding Windows (15 min).mkv

滑动窗口是一项用来从图像中抽取对象的技术。假使我们需要在一张图片中识别行人，首先要做的是用许多固定尺寸的图片来训练一个能够准确识别行人的模型。然后我们用之前训练识别行人的模型时所采用的图片尺寸在我们要进行行人识别的图片上进行剪裁，然后将剪裁得到的切片交给模型，让模型判断是否为行人，然后在图片上滑动剪裁区域重新进行剪裁，将新剪裁的切片也交给模型进行判断，如此循环直至将图片全部检测完。

一旦完成后，我们按比例放大剪裁的区域，再以新的尺寸对图片进行剪裁，将新剪裁的切片按比例缩小至模型所采纳的尺寸，交给模型进行判断，如此循环。

技术图片

滑动窗口技术也被用于文字识别，首先训练模型能够区分字符与非字符，然后，运用滑动窗口技术识别字符，一旦完成了字符的识别，我们将识别得出的区域进行一些扩展，然后将重叠的区域进行合并。接着我们以宽高比作为过滤条件，过滤掉高度比宽度更大的区域（认为单词的长度通常比高度要大）。下图中绿色的区域是经过这些步骤后被认为是文字的区域，而红色的区域是被忽略的。

技术图片

以上便是文字侦测阶段。
下一步是训练一个模型来完成将文字分割成一个个字符的任务，需要的训练集由单个字符的图片和两个相连字符之间的图片来训练模型。

技术图片

模型训练完后，我们仍然是使用滑动窗口技术来进行字符识别。

以上便是字符切分阶段。
最后一个阶段是字符分类阶段，利用神经网络、支持向量机或者逻辑回归算法训练一个分类器即可。

18.3 获取大量数据和人工数据

参考视频: 18 - 3 - Getting Lots of Data and Artificial Data (16 min).mkv

如果我们的模型是低方差的，那么获得更多的数据用于训练模型，是能够有更好的效果的。问题在于，我们怎样获得数据，数据不总是可以直接获得的，我们有可能需要人工地创造一些数据。

以我们的文字识别应用为例，我们可以字体网站下载各种字体，然后利用这些不同的字体配上各种不同的随机背景图片创造出一些用于训练的实例，这让我们能够获得一个无限大的训练集。这是从零开始创造实例。

另一种方法是，利用已有的数据，然后对其进行修改，例如将已有的字符图片进行一些扭曲、旋转、模糊处理。只要我们认为实际数据有可能和经过这样处理后的数据类似，我们便可以用这样的方法来创造大量的数据。

有关获得更多数据的几种方法：

人工数据合成
手动收集、标记数据
众包

18.4 上限分析：哪部分管道的接下去做

参考视频: 18 - 4 - Ceiling Analysis_ What Part of the Pipeline to Work on Next
(14 min).mkv

在机器学习的应用中，我们通常需要通过几个步骤才能进行最终的预测，我们如何能够知道哪一部分最值得我们花时间和精力去改善呢？这个问题可以通过上限分析来回答。

回到我们的文字识别应用中，我们的流程图如下：

技术图片

流程图中每一部分的输出都是下一部分的输入，上限分析中，我们选取一部分，手工提供100%正确的输出结果，然后看应用的整体效果提升了多少。假使我们的例子中总体效果为72%的正确率。

如果我们令文字侦测部分输出的结果100%正确，发现系统的总体效果从72%提高到了89%。这意味着我们很可能会希望投入时间精力来提高我们的文字侦测部分。

接着我们手动选择数据，让字符切分输出的结果100%正确，发现系统的总体效果只提升了1%，这意味着，我们的字符切分部分可能已经足够好了。

最后我们手工选择数据，让字符分类输出的结果100%正确，系统的总体效果又提升了10%，这意味着我们可能也会应该投入更多的时间和精力来提高应用的总体表现。

技术图片

机器学习基础---应用实例（图片文字识别）和总结(代码片段)

一：问题描述和流程图将介绍一种机器学习的应用实例：照片OCR技术，介绍它的原因：（1）首先，展示一个复杂的机器学习系统是如何被组合起来的；（2）接着，介绍一下机器学习流水线的有关概念以及如何分配资源来对下一... 查看详情

各类场景应用中涉及的ai算法汇总

参考技术A整理了各类场景应用中AI算法一、图像CV内容安全，目标检测，图像识别，智能视觉生产，图像搜索，图像分割，物体检测，图像分类，图像标签，名人识别，概念识别，场景识别，物体识别，场景分析，智能相册，内... 查看详情

快速实现图片文字识别的步骤

进行图片文字识别，相信大家都知道，在工作中我们经常会收到上级给我们的文件，其中肯定是有图片文件的，面对整理图片信息大家的方法是什么呢？下面小编就给大家介绍一个简单图片文字识别的步骤，以后再实现图片文字... 查看详情

从图片提取文字的终极解决方法——通用文字识别api(代码片段)

...背后的原理吗？本文将从图片中文字提取的原理以及应用案例等多方面进行讲述，希望一文能为你讲透通用文字识别。通用文字识别是什么技术随着信息化和数字化的发展，大量的文字信息产生和传播，这些信息... 查看详情

职场进行图片文字识别的方法？

在职场中很多公司都需要打字员，安排他们去整理一些图片上的文字，或者是有关于打字工作。在以前很多打字员也是很好找工作的，但是现在不行了，因为在网上出现了一个可以识别文字的OCR文字识别软件，可以轻松的帮助我... 查看详情

职场专业图片文字识别的方法，你知道吗

在职场中又一个专业的图片文字识别方法，工作不是经常整理图片文字的员工不知道，那就是使用一下专业的OCR文字识别软件，在加上专业的操作方法，就可以快速的把图片上的文字识别出来了。在平时生活中实现图片文字识别... 查看详情

迅捷ocr文字识别软件快速识别文字的教程

现在很多人在办公中经常会遇到一些图片文件格式的图片需要去整理编辑，你会选择手动录入图片中的文字吗？这种方法太麻烦了，而且耗时耗力，这时候就需要一种能快速识别文字的方法了，下面小编就在迅捷OCR文字识别软件... 查看详情

整理图片文件，图片转word文档的方法

在日常的工作中，我们可能会遇见上级给我们的整理图片的工作，但是这些工作是在原有的工作基础上添的，由于图片转文字很浪费时间，职场人遇到这样的问题都很头疼。众所周知，图片是很难直接进行编辑的一种文件格式，... 查看详情

请问一下在电脑上怎么把图片上的文字提取出来？

...是我们在办公时经常用到的，进入软件点击顶部的【特色应用】，在下方找到【图片转文字】功能。2、具体操作步骤进入图片转文字功能中，点击【添加图片】按钮，上传图片到这里，然后在右边选择转换方式为【提取纯文本... 查看详情

图片识别文字翻译的方法

...。工具:迅捷文字识别拍照识别翻译文字方法：1.在手机的应用市场里找到下面需要用到的工具，然后将其运行。2.在首页在下面的功能选区里选择拍照识别，然后点击立即使用。3.这时会出现手机相机将手机对准需要识别的文本... 查看详情

批量识别图中文字自动命名，让你1秒找到骚图(代码片段)

...下百度有个文字识别的API接口。我们需要在下面地址注册应用。https://ai.baidu.com/tech/ocr我们在文字识别里面去创建一个应用，选择图片文字识别。通用文字识别接口一天有5万次免费调用次数，对我们保存的几千多张的图片来说，... 查看详情

使用电脑实现图片文字识别的方法

...，我们都需要在电脑上进行，那么我们如何在电脑上实现图片文字识别呢，知道方法的人很简单，只需要在电脑上准备一个工具，便可以轻松的完成，下面小编分享一个简单而又高效的方法。使用工具：迅捷OCR文字识别工具；操... 查看详情

将图片文字转换到word文档中的简单方法

怎样将图片文字转换到Word文档呢？很多人在处理图片文件需要将文字整理到Word文档中的时候都比较头疼，如果单纯靠手动录入的方式简直太麻烦了，下面小编就来为大家分享一种简单的转换方法，一起来看看吧！　　辅助工具... 查看详情

首款免费ocr文字识别应用发布：福昕扫描王

...能再也熟悉不过。福昕软件发布了一款免费的OCR文字识别应用——福昕扫描王，就像其他的文字扫描应用程序一样，你可以使用手机的摄像头拍摄文档，选择识别区域，最终将图片中的文字转换为文本格式，再也不用花时间手打... 查看详情

ocr文字识别谁最好？4款拍照扫描应用横向对比

...了连接纸质与电子文档之间的工具——OCR文字识别应用。这些App最大作用就是提高效率，以往实质内容到电子内容需要太多繁琐的时间，必须要费很多功夫通过手打的方式将内容录入到电脑里，OCR文字识别应用可以彻底解... 查看详情

爬虫——文字识别

...车到可以识别假钞的自动售卖机，机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域。这里我们将重点介绍机器视觉的一个分支：文字识别。介绍如何用一些Python库来识别和使用在线图片中的文字。我们可以... 查看详情

快速将图片转文字的方法，超实用的小技巧

...，因为图中文字不可直接进行复制粘贴，所以想要将文字应用到别的地方去的话就很麻烦，那这时候有什么轻松将图片转文字的方法呢？　　参考工具：迅捷OCR文字识别软件　　迅捷OCR文字识别软件可以解决什么问题呢？　　像... 查看详情

开源图片文字识别引擎——tesseractocr

...要求不高的中小型项目来说，已经足够用了。文字识别可应用于许多领域，如阅读、翻译、文献资料的检索、信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银行支票的处理、商品发票的统计汇总、... 查看详情