百度大脑ocr技术加持白描app:让ai成为视障者的眼睛

AI科技大本营 AI科技大本营     2022-12-26     749

关键词:

现实中,你可以轻松无障碍的阅读各类平面印刷文字以及身边的一切,或许你未曾想过,视障人群该怎么办呢?

统计数据显示,中国大约有1700万的视障群体,相当于每100个人中就有超过1位是视障人士。但我们在日常生活中却很少见到他们,那是因为视障群体在日常生活中会有诸多不便,出门对他们而言危机四伏。

AI有可能成为他们的“眼睛”吗?

成为他们的眼睛:白描App与视障群体的故事

如果手机上只能有一款 App ,你会选择哪一款?视障人士安之坚定地给出了答案——白描。因为白描 App 让视力不佳的他用另一种方式“看”清世界,文字不再遥不可及。他用白描“看”过优美的诗篇,“听”过动人的乐章,甚至在独自上楼看不清所在楼层时,白描也准确地将答案告诉了他,将他从窘境中解救出来。一个 App 让曾经望“字”兴叹的他更加勇敢的走出家门,参与丰富多彩的生活。

“白描是我的眼。”同为视障人士的小杰从不吝啬对白描的夸赞,甚至直言白描是视障伙伴赖以生存的工具。白描帮助他解决了生活的难题,从各类电器、数码产品、药品说明书到各种洗漱用品包装都可以识别,他还可以给可爱的小侄女讲绘本故事。如果没有白描,这种事情是他难以想象的。

白描是如何做到被视障群体视若珍宝的呢?

白描App是一款简洁高效的OCR文字识别软件,不仅简单好用,而且设计美观,可以轻松实现“拍照—识别文字—朗读结果”一系列流程。同时,白描适配了手机无障碍辅助功能,视障者可以在手机上非常轻松地操作。

“白描”这个词本意是一种文学写作手法,鲁迅先生曾把这种手法概括成十二个字,即“有真意,去粉饰,少做作,勿卖弄”。白描App的开发者陶新乐正是这样的一个人,他观察到了不同人群的实际需求,用虚拟世界的代码满足了现实世界有需求的人,让他们的生活变得更加美好、便捷。

白描App开发者的心路历程:切入不同场景、优化产品细节

你或许很难想象,作为一名个人开发者的陶新乐,他最早开发白描App是为了女朋友。陶新乐的女友热爱阅读,经常做读书笔记。为了减轻抄录压力,她尝试使用了当时市面上的各类文字识别软件,但她发现:有的软件操作流程繁琐,有的费用高昂,有的则识别不准确……看到女朋友痛苦不已,陶新乐当下决定亲自做个体验好、效果佳的 OCR 文字识别工具给女朋友使用,并且很快付诸了行动。这或许就是开发者独有的浪漫。

然而,一款 App 的开发过程是充满未知与挑战的。在当时的条件下,开发一款具有 OCR 功能的软件,面临的一个巨大挑战是:如何让文字识别的又快又准。因此,他调研了市面上提供此服务的厂商,并对不同厂商的产品进行了对比,尝试识别不同场景的图片,找出识别效果最好的那个。于是他发现,百度大脑 AI 开放平台的 OCR 技术能力和使用体验都是最好的,尤其是识别准确度更领先于其他厂商,所以在2017年他就毫不犹豫的选择了百度 OCR 技术,并一直使用至今。

但是优秀的底层技术并不意味着全部,百度大脑 OCR 已提供近60项技术能力,好的技术也需要应用于匹配的场景才能发挥更大的价值。

于是,陶新乐首先对白描的使用场景做了细分研究,比如:学生上课拍 PPT 提取文字记笔记、企业员工把纸质合同扫描成电子版并且制作 PDF、把纸质表格转成 Excel 电子版、翻译图片上的文字、老师拍摄并识别试题后对试题再加工、律师用来提取纸质文书上的文字等等。特别的是,视障人群特殊的使用需求,他都有关注和调研。

考虑完用户的使用场景之后,再者就是对产品的不断打磨。当时,图片转文字常常会有识别错误的情况发生,为了弥补这一问题,在识别之前,白描APP会进行一些技术上的处理,比如图像压缩如何保证清晰度又尽量减小图片大小;如何在进行长图自动裁剪时,检测到长图的空行位置自动裁剪,且不会裁到文字;如何针对文章进行自动分段,更便于读者阅读等等。这些精细化的产品设计保证了图片的清晰度,让文字信息更易于被识别。而在识别之后,白描的校对功能,可以让识别结果与原图显示在同一界面上,方便用户快速找到需要修改的地方,在此基础上进行编辑。

依托百度优秀的深度学习算法,以及白描App的图像预处理能力,最终实现了关键字段识别准确率99%+。看到女友使用白描时绽放的笑颜,陶新乐觉得一切都是值得的,他也希望更多人能够享受到这份快乐。

成功的背后:用“匠人”之心雕琢产品之光

程序员出身的陶新乐在做产品这件事上一直怀揣一颗“匠人”之心。陶新乐提到,AI在落地的过程中会遇到很多的困难,很多时候都是一边踩坑一边向前走。当遇到无法解决的问题时,就需要不断学习,攻坚克难。

百度大脑 OCR 技术与无数像陶新乐一样的开发者并肩同行。作为最早规模化应用的AI技术之一,OCR 技术的产业级应用持续取得突破。百度大脑 OCR 技术可提供多场景、多语种、高精度的文字检测与识别服务,多项 ICDAR 指标居世界第一,已广泛适用于远程身份认证、财税报销、文档电子化等场景,为企业降本增效,为用户带来更智能化的应用体验。

当然,AI 技术的应用落地,除了需要有百度大脑这样提供领先 AI 技术能力的平台外,还需要更多像陶新乐这样的开发者们,发挥想象将AI应用在更多真实场景中,满足不同用户群体,甚至是容易被忽视的残障人群的需求,让社会更有“AI”。同时,为了降低独立开发者和企业自主训练 OCR 文字识别模型的门槛,百度大脑推出业界首个 EasyDL OCR 自训练平台,提供零门槛、定制化、低成本的一站式 OCR 模型训练服务。保证高准确率的同时,满足多元化的场景需求,并有效保障数据安全。

在这个科技为大众生活赋能的时代,产品的设计更是一种普惠理念的输出。已拥有超过800万用户的白描App,已经成为业界的口碑产品。相信,未来还将有越来越多的开发者通过百度大脑 AI 开放平台提供的 AI 技术与服务,创造出更多与场景相结合的智能应用,让更多人生活更便捷、更美好。

分享

点收藏

点点赞

点在看

百度大脑ocr技术加持白描app:让ai成为视障者的眼睛

现实中,你可以轻松无障碍的阅读各类平面印刷文字以及身边的一切,或许你未曾想过,视障人群该怎么办呢?统计数据显示,中国大约有1700万的视障群体,相当于每100个人中就有超过1位是视障人士。但... 查看详情

接入百度大脑表格文字识别技术,快速降低信息电子化录入成本

使用表格文字识别技术,对个人、商品、公示内容等纸质信息登记表进行识别,快速实现表格内容的电子化,用于登记信息的结构化整理和统计,大幅度降低信息电子化工作的人力录入成本,提升信息管理的便捷性一.平台接入... 查看详情

“清洁地球日”看ai与碳中和:百度ocr成无纸化办公利器

随着人们环保意识的提升,“碳中和”在全世界范围内形成广泛共识,一年一度的“清洁地球日”备受关注。同时,智能化浪潮席卷而来,通过AI方式实现节能减排已在多个场景中取得成效。其中OCR文字识别技术... 查看详情

ai大模型加持,生成式搜索来了!

...众号QbitAI最近有两件事,让搜索引擎重回聚光灯下。百度发布“文心百中”,用AI大模型技术驱动的产业级搜索系统。构建企业内部搜索引擎的人力成本减少90%以上,同时只需要极低数据。几乎同一时间,OpenAI最... 查看详情

百度世界2021:百度大脑升级昆仑芯2量产智能云加速ai落地爆发

8月18日,百度联合央视新闻举办“百度世界2021”大会,全景呈现AI赋能千行百业和百姓生活。作为这些AI应用背后的支撑力量,百度大脑升级至7.0,融合创新,降低门槛,依托百度智能云加速产业智能化升... 查看详情

百度cto王海峰:ai大生产平台再升级助力中国科技自立自强

12月27日,百度首席技术官王海峰在百度Create2021(百度AI开发者大会)上,公布了百度AI最新技术进展及落地成果。百度AI多年技术积累和产业实践的集大成——百度大脑已发展成为全球领先的人工智能平台,开... 查看详情

2021百度ai开发者大会在元宇宙举办

12月27日,百度Create2021(百度AI开发者大会)在“希壤”APP 召开,这是国内首次在元宇宙中举办的大会,可同时容纳10万人同屏互动。此次大会聚焦“创造者精神”,百度创始人、董事长兼CEO李彦宏表示... 查看详情

qt+百度ai文字识别ocr小工具

基于百度AI开放平台的OCR文字识别小工具,用Qt5编写。实现通用识别,精准识别,表格识别,身份证识别等常用OCR功能。Qt+百度AI文字识别mOCR小工具@目录Qt+百度AI文字识别mOCR小工具介绍编译环境界面功能To-doList介绍基于百度AI开... 查看详情

多模态ai浪潮来袭,或造福数亿视障人群

...,在伤病期间,部分功能的受损,使其也临时成为“障碍人群”。对“障碍人群”给予更多的关注和必要的帮助,不仅是社会文明进步的标志,也体现出社会的平等、公平。因此,如何让“障碍人群”平等... 查看详情

百度世界大会2021:与时代共振,ai让生活更好

8月18日,以“AI这时代,星辰大海”为主题的2021百度世界大会在百度 App、央视新闻客户端等平台同步直播。本次大会由总台央视主持人撒贝宁担任主持,在3个小时的直播中生动展示百度人工智能在出行、生活、产业... 查看详情

ai加持实时互动|zegoavatar面部表情随动技术解析

01AI"卷"进实时互动2021年,元宇宙概念席卷全球,国内各大厂加速赛道布局,通过元宇宙为不同的应用场景的相关内容生态进行赋能。针对“身份”、“沉浸感”、“低延迟”、“随时随地”这四个元宇宙核心基础,ZEGO即... 查看详情

ai加持实时互动|zegoavatar⾯部表情随动技术解析

...逻辑,提出并落地了ZegoAvatar解决方案,将AI视觉技术应用至 查看详情

ai加持实时互动|zegoavatar⾯部表情随动技术解析

...逻辑,提出并落地了ZegoAvatar解决方案,将AI视觉技术应用至 查看详情

中国信通院发布2021年首批“可信ai成果”百度摘取5项大奖

...AI成果发布会”,公布了2021年首批可信AI评测结果。百度公司在AI开发平台、OCR、内容审核、智能客服等产品领域获得五项权威评测大奖,技术能力和产品成熟度成为业界标杆。▲ 图& 查看详情

阿里云et城市大脑成为国家项目,中国ai换道超车

650)this.width=650;"src="https://s2.51cto.com/oss/201711/17/61eb9ea1d65ce18b44f6c22f97ddd847.jpg-wh_500x0-wm_3-wmp_4-s_1919752967.jpg"title="微信图片_20171117134615.jpg"alt="61eb9ea1d65ce18b44f6c22f97ddd8 查看详情

从ai前沿到科技自立:百度大脑的风向标意义

...发展方向何在。想要在新的产业周期探索这些问题,百度是一个绝佳风向标。12月27日, 查看详情

百度是怎么培养ai架构师的?

深度学习技术给整个行业甚至是整个社会,带来的是一次生产效率由量变到质变的过程。高效生产力的背后是得到AI技术的加持,且迅速渗透到了各个行业的生产关系中。在这个效率为王的时代中,AI驱动的时代就在... 查看详情

android图片文字识别demo(基于百度ocr)

前言  OCR是OpticalCharacterRecognition的缩写,翻译为光学字符识别,指的是针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,通过识别软件将图像中的文字转换成文本格式,供文字处理软件... 查看详情