ocr+nlp信息抽取在金融物流行业的应用

百度大脑 百度大脑     2023-01-31     770

关键词:

文字是传递信息的高效途径,利用 OCR 技术提取文本信息是各行业向数字智能化转型的第一步。与此同时,针对 OCR 提取的海量文本信息,利用 NLP 技术进一步加工提取、分析理解后才能最大化发挥文本信息的价值。NLP 技术可以提升 OCR 准确率,并从文本中抽取关键信息、构建知识图谱,搭建检索、推荐、问答系统等。

虽然各行业智能化产业升级已经在如火如荼的开展中,但是在实际应用落地中却遇到诸多困难,比如:数据样本不够、模型精度不高、预测时延大等。为此,百度飞桨针对真实、高频的产业场景,提供了从数据准备、模型训练优化,到模型部署全流程的案例教程。

听说文档和代码已经开源了,来吧⬇️
GitHub - PaddlePaddle/awesome-DeepLearning: 深度学习入门课、资深课、特色课、学术案例、产业实践案例、深度学习知识百科及面试题库The course, case and knowledge of Deep Learning and AI

 OCR+NLP 串联技术难点 

市面上有不少开源的 OCR、NLP 产品,但是如果想直接利用这些工具,会面临底层框架不统一、串联难度高、效果无法保证等问题。PaddleOCR 和 PaddleNLP 是面向产业界的开发库,均基于飞桨开源框架最新版本,能够将 OCR 和 NLP 技术无缝结合。

今天我们针对金融行业研报、物流快递单,来看看 OCR + NLP 信息抽取技术的应用。


 OCR+NLP 金融研报分析 

当前,诸多投资机构都通过研报的形式给出对于股票、基金以及行业的判断,让大众了解热点方向、龙头公司等各类信息。然而,分析和学习研报往往花费大量时间,研报数量的与日俱增也使得研报智能分析诉求不断提高。这里我们采用命名实体识别技术,自动抽取研报中的关键信息,例如,“中国银行成立于1912年。”中包含了组织机构、场景事件、时间等实体信息。


 

▲ OCR+NLP Pipeline

针对研报数据的命名实体识别与词频统计整体流程如上图所示。首先将研报 pdf 数据使用 fitz 包拆分为图像格式,然后利用 PaddleOCR 套件在研报数据集上微调 PP-OCR[1]的检测模型,使用现有的识别模型获得文本信息。PP-OCR 是 PaddleOCR 中由百度自研的明星模型系列,由文本检测、文本方向分类器与文本识别模块串联而成。


▲ PP-OCR Pipeline

对 OCR 识别出的文本进行整理后,调用 PaddleNLP 中的 Taskflow API 抽取文本信息中的组织机构实体。最后对这些实体进行词频统计,就可初步判定当前研报分析的热点机构。

▲ Taskflow 使用示意图

目前,Taskflow API 支持自然语言理解(NLU)和生成(NLG)两大场景共八大任务,包括中文分词、词性标注、命名实体识别、句法分析、文本纠错、情感分析、生成式问答和智能写诗,均可一键调用。


 物流快递单信息抽取 

双十一要到了,想必很多人都预备了一个满满的购物车。去年双十一成交量4982亿元,全国快递企业共处理快件39亿件,这背后则是物流行业工作量的骤增。除了满负荷的长深高速公路,还有繁忙的快递小哥。无论是企业业务汇总,还是寄件信息填写,都少不了关键信息智能提取这一环节,这其中均采用了命名实体识别技术。

命名实体识别大体上有三种方案:字符串匹配、统计语言模型、序列标注。前两种方法需要预先构建词典、穷举所有实体,无法发现新词、变体等。本案例中采用了目前的主流方法——序列标注。

数据集包括1600条训练集,200条训练集和200条测试集,采用 BIO 体系进行标注。


 ▲ 实体定义和数据集标注示例

针对轻量化、高精度的需求,可以选用 RNN+CRF 方案。也可以采用预训练模型,通过模型压缩、动转静加速等方式满足精度和性能的要求。我们采用 Ernie-Gram[2] + CRF 获得了最佳效果。

此外,命名实体识别技术可以应用于各类关键信息的提取,例如电商评论中的商品名称、电子发票中的抬头信息、收入证明中的金额、法律文书中的犯罪地点等信息。结合关系抽取、事件抽取技术,还可以构建知识图谱、搭建问答系统等。

百度AI开发者社区https://ai.baidu.com/forum ,为全国各地开发者提供一个交流、分享、答疑解惑的平台,让开发者在研发路上不再“孤军奋战”,通过不断地交流与探讨找出更好的技术解决方案。如果你想尝试各种人工智能技术、开拓应用场景,赶快加入百度AI社区,你对 AI 的所有畅想,在这里都可以实现!

扫描下方二维码,添加小助手微信「京东卡、小度定制周边、神秘礼盒、行李箱」等更多福利你来拿~

ocr+nlp提取信息并分析,这个开源项目火了!

文字是传递信息的高效途径,利用OCR技术提取文本信息是各行业向数字智能化转型的第一步。与此同时,针对OCR提取的海量文本信息,利用NLP技术进一步加工提取、分析理解后才能最大化发挥文本信息的价值。NLP技术... 查看详情

ocr+nlp提取信息并分析,这个开源项目火了!

文字是传递信息的高效途径,利用OCR技术提取文本信息是各行业向数字智能化转型的第一步。与此同时,针对OCR提取的海量文本信息,利用NLP技术进一步加工提取、分析理解后才能最大化发挥文本信息的价值。NLP技术... 查看详情

nlpir技术运用知识图谱技术应用于智能金融

...、行业、微观资讯中发现、分析并整合与各类决策相关的信息。知识图谱在金融中有多项应用,首先通过信息检索技术获取相关文本,然后借语义分析技术从非结构化文本中提取结构化的信息,最后将这些信息加以提炼,并且使... 查看详情

物流业信息化第一步-ocr证件识别

大家好!今天给大家分享的是OCR在物流行业内应用。 我国的物流术语标准将物流定义为:物流是物品从供应地向接收地的实体流动过程中,根据实际需要,将运输、储存、装卸搬运、包装、流通加工、配送、信息处理等功能... 查看详情

使用nemo快速完成nlp中的信息抽取任务,英伟达专家实战讲解,内附代码

信息抽取(IE)是从非结构化、半结构化的可读文档或其他电子表示来源中自动提取结构化信息的任务。信息抽取技术为文本挖掘、智能检索、智能对话、知识图谱、推荐系统等应用提供了基本的技术支持。近日,英伟达x量子... 查看详情

ocr×××识别产品介绍

...OCR(即光学字符识别技术)识别技术开发,对图像、文字信息进行分析和管理,该软件既可将×××信息完整的提出,还可把头像一并抠取出来。×××信息识别OCR、×××作为确认个人身份信息的重要凭证,在各个行业都需要对×××... 查看详情

机器不学习:浅析深度学习在实体识别和关系抽取中的应用

...的一些复杂任务的基础问题,诸如自动问答,关系抽取,信息检索等,其效果直接影响后续处理的效果,因此是NLP研究的一个基础问题。NER一直是NLP领域中的研究热点,现在越来越多的被应用于专业的领域 查看详情

《金融行业应用解决方案白皮书》发布,金融自主创新未来可期!

...态圈俱乐部”,助力金融行业用户高质量发展。金融信息系统曾经被国外厂商垄断金融信息系统作为国家关键信息基础设施,直接关系到国家经济、社会的正常运行。因而有学者在陆地边疆、海洋边疆、太空边疆之后ÿ... 查看详情

在金融行业中数据挖掘的应用都有哪些

...、征信局评分以及客户评分等。评分技术是将客户的海量信息数据运用有效的数据挖掘和处理手段,对各种目标给出量化评分的一种手段,以征信局评分为例。要达到建立征信局评分的目标,首先要建立起集中的数据仓库,其中... 查看详情

浅析深度学习在实体识别和关系抽取中的应用

...任务的基础问题,诸如自动问答,关系抽取,信息检索等,其效果直接影响后续处理的效果,因此是NLP研究的一个基础问题。NER一直是NLP领域中的研究热点,现在越来越多的被应用于专业的领域,如医... 查看详情

国产数据助力金融行业维护信息安全

金融信息系统作为国家关键信息基础设施,直接关系到国家经济、社会的正常运行。长期以来,我国金融信息化依赖进口设备和系统,金融行业尤其是银行业被IBM、HP、甲骨文等外商捆绑较深,金融行业信息化设... 查看详情

nlp知识图谱项目合集(信息抽取文本分类图神经网络性能优化等)

NLP知识图谱项目合集(信息抽取、文本分类、图神经网络、性能优化等)这段时间完成了很多大大小小的小项目,现在做一个整体归纳方便学习和收藏,有利于持续学习。1.信息抽取项目合集1.PaddleNLP之UIE技术科普【一】实例:... 查看详情

nlp知识图谱项目合集(信息抽取文本分类图神经网络性能优化等)

NLP知识图谱项目合集(信息抽取、文本分类、图神经网络、性能优化等)这段时间完成了很多大大小小的小项目,现在做一个整体归纳方便学习和收藏,有利于持续学习。1.信息抽取项目合集1.PaddleNLP之UIE技术科普【一】实例:... 查看详情

nlp入门资料

...消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实 查看详情

dtalk直播预约|金融行业嘉宾分享:金融机构数据治理实践路径

...战。本期DTALK我们邀请到金融行业嘉宾——大型金融机构信息部负责人李霏帆,为大家带来《金融机构数据治理实践路 查看详情

自然语言处理基础知识

...的具体应用系统,进而服务于各类实际业务和产品。NLP在金融方面金融行业因其与数据的高度相关性,成为人工智能最先应用的行业之一,而NLP与知识图谱作为人工智能技术的重要研究方向与组成部分,正在快速进入金融领域,... 查看详情

王磊:ai时代物流行业的ocr应用

...磊,结合物流场景解读了OCR技术。“OCR文本识别能够优化物流行业流程,解放人力降低成本。”  腾讯云人工智能产品总监王磊王磊介绍,OCR文本识别存在三大挑战。其一是文本是由多个文字拼接组成,没有明显边界,文... 查看详情

ocr识别证件识别——移动端识别sdk

...sp;  随着互联网的发展(及移动互联),利用现代信息技术开展高效快捷便民服务工作,已经势在必行。移动端证件识别算法,极大地提高了办公效率,现已在互联网金融、银行保险、电信通讯运营商、智能交通、政府、... 查看详情