ai论文解读丨融合视觉语义关系多模态信息的文档版面分析架构vsr

华为云 华为云     2022-12-14     401

关键词:

摘要:文档版式分析任务中,文档的视觉信息、文本信息、各版式部件间的关系信息都对分析过程具有很重要的作用。本文提出一种融合视觉、文本、关系多模态信息的版式分析架构VSR。

本文分享自华为云社区《论文解读系列十八:融合视觉、语义、关系多模态信息的文档版面分析架构VSR》,作者: 小菜鸟chg 。

现有文档版面分析方法大致可分为两种:基于NLP的方法将版面分析任务看作是序列标签分类任务(sequence labeling),但是该类方法在版面建模上表现出不足,无法捕获空间信息;基于CV的方法则将版面分析看作是目标检测或分割任务(object detection or segmentation),该类方法的不足表现在(1)缺乏细粒度的语义、(2)简单的拼接方式、(3)未利用关系信息。如图1展示的VSR的motivation示意图,为解决上述各方法的局限性问题,本文提出一种融合视觉、文本、关系多模态信息的版式分析架构VSR (Vision, Semantic, Relation)。

图1 VSR的motivation示意图

1. 问题定义

版式分析任务既可当做序列标签分类,又可当做目标检测。主要区别在于部件候选(component candidates)的选择。对于基于NLP方法,即序列标签分类的定义,选择通过pdf解析或OCR识别得到text tokens;对于基于CV方法,即目标检测或分割的定义,选择通过目标检测网络如Mask RCNN得到的区域RoI。VSR主要围绕目标检测的定义展开,同时VSR也可以很直接地应用到基于NLP的方法上。

2. VSR架构

VSR架构如图2所示,主要包括三个模块:双流卷积网络(two-stream ConvNets)、多尺度自适应聚合模块、关系学习模块。首先,双流卷积网络提取视觉和语义特征;然后,相对于简单的拼接,多尺寸自适应聚合模块来得到视觉和语义双模态信息表示;接着,基于聚合的多模态信息表示,可以生成布局组件候选集;最后,关系学习模块来学习各组件候选间的关系,并生成最终结果。下面对各模块具体展开。

图2 VSR架构图

2.1 双流卷积网络

VSR采用双流卷积神经网络(本文采用的是ResNeXt-101)来分别提取图像视觉信息和文本语义信息。

视觉ConvNet

语义ConvNet

2.2 多尺寸自适应聚合模块

2.3 关系学习模块

在得到FM后,可以通过RPN网络很容易得到ROI(Region of Interest)作为布局部件候选集。本文在实验阶段选择的是Mask RCNN,同时设置7个anchor比例(0.02, 0.05, 0.1, 0.2, 0.5, 1.0, 2.0)(0.02,0.05,0.1,0.2,0.5,1.0,2.0)得到部件候选集。如图3所示,根据各部件候选之间的关系,可以有如下作用:(1)利用空间位置关系,调整文本框坐标;(2)根据部件间的共现关系(比如表格和表格标题一般会同时出现)修正预测标签;(3)各component间不重叠的特性移除多余框。VSR中关系学习模块对各部件候选间的关系进行建模,并最终得到版面分析的结果。

图3 VSR关系学习模块作用示意图

将一篇文档作为一张图graph,而每个部件候选component candidate作为节点node。每个节点的特征表示由多模态特征表示和位置信息表示组成:

2.4 优化训练

3. 实验结果

3.1 对比实验

VSR在三个开源数据集Article Regions,PubLayNet,DocBank上取得了最优结果。

3.2 消融实验

表5、表6、表7的实验结果分别验证了A.不同粒度的文本表示;B.双流卷积网络和聚合模块;C.关系学习模块三个部分的有效性。

4. 总结

VSR方法的三个重要部分如下:
(1)文本语义用character和sentence两种粒度来表示;
(2)采用two-stream convnet来分别提取视觉和语义特征,再通过attention将两个模态特征聚合,最后基于聚合特征得到component candidates;
(3)GNN即Self attention来学习各component candidates间的关系。

点击关注,第一时间了解华为云新鲜技术~

socialinformationgraph

研究内容解读面向多源、异构和跨模态复杂社会信息,研究语义融合、网络表征和动态演化的理论框架;多源:多数据源爬取,异构:不同数据结构,不同结构的结构化数据,结构化数据与文本数据跨模态:模态是指数据的存在形式... 查看详情

论文解读丨layoutlm:面向文档理解的文本与版面预训练

...理解任务上取得了领先的结果。本文分享自华为云社区《论文解读系列二十五:LayoutLM:面向文档理解的文本与版面预训练》,作者:松轩。1.引言文档理解或文档智能在当今社会有着广泛的用途。如图1所示的商业文档... 查看详情

经典文献阅读之--multi-modalsemanticslam(多模态语义slam)

...语义框架去解决slam在复杂和动态环境下的问题。同时该论文也在​​Github​​中开源了数据集和代码。1.文章贡献文中提到,为了减小深度学习分割结果不完整所带来的差异性,文中建议学习更强大的对象特征,并将两次查看和... 查看详情

跟我读论文丨multi-modeltextrecognitionnetwork

摘要:语言模型往往被用于文字识别的后处理阶段,本文将语言模型的先验信息和文字的视觉特征进行交互和增强,从而进一步提升文字识别的性能。本文分享自华为云社区《Multi-ModelTextRecognitionNetwork》,作者... 查看详情

ai云服务

...quo;多模态商品推荐”,其中多模态商品推荐指的是关联融合视频、图片、文本等多模态用户数据,并结合用户的购买习惯、浏览序列等多维信息进行建模学习,精准理解用户的检索需求,推荐并返回用户真正关心、感兴趣 查看详情

论文解读fpn用于目标检测的特征金字塔网络

前言FPN,全名是FeaturePyramidNetworks,中文称为特征金字塔网络;它是目前用于目标检测、语义分割、行为识别等方面比较重要的一个部分,对于提高模型性能具有较好的表现。在特征提取中,低层的特征语义信息比较少,但目标... 查看详情

带你看论文丨全局信息对于图网络文档解析的影响

...不适用于直接用于文档理解上。本文分享自华为云社区《论文解读系列十三:全局信息对于图网络文档解析的影响》,作者:一笑倾城。1背景介绍文档理解着重于从非结构 查看详情

华为云技术分享多模态融合算法——multimodalcompactbilinearpooling

...过高的问题。MultimodalCompactBilinearPooling(MCB)来自EMNLP2016的论文《MultimodalCompactBilinearPoolingforVisualQuestionAnsweringandVisualGrounding》。很多多模态任务,比如VQA、视觉定位等,都需要融合两个模态的特征。特征融合即输入两个模态的特征... 查看详情

多模态融合综述

参考技术A内容:内容:将多模态融合的背景、发展都讲的很详细,比如多来源和多模态的关系、数据集成与数据融合的联系、特征融合、早晚期融合、基于深度学习的融合、参考:多来源多模态数据融合与集成研究进展多模态... 查看详情

多模态深度学习方法综述

...指将来自不同感知模态的信息(如图像、文本、语音等)融合到一个深度学习模型中,以实现更丰富的信息表达和更准确的预测。在多模态深度学习中,模型之间的融合通常有以下三种方法:模态联合学习(MultimodalJointLearning)... 查看详情

###好好好#####boom!推荐系统遇上多模态信息(代码片段)

...的系列文章[1]。还有其他关于多模态的+比较有意义的论文也欢迎在博文后面留言推荐。LOGO论文:HashtagOurStories:HashtagRecommendationforMicro-VideosviaHarnessingMultipleModalities地址:https://www.sciencedirect.com/science/article/abs/pii/S095070512... 查看详情

带你读论文丨基于视觉匹配的自适应文本识别

...的文本识别多样性和泛化性问题本文分享自华为云社区《论文解读二十三:基于视觉匹配的自适应文本识别》,作者:wooheng。引言本文工作目标是文本识别的泛化和灵活性,之前的文本识别方法[1,2,3,4]在很多的单... 查看详情

论文解读丨无监督视觉表征学习的动量对比

...动平均编码器组成的动态字典。本文分享自华为云社区《论文解读系列二十九:无监督视觉表征学习的动量对比》,作者:谷雨润一麦。摘要本文提出了一个用于无监督视觉表征学习的动量对比方法(MoCo)。... 查看详情

论文解读mv3d-net用于自动驾驶的多视图3d目标检测网络

...,把特征和候选区域融合后输出最终的目标检测框。论文地址:Multi-View3DObjectDetectionNetworkforAutonomousDriving开源代码ÿ 查看详情

论文解读mv3d-net用于自动驾驶的多视图3d目标检测网络

...,把特征和候选区域融合后输出最终的目标检测框。论文地址:Multi-View3DObjectDetectionNetworkforAutonomousDriving开源代码ÿ 查看详情

带你读ai论文丨用于细粒度分类的transformer结构—transfg

...《TransFG:ATransformerArchitectureforFine-grainedRecognition》,该论文针对细粒度分类任务,提出了对应的TransFG。本文分享自华为云社区《论文解读系列二十:用于细粒度分类的Transformer结构—TransFG》,作者:BigDrago 查看详情

带你读ai论文丨用于目标检测的高斯检测框与probiou

...oxesandProbabilisticIntersection-over-UnionforObjectDetection》,该论文针对目标检测任务,提出了新的高斯检测框(GBB),及新的计算目标相似性的方法(ProbIoU)。本文分享自华为云社区《论文解读系列十九:用于目标检 查看详情

论文解读丨zero-shot场景下的信息结构化提取

...人一般需要基于人工标注的模板来完成信息结构化提取。论文提出一种zero-shot的基于图卷积网络的解决方案,可以解决训练集和测试集来自不同垂直领域的问题。本文分享自华为云社区《论文解读系列十六:Zero-Shot场景... 查看详情