正文

论文解读丨cvpr2022不使用人工标注提升文字识别器性能

华为云开发者联盟  华为云开发者联盟  2022-12-23  177

关键词：

摘要：本文提出了一种针对文字识别的半监督方法。区别于常见的半监督方法，本文的针对文字识别这类序列识别问题做出了特定的设计。

本文分享自华为云社区《[CVPR 2022] 不使用人工标注提升文字识别器性能》，作者：Hint。

本文提出了一种针对文字识别的半监督方法。区别于常见的半监督方法，本文的针对文字识别这类序列识别问题做出了特定的设计。具体来说，本文首先采用了teacher-student的网络结构，然后采用字符级别的一致性约束对teacher和student网络的预测进行对齐。此外，考虑到文字识别是step-by-step，每一个字符的预测都和之前时刻的预测结果相关。为了避免student网络在当前时刻的预测结果受到之前时刻错误预测的影响，本文将当前时刻之前，teacher的预测结果作为student当前时刻之前的预测结果，这样可以得到比较鲁棒的一致性约束，从而提升性能。

近年来，场景文本识别（STR）因其广泛应用而备受关注。大多数识别模型需要大量的有标注数据进行强监督训练。虽然合成数据可以缓解识别模型对数据量的需求，但是合成数据和真实场景的域间差距极大地限制了识别模型在真实场景下的性能。在本文中，作者希望通过同时利用有标注的合成数据以及无标注的真实数据来提升STR模型的性能，完全不需要任何人工标注。本文提出了一种鲁棒的基于一致性约束的半监督方法，可以有效解决合成数据与真实数据域不一致导致的不稳定问题。字符级的一致性约束旨在减轻序列识别过程中错误识别导致的不对齐问题。在标准文字识别数据集上，大量实验证明了所提出方法的有效性。该方法能够稳步提升现有的STR模型，并得到最先进的结果。此外，本文也是第一个将一致性约束应用到文字识别领域的工作。

方法：

本框架包括两个分支，一个是输出有标签合成数据的强监督分支，一个是输入无标签真实数据的半监督分支。强监督分支和一般的识别模型一样。关于半监督分支，采用teacher-student进行一致性约束。具体来说，将强监督得到的预训练模型作为teacher和student网络的初始化模型，然后对同一张输入图像进行弱数据扩增和强数据扩增，并分别输入到teacher和student网络中；将teacher网络的预测结果作为伪标签对student的输出进行监督。

由于文字识别是一个序列识别问题，当前时刻的预测结果和之前时刻的预测结果相关。为了尽可能减少target和online模型在同一时刻预测结果的不对齐问题，online分支之前时刻的预测结果会和target分支之前时刻的预测结果保持一致，然后再进行当前时刻的字符预测。字符级别的一致性loss如下公式所示，Dist()可以是交叉熵，KL-Div或者MSE，本文采用的是KL-Div。

此外，为了减轻合成数据与真实数据之间的域间差别，本文还使用了字符级别的域对齐模块。该模块首先分别将合成数据和真实数据每个时刻的视觉特征收集起来构成一个集合H

，然后计算他们各自的协方差矩阵cov()。

最终，整个框架的loss由强监督识别loss，一致性约束loss和域适应loss构成：

实验：

在引入无标签数据之后，当前识别模型的性能能够得到稳定的提升。

相比于其他利用无标签数据的方法而言，本文提出的基于一致性约束的方法能够优于其他几种方法。

该实验主要证明了online model中的projection layer，使用EMA更新的target model和domain adaptation模块的有效性。

该实验证明了在online model中使用和target model相同的之前时刻预测结果的有效性。

该实验主要讨论了一致性loss的类型对最终性能的影响，可以看到交叉熵和KL-Div性能差不多，且优于MSE。

论文链接：[2204.07714] Pushing the Performance Limit of Scene Text Recognizer without Human Annotation (arxiv.org)

点击关注，第一时间了解华为云新鲜技术~

cvpr2022|美团技术团队精选论文解读

...2近日在美国新奥尔良召开，今年美团技术团队有多篇论文被CVPR2022收录，这些论文涵盖了模型压缩、视频目标分割、3D视觉定位、图像描述、模型安全、跨模态视频内容检索等研究领域。本文将对6篇精选的论文做简要的... 查看详情

cvpr2019论文解读：单眼提升2d检测到6d姿势和度量形状

CVPR2019论文解读：单眼提升2D检测到6D姿势和度量形状ROI-10D:MonocularLiftingof2DDetectionto6DPoseandMetricShape论文链接地址：https://arxiv.org/pdf/1812.02781.pdf 摘要内容：本文提供了基于端到端单目3D目标检测和度量形状检索的深度学习... 查看详情

论文解读丨表格识别模型tablemaster

...0c;文字识别用到的是Master模型。本文分享自华为云社区《论文解读二十八：表格识别模型TableMaster》，作者查看详情

cvpr2022结果出炉，最全论文下载及分类汇总（更新中）

CVPR2022已经放榜啦，本次一共有2067篇论文被接收，接收论文数量相比去年增长了24%。由于每年的CVPR全部论文以及相关细节公布都需要等到六月会议正式召开，因此，在这之前，为了让大家更快地获取和学习到... 查看详情

带你读ai论文丨针对文字识别的多模态半监督方法

摘要：本文提出了一种针对文字识别的多模态半监督方法，具体来说，作者首先使用teacher-student网络进行半监督学习，然后在视觉、语义以及视觉和语义的融合特征上，都进行了一致性约束。本文分享自华为... 查看详情

cvpr2022最新350篇论文分方向汇总/代码

参考：CVPR2022全面盘点：最新350篇论文分方向汇总/代码/解读/直播/项目（更新中）-知乎资料：官网链接：http://CVPR2022.thecvf.com会议时间：2021年6月19日-6月24日相关问题：如何评价CVPR2022的论文接收结... 查看详情

论文解读丨zero-shot场景下的信息结构化提取

...人一般需要基于人工标注的模板来完成信息结构化提取。论文提出一种zero-shot的基于图卷积网络的解决方案，可以解决训练集和测试集来自不同垂直领域的问题。本文分享自华为云社区《论文解读系列十六：Zero-Shot场景... 查看详情

cvpr2022最新350篇论文分方向汇总/代码

tpsmotion（cvpr2022）视频生成论文解读

...动估计多分辨率遮挡Mask训练损失函数测试阶段实验结论论文：《Thin-PlateSplineMotionModelforImageAnimation》github：https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model解决问题问题：尽管当前有些工作使用无监督方法进可行任意目标... 查看详情

dagan论文解读

...模跨模态attention机制训练实验SOTA方法比较消融实验结论论文:《Depth-AwareGenerativeAdversarialNetworkforTalkingHeadVideoGeneration》github:https://github.com/harlanhong/CVPR2022-DaGAN解决问题现有问题：现有视频生成方案主要利用2D表征，人脸3D信... 查看详情

论文解读丨layoutlm:面向文档理解的文本与版面预训练

...理解任务上取得了领先的结果。本文分享自华为云社区《论文解读系列二十五：LayoutLM:面向文档理解的文本与版面预训练》，作者：松轩。1.引言文档理解或文档智能在当今社会有着广泛的用途。如图1所示的商业文档... 查看详情

cvpr2022|cvpr2022最全整理，cvpr2022下载链接，cvpr2022全部论文代码

CVPR是IEEE ConferenceonComputerVisionandPatternRecognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议。国际计算机视觉与模式识别会议（CVPR）是IEEE一年一度的学... 查看详情

cvpr2020论文分方向整理之检测篇（代码/论文解读/136篇打包下载）

zCVPR2020论文分方向整理之检测篇（代码/论文解读/136篇打包下载）极市平台（微信公众号ID：extrememart）：专注计算机视觉前沿资讯和技术干货。本文由极市平台首发，转载需获授权。本周三，CVPR... 查看详情

cvpr2022有什么值得关注的论文?

CVPR2022有什么值得关注的论文?知乎上的，值得一看！查看详情

cvpr2021论文解读|住宅户型识别与重建

住宅户型的识别与重建在装修设计中是非常重要且有挑战的问题。我们提出了一种基于微分渲染的户型识别算法，能够准确识别建筑元素，房间类型，大小尺寸，最终输出准确的3D矢量化户型。我们使用基于深度... 查看详情

2.cvpr2022-papers-with-code-demo（cvpr2022论文下载）

CVPR2022-Papers-with-Code-Demo☪️CVPR2021论文下载：https://pan.baidu.com/share/init?surl=gjfUQlPf73MCk4vM8VbzoA密码：aicv 查看详情

cvpr2020论文解读：少点目标检测

CVPR2020论文解读：具有注意RPN和多关系检测器的少点目标检测Few-ShotObjectDetectionwithAttention-RPNandMulti-RelationDetector具有注意RPN和多关系检测器的少点目标检测目标检测的惯用方法需要大量的训练数据，准备这样高质量的训练数据很... 查看详情

cvpr2022|cvpr2022最全整理，cvpr2022下载链接，cvpr2022全部论文代码

...xff1a;https://github.com/Sophia-11/Awesome-CVPR-Paper CVPR2021最新更新论文Image-to-imageTranslationviaHierarchicalStyleDisentanglementXinyangLi, ShengchuanZhang, JieHu, LiujuanCao, XiaopengHong, XudongMao, FeiyueHuang, YongjianWu, RongrongJi https://arxiv.org/abs/2103.01456 https://... 查看详情