正文

带你读ai论文丨针对文字识别的多模态半监督方法

华为云开发者联盟  华为云开发者联盟  2022-12-23  620

关键词：

摘要：本文提出了一种针对文字识别的多模态半监督方法，具体来说，作者首先使用teacher-student网络进行半监督学习，然后在视觉、语义以及视觉和语义的融合特征上，都进行了一致性约束。

本文分享自华为云社区《一种针对文字识别的多模态半监督方法》，作者： Hint 。

摘要

直到最近，公开的真实场景文本图像的数量仍然不足以训练场景文本识别器。因此，当前大多数的训练方法都依赖于合成数据并以全监督的方式运行。然而，最近公开的真实场景文本图像的数量显着增加，包括大量未标记的数据。利用这些资源需要半监督方法；然而，这些方法不能直接适配文字识别这类视觉语言的多模态结构。因此，本文提出了半监督多模态文本识别器（SemiMTR），它在训练阶段中，利用每个模态的未标记数据。此外，本文的方法并不需要额外的训练阶段，保持了当前的三阶段多模态训练策略。

首先，在视觉模型方面，本文提出了一个将自监督预训练和强监督训练结合的单阶段训练模型。然后，语言模型是在一个大型文本语料库上进行自监督预训练。得到两个模态的预训练模型之后，对文字识别进行半监督训练。本文采用的是teacher-student的结构，具体来说，对一张文本图像分别进行弱数据扩增和强数据扩增，然后对两个网络不同模态的输出进行一致性约束。大量实验证实本文的方法优于当前的训练方案，并在多个场景文本识别基准上取得了最先进的结果。

方法

1. 识别模型框架：

首先，本文的文字识别框架采用的是ABINet。大致流程如下：首先，视觉模型首先提取图像的特征序列并将其解码成字符序列；接着，将字符序列输入给语言模型，得到文本的语义特征；最后，使用一个融合模块，将视觉和语义特征进行融合，得到最终的识别结果。为了进一步提高识别性能，可以采用迭代的方式，多次对识别结果进行微调。

2. 视觉模型预训练

本文将自监督预训练与强监督预训练融合到了一个统一的框架下。自监督预训练采用的是基于对比学习的方法，在自监督的同时，也会对这些数据进行有标注的强监督预训练。

3. 基于一致性约束的半监督训练

首先，本文采用的是一个常见的teacher-student网络，进行半监督训练。具体来说，将前面得到的预训练模型作为teacher和student网络的初始化模型，然后对同一张输入图像进行弱数据扩增和强数据扩增，并分别输入到teacher和student网络中；将teacher网络的预测结果作为伪标签对student的输出进行监督。区别于一般的半监督学习，本文的方法对识别模型的各个模态都进行不同程度的一致性约束，比如视觉模型，语言模型和融合模型的输出。

实验

可以看到，本文的结果在多个数据集上取得了一致性的提升。

可以看到，在视觉预训练阶段，统一自监督预训练和强监督预训练比分阶段的训练效果要好。

可以看到，使用交叉熵loss作为一致性约束loss效果最好。

由于本文采用的识别模型，具有视觉、语言和融合的模态，所以在进行一致性约束的时候，teacher网络和student网络可以采用不同的特征分别进行对齐。从上表可以看到，当teacher和student网络中的vision，language和fusion模块分别进行对齐的时候，效果最好。

论文链接：[2205.03873] Multimodal Semi-Supervised Learning for Text Recognition (arxiv.org)

点击关注，第一时间了解华为云新鲜技术~

带你读ai论文丨用于目标检测的高斯检测框与probiou

摘要：本文解读了《GaussianBoundingBoxesandProbabilisticIntersection-over-UnionforObjectDetection》，该论文针对目标检测任务，提出了新的高斯检测框(GBB)，及新的计算目标相似性的方法(ProbIoU)。本文分享自华为云社区《论文解... 查看详情

带你读ai论文丨用于细粒度分类的transformer结构—transfg

摘要：本文解读了《TransFG:ATransformerArchitectureforFine-grainedRecognition》，该论文针对细粒度分类任务，提出了对应的TransFG。本文分享自华为云社区《论文解读系列二十：用于细粒度分类的Transformer结构—TransFG》，... 查看详情

带你读ai论文丨acgan-动漫头像生成

摘要：ACGAN-动漫头像生成是一个十分优秀的开源项目。本文分享自华为云社区《【云驻共创】AI论文精读会：ACGAN-动漫头像生成》，作者：SpiderMan。1.论文及算法介绍1.1基本信息•论文题目：《ConditionalImageSynthe... 查看详情

带你读论文丨基于视觉匹配的自适应文本识别

摘要：ECCV2020通过视觉匹配的方法来做文本识别，解决文档识别中的文本识别多样性和泛化性问题本文分享自华为云社区《论文解读二十三：基于视觉匹配的自适应文本识别》，作者：wooheng。引言本文工作目... 查看详情

带你读ai论文丨lanenet基于实体分割的端到端车道线检测(代码片段)

摘要：LaneNet是一种端到端的车道线检测方法，包含LanNet+H-Net两个网络模型。本文分享自华为云社区《【论文解读】LaneNet基于实体分割的端到端车道线检测》，作者：一颗小树x。前言这是一种端到端的车道线检... 查看详情

带你读ai论文：sdmg-r结构化提取—无限版式小票场景应用

摘要：在文档图像中提取关键信息在自动化办公应用中至关重要。传统基于模板匹配或者规则的方法，在通用性方面、未见过版式模板数据方面，效果都不好；为此，本文提出了一种端到端的空间多模态图推... 查看详情

带你读paper丨分析vit尚存问题和相对应的解决方案

摘要：针对ViT现状，分析ViT尚存问题和相对应的解决方案，和相关论文idea汇总。本文分享自华为云社区《【ViT】目前VisionTransformer遇到的问题和克服方法的相关论文汇总》，作者：苏道。首先来看ViT始祖级论... 查看详情

带你读顶会论文丨基于溯源图的apt攻击检测

摘要：本次分享主要是作者对APT攻击部分顶会论文阅读的阶段性总结，将从四个方面开展。本文分享自华为云社区《[论文阅读](10)基于溯源图的APT攻击检测安全顶会总结》，作者：eastmount。一.背景知识1.什么是APT攻击？APT攻击（... 查看详情

跟我读论文丨multi-modeltextrecognitionnetwork

摘要：语言模型往往被用于文字识别的后处理阶段，本文将语言模型的先验信息和文字的视觉特征进行交互和增强，从而进一步提升文字识别的性能。本文分享自华为云社区《Multi-ModelTextRecognitionNetwork》，作者... 查看详情

ai论文解读丨融合视觉语义关系多模态信息的文档版面分析架构vsr

...多模态信息的版式分析架构VSR。本文分享自华为云社区《论文解读系列十八：融合视觉、语义、关系多模态信息的文档版面分析架构VSR》，作者：小菜鸟chg。现有文档版面分析方法大致可分为两种ÿ 查看详情

带你读ai论文：基于transformer的直线段检测

摘要：本文提出了一种基于Transformer的端到端的线段检测模型。采用多尺度的Encoder/Decoder算法，可以得到比较准确的线端点坐标。作者直接用预测的线段端点和Groundtruth的端点的距离作为目标函数，可以更好的对线段... 查看详情

学习笔记4针对地面目标识别的遥感预训练与自监督学习

这是我的本科毕设内容，参考了ICCV顶会论文：《SeasonalContrast:UnsupervisedPre-TrainingfromUncuratedRemoteSensingData》翻译：《季节对比:来自未经管理的遥感数据的无监督的预训练》以下内容除了背景为论文翻译外，其余思路... 查看详情

带你读ai论文：ndss2020unicorn:runtimeprovenance-baseddetector

摘要：这篇文章将详细介绍NDSS2020的《UNICORN:RuntimeProvenance-BasedDetectorforAdvancedPersistentThreats》，一种基于溯源图的实时APT检测器。本文分享自华为云社区《[论文阅读](08)NDSS2020UNICORN:RuntimeProvenance-BasedDetector》，作者：... 查看详情

12月15日下午，多模态预训练半监督学习

...，而如何有效地融合商品图文多模态信息至关重要。针对海量的商品图文数据，我们从数据、算法和计算三个层面探索了训练10亿级超大规模商品图文多模态数据的新方法。【分享提纲】用户行为数据的弱监督细粒度多模... 查看详情

斑马识别成狗，ai犯错的原因被斯坦福找到了丨开源

...现了纰漏。斯坦福大学的两位博士生和教授JamesZou在一篇论文中，带我们探究了分类模型犯错的原因。随后，论文提出一种方法——反事实的查看详情

一种用于视觉识别的快速知识蒸馏框架

...据集的更多比较4.3Self-Supervised学习4.4迁移学习5结论摘要论文和项目网址：http://zhiqiangshen.com/projects/FKD/FKD_camera 查看详情

文献阅读05期：glara-弱监督实体识别的图方法扩充

[文献阅读·DL]GLaRAc:Graph-basedLabelingRuleAugmentationforWeaklySupervisedNamedEntityRecognition推荐理由：本文收录于EACL2021，文章提出了一种基于图的标注规则增强框架，该框架可以从未标注的数据中自动学习新的标注规则。原文标... 查看详情

职场专业图片文字识别的方法，你知道吗

在职场中又一个专业的图片文字识别方法，工作不是经常整理图片文字的员工不知道，那就是使用一下专业的OCR文字识别软件，在加上专业的操作方法，就可以快速的把图片上的文字识别出来了。在平时生活中实现图片文字识别... 查看详情