正文

腾讯ailab解读两项nlp成果

人工智能博士  人工智能博士  2022-12-20  692

关键词：

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★，第一时间获取资源

仅做学术分享，如有侵权，联系删除

转载于：腾讯AI实验室

自然语言处理（NLP）领域顶级会议 ACL 2021 于 8 月 2 日至 5 日在线上举行。本届ACL共收到3350篇论文投稿，其中主会论文录用率为21.3%。据不完全统计，腾讯共入选 50 多篇论文，其中腾讯 AI Lab 贡献 27 篇（含9篇findings），包括大会的六篇杰出论文之一，与香港中文大学合作完成的《基于单语翻译记忆的神经网络机器翻译技术（Neural Machine Translation with Monolingual Translation Memory）》。

无独有偶，在今年6月线上举办的另一自然语言处理领域顶会 NAACL 2021 中，腾讯 AI Lab 与罗切斯特大学合作的论文《视频辅助无监督语法归纳（Video-aided Unsupervised Grammar Induction）》获得最佳长论文。

本文将对腾讯 AI Lab 主导的这两篇论文进行详细解读，并简要介绍部分入选 ACL 2021 的其他论文，包括文本生成与智能对话、翻译、文本理解等研究方向。

自然语言处理是腾讯 AI Lab 四大基础研究方向之一，主要包括文本理解、文本生成、机器翻译等研究方向，相关研究成果持续通过学术论文、开源数据集、工具及 API 服务等方式对外分享：

● 国内首个线上公开落地的交互翻译系统 TranSmart：提供辅助翻译输入法、约束解码、翻译记忆融合等亮点功能，已支持了包括联合国文件署、Memsource、华泰证券、店小秘、阅文集团等在内的B端客户，以及腾讯内部众多的翻译业务。

● 文本理解系统 TexSmart：与国内外的同类系统相比，不仅在在效果和速度上位居前列，更具有细粒度命名实体识别、语义联想、深度语义表达等特色功能。其API和SDK被腾讯内外众多业务和用户所调用。

● 包含800万词汇的中文词向量开源数据集受到业界的广泛关注、讨论和使用，在多项应用得到性能提升。

ACL 2021杰出论文：

基于单语翻译记忆的神经网络机器翻译技术

论文地址：https://arxiv.org/pdf/2105.11269.pdf

从2017年开始，包括微软、Facebook、腾讯在内的多支研究团队均致力于尝试利用检索式对话系统的结果引导生成式模型，以生成更加相关且更为丰富的对话回复。无独有偶，在机器翻译领域，来自CMU、NYU、腾讯的多个团队也一直在推进利用翻译记忆（Translation Memory）提升翻译效果的研究工作。无论是对话还是翻译领域，之前他们的工作均集中在利用输入端相似度的检索方式从平行语料中检索数据，并以某种方式输入到深度生成网络来提升生成/翻译效果（如下图所示）。

不同于上述工作，在本论文中，作者提出了一种全新的基于单语翻译记忆的翻译框架——训练过程中利用一个双塔结构（dual-encoder framework）的检索模型将源端句子和目标端句子在向量空间对齐，而推理过程中与源端句子在向量空间中距离最近的k条目标端句子，则会被选中作为翻译记忆。需要注意的是，该模型的检索范围并不限定在训练集的句子中，而可以来自任意的单语语料。随后，为了将检索模型与下游翻译模型统一为一个可以端到端训练的整体，检索模型输出的相似度分值将引导翻译模型的注意力（attention）集中到更为有用的检索结果上。基于这样的方式，检索模型可以通过如下逻辑被优化：对最终翻译过程有帮助（能提升参考译文似然度）的检索结果应该被奖励，而那些无用的检索结果则应被惩罚。

实验结果表明，本论文提出的模型即使不使用额外单语数据，翻译效果都要超出目前最好的，而在低资源场景下，一旦模型获得了更多额外的单语语料，模型的翻译效果会大幅度提升。最后，该模型只需对翻译记忆进行热切换就可以实现领域自适应，而不需要对模型进行任何微调。

一、模型设计

本论文提出的方法将整个翻译过程分为检索和生成两步。如图一所示，该方法中翻译记忆库是一堆目标语言句子的集合。在翻译过程中，对于输入，检索模型（Retrieval Model）根据相关度函数从翻译记忆库中找到个可能对翻译有帮助的句子，其中。然后翻译模型根据条件概率生成翻译结果。在训练过程中，最大化参考译文的似然度能够同时优化检索模型和翻译模型的参数。（本部分省略了部分细节，有关模型的更多详情与数学描述请参阅原论文）

● 检索模型

本论文采取了双塔框架模型进行检索，该框架的优点在于能将搜索问题转化为最大内积搜索（Maximum Inner Product Search）。源端句子和目标端句子的相似度可以通过对应的向量表示的点积得到：

其中和分别是源端句子编码器和目标端句子编码器，用两个独立的Transformer实现。在推理时，翻译记忆库中所有句子的向量表示可以用目标端句子编码器提前计算得到，并用FAISS搭建索引。

● 翻译模型

在翻译过程中，本论文为标准翻译框架（包括一个源端编码器和一个解码器）添加了一个额外的记忆编码器来输入翻译记忆。为了使检索模型和翻译模型能够一同被最终的翻译目标所优化，我们将检索模型得到的相关性分数加入到注意力中的计算中:

(2）

其中是第条翻译记忆中第个片段的的注意力分数, 而是上文提到的相关性得分。简单来说，更有益于提升翻译质量的记忆片段应该收到更多的注意力，进而得到更大的相关性得分，直接优化翻译目标就可以优化检索模型。

● 跨语言对齐预训练任务

本论文提出的模型存在冷启动问题，因此作者提出了两种跨语言对齐预训练任务为检索模型热身。作者称这两个预训练任务在实践中缺一不可。

二、实验

本论文共进行了三种不同设置的实验：1）传统设置：所有模型都只能用训练集作为翻译记忆库，2）低资源设置：双语训练对数量较少，但模型可以使用额外的单语数据作为翻译记忆，3）利用单语数据实现翻译模型的非参数领域自适应。请注意已有的方法仅能直接适用于第一种设置，而2) 3)两种设置只能依赖本论文提出的模型才成为可能。

● 实验一：传统设置

本实验使用了翻译记忆的经典数据集JRC-Acquis，并挑选了西英，英西，德英，英德四个翻译方向进行实验。实验中，作者复现了三种经典的基线模型的实验结果，并实现了一系列模型的变种来验证模型不同模块对翻译性能的影响。上表中的Model 1-5分别表示：

1. 没有使用翻译记忆的基本翻译模型 Transformer base。

2. 使用双语翻译记忆的基本翻译模型。

3. 本论文提出的模型，但不进行端到端优化，训练时仅更新翻译模型不更新检索模型。

4 & 5：本论文提出的模型，区别在于异步更新策略 (因字数限制，该部分介绍被省略，详情请参阅原论文)

从实验结果可以看出，在所有任务上，本论文提出的完整模型均取得了最好效果，相对于不使用翻译记忆的基线模型（Model #1）平均提升了3.26 BLEU值。其中端到端训练是关键所在，Model #4 & 5，相对于没有进行端到端训练的Model 3都有超过1 BLEU值的性能提升。最令人惊奇的是，仅仅只使用单语翻译记忆的Model #4 和 #Model 5在性能上居然超过了使用双语翻译记忆的Model 2以及三种复现的基线模型。这可以归因于是端到端训练使跨语言检索模型能更好的适应下游的翻译任务。

● 实验二：低资源设置

如前文所说，本论文提出的模型最大优势在于能够将单语数据作为翻译记忆。为了证明单语翻译记忆的有效性，作者进行了低资源场景实验，实验中模型只能获得部分双语数据以及额外的单语数据作为翻译记忆。

本场景下仍然有两种不同的训练选择：1）切换翻译记忆时不重新训练翻译模型；以及 2）切换翻译记忆时重新训练翻译模型。在上图中，蓝色虚线代表选择1，而红色实线代表选择2。可以看到，翻译质量随着翻译记忆库规模的增大而显著提升。另一个有趣的现象是，即使使用选择1) 的方式训练，模型的性能也不会受到很大影响。

与Back-translation方法的对比：本论文也与back-translation (BT) 方法进行了对比。如上表所示，本论文提出的方法与BT方法各有所长，但令人惊喜的是，结果表明两种方法是互补的，他们的结合使翻译性能取得了进一步的巨大提升。

● 实验三：非参数领域自适应

本论文提出的模型的另一个独特优点是可以通过切换翻译记忆，不改变或增加参数即可以适用于特定领域。在最后一个实验中，作者通过切换翻译记忆，实现了翻译领域的自适应。上表中的实验结果表明，只使用双语翻译记忆时，基于翻译记忆的模型和不使用翻译记忆的模型效果各有千秋，但一旦增加了额外的单语翻译记忆，本论文提出的模型在五个领域上的平均BLEU值提升了1.87。

三、总结

本论文首次提出了利用单语翻译记忆提升翻译模型，并发现跨语言的检索模型可以通过端到端的方式进行优化。本论文提出的方法在低资源场景下取得了巨大的性能提升，并且可以实现一个模型适用于所有领域。

作者指出了两个未来可能的提升方向：1）为了保证公平，本研究中所用到的编码器均从随机参数开始训练，使用预训练语言模型将进一步提升翻译性能；2）增大翻译记忆的多样性有可能显著提升翻译性能，但本论文中的模型结构并未考虑这一点。

NAACL 最佳论文：

视频辅助无监督语法归纳

论文地址：https://arxiv.org/abs/2104.04369v2

长久以来，句法分析一直都是NLP研究的热点话题之一。很多现有的方法都是在有语法标注的数据集上学习。但是这种有监督的学习存在两个弱点：1. 标注这样的数据集需要大量的语言专家，费时费力。2. 只有几个常见语种有标注好的数据集，许多小语种甚至没有足够的语言专家来标数据。

因此，近些年来有越来越多的研究试图从海量未标注的文本中来进行无监督的句法学习。以C-PCFG[1]为例（见下图），给定一个句子，句法抽取器(Grammar Inducer)预测出一个句法图(Chart)，并对句子的边缘似然函数进行优化。

除了以上的商业价值以外，无监督句法分析还有着重要的科学价值，长期以来认知科学（cognitive science）界一直争论着人类能习得语言的原因：是人脑中天生就存在某种机制，还是单纯靠统计学习（statistical learning）的方式，而无监督句法分析正是用来验证统计学习理论的重要手段之一。

过去的无监督句法分析的方法都是以纯文本为输入，而视觉中含有很多文本所不具备的知识，因此最近有一些方法[2,3]试图通过图片信息来辅助无监督句法分析。以VC-PCFG [3] 为例（见下图），它在C-PCFG的基础上额外增加了一个图片和句子之间的损失函数，通过图片特征对文本特征进行正则化，可进一步提高句法抽取器的性能。

但是这种方法的提升是有局限的。从VC-PCFG论文的实验部分可以看到，相较于C-PCFG，VC-PCFG主要提升的是NP的性能，而在其他常见的短语类型上的提升并不明显，如VP，PP，SBAR， ADJP和ADVP。这一现象也存在在另一篇文章VG-NSL [2] 中。一个可能的解释是这两篇文章用到的图片特征提取器是在物体分类上训练的，这种特征对于物体有比较准确的描述从而提升了NP。但对于涉及到物体的动作和变化的短语类型，如VP，因为图片是静态的，这种物体分类的特征并不不能提供这样的变化信息。但如果我们将静态图片换成动态视频，很有可能对涉及到动词的短语类型也会有所提升。

本文提出了Multi-Modal Compound PCFGs （MMC-PCFG）用于视频辅助的无监督句法分析，框架如下。与VC-PCFG [3]不同的是，本模型以视频作为输入，并融合了视频多种模态的信息，是VC-PCFG [3] 在视频上的泛化。

一、模型设计

对于每个视频我们首先在时间上等间隔抽取包括物体，动作，场景，声音，字符，人脸，语音在内的共M种特征。本文借鉴多模态transformer[4]来计算视频和文本片段之间的相似度。具体来说，我们首先把输入特征的连接在一起, 这里是的平均。

此外我们还使用特征类型编码

和位置编码

来区分不同视频特征的种类和时间顺序。然后将这三者的加和作为transformer的输入，并使用与各平均特征对应位置的输出作为视频特征的输出，记作。

接下来我们计算视频和某个句子

...8;NLP）领域顶级会议ACL-IJCNLP2021公布了论文接收情况。腾讯有50余篇论文被接收，又一次刷新了论文录取数量纪录，领跑国内业界AI研究第一梯队。本文将对腾讯AILab主导的两篇论文进行详细解读。ACL2021杰出论文：... 查看详情

从研究到应用：腾讯ailab的自然语言理解和生成

3月16日在腾讯AILab第二届学术论坛上，腾讯AILab高级研究员李菁博士介绍了实验室目前在NLP方面重点关注的两大方向——如何理解和生成自然语言，并介绍了实验室的相关研究和应用成果。自然语言的理解自然语言理解的目标是... 查看详情

腾讯ailab计算机视觉中心人脸&ocr团队近期成果介绍

欢迎大家前往腾讯云社区，获取更多腾讯海量技术实践干货哦~作者：周景超在上一期中介绍了我们团队部分已公开的国际领先的研究成果，近期我们有些新的成果和大家进一步分享。1人脸进展人脸是最重要的视觉信息之一。以... 查看详情

腾讯副总裁姚星：腾讯ailab将致力打造通往agi之路

背景：3月15日，腾讯AILab第二届学术论坛在深圳举行，聚焦人工智能在医疗、游戏、多媒体内容、人机交互等四大领域的跨界研究与应用。全球30位顶级AI专家出席，对多项前沿研究成果进行了深入探讨与交流。今天，腾讯副总裁... 查看详情

用ai助力生命科学研究，腾讯ailab三项成果登上国际顶级学术期刊

近日，腾讯AILab三项研究分别入选国际顶级学术期刊NatureMethods和NatureCommunications，再次展示了在生命科学前沿领域上国际领先的技术实力。这三项研究成果都属于生物细胞研究中的空间组学技术，对于推动精准医疗、... 查看详情

ai+游戏：高效利用样本的强化学习|腾讯ailab学术论坛演讲

3月15日，腾讯AILab第二届学术论坛在深圳举行，聚焦人工智能在医疗、游戏、多媒体内容、人机交互等四大领域的跨界研究与应用。全球30位顶级AI专家出席，对多项前沿研究成果进行了深入探讨与交流。腾讯AILab还宣布了2018三大... 查看详情

腾讯技术工程|腾讯ailab刷新人脸识别与检测两大测评国际记录，技术日调用超六亿

2017年12月18日，深圳-腾讯AILab研发的FaceR-FCN和FaceCNN算法分别在国际最大、最难的人脸检测平台WIDERFACE与最热门权威的人脸识别平台MegaFace多项评测指标中荣膺榜首，刷新行业纪录，展现其在计算机视觉领域中，特别是人脸技术上... 查看详情

中科大教授吴锋：多智能体的分布式在线决策|腾讯ailab学术论坛演讲

腾讯研究成果登nature子刊：scbert攻克单细胞测序数据分析痛点

...练和微调的范式引入单细胞转录组数据分析中。9月27日，腾讯AILab公布「AI+生命科学」跨学科应用领域的最新研究成果《scBERTasaLarge-scalePretrainedDeepLanguageModelforCellTypeAnnotationofSingle-cellRNA-se 查看详情

腾讯技术工程|腾讯ailab现场陈述论文：使众包配对排名聚合信息最大化的hodgeran

前言：腾讯AILab共有12篇论文入选在美国新奥尔良举行的国际人工智能领域顶级学术会议AAAI2018。腾讯技术工程官方号编译整理了现场陈述论文《使众包配对排名聚合信息最大化的HodgeRank》（HodgeRankwithInformationMaximizationforCrowdsourced... 查看详情

腾讯技术工程|腾讯ailab解析2017nips三大研究方向，启动教授及学生合作项目

...做独家解析。第三部分回顾了NIPS的会议情况，并简介了腾讯AILab入选的八篇论文。NIPS被誉为机器学习和人工智能研究领域最具影响力，也是参会人数最多的的学术会议。腾讯AILab去年4月成立，今年第二次参加NIPS，共有8篇文章被... 查看详情

腾讯研究成果登nature子刊：scbert攻克单细胞测序数据分析痛点

...练和微调的范式引入单细胞转录组数据分析中。9月27日，腾讯AILab公布「AI+生命科学」跨学科应用领域的最新查看详情

腾讯研究成果登nature子刊：scbert攻克单细胞测序数据分析痛点

...练和微调的范式引入单细胞转录组数据分析中。9月27日，腾讯AILab公布「AI+生命科学」跨学科应用领域的最新查看详情

腾讯技术工程|腾讯ailab11篇论文精选：图像描述nmt模型图卷积神经网络等

...018将于2月2日至7日在美国新奥尔良举行，在本届大会上，腾讯AILab有11篇论文被录用，涉及图像描述、更低计算成本的预测表现、NMT模型中的特定翻译问题、自适应图卷积神经网络、DNN面对对抗样本的优化问题等，本文精选了11篇... 查看详情

厉害了！腾讯ailab首次参加知识图谱顶级赛事kbp2017，就夺得世界冠军

...构建大赛（KnowledgeBasePopulation，简称KBP）结果近日揭晓，腾讯AILab首次参赛，斩获实体发现与链接（EntityDiscoveryandLinkingTrack，EDL）任务冠军。KBP大赛始办于2009年，是国际上影响力最大、水平最高的知识图谱领域赛事，此次夺冠体... 查看详情

eccv2018|ubc&腾讯ailab提出首个模块化gan架构，搞定任意图像ps组合

...配对也不能组合。在本文中，英属哥伦比亚大学（UBC）与腾讯AILab共同提出了一种新型的模块化多域生成对抗网络架构——ModularGAN，生成的结果优于以上三种基线结果。该架构由几个可重复利用和可组合的模块组成。不同的模块... 查看详情

腾讯游戏ai可以诊断疾病；妄议马斯克？员工遭解雇后再起诉；geohot任职twitter5.5周后离职...

...;有哪些AI新鲜事？产业界把游戏AI用于疾病诊断，腾讯AILab研究成果登上国际顶会12月19日，腾讯AILab发布其决策智能AI“绝悟”的最新成果“绝悟RLogist”，将AI深度强化学习技术迁移到病理全片扫描图像诊断领域... 查看详情

知乎热议！2021大厂ailab现状盘点，网友：名存实亡

...级AILab,首先想到的便是三巨头BAT。「达摩院半死不活、腾讯优图沦落为内部算法外包、百度AILab在Andrew离职后一蹶不振。」还有字节AILab直接变成业务中台。与国外Deepmind、FAIR、GoogleResearch等实验室对标，国内大厂的AILab... 查看详情