正文

腾讯技术工程|腾讯ailab11篇论文精选：图像描述nmt模型图卷积神经网络等

author  author  2022-10-19  413

关键词：

背景：AAAI 2018 将于2月2日至 7日在美国新奥尔良举行，在本届大会上，腾讯 AI Lab 有 11 篇论文被录用，涉及图像描述、更低计算成本的预测表现、NMT 模型中的特定翻译问题、自适应图卷积神经网络、DNN面对对抗样本的优化问题等，本文精选了11篇论文的精彩内容。（本文转自公众号新智元）

1. 学习用于图像描述的引导解码（Learning to Guide Decoding for Image Captioning）

图像描述领域近来取得了很多进展，而且已经有一种编码器-解码器框架在这一任务上得到了出色的表现。在本论文中，我们提出了一种编码器-解码器框架的扩展——增加了一个名叫引导网络（guiding network）的组件。这种引导网络会建模输入图像的属性特性，其输出会被用于组成解码器在每个时间步骤的输入。这种引导网络可以插入到当前的编码器-解码器框架中，并且可以以一种端到端的方式训练。因此，该引导向量可以根据来自解码器的信号而自适应地学习得到，使其自身中嵌入来自图像和语言两方面的信息。此外，还能使用判别式监督来进一步提升引导的质量。我们通过在 MS COCO 数据集上的实验验证了我们提出的方法的优势。

2. 发现和区分多义词的多个视觉含义（Discovering and Distinguishing Multiple Visual Senses for Polysemous Words）

为了减少对有标签数据的依赖，利用网络图像学习视觉分类器的研究工作一直在不断增多。限制他们的表现的一个问题是多义词问题。为了解决这个问题，我们在本论文中提出了一种全新的框架——该框架可通过允许搜索结果中特定于含义的多样性来解决该问题。具体而言，我们先发现一个用于检索特定于含义的图像的可能语义含义列表。然后，我们使用检索到的图像来合并视觉上相似的含义并剪枝掉噪声。最后，我们为每个被选中的语义含义训练一个视觉分类器并使用学习到的特定于含义的分类器来区分多个视觉含义。我们在按含义给图像分类和重新排序搜索结果上进行了大量实验，结果表明了我们提出的方法的优越性。点此查看论文原文

3. 使用稳定化Barzilai-Borwein 步长的随机非凸序数嵌入（Stochastic Non-convex Ordinal Embedding with Stabilized Barzilai-Borwein Step Size）

技术分享图片

根据相对相似度比较来学习表征的方法通常被称为序数嵌入（ordinal embedding），该方法在近些年得到了越来越多的关注。大多数已有的方法都是主要基于凸优化而设计的批处理方法，比如投影梯度下降法（projected gradient descent method）。但是，由于更新过程中通常采用了奇异值分解（SVD），所以这些方法往往非常耗时，尤其是当数据量非常大时。

为了克服这一难题，我们提出了一种名叫 SVRG-SBB 的随机算法，该算法有以下特性：（a）通过丢弃凸性而不再需要 SVD，而且通过使用随机算法（即方差缩减随机梯度算法（SVRG））而实现了优良的扩展性能；（b）引入一种新的具有自适应的步长选择的稳定化 Barzilai-Borwein（SBB）方法，由于凸问题的原始版本可能无法用于所考虑的随机非凸优化问题。此外，研究表明我们提出的算法能在我们的设置中以技术分享图片的速度收敛到一个稳定解，其中 T是总迭代次数。我们还进行了许多模拟和真实数据实验，并通过与当前最佳方法的比较而证明了我们提出的算法的有效性；尤其值得一提的是我们的算法使用远远更低的计算成本也能实现优良的预测表现。点此查看论文原文

4. 降秩线性动态系统（Reduced-Rank Linear Dynamical Systems）

线性动态系统（LDS）在研究多变量时间序列的基本模式方面有广泛的应用。这些模型的一个基本假设是高维时间序列可以使用一些基本的、低维的和随时间变化的隐含状态来表征。但是，已有的 LDS 建模方法基本上是学习一个规定了维数的隐含空间。当处理长度较短的高维时间序列数据时，这样的模型会很容易过拟合。我们提出了降秩线性动态系统（RRLDS），可以在模型学习过程中自动检索隐含空间的固有维数。

我们观察到的关键是 LDS 的动态矩阵的秩中包含了固有的维数信息，而使用降秩正则化的变分推理最终会得到一个简明的、结构化的且可解释的隐含空间。为了让我们的方法能处理有计数值的数据，我们引入了离散性自适应分布（dispersion-adaptive distribution）来适应这些数据本身具备的过离散性/等离散性/欠离散性。在模拟数据和实验数据上的结果表明我们的模型可以稳健地从长度较短的、有噪声的、有计数值的数据中学习隐含空间，并且还显著超越了当前最佳的方法的预测表现。

5. 使用重构模型翻译代词脱落语言（Translating Pro-Drop Languages with Reconstruction Models）

在汉语等代词脱落语言（pro-drop language）中，代词常会被省略，这通常对翻译结果的完整性造成极大的不良影响。到目前为止，很少有研究关注神经网络机器翻译（NMT）中的代词脱落（DP）问题*。在这项研究中，我们提出了一种全新的基于重构的方法，用于缓解NMT 模型中代词脱落所引起的翻译问题。首先，利用双语语料库中提取的对齐信息，将所有源句子中脱落的代词进行自动标注。然后，再使NMT模型中的隐藏层的表示重构回被标注的源句子。使用重构分数来辅助训练目标，用于鼓励隐藏层表征尽可能地嵌入标注的DP信息，从而引导与该NMT模型相关的参数来产生增强的隐藏层表征。我们在汉语-英语和日语-英语对话翻译任务上进行实验，结果表明本方法显著地、持续地超过了强大的NMT基准系统，该基准系统直接建立在标注了DP的训练数据上。

注：论文第一作者王龙跃（查看微博）将 dropped pronoun (DP) problem 称为代词缺失问题。但中文语言学的文献将其称为代词脱落问题，详细例子见此。为了与Pro-Drop Language术语统一，这里使用后者。

6. 改进序列到序列的成分句法分析（Improving Sequence-to-Sequence Constituency Parsing）

序列到序列的成分句法分析，通过自上而下的树线性化（tree linearization），将结构预测转化成一般的序列到序列的问题来处理，因此它可以很容易地利用分布式设备进行并行训练。这种模型依赖于一种概率注意机制，尽管这种机制在一般的序列到序列问题取得了成功，但在句法分析特定场景中它无法保证选择充分的上下文信息。之前的研究工作引入了一种确定性注意（deterministic attention）机制来为序列到序列的句法分析选择有信息量的上下文，但这种方法只能适用于自下而上的线性化，而且研究者也已经观察到：对标准的序列到序列的成分句法分析而言，自上而下的线性化优于自下而上的线性化。在这篇论文中，我们对该确定性注意力机制进行了拓展，使其可以适用于自上而下的树线性化。我们进行了大量实验，结果表明我们的句法分析器相比于自下而上的线性化取得了显著的准确度提升；在不使用重排序（reranking）或半监督训练的情况下，我们的方法在标准的英文PTB 和中文CTB数据集上分别达到了92.3 和 85.4 Fscore。

7. 用于众包配对排名聚合的使用信息最大化的 HodgeRank（HodgeRank with Information Maximization for Crowdsourced Pairwise Ranking Aggregation）

众包近来已经成为了许多领域解决需要人力的大规模问题的有效范式。但是，任务发布者通常预算有限，因此有必要使用一种明智的预算分配策略以获得更好的质量。在这篇论文中，我们在 HodgeRank 框架中研究了用于主动采样策略的信息最大化原理；其中 HodgeRank 这种方法基于多个众包工人（worker）的配对排名数据的霍奇分解（Hodge Decomposition）。该原理给出了两种主动采样情况：费希尔信息最大化（Fisher information maximization）和贝叶斯信息最大化（Bayesian information maximization）。其中费希尔信息最大化可以在无需考虑标签的情况下基于图的代数连接性（graph algebraic connectivity）的序列最大化而实现无监督式采样；贝叶斯信息最大化则可以选择从先验到后验的过程有最大信息增益的样本，这能实现利用所收集标签的监督式采样。实验表明，相比于传统的采样方案，我们提出的方法能提高采样效率，因此对实际的众包实验而言是有价值的。点此查看论文原文

8. 自适应图卷积神经网络（Adaptive Graph Convolutional Neural Networks）

图卷积神经网络（Graph CNN）是经典 CNN 的方法，可用于处理分子数据、点云和社交网络等图数据。Graph CNN 领域当前的过滤器是为固定的和共享的图结构构建的。但是，对于大多数真实数据而言，图结构的规模和连接性都会改变。本论文提出了一种有泛化能力的且灵活的Graph CNN，其可以使用任意图结构的数据作为输入。通过这种方式，可以在训练时为每个图数据都学习到一个任务驱动的自适应图。为了有效地学习这种图，我们提出了一种距离度量学习。我们在九个图结构数据集上进行了大量实验，结果表明我们的方法在收敛速度和预测准确度方面都有更优的表现。

9. 多维长时数据的隐含稀疏模型（Latent Sparse Modeling of Longitudinal Multi-dimensional Data）

技术分享图片

我们提出了一种基于张量的模型，可用于对由多样本描述单个对象的多维数据进行分析。该模型能同时发现特征中的模式以及揭示会影响到当前结果的过去时间点上的数据。其模型系数，一个 k-模的张量，可分解为 k 个维数相同的张量的总和。为了完成特征选择，我们引入了张量的“隐含F-1模”作为我们的公式中的分组惩罚项。此外，通过开发一个基于张量的二次推断函数（quadratic inference function, QIF），我们提出的模型还能考虑到每个对象的所有相关样本的内部关联性。我们提供了当样本量趋近于无穷大时对模型的渐进分析（asymptotic analysis）。为了解决对应的优化问题，我们开发了一种线性化的块坐标下降算法（linearized block coordinate descent algorithm），并证明了其在样本量固定时的收敛性。在合成数据集以及真实数据集：功能性磁共振成像（ fMRI）和脑电图（EEG）上的计算结果表明我们提出的方法比已有的技术有更优的表现。点击查看论文原文

10. 使用用户-物品联合自回归模型的协同过滤（Collaborative Filtering with User-Item Co-Autoregressive Models）

技术分享图片

深度神经网络已经表现出了在协同过滤（CF）方面的潜力。但是，已有的神经方法要么是基于用户的，要么就是基于项目的，这不能明确地利用所有的隐含信息。我们提出了 CF-UIcA，这是一种用于 CF 任务的神经联合自回归模型，其利用了用户和物品两个域中的结构相关性。这种联合自回归允许为不同的任务集成其它额外的所需特征。此外，我们还开发了一个有效的随机学习算法来处理大规模数据集。我们在 MovieLens 1M 和 Netflix 这两个流行的基准上对 CF-UIcA 进行了评估，并且在评级预测和推荐最佳 N 项的任务上都实现了当前最佳的表现，这证明了 CF-UIcA 的有效性。点击查看论文原文

11. EAD：通过对抗样本实现对深度神经网络的弹性网络攻击（EAD: Elastic-Net Attacks to Deep Neural Networks via Adversarial Examples）

技术分享图片

近来的一些研究已经突出说明了深度神经网络（DNN）面对对抗样本时的脆弱性——我们可以轻松创造出在视觉上难以区分，却能让经过良好训练的模型分类错误的对抗图像。已有的对抗样本创造方法是基于 L2 和 L∞ 失真度量的。但是，尽管事实上 L1 失真就能说明整体的变化情况且鼓励稀疏的扰动，但在创造基于 L1 的对抗样本上的发展则很少。

在本论文中，我们将使用对抗样本攻击 DNN 的过程形式化为了使用弹性网络正则化的优化问题。我们对 DNN 的弹性网络攻击（EAD）使用了面向 L1 的对抗样本，并且还包含了当前最佳的 L2 攻击作为特例。在 MNIST、CIFAR10 和 ImageNet 上的实验结果表明 EAD 可以得到一组明确的具有很小 L1 失真的对抗样本，并且能在不同攻击场景中实现与当前最佳方法近似的攻击表现。更重要的是，EAD 能改善攻击可迁移性以及帮补 DNN 的对抗训练，这为在对抗机器学习中利用 L1 失真以及 DNN 的安全意义提供了全新的见解。点击查看论文原文

技术分享图片

腾讯技术工程|腾讯ailab解析2017nips三大研究方向，启动教授及学生合作项目

...做独家解析。第三部分回顾了NIPS的会议情况，并简介了腾讯AILab入选的八篇论文。NIPS被誉为机器学习和人工智能研究领域最具影响力，也是参会人数最多的的学术会议。腾讯AILab去年4月成立，今年第二次参加NIPS，共有8篇文章被... 查看详情

腾讯技术工程|腾讯ailab刷新人脸识别与检测两大测评国际记录，技术日调用超六亿

2017年12月18日，深圳-腾讯AILab研发的FaceR-FCN和FaceCNN算法分别在国际最大、最难的人脸检测平台WIDERFACE与最热门权威的人脸识别平台MegaFace多项评测指标中荣膺榜首，刷新行业纪录，展现其在计算机视觉领域中，特别是人脸技术上... 查看详情

腾讯ailab解读两项nlp成果

...仅做学术分享，如有侵权，联系删除转载于：腾讯AI实验室自然语言处理（NLP）领域顶级会议ACL2021于8月2日至5日在线上举行。本届ACL共收到3350篇论文投稿，其中主会论文录用率为21.3%。据不完查看详情

腾讯ailab解读两项nlp成果

腾讯ailabaaai18现场陈述论文：用随机象限性消极下降算法训练l1范数约束模型

前言：腾讯AILab共有12篇论文入选在美国新奥尔良举行的国际人工智能领域顶级学术会议AAAI2018。腾讯技术工程官方号独家编译了论文《用随机象限性消极下降算法训练L1范数约束模型》（TrainingL1-RegularizedModelswithOrthant-WisePassiveDesc... 查看详情

腾讯论文入选ai国际顶会，详细解读nlp研究成果

...8;NLP）领域顶级会议ACL-IJCNLP2021公布了论文接收情况。腾讯有50余篇论文被接收，又一次刷新了论文录取数量纪录，领跑国内业界AI研究第一梯队。本文将对腾讯AILab主导的两篇论文进行详细解读。ACL2021杰出论文：... 查看详情

cvpr2022｜处理速度仅用0.2秒！港科大&腾讯ailab开源基于gan反演的高保真图像编辑算法...(代码片段)

...微信技术交流群迈微导读本文介绍了一篇来自港科大和腾讯AILab已被CVPR2022收录的工作。工作提出了一种新颖的高保真GAN反演框架，该框架能够在保留图像特定细节（例如背查看详情

cvpr2022｜处理速度仅用0.2秒！港科大&腾讯ailab开源基于gan反演的高保真图像编辑算法...(代码片段)

腾讯技术工程|腾讯公司副总裁姚星：每次浪潮前腾讯都在革自己的命

《中国人工智能之路（一线人物第三季）》是由财新视频与澜亭资本联合出品的高端纪录访谈节目，是国内第一档聚焦被视为“人类第四次工业革命核心驱动力”的新一轮人工智能浪潮在中国发展历史、现状与未来趋势的主题性... 查看详情

eccv2018|ubc&腾讯ailab提出首个模块化gan架构，搞定任意图像ps组合

...配对也不能组合。在本文中，英属哥伦比亚大学（UBC）与腾讯AILab共同提出了一种新型的模块化多域生成对抗网络架构——ModularGAN，生成的结果优于以上三种基线结果。该架构由几个可重复利用和可组合的模块组成。不同的模块... 查看详情

知乎热议！2021大厂ailab现状盘点，网友：名存实亡

...级AILab,首先想到的便是三巨头BAT。「达摩院半死不活、腾讯优图沦落为内部算法外包、百度AILab在Andrew离职后一蹶不振。」还有字节AILab直接变成业务中台。与国外Deepmind、FAIR、GoogleResearch等实验室对标，国内大厂的AILab... 查看详情

腾讯技术工程|qq相册后台存储架构重构与跨idc容灾实践

作者简介：xianmau，2015年加入腾讯TEG架构平台部，一直负责QQ相册平台的维护和建设，主导相册上传架构重构和容灾优化等工作。主要研究方向为口语对话系统、分布式系统架构设计和优化，发表对话系统相关学术论文3篇，系统... 查看详情

厉害了！腾讯ailab首次参加知识图谱顶级赛事kbp2017，就夺得世界冠军

...构建大赛（KnowledgeBasePopulation，简称KBP）结果近日揭晓，腾讯AILab首次参赛，斩获实体发现与链接（EntityDiscoveryandLinkingTrack，EDL）任务冠军。KBP大赛始办于2009年，是国际上影响力最大、水平最高的知识图谱领域赛事，此次夺冠体... 查看详情

腾讯副总裁姚星：腾讯ailab将致力打造通往agi之路

背景：3月15日，腾讯AILab第二届学术论坛在深圳举行，聚焦人工智能在医疗、游戏、多媒体内容、人机交互等四大领域的跨界研究与应用。全球30位顶级AI专家出席，对多项前沿研究成果进行了深入探讨与交流。今天，腾讯副总裁... 查看详情

腾讯技术工程|腾讯海外计费系统架构演进

作者简介：abllen，2008年加入腾讯，一直专注于腾讯计费平台建设，主导参与了腾讯充值中心、计费开放平台、统一计费米大师等项目，见证了米大师从0到1，业务营收从PC到移动多终端再到全球化的跨越过程。20+篇支付专利主撰... 查看详情

腾讯turinglab论文入选icassp，图像ai研究成果获国际认可

...会议ICASSP2022公布了论文入选名单。由王君乐博士带领的腾讯TuringLab实验室论文——《针对手机游戏的主观与客观视频质量评价》（SubjectiveandObjectiveQualityAssessmentofMobileGamingVideo）、《引入用户共识学习的美学质量预测》&#x... 查看详情

ai+游戏：高效利用样本的强化学习|腾讯ailab学术论坛演讲

3月15日，腾讯AILab第二届学术论坛在深圳举行，聚焦人工智能在医疗、游戏、多媒体内容、人机交互等四大领域的跨界研究与应用。全球30位顶级AI专家出席，对多项前沿研究成果进行了深入探讨与交流。腾讯AILab还宣布了2018三大... 查看详情

kdd2022|美团技术团队精选论文解读

总第529篇2022年第046篇今年，美团技术团队有多篇论文被KDD2022收录，这些论文涵盖了图谱预训练、选择算法、意图自动发现、效果建模、策略学习、概率预测、奖励框架等多个技术领域。本文精选了7篇论文做简要介绍ÿ... 查看详情