最牛的nlp都在研究啥?统计400多篇顶会论文发现:统一泛化标准是关键

QbitAl QbitAl     2022-12-05     320

关键词:

Alex 詹士 发自 凹非寺
量子位 | 公众号 QbitAI

一篇NLP (自然语言处理)研究综述文章火了。

根据paperswithcode统计,此文目前已经获赞超800,转发超200次

来自Meta AI、亚马逊、剑桥大学和纽约大学等的研究人员,针对NLP目前的最关键任务:泛化——

提出了一种分类评价系统,以解决目前圈内缺乏分类及评判体系的问题。

为此,他们对过去400多篇泛化相关论文进行分析与归类,共进行600多个单独实验,通过回顾过去泛化相关的研究,也对未来提出更多展望。

此外,研究者们还自建了一个网站,便于泛化领域研究者们搜寻同行成果(链接已附在文末)。

目前,此项内容已在arxiv公布并被圈内研究者关注到。

有网友表示以往很难搜寻相关内容,向团队表示致敬:

也有日本相关爱好者关注转发:

所以,这篇综述具体提出了些什么?

创立针对泛化的分类法

说研究成果前,先简述下什么是泛化

该任务可大致理解为根据过去经验迁移到新任务、问题上的能力,按中学老师的口吻,也就是举一反三的水平。

人们在日常组词造句时其实都有一定的泛化倾向。比如,当你理解了“红”可用于形容苹果,自然就会说“红番茄”、“红草莓”等词,但这对机器却是个难题。

泛化能力还需依靠大量基本常识,否则词汇自由组合难免会出现啼笑皆非的效果。比如“绿色吃小狗”、“量子位大于美女”……

玩笑归玩笑,放NLP领域中,泛化的确一直被视为重点攻坚方向,不少从业者更将该能力视为通往AGI的关键。

但长期以来,对于NLP模型到底应该怎样进行泛化操作,及评估其泛化性能的条件,却鲜有一致的标准和意见,泛化行为一直被简单地用“随机训练-测试分割”来评估。

在本篇文章中,研究者通过回顾过去数十年NLP领域泛化能力的成果,希望用一个系统来定义和讨论泛化问题——

由此,他们提出了一套分类法,设计出五个维度供泛化领域的同行们参考:

(1)motivation 动机
(2)generalisation type 泛化类型
(3)shift type 偏移类型
(4)shift source 偏移源
(5)shift locus 偏移轨迹

还统计了哪些类型研究多,哪些类型相对小众,以图呈现(整得挺像样):

下面来展开说说这些分类维度。

(1)动机 维度

所谓的动机维度,源于根据泛化任务的底层目的来对各种问题进行分类。

比如市面上主流泛化任务,意在提升模型的实用性,希望模型在经过某一类文本数据集训练后,也能在其他场景给出合理回应并具备足够的鲁棒性,其动机在于提升实用性。

但有的泛化研究不聚焦实用场景,而是纯粹就想拔升模型的认知能力,希望它具备更快学习的能力,此前有科学家研究LSTM如何优化嵌套语法结构,也是为该目的服务。

除此之外,动机维度还包括研究模型是否正确理解任务,是否在应用中保证公平和包容性。

下图展示了2018-2022年不同动机泛化研究的占比数量,其中实用性仍为大头:

(2)泛化类型 维度

该维度从泛化任务的类型出发进行分类。

在实际研究中,有的泛化研究聚焦各种信息的重组结合,本文前面提及的「红苹果——>红草莓」就属于此类。

此外还有语句内容结构变化的泛化问题、跨不同任务之间的泛化、跨不同语言的泛化…都属于从类型维度进行分类。

研究者们给出了6个类型的分类,情况如下:

(3)偏移类型 维度

该维度从技术实现过程中分类,根据不同泛化任务中测试集、训练集与预测结果各种变量概率分布的偏移情况,研究者分出3个主要类型:

协变量偏移、标签偏移、全偏移。

这其中,协变量偏移在诸多研究中占比最多,这是由于训练模型过程中,经常难以保证每次输入满足稳定分布,基于泛化任务定义,直观也能想象此类情况发生不会少见。

除却上述三种,研究人员还进一步加入了两种偏移分类,即假设偏移和多重偏移。

(4)偏移源 维度

正如上段提到,泛化研究中变量偏移是普遍情况,研究者们又从造成偏移的源头出发对不同研究进行了分类。

这其中包括了:自然产生偏移、训练模型及调整语料库等过程中人为造成的偏移、使用生成数据造成的偏移等类型。

值得一提的是,不同数据集之间自然产生的变量偏移占比最高。

(5)偏移轨迹 维度

最后,研究者基于变量偏移发生的部位,提出一个新分类维度。

考虑从头到尾整个模型训练调参验证步骤,变量概率分布发生偏移的位置有——

训练到测试过程之间、微调到测试之间、预训练到训练过程之间、预训练到测试过程之间以及整个流程发生多次偏移的情况。

这其中,早期研究论文发生变量偏移集中在训练到测试过程中,但2020年后,更多偏移问题发生在微调到测试过程之间。

为NLP泛化测试统一标准打基础

研究者分析发现,近几年来,和泛化相关的论文数量飙升

他们先用计算机从ACL(NLP与计算语言学领域顶会)文集中筛选出标题或摘要中包含generalisation、generalization、generalise或generalize等词的论文。(这些词都和“泛化”有关)

并人工检查了被选出来的论文,以去除那些实际上并没有展开讲泛化问题的论文。

然后他们统计出这些论文的数量,以及其在每年的ACL总论文数中的占比。

结果显示,这些论文不论是绝对数量还是相对占比都在大幅提升,而且从2018年起至今尤为明显

接下来,他们使用了前文介绍的分类法对这些论文进行注释。

对每篇论文而言,第一位注释者给其5个标签,然后第二位注释者将会检查这些标签。

如果这两位注释者之间产生了分歧,他们会先进行讨论来试图解决问题。如果这两位没法达成一致的话,这时第三位注释者就会登场了。

不止上述一个步骤,整个注释过程都相当严谨。(可以看看这张图感受一下…)

经过细致的分类统计工作,结果显示,跨领域的泛化问题是最被关注的,占比超过30%,其次是鲁棒性和任务理解方面。

此外,超过一半的研究都碰到了自然造成的变量偏移问题,这也是相关从业者最关心的。

分类的意义不止于此。研究者通过这种方式提出一个新的框架来系统化和理解泛化研究,最终目的旨在为NLP的泛化测试建立可靠的统一标准奠定基础

他们相信,他们的系统性分类框架为泛化发展提供了必要基础,为相关研究者提供了更有效的工具,帮助大家能快速找到可参考的相近成果。

在发表本文的同时,这群研究人员还发布了一个网页,并打算及时跟进NLP泛化研究的最新进展。

研究者指出,他们希望通过这些系统化的框架和这个在线工具,来尽可能地统一大伙儿对“NLP泛化测试”的理解,因为现有研究几乎都处于“各抒己见”的状态。

(毕竟这个领域的研究几乎从2018年才活跃起来)

他们认为,关于NLP模型的重要泛化测试应该被托管在一个共享平台上,同时还得有个排行榜,来使其更加方便和透明化。

在一个大型社区上(像GitHub这种),NLP研究人员和领域专家们共同探讨并决定哪些测试应该优先进行。

当然,研究者们也明确表示,目前的工作还没有为泛化测试提供标准化的数据或程序,这些还得一步步来。

研究者来自科技巨头和顶尖大学

这篇综述的作者可谓“群星璀璨”。

除了有来自Meta和亚马逊等科技巨头的研究员,还有来自爱丁堡大学、剑桥大学、NYU和香港科技大学等高校的学者。

论文一作Dieuwke Hupkes现任Meta AI的研究科学家,主要研究方向为用于NLP的人工神经网络。

这些研究者补充道,下一步他们将会分析判定关于NLP的哪些泛化测试将优先进行。

他们指出,如果研究进展得比较顺利的话,甚至在明年,关于NLP的泛化测试标准就会发生重大改变。

论文地址:
https://arxiv.org/abs/2210.03050
网页传送门:
https://genbench.github.io/visualisations

12篇顶会论文,深度学习时间序列预测经典方案汇总

如果觉得我的算法分享对你有帮助,欢迎关注我的微信公众号“圆圆的算法笔记”,更多算法笔记和世间万物的学习记录~早期的时间序列预测主要模型是诸如ARIMA这样的单序列线性模型。这种模型对每个序列分别进行拟合。在A... 查看详情

港科大硕士iccv论文被指抄袭,导师不知情,二作震惊求撤稿,网友:其余12篇顶会都查查...

丰色发自凹非寺量子位报道|公众号QbitAI“几乎一模一样!”最近,顶会ICCV接收的一篇论文被指控抄袭顶会ICML上的一篇!而“抄袭者”是两位来自中国高校的硕博生。一经爆料,就迅速在知乎、Reddit等平台上引发... 查看详情

他2年拿下博士学位,发表11篇顶会论文!浙大校友李旻辰斩获siggraph最佳博士论文奖...

金磊发自凹非寺量子位报道|公众号QbitAI连续四年,SIGGRAPH最佳博士论文奖,被华人学者拿下。今年,浙大校友、UCLA数学系博士后李旻辰斩获殊荣。然而随之浮出的,可不单单是这份荣耀,还有他那开挂般的学... 查看详情

13篇顶会,25岁成985高校博导,入职半年发icml,网友:万点暴击

...NTU博士毕业,当上了985高校博导。半年时间还发了一篇顶会,怎么讲?卷,还是卷...今年1月,重庆大学计算机学院引进了最年 查看详情

用ai打破编解码器内卷,高通最新几篇顶会论文脑洞有点大

萧箫发自凹非寺量子位报道|公众号QbitAI用AI搞视频编解码器,现在路子有点“野”。插帧、过拟合、语义感知、GAN……你想过这些“脑洞”或AI算法,也能被用到编解码器上面吗?例如,原本的算法每帧压缩到16.4K... 查看详情

北京最最最牛的it公司都在这了

     正文  第一梯队1.阿里(北京)2.腾讯(北京)3.百度(总部)4.字节跳动(总部)第二梯队1.京东(总部)2.美团点评(总部)3.网易(北京)4.滴滴出行(总部࿰... 查看详情

原型设计(顶会热词统计)(代码片段)

...Need,需求)帮助用户快速了解近几年顶会的热门领域和研究方向用户可给定论文列表通过论文列表,爬取论文的题目、摘要、关键词、原文链接;可对 查看详情

7篇顶会论文带你梳理多任务学习建模方法

如果觉得我的算法分享对你有帮助,欢迎关注我的微信公众号“圆圆的算法笔记”,更多算法笔记和世间万物的学习记录~公众号后台回复“多任务”,即可获取相关论文资料集合~1.多任务学习介绍多任务学习... 查看详情

如何阅读nlp论文

...营维护的一个非盈利的数据库,由于免费,学术研究人员可以在其他顶会或者期刊没有录用之前,将自己最新 查看详情

13篇顶会!25岁成985高校博导!

...年学者人才引进,并聘任为博导、教授,其主要研究方向为机器学习、数据挖掘、人工智能。 冯磊入职时仅26岁,这是重大计算机学院目前年龄最小的引进人才,也是该学院有史以来首次直接给应届博士毕业生正... 查看详情

10篇顶会paper,入选微软学者,上海交大吴齐天的科研思考!

...下我的经历,我现在是交大计算机系的博士生,研究方向是机器学习和数据挖掘,主要是关注复杂结构数据的学习问题,应用场景有推荐系统、在线广告、 查看详情

互联网大厂30%的员工开会时都在摸鱼?斯坦福和微软最新研究已提名chi2021最佳论文候选...(代码片段)

????????关注后回复 “进群” ,拉你进程序员交流群????????  新智元报道  作者:曹瀚成编辑:好困【新智元导读】在开会「摸鱼」时发现顶会论文把视频会议干私活这件事研究了个透是怎样一种体验。斯坦福的博... 查看详情

nlp/cl顶会收录

全文转载自知乎@刘知远老师:初学者如何查阅自然语言处理学术资料(2016修订版)。1. 国际学术组织、学术会议与学术论文自然语言处理(naturallanguageprocessing,NLP)在很大程度上与计算语言学(computationallinguistics,CL)重... 查看详情

13篇顶会!25岁成985高校博导!

点上方人工智能算法与Python大数据获取更多干货在右上方 ··· 设为星标 ★,第一时间获取资源仅做学术分享,如有侵权,联系删除转载于:科研大匠综合冯磊自个人主页、重庆大学官网、重庆大学计算机学院2... 查看详情

对比学习顶会论文系列-3-2

...SimCLS:ASimpleFrameworkforContrastiveLearningofAbstractiveSummarization1.研究出发点2.研究方法3.实验部分4.总结与反思1.3主题检测中的对比学习——ModelingDiscriminativeRepresentationsforOut-of-DomainDetectionwithSupervisedContrastiveLearning1.文章的研究出发点2.文... 查看详情

最牛的打字效果js插件typing.js

原文:http://www.cnblogs.com/coffeedeveloper/p/3852894.html#2989479 项目网站:http://coffeedeveloper.github.io/typing.js/index.html 最新在做公司的一个项目,需要实现一个敲打代码的动画效果,粗意味比较简单,果断自己直接开写,写着写着发... 查看详情

字节跳动今斩获顶会最佳论文!

...享,如有侵权,联系删除转载于:机器之心被顶会拒稿请不要灰心,说不定你的论文会成为另一个顶会的最佳。昨日,NLP领域国际顶会ACL2021公布获奖论文信息:来自字节跳动火山翻译的一篇神经机器翻译... 查看详情

聚焦计算机视觉前沿,蚂蚁技术研究院4篇论文入选顶会neurips

...rIPS2022)公布论文接收结果,成立一年的蚂蚁技术研究院共四篇论文被录用,研究成果聚焦计算机视觉技术的前沿问题。 NeurIPS2022NeurIPS(NeuralInformationProcessingSystems)是全球最负盛名的机 查看详情