关键词:
明敏 发自 凹非寺
量子位 报道 | 公众号 QbitAI
AI生成的文本好不好,最权威的评估者竟然不是人类自己?
最近,华盛顿大学和艾伦人工智能研究院的学者们在研究中发现:
未经过训练的人类评估文本时,往往过分关注生成文本像不像人话,而忽略了生成文本更重要的问题,即它的内容是否正确、合乎逻辑。
研究人员就给出了一个例子:
他们分别让未经训练的人类和机器来评价一段GPT-3生成的文字。
这段文字翻译过来为:
从前,有一个海盗。他是那种宁愿把时间花在驱赶在船周围游泳的鲨鱼上,也不愿驶向外国港口寻找战利品的海盗。他是个好海盗,高尚的海盗,诚实的海盗。他是个宁愿和妻儿呆在家里也不愿出海的海盗。
人类评估员认为这段文字除了有些啰嗦外,没什么大毛病。
这可能就是一个海盗想回家陪老婆孩子吧,AI可能没理解,但是这也没什么稀奇的。
机器评估也认为这段文字很啰嗦,不过它对文段的内容提出了质疑:
海盗会有老婆孩子?还不和他一起在船上生活?
对比两种判断,人类评估更看重这段话像不像人话,在检验过它的确非常流畅后,就会默认这段文本没什么大问题了。
而机器的判断角度则更加多维,会考虑到文字传达的意思是否正确。
很难分辨出GPT-3生成的文本
为了验证自己的观点,研究人员让未经训练的评估人员来区分人类写的文本和AI生成的文本。
他们选择了故事、新闻、菜谱三种不同的文体进行测试。
具体测试中,受试人员不仅要判断给出的文本是否人类创作的,还要填写相应的理由。
结果显示,在区分人类和GPT-2创作的文本时,被测试群体的正确率为57.9%。
但是在区分GPT-3生成的文本上,正确率就下降到了49.9%。
而二选一问题的随机概率就有50%……
显然,普通人已经很难识别出当下最先进的NLG模型所生成的文本。
为了更进一步了解受试人员是如何做出判断的,研究人员对150个回答进行了分析。
结果发现,受试人员在做出判断后,更加倾向于从文本的格式、风格、语法角度上给出理由。
150个回答中,基于文本形式的判断几乎是基于内容判断的2倍。
但是,GPT-3在文本流畅度方面的表现其实已经非常出色,这或许也是为什么人类很难分辨GPT-3生成文本。
而且研究人员发现,受试人员给出判断的理由都不尽相同,这也表明人类评估文本没有一个明确的标准。
既然NLG模型训练后可以变强,那培训一下评估人员呢?
研究人员决定对一些受试人员进行了培训,提高他们评估文字的能力和速度。
他们准备了3种不同的培训:
第一种是给出明确的判断标准,让受试人员学习后来判断;
第二种是通过大量的实例训练,也就是题海战术;
第三种是通过不断对比来完成训练。
然而结果表明,这好像并没有什么用。
三种培训后的判断正确率分别为52%、55%、53%,相较于未受训时的表现,没有显著提高。
不过从受试人员的回答中可以看到,更多人现在会多维度判断文本了,还是有进步的。
基于这样的实验结果,研究人员认为在评估最先进的NLG模型方面,人类可能真的不太靠谱了。
这实验不太靠谱
对于这样的结论,网友们提出了一些不同的看法:
判断文本质量其实是一件非常艰巨的任务,需要专家来进行评估。
或许是这项研究中的受试人员不太行?
有人就指出了问题所在:他们用的Amazon Mechanical Turk的评估员。
是受试人员不太行。
AMTurk作为一个众包平台,近年来实在是饱受诟病。
此前BBC报道称,由于招募到的志愿者所在的地区存在一些观念偏见,导致最后研究出的算法也存在偏见。
而且招募到的人员水平也常常参差不齐。
不过有人也表示:这些人可能也是最适合的,因为他们最接近普通大众水平,专家认为好的文字,普通人未必也这么认为。
这要取决于生成文本的目标人群是谁。
实验中的志愿者对乔伊斯(后现代文学作家)的欣赏程度肯定和英文系教授不同。
尽管顶级文学评论家将其描述为“20世纪实验文学的伟大纪念碑之一”和“英语中最美丽的散文诗之一”,但对于大多数普通读者而言,它非常晦涩难懂。
此外,也有人就对这项研究提出了改进建议:
我认为他们可以用更简单的NLG算法(基于规则,n-gram, rnn)进行更精细的分析,并对“非专家”评估者进行排名,而不是将他们作为一个群体来处理。
而关于NLG模型生成文本的评估问题,谷歌曾给出过一个方案。
2020年,它们提出了一个可量化评估NLG模型性能的指标——BLEURT。
这是一个基于BERT的学习评价指标,在学习了几千个人类评估案例后,它可以对不同模型生成的文本进行打分。
其最大的优势就是,评估速度更快。
谷歌研究人员认为这个指标有助于NLG模型的研究和开发,而且可以为开发人员提供更加多维的评判标准。
论文地址:
https://arxiv.org/pdf/2107.00061.pdf
参考链接:
[1]https://www.reddit.com/r/MachineLearning/comments/ok6c4k/r_human_evaluations_no_longer_the_gold_standard/
[2]https://arxiv.org/abs/2004.04696
革新transformer!清华大学提出全新autoformer骨干网络,长时序预测达到sota
...学习实验室另辟蹊径,基于随机过程经典理论,提出全新Autoformer架构,包括深度分解架构及全新自相关机制,长序预测性能平均提升38%。尽可能延长预测时效是时序预测的核心难题ÿ 查看详情
自然语言生成概述
...儿,从表面看NLG和NLU是一对逆过程,NLU主要关注点在于以人类语言(自然语言)作为输入,处理后输出机器可读的语义表示;而NLG则是将语义信息以人类可读的自然语言形式进行表达,选择并执行一定的语法和语义规则生成自然... 查看详情
智能语音助手的工作原理是?先了解自然语言处理(nlp)与自然语言生成(nlg)
...自然语言处理(NLP)与自然语言生成(NLG)语音助手越来越像人类了,与人类之间的交流不再是简单的你问我答,不少语音助手甚至能和人类进行深度交谈。在交流的背后,离不开自然语言处理(NLP)和自然语言生成(NLG)这两种基... 查看详情
缺血性心血管疾病的风险评估标准
...病事件(Coronaryheartdisease)和脑卒中(stroke)已成为危害人类健康的主要疾病,给个人、家庭和社会带来了沉重的经济和精神负担。心血管疾病的危险因素在人群中普遍存在,如高血压、高血脂、高血糖、肥胖、吸烟等;健康风... 查看详情
评估人类的金三角模型
这个话题严格来说应该是属于哲学范畴。如果参考中国文化背景,国学中有许多这方面的内容,也就是怎么判断一个人,有没有出息哈,有没有能耐哈,做人做事如何等等逐日此类的主题。但是这些东西在国学中一般是以伦理教... 查看详情
如何在 Windows Phone 8 中检查应用程序是不是已更新或全新安装?
】如何在WindowsPhone8中检查应用程序是不是已更新或全新安装?【英文标题】:HowtocheckifappisupdatedorfreshinstallinWindowsPhone8?如何在WindowsPhone8中检查应用程序是否已更新或全新安装?【发布时间】:2015-02-2517:27:19【问题描述】:我正... 查看详情
大淘宝技术提出ttnet算法荣获“最佳工业论文奖”奖项
...术商家赋能算法团队联合浙江大学提出的TTNet算法荣获“最佳工业论文奖”奖项。由IEEE计算机学会、国际网络智能协会、美国计算机学会主办,牛津大学、昆士兰大学、迪肯大学、中国医学科学院、东南大学、南京财经大学... 查看详情
Chez Scheme 中是不是对已编译/评估过的程序的内存进行了垃圾回收?
】ChezScheme中是不是对已编译/评估过的程序的内存进行了垃圾回收?【英文标题】:Isthememoryofcompiled/eval’edproceduresgarbage-collectedinChezScheme?ChezScheme中是否对已编译/评估过的程序的内存进行了垃圾回收?【发布时间】:2021-04-0214:04... 查看详情
习---人类命运共同体思想
...着齐聚北京,参与一带一路的建设,习主席的演讲中提及人类命运共同体思想,受到关注。 战争、饥饿、贫富差距、经济衰退,世界充满了不确定性。这是人类都会思考的问题,习提出一代一路建设就是为了实现共赢。一带... 查看详情
政策评价模型都有哪些
...标准(卡尔·帕顿,大卫·沙维奇,2001)。威廉·N.邓恩将评估标准分为六类,即效果、效率、充足性、公平性、回应性和适宜性。陈振明认为政策评估有五个标准,即生产力标准、效益标准、效率标准、公正标准和政策回应度标... 查看详情
FreeMarker 模板错误:以下已评估为 null 或缺失 |但不是真的
】FreeMarker模板错误:以下已评估为null或缺失|但不是真的【英文标题】:FreeMarkertemplateerror:Thefollowinghasevaluatedtonullormissing|BUTNOTTRUE【发布时间】:2016-06-1818:35:21【问题描述】:我面临的错误太奇怪了。一切看起来都很好,但是当... 查看详情
在 Java 中,检查 Selenium WebDriver 是不是已退出的最佳方法
】在Java中,检查SeleniumWebDriver是不是已退出的最佳方法【英文标题】:InJava,bestwaytocheckifSeleniumWebDriverhasquit在Java中,检查SeleniumWebDriver是否已退出的最佳方法【发布时间】:2013-09-0806:32:05【问题描述】:我需要检查页面对象的集... 查看详情
检测 Windows 是不是已准备好下载/安装 Windows 更新的最佳方法?
】检测Windows是不是已准备好下载/安装Windows更新的最佳方法?【英文标题】:BestwayofdetectingifWindowshasWindowsUpdatesreadytodownload/install?检测Windows是否已准备好下载/安装Windows更新的最佳方法?【发布时间】:2010-09-1209:41:31【问题描述... 查看详情
Java SafeVarargs 注释,是不是存在标准或最佳实践?
】JavaSafeVarargs注释,是不是存在标准或最佳实践?【英文标题】:JavaSafeVarargsannotation,doesastandardorbestpracticeexist?JavaSafeVarargs注释,是否存在标准或最佳实践?【发布时间】:2012-12-2306:04:57【问题描述】:我最近遇到了java@SafeVarargs... 查看详情
视频编码标准优化和画质评估
对于下一代编解码技术H.266/VVC标准,相比前一代H.265/HEVC标准,可以在主观质量不变的情况下节省约50%的码率。H.266/VVC标准之后是否还会有新的标准,如果有,可能涌现出哪些新技术?此外,在有限的码率... 查看详情
star云安全评估
STAR云安全评估是信息安全管理体系ISO/IEC27001的增强版本。尽管该标准得到了广泛的认可与尊重,但该标准的要求更具一般性,并未关注对于特定业务领域至关重要的安全问题(例如云安全)。 云安全联盟与一... 查看详情
onStart() 是确定“用户已重新打开应用程序”的最佳位置是不是正确?
...onStart()是确定“用户已重新打开应用程序”的最佳位置是不是正确?【英文标题】:IsitcorrectthatonStart()isthebestplacetodetermine"userhasre-openedtheapp"?onStart()是确定“用户已重新打开应用程序”的最佳位置是否正确?【发布时间】... 查看详情
swintransformer为主干,清华等提出moby自监督学习方法,代码已开源
...主干架构,将MoCov2和BYOL结合,并在ImageNet-1K线性评估中 查看详情