看完jeffdean新论文,我再也不相信大厂的鬼话了

机器学习算法与Python学习-公众号 机器学习算法与Python学习-公众号     2022-12-02     197

关键词:

点击 机器学习算法与Python学习选择加星标

精彩内容不迷路

机器之心报道

用数万美元 TPU 算力,实现在 CIFAR-10 上 0.03% 的改进,创造了新的 SOTA,但这一切值得吗?

事情要从这周四说起,谷歌研究员 Andrea Gesmundo 和谷歌 AI 负责人、大牛 Jeff Dean 的论文《An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems》被提交到了预印版论文平台 arXiv 上。

Jeff Dean 等人提出了一种进化算法,可以生成大规模的多任务模型,同时也支持新任务的动态和连续添加,生成的多任务模型是稀疏激活的,并集成了基于任务的路由,该路由保证了有限的计算成本,并且随着模型的扩展,每个任务添加的参数更少。

作者表示,其提出的新方法依赖于知识划分技术,实现了对灾难性遗忘和其他常见缺陷(如梯度干扰和负迁移)的免疫。实验表明,新方法可以联合解决并在 69 个图像分类任务上取得有竞争力的结果,例如对仅在公共数据上训练的模型,在 CIFAR-10 上实现了新的业界最高识别准确度 99.43%。

论文链接:https://arxiv.org/abs/2205.12755

这看起来是 Jeff Dean 等人朝着他们近期设立的雄伟目标 pathway 通用 AI 架构迈出的重要一步。去年,他所带领的团队提出了「下一代通用 AI 架构」Pathways,旨在用一个架构同时处理多项任务,并且使其拥有快速学习新任务、更好地理解世界的能力。

在 5 月 12 日的谷歌 IO 大会上,皮查伊还表示研究人员用 Pathways 系统训练了一个 5400 亿参数的大型语言模型 PaLM,这是一个只有解码器的密集 Transformer 模型。可以完成的任务包括自动生成代码、解决数学问题、修复 bug,解释笑话的梗等等。PaLM 可以区分因果关系,理解上下文中的概念组合。

PaLM 模型在数学问题上的准确率提升到了 58%,接近 60% 的 9 到 12 岁儿童解决问题的水平,又可以在没经过对应语料库训练的情况下实现准确的翻译。

而这个星期的新论文中,作者提出的 µ2Net 模型可以预训练或随机初始化。一次搜索出的单个任务上的最佳模型称为活动任务。在任务的活跃阶段,在活跃任务上训练的模型群体会不断进化——随机突变然后测试评分,保留高分的,淘汰低分的。一个活跃阶段由多代组成,其中并行采样和训练多批子模型。在任务活动阶段结束时,仅保留其最佳评分模型作为多任务系统的一部分。一个任务可以被多次激活。

作者表示 µ2Net 可以在大型任务集上实现最先进的质量,并能够将新任务动态地引入正在运行的系统中。学习的任务越多,系统中嵌入的知识就越多。同时,随着系统的增长,参数激活的稀疏性使每个任务的计算量和内存使用量保持不变。通过实验,每个任务的平均增加参数量减少了 38%,由此产生的多任务系统仅激活了每个任务总参数的 2.3%。

对于程序员大神 Jeff Dean,人们一直心存敬畏。该研究刚刚提交时,人们的看法还是赞赏和期待,但在更多的人仔细阅读过论文之后,社区的风评突然发生了转变。

昨天在 reddit 的机器学习社区上,一名 AI 研究者 MrAcurite 表达了愤怒的情绪:

我相信这些数字是准确的,并且他们确实做了工作并得到了结果。在这篇论文中,作者使用了非常复杂的进化和多任务学习算法,它有 18 页的内容,非常有趣,解决了一堆问题。但有两个值得注意的地方。

首先,他们主张的突破性指标数字是 CIFAR-10 上的 99.43,而此前的 SOTA 为 99.40,所以在宏伟的计划中向前推进了一步,「哇哦」。

其次,论文末尾有一张图表,详细说明了仅用于产生最终结果的训练方案的 TPU 核心小时数。总计为 17,810 小时。假设你不是个在谷歌工作的人,你必须使用 3.22 美元 / 小时的按需付款。这意味着这些训练好的模型成本为 57,348 美元。

严格来说,在一个足够通用的遗传算法上投入足够的计算肯定最终会产生好的性能,所以虽然你绝对可以阅读这篇论文并收集有关「如何使用遗传算法,通过利用已有模型子集部分,在每个新任务上学习权重的方式来完成多任务学习」的有趣想法。

或者用人话来说,本文只是「Jeff Dean 花了足够的钱养活一个四口之家五年的钱,以获得 0.03% 在 CIFAR-10 上的改进。」

在不断推陈出新的大厂 AI 论文中,OpenAI 无疑是最严重的违规者,但似乎每个人都在这样做。你在现有数据和现有基准的现有问题上投入了大量的计算和少量的新想法,然后如果你的数字远远高于已有的 SOTA 数字,你就可以在自己简历上贴上一个小标签。

这让人如何相信你的思路不是有害的?我甚至无法验证它们,无法将它们应用到自己的项目中。

这真的是一个研究社区该有的样子吗?大量的算力掌握在少数科技巨头的手中。我认为应该有一个新的论文期刊,要求其中的论文在单个消费者 GPU 上 8 小时内可以复现其实验结果。

MrAcurite 发贴后,有多位研究者展开了讨论,人们从各个角度附和了她的观点。

SupportVectorMachine (认证的研究人员)表示:

我几乎对深度学习失去了兴趣,因为作为小型实验室的从业者,基本上在计算预算方面不可能比得过科技巨头。即使你有一个很好的理论想法,主流环境可能也存在偏见,让它难以看到曙光。这酿成了一个不公平的竞争环境。

当然,这些大规模的研究项目并非没有价值。像 GPT、DALL-E 等都很棒。但如果我不能在我自己的机器上复现这些大模型,它们对我来说的意义就不大。

gambs (认证的 PhD)回复道:

讲一件真实的事,两年前我写了一篇关于流模型的论文,一位审稿人给出的评语是:「生成的图像看起来不如 GAN 好」。

当时我使用的是以前发布的预训练模型,并且没有以任何方式对其进行修改,这篇论文旨在找到隐空间中采样的部分,而不是提出改进模型生成图像质量的模型。

fmai 回复道:

作为 AI 会议的审稿人,我认为可以通过规范化帮助改变这种现状。例如,我尝试专门查看论文是否符合科学工作的要求,是否有完整的研究问题,是否有证据充分支持假设等。用所有自变量都不同的新系统击败 SOTA 模型不会创造任何新知识,也不是科学研究。

JanneJM 则表示:

用更大的网络击败现有 SOTA 模型并不是推动该领域发展的唯一途径。相反,这可能是最无趣的研究。

专注于使用小型网络(用于物联网设备、实时训练等)做更多事情,不需要大量计算能力,这样的研究不是更有趣吗,实际用途也更大。理论结果和概念突破,无论是数学证明还是统计证明、新型方法等等,这些其实几乎不需要实际计算。

预训练大模型的兴起,正让越来越多的研究者大呼「先进模型跑不起」、「难以和科技大厂的 AI Lab 竞争」,技术的进步似乎把很多人挡在了前沿研究的门槛之外。现在看来,情况有着愈演愈烈的趋势,最近一段时间,在社交网络上刷屏的新研究是 OpenAI 的 DALL-E2 和谷歌的 Imagen,这些模型都需要耗费巨大的算力完成训练。

不知在人们的呼吁过后,未来的研究风向是否会有改变。

参考内容:

https://www.reddit.com/r/MachineLearning/comments/uyratt/d_i_dont_really_trust_papers_out_of_top_labs/

https://www.reddit.com/r/MachineLearning/comments/uyfmlj/r_an_evolutionary_approach_to_dynamic

觉得不错,请点个在看呀

某大厂程序员抱怨:“大厂镀金”是鬼话

本文转载自程序员八卦坊间传言:程序员可以先在大厂镀金,以后去中小厂毫无压力,基本不会被卡,事实果真如此吗?近日,一个大厂程序员发帖抱怨:谁说的大厂镀金?信了你们的鬼话,从... 查看详情

meanshifttracking:2000-2012回顾(新论文更新)

参考: MeanShiftTracking:2000-2012回顾(新论文更新) ECCV2016要来了,估计深度学习要一统天下了吧 查看详情

大厂与小厂招人的区别,看完多少有点不敢相信

前两天在头条发了一条招人的感慨,关于大厂招人和小公司招人的区别。大厂:有影响力,有钱,能够吸引了大量的应聘者。因此,也就有了筛选的资格,比如必须985名校毕业,必须35岁以下,不能... 查看详情

千万不要相信,老板这句鬼话!

写在最后程序员摸鱼基地成立了!!!程序员读者交流群正式为大家开放了,加入群聊一起摸鱼吃瓜分享技术!感兴趣的朋友,可以下方公号后台回复:666点击下方图片查看更多原创漫画——fin.——作... 查看详情

深度分析:java并发编程之线程池技术,看完面试这个再也不慌了!(代码片段)

线程池的好处Java中的线程池是运用场景最多的并发框架,几乎所有需要异步或并发执行任务的程序都可以使用线程池。在开发过程中,合理地使用线程池,相对于单线程串行处理(SerialProcessing)和为每一个任务分配一个新线程... 查看详情

2022生成模型进展有多快?新论文盘点9类生成模型代表作

萧箫发自凹非寺量子位|公众号QbitAIChatGPT的出现,彻底将生成AI推向爆发。但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——图像、视频、代码、3D模型、音频、文本、科学知识……尤其2022年... 查看详情

让chatgpt长“手”!meta爆火新论文,让语言模型学会自主使用工具

...搜索引擎那边刺刀拼刺刀呢,谁想Meta冷不防抛出一篇新论文,顿时吸引全场目光:瞄准ChatGPT的“软肋”,让大语言模型自行学会了使用工具!简单来说,基于Meta的这个思路,ChatGPT这些大语言模型可以... 查看详情

看完《禁闭岛》,我始终不愿意相信片中莱昂纳多是精神病人,我更愿意相信他是被阴谋了的~

参考技术A话说这片子我看了三遍,电影很好,LEO演的也很好~虽然我也不愿意相信LEO是精神病人,不过通过细节,还是能得出结论的。1。我想说的是,如果一个山洞一个女人那么容易就下去了的话,为什么在搜查的时候医生不去... 查看详情

想面试阿里,腾讯这些大厂,看完此文你的成功率能达到90%!

一、概述面试,难还是不难?取决于面试者的底蕴(气场+技能)、心态和认知及沟通技巧。面试其实可以理解为一场聊天和谈判,在这过程中有心理、思想上的碰撞和博弈。其实你只需要搞清楚一个逻辑:“面试官为什么会这... 查看详情

2022android十一位大厂面试题;134道真题;再也不怕面试了(代码片段)

前言金九银十袭来,很多小伙伴面试的面试,跳槽的跳槽,实习的实习,都逃不过要面试的魔掌,前段时间闲暇时间搜罗了一共十一个大厂的面试题,当然也附带了答案,省的大家知道了面试题,... 查看详情

朋友去大厂面试python开发工程师,看完准备过程我傻眼了(代码片段)

金九银十刚过去,有一部分朋友在这期间肯定经历了一番大厂面试的洗礼,不知道大家是经受住了考验如愿以偿了,还是折戟沉沙无功而返呢?身边已经有技术大佬顺利通过了阿里P6/P7的面试,在30岁之前成功... 查看详情

再也不用担心了

...ointerException,真是令人头疼。到底怎么避免空指针异常?看完这篇文章,可以帮助你。1.对象设置默认值Objectobj=newObject();Stringst 查看详情

看完这一篇,再也不怕面试官问到intentservice的原理(代码片段)

IntentService是什么在内部封装了Handler、消息队列的一个Service子类,适合在后台执行一系列串行依次执行的耗时异步任务,方便了我们的日常coding(普通的Service则是需要另外创建子线程和控制任务执行顺序)IntentService的缺点IntentS... 查看详情

凶猛的车祸,看完不敢超速

因为自己的汽车违规,今天去了一趟拖车厂,一看吓一跳,吓的我浑身打颤,才见识到车祸的凶猛,驾驶时都撞没了,以后再也不敢超速和违规行驶了。有太多事故例子了650)this.width=650;"src="https://p3.pstatp.com/large/18b00005d4151a4a4566"a... 查看详情

看完这篇对标大厂的精选java面试题,面试想被pass都难~emmm···选哪家大厂好呢?

不知道大家有没有已经开始为今年的最后的跳槽季做准备了。有很多同学在后台私信老师说,哎呀,老师每次面试前想突击准备一下,但是又没有一个系统的思路和体系,每到这个时候就犯愁。很无奈哈,但... 查看详情

python难懂吗?看完这个再也不会感觉python很难!

Python是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。Python... 查看详情

看完typescript系列文章,进大厂了!!!(代码片段)

极客江南:一个对开发技术特别执着的程序员,对移动开发有着独到的见解和深入的研究,有着多年的iOS、Android、HTML5开发经验,对NativeApp、HybridApp、WebApp开发有着独到的见解和深入的研究,除此之外还精通JavaScrip... 查看详情

看完typescript系列文章,进大厂了!!!(代码片段)

极客江南:一个对开发技术特别执着的程序员,对移动开发有着独到的见解和深入的研究,有着多年的iOS、Android、HTML5开发经验,对NativeApp、HybridApp、WebApp开发有着独到的见解和深入的研究,除此之外还精通JavaScrip... 查看详情