深度学习发展下的“摩尔困境”,人工智能又将如何破局?

AI科技大本营 AI科技大本营     2023-01-26     522

关键词:

前不久,微软和英伟达推出包含5300亿参数的语言模型MT-NLG,这是一款基于 Transformer 的模型被誉为“世界上最大、最强的生成语言模型”。

毫无疑问,这是一场令人印象深刻的机器学习工程展示。

然而,我们是否应该对这种大型模型趋势感到兴奋?

大脑深度学习

研究人员估计,人脑平均包含 860 亿个神经元和 100 万亿个突触。可以肯定的是,并非所有这些都用于语言。有趣的是,GPT-4 预计有大约 100 万亿个参数……

尽管这个对比很粗糙,但是难道不应该怀疑构建与人脑大小差不多的语言模型是否是一个长期可行的方法?

当然,我们的大脑是经过数百万年进化产生的奇妙装置,而深度学习模型才有几十年的历史。尽管如此,直觉应该告诉我们,有些东西是无法计算的。

深度学习、还是深度钱包?

在庞大的文本数据集上训练一个 5300 亿参数的模型,毫无疑问的是需要庞大的基础设施。

事实上,微软和英伟达使用了数百台 DGX-A100 的 GPU 服务器。每件售价高达 199,000 美元,再加上网络设备、主机等成本,任何想要复制这个实验的人都必须花费近 1 亿美元。

哪些公司有业务例子可以证明在深度学习基础设施上花费 1 亿美元是合理的?或者甚至是1000万美元?很少。

那么这些模型到底是为谁准备的呢?

GPU 集群

尽管其工程才华横溢,但在 GPU 上训练深度学习模型是一种费力的事情。

根据服务器参数表显示,每台 DGX 服务器可以消耗高达 6.5 千瓦的电量。当然,数据中心(或服务器)至少需要同样多的散热能力。

除非你是史塔克家族的人,需要拯救临冬城,否则散热是必须处理的另一个问题。

此外,随着公众对气候和社会责任问题的认识不断提高,公司还需要考虑到他们的碳足迹。马萨诸塞大学 2019 年的一项研究,“在 GPU 上训练 BERT 大致相当于一次跨美飞行”。

而 BERT-Large 拥有 3.4 亿个参数,训练起来的碳足迹究竟有多大?想想都害怕。

构建和推广这些庞大的模型是否有助于公司和个人理解和使用机器学习呢?

相反,如果把重点放在可操作性更高的技术上,就可以用来构建高质量的机器学习解决方案。

使用预训练模型

在绝大多数情况下,并不需要自定义模型体系结构。

一个好的起点是寻找已针对您要解决的任务(例如,总结英文文本)进行预训练的模型。

然后,快速尝试一些模型来预测自己的数据。如果参数标明某个参数良好,那么就完成了!如果需要更高的准确性,应该考虑对模型进行微调。

使用较小的模型

在评估模型时,应该选择能够提供所需精度的最小模型。它将更快地预测并需要更少的硬件资源来进行训练和推理。

这也不是什么新鲜事。熟悉计算机视觉的人会记得 SqueezeNet 于 2017 年问世时,与 AlexNet 相比,模型大小减少了 50 倍,同时达到或超过了其准确性。

自然语言处理社区也在努力缩小规模,使用知识蒸馏等迁移学习技术。DistilBERT 可能是其最广为人知的成就。

与原始 BERT 模型相比,它保留了 97% 的语言理解能力,同时模型体积缩小了 40%,速度提高了 60%。相同的方法已应用于其他模型,例如 Facebook 的 BART。

Big Science 项目的最新模型也令人印象深刻。如下图所示,他们的 T0 模型在许多任务上都优于 GPT-3,同时模型大小缩小了 16 倍。

微调模型

如果需要专门化一个模型,不需要从头开始训练模型。相反,应该对其进行微调,也就是说,仅在自己的数据上训练几个时期。

使用迁移学习的好处,比如:

  • 需要收集、存储、清理和注释的数据更少

  • 实验和数据迭代的速度更快

  • 获得产出所需的资源更少

换句话说:省时、省钱、省硬件资源、拯救世界!

使用基于云的基础设施

不管喜欢与否,云计算公司都知道如何构建高效的基础设施。研究表明,基于云的基础设施比替代方案更具能源和碳效率。Earth.org 表示,虽然云基础设施并不完美,但仍然比替代方案更节能,并促进对环境有益的服务和经济增长。”

在易用性、灵活性和即用即付方面,云当然有很多优势。

优化模型

从编译器到虚拟机,软件工程师长期以来一直使用工具来自动优化硬件代码。

然而,机器学习社区仍在为这个话题苦苦挣扎,这是有充分理由的。优化模型的大小和速度是一项极其复杂的任务,其中涉及以下技术:

  • 硬件:大量面向加速训练任务(Graphcore、Habana)和推理任务(Google TPU、AWS Inferentia)的专用硬件。

  • 剪枝:删除对预测结果影响很小或没有影响的模型参数。

  • 融合:合并模型层(比如卷积和激活)。

  • 量化:以较小的值存储模型参数(比如使用8位存储,而不是32位存储)

幸运的是,自动化工具已经开始出现,例如 Optimum 开源库和 Infinity,这是一种容器化解决方案,可以以 1 毫秒的延迟提供 Transformers 的准确性。

结论

在过去的几年里,大型语言模型的规模每年都以 10 倍的速度增长。这看起来像另一个摩尔定律。

如果机器学习沿着模型巨大化这条路走下去,会导致收益递减、成本增加、复杂度增加等。

这是所期待的人工智能未来的样子吗?

与其追逐万亿参数模型,不如把更多经历放在构建解决现实世界问题的实用且高效的解决方案,岂不是更好?

参考链接:

https://huggingface.co/blog/large-language-models#deep-learning-deep-pockets

什么是深度学习,促进深度学习的策略

最近几年,人工智能技术快速发展,深度学习领域迎来爆发,越来越多的人才加入到深度学习行业。很多小白在初学深度学习的时候,经常会遇到各种各样的问题,如何才能快速入门呢?我们知道,深度学习是一个将理论算法与... 查看详情

深度学习下的验证码识别教程

转:https://bbs.125.la/thread-14031313-1-1.html随着大数据时代,人工智能时代的到来,深度学习的应用越来越广,场景识别、目标检测、人脸识别、图像识别等等广泛应用。在人工智能方面。深度学习框架主要运用于python,c++等资源。... 查看详情

转行深度学习,如何解决自己在学习中遇到的瓶颈问题?

...让全世界实现信息共享,那么,随着以深度学习为代表的人工智能技术的发展,有理由相信,未来将会有比人的智力更高的新物种被创造出来。不过,在众人普遍看好深度学习技术的发展前景时,也有业内专业人士指出,深度技... 查看详情

人工智能深度学习遥感影像语义分割(代码片段)

...特点,因此怎样充分利用这些数据已成为亟待解决的问题.人工智能技术特别是深度学习技术的快速发展,也已经成为测绘遥感学科发展的重要驱动力量。随着国内外卫星商业化的发展,以及无人机的普及,遥感数据量... 查看详情

[ai开发]深度学习如何选择gpu?

...的影响下,准确性越来越高、速度越来越快。深度学习对人工智能行业发展的贡献巨大,这得益于现阶段硬件计算能力的提升、互联网海量训练数据的出现。本篇文章主要介绍深度学习过程中如何选择合适的GPU显卡,如果你是深... 查看详情

深度学习是啥深度学习的意思是啥

...了传统的多层神经网络,甚至机器学习的范畴,逐渐朝着人工智能的方向快速发展。 查看详情

09-机器学习.人工智能和深度学习的关系

1.深度学习是机器学习的子类;深度学习是基于传统的神经网络算法发展到多隐层的一种算法体现2.机器学习是人工智能的一个子类  查看详情

14深度学习-卷积

1.简述人工智能、机器学习和深度学习三者的联系与区别。人工智能是最早出现的,也是最大、最外侧的同心圆;其次是机器学习,稍晚一点;最内侧,是深度学习,当今人工智能大爆炸的核心驱动。搞清三者关系的最简单方法... 查看详情

综述|fpga加速深度学习

点上方人工智能算法与Python大数据获取更多干货在右上方 ··· 设为星标 ★,第一时间获取资源仅做学术分享,如有侵权,联系删除转载于:计算机科学与探索,专知近年来,由于互联网的高速发展和大... 查看详情

用边缘计算为智能制造提速,行业的破局者是他们

...。在这样一个万物互联的时代,云、5G驱动的连接、人工智能和智能边缘四个“超级力量”已成为推动全行业下一轮增长和进化的决定性因素。在英特尔与Science/AAAS联合出品的科技题材纪录片系列《物联新时代致敬破局者》... 查看详情

智能算力ai破局!英特尔携手百度飞桨,共话ai技术创新引领新征程

WAVESUMMIT+2022深度学习开发者峰会重磅来袭!本届峰会,将呈现以飞桨为代表的深度学习领域的最新技术突破、最扎实的产业实践和共创共享的生态成果。还有来自产学研界的专家学者和资深AI工程师将在七大平行论坛... 查看详情

云计算发展学习方向:云计算将与产业深度融合?

早在几年前,马化腾就说过“未来是在云端用人工智能方式处理大数据”,在这对未来的高度概括之中,在全面输出云计算和大数据等领域的核心技术之后,腾讯云再次已经被视为未来人工智能普惠化的一个关键点。腾讯在人工... 查看详情

智能算力ai破局!英特尔携手百度飞桨,共话ai技术创新引领新征程

...不在的计算、无处不在的连接、从云到边缘的基础设施、人工智能、传感和感知。英特尔与百度飞桨在这次数智化浪潮中携手,以软硬件融合创新的方式,共同赋能产业智能化升级。在本次WAVESUMMIT+2022中,英特尔... 查看详情

14深度学习-卷积

1.简述人工智能、机器学习和深度学习三者的联系与区别。答:机器学习是现在人工智能领域中主流的一种方法,除了机器学习,科学家也尝试过其他方法在人工智能领域进行诠释和发展,而深度学习则是机器学习里面主流的方... 查看详情

人工智能,机器学习和深度学习的区别是啥

为了搞清三者关系,我们来看一张图:如图所示:人工智能最大,此概念也最先问世;然后是机器学习,出现的稍晚;最后才是深度学习。从低潮到繁荣自从1956年计算机科学家们在达特茅斯会议(DartmouthConferences)上确认人工智... 查看详情

绪论

...章绪论文章目录【神经网络与深度学习摘要】第1章绪论1.人工智能1.1图灵测试1.2人工智能的主要领域1.3人工智能的发展历史1.4人工智能的流派2.机器学习2.1机器学习定义2.2使用机器学习模型步骤3.表示学习3.1表示学习定义3.2语义... 查看详情

深度学习能够学会编程吗

...系列剧《WestWorld》。如果前两部电影还是局限在机器人、人工智能这样的话题,2016年的新剧则在剧情和人工智能的思考方面有了很大的突破。不再渲染机器人是否会威胁到人类,而是在探讨“Dreamsaremainlymemories”这一类更具哲理... 查看详情

机器学习十三

1.简述人工智能、机器学习和深度学习三者的联系与区别。人工智能是目的,是结果;机器学习、深度学习是方法,是工具。机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习的技术。人工智能的范围可以说很... 查看详情