5300亿nlp模型“威震天-图灵”发布,由4480块a100训练,微软英伟达联合出品

QbitAl QbitAl     2023-01-13     388

关键词:

丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

5300亿参数!全球最大规模NLP模型诞生。

微软联手英伟达推出,名叫威震天-图灵自然语言生成模型(Megatron Turing-NLG)。

据他们介绍,这样的量级不仅让它成为全球规模最大,同时也是性能最强的NLP模型。

训练过程一共使用了4480块英伟达A100 GPU,最终使该模型在一系列自然语言任务中——包括文本预测、阅读理解、常识推理、自然语言推理、词义消歧——都获得了前所未有的准确率。

三倍规模于GPT-3

此模型简称MT-NLG,是微软Turing NLG和英伟达Megatron-LM两者的“继任者”。

Turing NLG由微软于2020年2月推出,参数为170亿;Megatron-LM来自英伟达,2019年8月推出,参数83亿。

它俩在当时分别是第一、二大规模的Transfomer架构模型。

我们都知道大参数规模的语言模型效果会更好,但训练起来也很有挑战性,比如:

  • 即使是最大容量的GPU,也存不下如此规模的参数;

  • 如果不特别注意优化算法、软件和硬件堆栈,那么所需的大量计算操作可能会导致训练时间过长。

那这个参数已是GPT-3三倍的MT-NLG又是如何解决的呢?

答案就是汲取“两家”所长,融合英伟达最先进的GPU加速训练设备,以及微软最先进的分布式学习系统,来提高训练速度。

并用上千亿个token构建语料库,共同开发训练方法来优化效率和稳定性。

具体来说,通过借鉴英伟达Megatron-LM模型的GPU并行处理,以及微软开源的分布式训练框架DeepSpeed,创建3D并行系统。

对于本文中这个5300亿个参数的模型,每个模型副本跨越280个NVIDIA A100 GPU,节点内采用Megatron-LM的8路张量切片(tensor-slicing),节点间采用35路管道并行(pipeline parallelism)。

然后再使用DeepSpeed的数据并行性进一步扩展到数千个GPU。

最终在基于NVIDIA DGX SuperPOD的Selene超级计算机上完成混合精度训练。

(该超级计算机由560个DGX A100服务器提供支持,每个DGX A100有8个 NVIDIA A100 80GB Tensor Core GPU,通过NVLink 和 NVSwitch相互完全连接)。

该模型使用了Transformer解码器的架构,层数、hidden dimension和attention head分别为 105、20480和128。

训练所用数据集包括近20万本书的纯文本数据集Books3、问答网站Stack Exchange、维基百科、学术资源网站PubMed Abstracts、ArXiv、维基百科、GitHub等等,这些都是从他们先前搭建的Pile数据集中挑出的质量较高的子集。

最终一共提取了2700亿个token。

五大任务上的准确度测试

开发者在以下5大任务上对MT-NLG进行了准确度测试。

  • 在文本预测任务LAMBADA中,该模型需预测给定段落的最后一个词。

  • 在阅读理解任务RACE-h和BoolQ中,模型需根据给定的段落生成问题的答案。

  • 在常识推理任务PiQA、HellaSwag和Winogrande中,每个任务都需要该模型具有一定程度的常识了解。

  • 对于自然语言推理,两个硬基准,ANLI-R2和HANS考验先前模型的典型失败案例。

  • 词义消歧任务WiC需该模型从上下文对多义词进行理解。

结果该模型在PiQA开发集和LAMBADA测试集上的零样本、单样本和少样本三种设置中都获得了最高的成绩。

在其他各项任务上也获得了最佳。

除了报告基准任务的汇总指标外,他们还对模型输出进行了定性分析,并观察到,即使符号被严重混淆,该模型也可以从上下文中推断出基本的数学运算。

当然,该模型也从数据中也提取出了刻板印象和偏见。微软和英伟达表示也在解决这个问题。

另外,他们表示在生产场景中使用MT-NLG都必须遵守微软的“负责任的AI原则”来减少输出内容的负面影响,但目前该模型还未公开。

参考链接:

https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

5300亿nlp模型“威震天-图灵”发布,由4480块a100训练,微软英伟达联合出品

...量子位报道|公众号QbitAI5300亿参数!全球最大规模NLP模型诞生。由微软联手英伟达推出,名叫威震天-图灵自然语言生成模型(MegatronTuring-NLG)。据他们介绍,这样的量级不仅让它成为全球规模最大,同时也... 查看详情

5300亿参数,sota屠榜!最大nlp预训练模型

...侵权,联系删除转载于:新智元啥?NLP预训练模型的规模又被刷新了?就在昨天,微软和英伟达联合发布了5300亿个参数的Megatron-Turing自然语言生成模型(MT-NLG)。号称同 查看详情

微软英伟达联手推出语言模型mt-nlp,5300亿参数,现存最大!

...0)微软和英伟达联手推出最大、最强的人工智能语言模型:Megatron-Turing自然语言生成模型(MT-NLG)。微软和英伟达宣布,他们联合推出迄今为止最大和最强的人工智能驱动的语言模型:Megatron-Turing(MT-NLP)。... 查看详情

中英文最大ai模型世界纪录产生,大模型竞赛新阶段来了

边策 发自凹非寺量子位报道|公众号QbitAI超大AI模型训练成本太高hold不住?连市值万亿的公司都开始寻求合作了。本周,英伟达与微软联合发布了5300亿参数的“威震天-图灵”(Megatron-Turing),成为迄今为止全... 查看详情

easynlp开源|中文nlp+大模型落地,easynlpisallyouneed

...|阿里开发者公众号一导读随着BERT、Megatron、GPT-3等预训练模型在NLP领域取得瞩目的成果,越来越多团队投身到超大规模训练中,这使得训练模型的规模从亿级别发展到了千亿甚至万亿的规模。然而,这类超大 查看详情

easynlp开源中文nlp算法框架

1、背景        随着BERT、Megatron、GPT-3等预训练模型在NLP领域获得前瞻的成果,许多多团队也进入超大规模训练中,使得训练模型从亿级别发展到了千亿甚至万亿的规模。首先,模型参数量过大使得训练和推理速... 查看详情

如何训练2457亿参数量的中文巨量模型“源1.0”

如何训练2457亿参数量的中文巨量模型“源1.0”浪潮人工智能研究院从2018年的BERT到2020年的GPT-3,NLP语言模型经历了爆发式的发展过程,其中BERT模型的参数量为3.4亿,而GPT-3的模型参数量达到了1750亿。2021年9月,浪... 查看详情

微信推出自研nlp大规模语言模型welm,现已开放api推动应用落地

大规模语言模型领域迎来新“选手”。近日,微信AI推出自研NLP大规模语言模型WeLM,该模型是一个尺寸合理的中文模型,能够在零样本以及少样本的情境下完成包多语言任务在内的多种NLP任务。同时,微信AI团队... 查看详情

微信推出自研nlp大规模语言模型welm,现已开放api推动应用落地

大规模语言模型领域迎来新“选手”。近日,微信AI推出自研NLP大规模语言模型WeLM,该模型是一个尺寸合理的中文模型,能够在零样本以及少样本的情境下完成包多语言任务在内的多种NLP任务。同时,微信AI团队... 查看详情

如何运行拥抱脸赫尔辛基 NLP 模型

】如何运行拥抱脸赫尔辛基NLP模型【英文标题】:HowtorunhuggingfaceHelsinki-NLPmodels【发布时间】:2021-12-3017:41:30【问题描述】:我正在尝试使用来自huggingface的Helsinki-NLP模型,但是我找不到任何有关如何操作的说明。自述文件是计算... 查看详情

百度nlp实习生转岗一面

...的。只记住了几个关键的问题。 1、手写快排2、生成模型与判别模型的区别 分类问题:2种形式:F(x)=yp(y|x) 生成模型:由数据学习联合分布概率p(x,y),然后求出条件概率分布p(y|x)p(y|x)=p(x,y)/p(x)例如,朴素贝叶斯。判别... 查看详情

chatgpt的不足之处:nlp是核心,搜索辅助,算力是硬核。目前的数理计算能力还比较差!

...简介自2018年以来,OpenAI一直在发布生成式预训练语言模型GPT(GenerativePre-trainedTransformer),可用于生成文章、代码、机器翻译、问答等各类内容。在当时,参数数量只有1.17亿。接下来,OpenAI每一代GPT模型... 查看详情

放话挑战gpt-3!以色列推出参数多30亿词条多5倍的新语言模型|公测不用排队...

...在NLP领域的主导地位。他们计划发布一个比GPT-3还要大的模型,且目前不用排队苦苦申请,所有人都可以免费“调教”。大多少呢?GPT-3模型拥有1750亿个参数,而他 查看详情

如何知道 NLP 模型中与特定类相关的单词?

】如何知道NLP模型中与特定类相关的单词?【英文标题】:HowtoknowthewordsassociatedwithaspecificclassinNLPmodel?【发布时间】:2020-10-1106:13:02【问题描述】:我已经使用逻辑回归算法和TF-IDF矢量化器为“消费者投诉分类”训练了NLP模型。... 查看详情

百分点认知智能实验室:nlp模型开发平台在舆情分析中的设计和实践(下)

编者按NLP模型开发平台是以快速打造智能业务为核心目标,无需机器学习专业知识,模型创建-数据上传-数据标注(智能标注、数据扩充)-模型训练-模型发布-模型校验全流程可视化便捷操作,短时间内即可获得高精度NLP模型,真... 查看详情

nlp 中是不是有用于事件跟踪的项目或成熟模型?

】nlp中是不是有用于事件跟踪的项目或成熟模型?【英文标题】:Isthereanprojectormaturemodelforeventtrackinginnlp?nlp中是否有用于事件跟踪的项目或成熟模型?【发布时间】:2020-04-0104:30:17【问题描述】:我刚刚开始使用nlp。最近我有一... 查看详情

nlp系列_用可视化解构bert,从上亿参数中提取出的6种直观模式

大数据文摘联合百度NLP出品审校:百度NLP、龙心尘编译:Andy,张驰来源:towardsdatascience.comhttps://blog.csdn.net/longxinchen_ml/article/details/89036531编者按:深度神经网络的超强有效性一直让人疑惑。经典论文《可视化... 查看详情

使用 scikit-learn 为 NER 训练 NLP 对数线性模型

】使用scikit-learn为NER训练NLP对数线性模型【英文标题】:Usingscikit-learntotraininganNLPloglinearmodelforNER【发布时间】:2016-01-1919:54:02【问题描述】:我想知道如何使用sklearn.linear_model.LogisticRegression来训练NLP对数线性模型以进行命名实... 查看详情