正文

一文看懂nlp预训练模型前世今生

人工智能博士  人工智能博士  2023-01-04  372

关键词：

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★，第一时间获取资源

仅做学术分享，如有侵权，联系删除

转载于：量子位

搞出了全球最大预训练模型的悟道团队，现在来手把手地教你怎么弄懂预训练这一概念了。

刚刚，清华唐杰教授联合悟道团队发布了一篇有关预训练模型的综述：

整篇论文超过40页，从发展历史、最新突破和未来研究三个方向，完整地梳理了大规模预训练模型（PTM）的前世今生。

现在就一起来看看这篇论文的主要内容吧。

预训练的历史

论文首先从预训练的发展过程开始讲起。

早期预训练的工作主要集中在迁移学习上，其中特征迁移和参数迁移是两种最为广泛的预训练方法。

从早期的有监督预训练到当前的自监督预训练，将基于Transformer的PTM作用于NLP任务已经成为了一种标准流程。

可以说，最近PTM在多种工作上的成功，就得益于自监督预训练和Transformer的结合。

这也就是论文第3节的主要内容：

神经架构Transformer，以及两个基于Transformer的里程碑式的预训练模型：BERT和GPT。

两个模型分别使用自回归语言建模和自编码语言建模作为预训练目标。

后续所有的预训练模型可以说都是这两个模型的变种。

例如论文中展示的这张图，就列出了近年修改了模型架构，并探索了新的预训练任务的诸多PTM：

大规模预训练模型的最新突破

论文的4-7节则全面地回顾了PTM的最新突破。

这些突破主要由激增的算力和越来越多的数据驱动，朝着以下四个方向发展：

设计有效架构

在第4节中，论文深入地探究了BERT家族及其变体PTM，并提到，所有用于语言预训练的基于Transformer的BERT架构都可被归类为两个动机：

统一序列建模
认知启发架构

除此以外，当前大多数研究都专注于优化BERT架构，以提高语言模型在自然语言理解方面的性能。

利用多源数据

很多典型PTM都利用了数据持有方、类型、特征各不相同的多源异构数据。

比如多语言PTM、多模态PTM和知识（Knowledge）增强型PTM。

提高计算效率

第6节从三个方面介绍了如何提升计算效率。

第一种方法是系统级优化，包括单设备优化和多设备优化。

比如说像是ZeRO-Offload，就设计了精细的策略来安排CPU内存和GPU内存之间的交换，以便内存交换和设备计算能够尽可能多地重叠。

第二种方法是探索更高效的预训练方法和模型架构，以降低方案的成本。

第三种则是模型压缩策略，包括参数共享、模型剪枝、知识蒸馏和模型量化。

解释和理论分析

对于PTM的工作原理和特性，论文在第7节做了详细的解读。

首先是PTM所捕获的两类隐性知识：

一种是语言知识，一般通过表征探测、表示分析、注意力分析、生成分析四种方法进行研究。

另一种是包括常识和事实在内的世界知识。

随后论文也指出，在最近相关工作的对抗性示例中，PTM展现出了严重的鲁棒性问题，即容易被同义词所误导，从而做出错误预测。

最后，论文总结了PTM的结构稀疏性/模块性，以及PTM理论分析方面的开创性工作。

未来的研究方向

到现在，论文已经回顾了PTM的过去与现在，最后一节则基于上文提到的各种工作，指出了PTM未来可以进一步发展的7个方向：

架构和预训练方法

包括新架构、新的预训练任务、Prompt Tuning、可靠性

多语言和多模态训练

包括更多的模态、解释、下游任务，以及迁移学习

计算效率

包括数据迁移、并行策略、大规模训练、封装和插件

理论基础

包括不确定性、泛化和鲁棒性

模识（Modeledge）学习

包括基于知识感知的任务、模识的储存和管理

认知和知识学习

包括知识增强、知识支持、知识监督、认知架构、知识的互相作用

应用

包括自然语言生成、对话系统、特定领域的PTM、领域自适应和任务自适应

论文最后也提到，和以自然语言形式，即离散符号表现的人类知识不同，储存在PTM中的知识是一种对机器友好的，连续的实值向量。

团队将这种知识命名为模识，希望未来能以一种更有效的方式捕捉模识，为特定任务寻找更好的解决方案。

更多细节可点击直达原论文：

http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20and%20Future.pdf

参考链接：
https://m.weibo.cn/status/4678571136388064

---------♥---------

声明：本内容来源网络，版权属于原作者

图片来源网络，不代表本公众号立场。如有侵权，联系删除

AI博士私人微信，还有少量空位

如何画出漂亮的深度学习模型图？

如何画出漂亮的神经网络图？

一文读懂深度学习中的各种卷积

点个在看支持一下吧

一文读懂！最新transformer预训练模型综述！

点击机器学习算法与Python学习，选择加星标精彩内容不迷路机器之心报道在如今的NLP领域，几乎每项任务中都能看见「基于Transformer的预训练语言模型（T-PTLM）」成功的身影。这些模型的起点是GPT和BERT。而这些模... 查看详情

一文读懂！最新transformer预训练模型综述！

一文带你了解知识图谱融入预训练模型哪家强？九大模型集中放送

©原创作者 |疯狂的Max01预训练模型与知识图谱1.预训练模型近年来，随着语言模型的技术发展，其在NLP领域获得巨大的成功，业界SOTA的前沿模型也大多是Transformer结构模型的变体。Transformer结构模型使用注意力机制来获取文本... 查看详情

nlp自然语言处理的前世今生

一文读懂自然语言处理发展定义基础技术词法分析(lexicalanalysis)句法分析(syntacticparsing)语义分析(SemanticAnalysis)应用技术Reference发展一般认为1950年图灵提出著名的“图灵测试”是自然语言处理思想的开端。20世纪50年代到70年代自然... 查看详情

最强nlp预训练模型库pytorch-transformers正式开源：支持6个预训练框架，27个预训练模型

先上开源地址：https://github.com/huggingface/pytorch-transformers#quick-tour官网：https://huggingface.co/pytorch-transformers/index.htmlPyTorch-Transformers（正式名称为pytorch-pretrained-bert）是一个用于自然语言处理（NLP）的最先进的预训练查看详情

深度学习机器学习与nlp的前世今生

随着深度学习的发展，自然语言处理领域的难题也得到了不断突破，AlphaGo项目的主要负责人DavidSilver曾说“深度学习(DL)+强化学习(RL)=人工智能(AI)”。目前深度学习在自然语言处理上主要有哪些应用？在工程实践中是否会有哪些... 查看详情

一文探索“预训练”的奥秘！

Datawhale干货作者：王奥迪，单位：中国移动云能力中心2022年下半年开始，涌现出一大批“大模型”的优秀应用，其中比较出圈的当属AI作画与ChatGPT，刷爆了各类社交平台，其让人惊艳的效果，让... 查看详情

一文读懂基因测序技术的前世今生

一文读懂基因测序技术的前世今生随着人们对自身基因遗传信息的了解和掌握，使得基因检测技术不断发展和完善，基因检测技术也得到了迅猛发展，下面就和小编一起看看这些年测序技术的发展历程。测序技术的每一次变... 查看详情

nlp方向----面试笔试题集：预训练模型bert

...2Bert输入输出表征篇2.2.1Bert输入输出表征长啥样？2.3Bert预训练2.3.1Bert预训练任务介绍2.3.2Bert预训练任务之MaskedLM篇2.3.2.1Bert为什么需要预训练任务MaskedLM？2.3.2.2Bert预训练任务MaskedLM怎查看详情

nlp方向----面试笔试题集：预训练模型bert

史上最详尽的nlp预处理模型汇总

...序已经无处不在。NLP使用率的快速增长主要归功于通过预训练模型实现的迁移学习概念，迁移学习本质上是在一个数据集上训练模型，然后使该模型能够适应在不同的数据集上执行不同的NLP操作。这一突破使得每个人都能轻松地... 查看详情

并发编程java并发编程-看懂aqs的前世今生

在我们可以深入学习AbstractQueuedSynchronizer（AQS）之前，必须具备了volatile、CAS和模板方法设计模式的知识，本文主要想从AQS的产生背景、设计和结构、源代码实现及AQS应用这4个方面来学习下AQS如果想学习Java工程化、高性能及分布... 查看详情

NLP 预训练模型（例如 ELMo、Bert）的数据预处理

】NLP预训练模型（例如ELMo、Bert）的数据预处理【英文标题】：DataPreprocessingforNLPPre-trainingModels(e.g.ELMo,Bert)【发布时间】：2019-07-2303:26:04【问题描述】：我计划根据手头的数据（人们输入的笔记）从头开始训练ELMo或Bert模型。我现... 查看详情

恒源云(gpushare)_超越预训练nlp的模型来喽

文章来源|恒源云社区原文地址|从零训练一个超越预训练的NLP模型原文作者|Mathor欢迎欢迎，热烈欢迎👏社区大佬回归啦～我又可以愉快的搬运文章了！都让开，我要开始搬运啦。正文开始：本文基于Arxiv上... 查看详情

5300亿参数，sota屠榜！最大nlp预训练模型

...如有侵权，联系删除转载于：新智元啥？NLP预训练模型的规模又被刷新了？就在昨天，微软和英伟达联合发布了5300亿个参数的Megatron-Turing自然语言生成模型(MT-NLG)。号称同查看详情

一文看懂多模态大型语言模型gpt-4

文章目录前言什么是GPT-4GPT-4VSGPT-3.5GPT-4与其他模型对比GPT-4视觉输入GPT-4局限性写在最后前言近日，OpenAI发布了最新版的生成预训练模型GPT-4。据官方介绍，最新一代的模型是一个大模型，性能比CPT-3.5强悍很多，不... 查看详情

nlp面试qa预训练模型

目录自回归语言模型与自编码语言BertBert中的预训练任务MaskedLanguageModelNextSentencePredictionBert的EmbeddingBERT-wwmRoberta与Bert的区别ERNIE与Bert的区别XLNet排列语言模型(PermutationLanguageModel，PLM)双流注意力机制（Two-StreamSelf-Attention）部分预... 查看详情

nlp预训练语言模型（三）：逐步解析transformer结构

...所示：这是典型的Transformer结构，简单来说，Transformer=预训练(input)+Encoder*N+预训练(output)+Decoder*N+output。模型的运行步骤为：①对Input做Embedding，可以使用Word2Vec等工具，维度为512维，Embedding过后结合positionalencoding，它记录了输入... 查看详情