清华刘知远团队巨作!pre-trainedprompttuning框架,让超大模型调参变简单

机器学习算法与Python学习-公众号 机器学习算法与Python学习-公众号     2023-02-19     748

关键词:

点击 机器学习算法与Python学习选择加星标

精彩内容不迷路

机器之心报道

来自清华大学的刘知远、黄民烈等研究者提出了一个名为「PPT」的新框架。PPT=Pre-trained Prompt Tuning。

近年来,微调预训练语言模型(PLM)取得了很大进展。通过微调 PLM 的全部参数,从大规模无标签语料库中获得的多方面知识可以用于处理各种 NLP 任务,并优于从头学习模型的方法。为简单起见,此处将这种全模型调整(full-model tuning)称为 FT。

如下图 1 (b) 和 (c)所示,主流的 FT 方法共有两种。第一种是任务导向的微调,在 PLM 上添加一个 task-specific 的头(head),然后通过优化 task-specific 训练数据上的 task-specific 学习目标,来微调整个模型。

第二种是以 prompt 为导向的微调,其灵感来自最近的一些研究,这些研究利用语言 prompt 来激发 PLM 的知识。在以 prompt 为导向的微调中,数据样本被转换为包含 prompt token 的线性序列,所有的下游任务都被转化为语言建模问题。

如图 1 (c) 所示,通过在句子中添加 prompt(It was hXi),我们可以根据 PLM 在掩码位置给出的预测结果(great 或 terrible)来确定这个句子到底是积极还是消极。

如图 1 所示,与以任务为导向的微调相比,在目标方面(掩码语言建模),以 prompt 为导向的微调更类似于预训练,因此有助于更好地利用 PLM 中的知识,通常也能取得更好的结果。

尽管上述 FT 方法已经显示出很好的结果,但随着模型规模的迅速扩张,为每个下游任务微调一个完整的大模型正变得越来越昂贵。为了应对这一挑战,来自谷歌的 Brian Lester 等人在《 The Power of Scale for Parameter-Efficient Prompt Tuning 》中提出了 prompt tuning(PT),以降低为下游任务微调大模型的成本,如图 1 (d)所示。

具体来说,PT 采用包含连续嵌入的 soft prompt 代替 hard prompt(离散语言短语)。这些连续 prompt 嵌入通常是随机初始化和端到端学习的。为了避免为每个下游任务存储整个模型,PT 冻结了 PLM 的所有参数,只调整 soft prompt,无需添加任何中间层和 task-specific 组件。尽管 PT 具有很少的可调参数和简单的设计,但它仍然可以媲美 FT,如图 2(a)所示。

PT 有两个非常有前景的优势:1)与 hard prompt 相比,soft prompt 可以端到端学习;2)PT 是大规模 PLM 实际应用的一种高效、有效的范式。然而,如图 2 (b)所示,在 few-shot 场景下,PT 的表现比 FT 差很多,这可能会阻碍 PT 在各种低资源场景下的应用。

因此,在这篇论文中,来自清华大学的 Yuxian Gu、Xu Han、刘知远、黄民烈四位研究者广泛探索了如何通过 PT 以高效和有效的方式使用 PLM 进行 few-shot 学习。

具体来说,在论文的第二部分,他们进行了试点实验,分析了 PT 在大规模 PLM 中用于 few-shot 学习的有效性,这是现在很多研究所忽略的问题。他们发现:1)verbalizer 的选择对于性能有很大的影响;2)简单地用具体的词嵌入初始化 soft prompt 并不能提高性能;3)将 soft 和 hard prompt 结合起来很有帮助;4)所有这些方法都不能很好地处理 few-shot prompt 调优问题。上述观察结果表明,为大规模 PLM 找到合适的 prompt 并非易事,而精心设计的 soft prompt token 初始化至关重要。

论文链接:https://arxiv.org/pdf/2109.04332.pdf

为了帮助模型找到合适的 prompt,研究者使用大规模无标记语料库上的自监督任务对这些 token 进行预训练。为了保证预训练 prompt 的泛化能力,他们将典型分类任务分为三种:sentence-pair 分类、multiple-choice 分类和 single-text 分类,每种对应一个自监督的预训练任务。此外,他们发现 multiple-choice 分类比其他分类都要普遍,可以将所有下游分类任务都统一到这种分类中。他们给这种 Pre-trained Prompt Tuning 框架起名为「PPT」。

研究者使用 3 个 11B 的 PLM(T5-XXL、mT5-XXL、CPM-2)在多个数据集上评估了 PPT 的性能。实验结果表明,PPT 不仅可以大幅提升 few-shot PT,媲美甚至超越 FT 方法,还能降低 few-shot 学习的方差。除有效性之外,PPT 还保留了现有 PT 方法的参数效率,这对未来在大规模 PLM 上的应用具有重要价值。

PPT 架构概览

遵循 T5 和 PT 的方法,研究者以一种 text-to-text 的方式解决所有下游任务。如图 1(d)所示,为了弥合预训练和下游任务之间的 objective gap,以 prompt 为导向的微调将下游任务转化为一些完形填空式的目标。以分类任务为例,给定输入句子及其标签,首先应用模式映射将 x 转换为一个新的 token 序列 f(x),其中 V 是 PLM 的词汇表。f(x)不仅添加了一些 prompt token 作为提示,还保留了至少一个 masking token <X>,让 PLM 预测掩码位置的 token。接下来,使用一个 verbalizer将 y 映射到一个标签 token 序列 v(y)。借助 f(·)和 v(·),分类任务可以用 pattern-verbalizer 对 (f, v) 来表示:

其中,θ表示所有可调参数,特别是 PLM 的参数。为了方便起见,研究者使用「PVP」来表示这个 pattern-verbalizer 对。

在 PT 中,将一组 soft prompt token P 连接到序列的前面,模型输入变为 [P;f (x)]。其中, [·; ·] 为连接函数。通过单独调整 P,其他参数固定,将式(1) 替换为:

由于大规模 PLM 性能强大,在多个全数据情境下,式(2) 被证实与这些 FT 方法具有可比性。但是研究者发现,学习有效的 soft prompt 并不容易,这可能导致模型在各种 few-shot 情境下性能较低。参数的初始化通常对模型的学习难度有很大的影响。一般来说,除了随机初始化 p 之外,一些研究从 PLM 的词汇表 V 中采样词嵌入作为初始化。然而,试点实验的结果表明,现有初始化策略及其简单变体对基于大规模 PLM 的模型性能影响很小或有消极影响(具体细节参见论文第四部分)。

近年来,预训练已经被证明是一种寻找模型良好初始化的有效方法。受此启发,研究者提出预训练 soft prompt。他们注意到,若干组下游任务与基于无标签预训练语料库的某些自监督任务相关。例如,一些 sentence-pair 分类的任务(如自然语言推理和句子相似度计算),与预训练阶段使用的 NSP 任务相似。如图 3 所示,这些任务都以两个句子作为输入并比较它们的语义。因此,对于这些 sentence-pair 任务来说,由 NSP 预训练的 soft prompt 可以是一个很好的初始化。

假设可以将下游任务分为 m 组:T_1, T_2, ..., T_m,其中,T_i 是包含 n_i 个下游任务的集合,其中,。针对每个组,研究者设计了一个对应的预训练任务,在这些预训练任务上预训练了 soft prompt 之后(所有模型参数固定),研究者得到 m 个预训练 prompt:P_1, P_2, ..., P_m。在预训练之后,对于 T_i 中的每个任务,研究者继续优化式(2),使用 P_i 作为 soft prompt 的初始化。

实验及结果

之前的工作(Lester 等,2021;Zhang 等,2021b)表明,T5-XXL 在完全数据设置方面可以与 FT 相媲美。因此在实验部分,对于英文数据集,该研究使用具有 11B 个参数的 T5-XXL 作为基础模型来进行 PT。该研究还对各种尺寸的 T5 进行了 FT 实验,验证了 T5-XXL 在 few-shot 场景中的表现优于其他尺寸,并且基于 T5-XXL 改进 PT 是有意义的。对于中文数据集,该研究基于 CPM-2 进行 PT。由于 CPM-2 不提供其他尺寸的模型,研究者将其与各种尺寸的 mT5 (Xue 等, 2021) 进行比较。

主要实验结果

在英文和中文数据集上的结果如下表 4 所示,其中 FT 的部分展示了各种尺寸 T5 模型的全模型微调结果;PT 的部分展示了 PPT 和其他基线的结果。第一个基线是 Vanilla PT,其中的 soft token 是从正态分布中随机初始化的;第二个基线是混合策略;然后该研究还考虑了 Lester 等人(2021)使用的 LM Adaption。其中 T5 模型通过语言建模进一步预训练 10K 步,以减少预训练和微调之间的差距。除了 PPT 以外,该研究还测试了 PPT 的两种变体:一种是 Hybrid PPT,将精心设计的 hard prompt 与预训练的 soft prompt 相结合;另一种是 Unified PPT,其中所有任务都以 multiple-choice 的格式统一。

表 4 给出了关于有效性的结果:

  • 随着参数数量的增加,FT 的性能有所提升。

  • 在大多数数据集中,PPT 明显优于 Vanilla PT 和 LM Adaption。

  • PPT 在所有中文数据集和大多数英文数据集上都优于 10B 模型的 FT。

  • PPT 在大多数数据集上会产生较小的方差,相比之下,一般的 few-shot 学习常存在不稳定性,例如 Vanilla PT。

Unified PPT 将所有格式统一为 multiple-choice 的格式,是 PPT 的另一种变体。表 4 的结果表明 Unified PPT 达到了与 PPT 和 Hybrid PPT 相当的性能,并且优于 soft-prompt 调整基线。


觉得不错,请点个在看呀

nlp新秀prompt跨界出圈,清华刘知远最新论文将它应用到vlm图像端

...P,和南洋理工大学的CoOp都用了这种思路。现在,清华副教授刘知远团队最新发布的视觉语言模型论文中,也提出了一种基于prompt的 查看详情

清华大学-刘知远:表示学习与知识获取

---恢复内容开始---分布式表示优势:在一段文本当中,进行实体抽取:实际是在计算词汇与文档之间的相似度。自动摘要技术:是在计算句子与文档之间的相似度。优势2:由表层的数据,关联关系,能够进一步挖掘出数据底层的... 查看详情

nlp新秀prompt跨界出圈,清华刘知远最新论文将它应用到vlm图像端

点击上方“迈微AI研习社”,选择“星标★”公众号重磅干货,第一时间送达大家好,我是Charmve。NLP的新秀prompt,最近着实有点火。上周针对CoOp写过一篇分享,视觉-语言表征学习CLIP,这周继续介绍视觉语... 查看详情

nlp新秀prompt跨界出圈,清华刘知远最新论文将它应用到vlm图像端

...xff09;。像OpenAI的CLIP,和南洋理工大学的CoOp现在,清华副教授刘知远团队最新发布的视觉语言模型论文中,也提出了一种基于prompt的新方法。据论文表示,这也是首次将prompt用于cross-model和零样本/少样本学习视觉... 查看详情

713页鸿蒙巨作《鸿蒙harmonyos手机应用开发实战》简介

《鸿蒙HarmonyOS手机应用开发实战》一书由清华大学出版社出版,已经于2022年1月上市。拿到了样书,第一时间希望与读者朋友们分享下这本书里面的内容。这本书的背景近期拿到了样书,迫不及待的对新书做了浏览。... 查看详情

国内语音信号处理团队

...信实验室(戴礼荣老师、郭武老师、杜俊老师、凌震华等)清华大学语言和语音技术中心(郑方老师、王东老师等)清华大学语音处理与机器智能实验室(欧智坚老师等)清华大学语音与音频技术实验室(刘加老师、张卫强老师等)清华大... 查看详情

大模型系统和应用——transformer&预训练语言模型(代码片段)

引言最近在公众号中了解到了刘知远团队退出的视频课程《大模型交叉研讨课》,看了目录觉得不错,因此拜读一下。观看地址:https://www.bilibili.com/video/BV1UG411p7zv目录:自然语言处理&大模型基础神经网络基础T... 查看详情

学习工作记录三

...了三天。。。一、文献阅读1.《知识表示学习研究进展》刘知远这篇文章主要是介绍了知识库领域的一些算法。内容比较丰富,重点研究了TransE及其改进算法。但是由于TransE在解决复杂关系建模问题上 查看详情

nlp/cl顶会收录

全文转载自知乎@刘知远老师:初学者如何查阅自然语言处理学术资料(2016修订版)。1. 国际学术组织、学术会议与学术论文自然语言处理(naturallanguageprocessing,NLP)在很大程度上与计算语言学(computationallinguistics,CL)重... 查看详情

清华唐杰团队:一文看懂nlp预训练模型前世今生

...来手把手地教你怎么弄懂预训练这一概念了。刚刚,清华唐杰教授联合悟道团队发布了一篇有关预训练模型的综述:整篇论文超过40页,从发展历史、最新突破和未来研究三个方向,完整地梳理了大规模预训练模... 查看详情

大模型系统和应用——prompt-learning&deltatuning(代码片段)

引言最近在公众号中了解到了刘知远团队退出的视频课程《大模型交叉研讨课》,看了目录觉得不错,因此拜读一下。观看地址:https://www.bilibili.com/video/BV1UG411p7zv目录:自然语言处理&大模型基础神经网络基础T... 查看详情

对抗样本攻防战,清华大学tsail团队再获caad攻防赛第一

...赛的骨干成员还包括董胤蓬、韦星星等,TSAIL团队来自于清华大学人工智能研究院,主要研究领域为机器学习。同样在去年,该团队在NIPS2017AI对抗 查看详情

chatgpt团队揭秘:3清华1北大1华科

...有9名华人,占团队总人数10%。其中5人本科(3人清华、1人北大、1人华中科技大)就读于中国内陆高校,3人大学教育经历均在美国高校完成。其中,华人学者欧阳龙参与了与ChatGPT相关的7大技术项目中的4大项... 查看详情

关键字抽取论文阅读笔记

刘知远老师博士论文-基于文档主题结构的关键词抽取方法研究一、研究背景和论文工作介绍  关键词抽取分为两步:选取候选关键词和从候选集合中推荐关键词。1.1.选取候选关键词关键词:单个词或者多个单词组成的短语。... 查看详情

《十三邀》--李诞马东许知远

本文通过MetaWeblog自动发布,原文及更新链接:https://extendswind.top/posts/life/_13_reviewes看了奇葩说后查了一下李诞,又因为一些博客里提到了这个采访才看了《十三邀》。一个在综艺节目中脑回路极大、思维敏捷、搞笑,而又在生活... 查看详情

713页鸿蒙巨作《鸿蒙harmonyos手机应用开发实战》简介

《鸿蒙HarmonyOS手机应用开发实战》一书由清华大学出版社出版,已经于2022年1月上市。拿到了样书,第一时间希望与读者朋友们分享下这本书里面的内容。这本书的背景近期拿到了样书,迫不及待的对新书做了浏览。... 查看详情

成果分享:边缘智能视频预取和缓存机制

本文来源于智能互联网研究组,SIG由来自清华大学深圳国际研究生院、鹏城实验室、南方科技大学等高校科研人员组成。团队成员包括:清华大学江勇教授、鹏城实验室李清副研究员等。目前团队有7名在读博士(清... 查看详情

arxiv爆款:想了解attention就看它!清华计图胡事民团队出品

博雯发自凹非寺量子位报道|公众号QbitAI清华计图胡事民团队的这篇注意力机制的综述火了!在上周的arXiv上,这是最热的一篇论文:推特以及GitHub上也有不低的热度:而这篇论文引用近200篇内容,对计算机视... 查看详情