清华大学提出全新微调框架cpt

人工智能博士 人工智能博士     2023-01-15     747

关键词:

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★,第一时间获取资源

仅做学术分享,如有侵权,联系删除

转载于 :新智元

预训练模型在计算机视觉和语言上都取得了显著成果,但这些语言模型有一个大问题就是训练过程和推理过程不匹配。清华大学孙茂松团队提出了一个全新的微调框架CPT,用颜色来遮蔽、融合图像和语言,准确率提升17.3%,标准差降低73.8%!

预先训练的视觉语言模型(Pre-Trained Vision-Language Models, VL-PTM)能够同时处理语言和视觉上的信息,也是完成各种多模态任务的基础模型。

但模型的预训练和微调之间存在着巨大的差距,在预训练期间,大多数VL PTM都是基于mask language modeling目标进行优化的,主要任务就是在屏蔽的词中从跨模态上下文中恢复。

然而,在微调过程中,下游任务通常是通过将未屏蔽token的表示分类到语义标签来完成的,在语义标签中通常会引入特定任务的参数。这种差别阻碍了VL PTM对下游任务的适应性,因此需要大量的标记数据来优化VL-PTM对下游任务的视觉基础能力。

针对这个问题,清华大学的研究人员提出了一个新模型跨模态提示调节(Cross-Modal Prompt Tuning, CPT),也可以称为Colorful Prompt Tuning。CPT是一种调整VL-PTM参数的新范式,关键点在于通过在图像和文本中添加基于颜色的共同参照标记,视觉基础可以重新形成填补空白的问题,最大限度地减少预训练和微调之间的差距。

为了在图像数据中使用自然语言表达式,CPT由两个组件组成:(1)一个视觉子提示(visual sub-prompt),用颜色块唯一地标记图像区域;(2)一个文本子提示(textual sub-prompt),将查询文本放入基于颜色的查询模板中。然后,通过从查询模板中的屏蔽标记恢复相应的彩色文本,可以实现目标图像区域的显式定位。

论文的作者是孙茂松教授,目前任清华大学人工智能研究院常务副院长、清华大学计算机学位评定分委员会主席、教育部在线教育研究中心副主任、清华大学大规模在线开放教育研究中心主任。曾任清华大学计算机系主任、党委书记。研究方向为自然语言理解、中文信息处理、Web智能、社会计算和计算教育学等。

配备CPT后,VL-PTMs可以在没有任何标记数据的情况下执行zero-shot visual grouding,因为VL PTMs在训练前已经很好地学习了颜色的跨模态表示及其与其他概念(例如,对象、属性和关系)的组合。

当有几个或全部标记的实例可用时,CPT可以根据基于熵的目标函数对VL PTM进行进一步调整。

虽然通过基于颜色的提示将图像和文本连接起来看着很好用,但研究人员仍然发现了其中两个关键问题:(1)如何确定颜色集C的配置;(2)如何使用有限的预训练颜色处理图像区域的数量。

解决方法有跨模式提示搜索(Cross-modal Prompt Search)。以前在文本提示调优方面的工作表明,提示配置(例如,文本模板)对性能有重大影响。这篇文章也是对搜索跨模态提示配置(即颜色集C)进行的首次研究。

直观地说,C应该由VL PTM最敏感的颜色组成。为了获得颜色,一种简单的方法是采用预训练文本中最常见的颜色文本,其标准RGB作为civ。但该解决方案是次优的,因为这种方法在确定彩色文本时不考虑其视觉外观,并且真实图像中颜色的视觉外观通常与其标准RGB不同。

所以在跨模式提示搜索中,首先确定一个全彩色文本的候选集。对于RGB空间中的每个可能颜色,将纯色块与文本子提示连接到VL PTMs中:[CLS] a photo in [MASK] color. [SEP]。然后为每个候选颜色文本获得记录分数。

记录得分越大,表明cv和cw之间的相关性越高,并且删除了在任何颜色视觉外观中都没有排名靠前的颜色文本。最后对于每个剩余的彩色文本,其视觉外观由最大色彩确定,并且实验结果显示得到的颜色配置明显优于原始的颜色配置。

图像区域批处理(Image Region Batching)。在视觉基础中,图像中区域建议的数量通常超过颜色集合C的大小(∼ 10)。此外,严重重叠的色块会阻碍视觉基础,因此需要将图像区域分为多个批次,每个批次包含少量中度重叠的图像区域,并分别使用视觉子提示标记每个批次。为了处理不包含目标区域的批,在解码词汇表中进一步引入了一个新的候选文本none,表示批中没有目标区域。

实验结果表明,提示微调后的 VL-PTM的性能大大优于微调后的PTM,

1、CPT在zero-shot 和few-shot 设置下比随机基线和强微调基线有很大的优势(例如,在RefCOCO评估中,one-shot 的绝对准确度平均提高17.3%)。不同的数据集和不同的训练次数之间的改进是一致的。这表明CPT可以有效地提高VL PTM调谐的数据效率,并刺激VL PTM的视觉接地能力。

2、值得注意的是,与微调相比,CPT实现的标准偏差要小得多(例如,在RefCOCO评估中,一次试验平均降低73.8%的相对标准偏差)。这表明,来自预训练的连贯的调节方法可以导致更稳定的few-shot 训练,这也是评估少镜头学习模型的关键因素。

3、可以注意到,在RefCOCO+评估中,CPT的微调性能稍逊于16 shots。原因是Ref-COCO+有更多基于颜色的表达(例如,穿着红衬衫和蓝帽子的人),这可能会干扰基于颜色的CPT。然而,在完全监督的场景中,通过更多的调优实例可以缓解这个问题,模型可以学习更好地区分查询文本和提示模板中的颜色。

4、在完全监督的设置下,CPT实现了与强微调VL PTM相当的性能。结果表明,即使在完全监督的情况下,CPT也是VL-PTM的一种竞争性调优方法。总之,与普通的微调方法相比,CPT在zero-shot、few-shot和完全监督的视觉方面实现了优越/可比且更稳定的性能。

参考资料:

https://arxiv.org/abs/2109.11797?

---------♥---------

声明:本内容来源网络,版权属于原作者

图片来源网络,不代表本公众号立场。如有侵权,联系删除

AI博士私人微信,还有少量空位

如何画出漂亮的深度学习模型图?

如何画出漂亮的神经网络图?

一文读懂深度学习中的各种卷积

点个在看支持一下吧

微软浙大等提出剪枝框架oto,无需微调即可获得轻量级架构

...载于:机器之心来自微软、浙江大学等机构的研究者提出了一种one-shotDNN剪枝框架,无需微调即可从大型神经网络中得到轻量级架构,在保持模型高性能的同时还能显著降低所需算力。大型神经 查看详情

微软浙大等提出剪枝框架oto,无需微调即可获得轻量级架构

...载于:机器之心来自微软、浙江大学等机构的研究者提出了一种one-shotDNN剪枝框架,无需微调即可从大型神经网络中得到轻量级架构,在保持模型高性能的同时还能显著降低所需算力。大型神经 查看详情

革新transformer!清华大学提出全新autoformer骨干网络,长时序预测达到sota

...内容不迷路  新智元报道  作者:吴海旭近日,清华大学软件学院机器学习实验室另辟蹊径,基于随机过程经典理论,提出全新Autoformer架构,包括深度分解架构及全新自相关机制,长序预测性能平均提升... 查看详情

onlytrainonce:微软浙大等研究者提出剪枝框架oto,无需微调即可获得轻量级架构...

...送达来源|机器之心来自微软、浙江大学等机构的研究者提出了一种one-shotDNN剪枝框架,无需微调即可从大型神经网络中得到轻量级架构,在保持模型高性能的同时还能显著降低所需算力。大型神经网络学习速度很快,... 查看详情

onlytrainonce:微软浙大等研究者提出剪枝框架oto,无需微调即可获得轻量级架构...

...送达来源|机器之心来自微软、浙江大学等机构的研究者提出了一种one-shotDNN剪枝框架,无需微调即可从大型神经网络中得到轻量级架构,在保持模型高性能的同时还能显著降低所需算力。大型神经网络学习速度很快,... 查看详情

清华刘知远团队巨作!pre-trainedprompttuning框架,让超大模型调参变简单

...n学习,选择加星标精彩内容不迷路机器之心报道来自清华大学的刘知远、黄民烈等研究者提出了一个名为「PPT」的新框架。PPT=Pre-trainedPromptTuning。近年来,微调预训练语言模型(PLM)取得了很大进展。通过微... 查看详情

清华刘知远团队巨作!pre-trainedprompttuning框架,让超大模型调参变简单

...n学习,选择加星标精彩内容不迷路机器之心报道来自清华大学的刘知远、黄民烈等研究者提出了一个名为「PPT」的新框架。PPT=Pre-trainedPromptTuning。近年来,微调预训练语言模型(PLM)取得了很大进展。通过微... 查看详情

人类评估已不是nlg的最佳标准,华盛顿大学提出全新观点,网友:那是评估人水平不行...

明敏发自凹非寺量子位报道|公众号QbitAIAI生成的文本好不好,最权威的评估者竟然不是人类自己?最近,华盛顿大学和艾伦人工智能研究院的学者们在研究中发现:未经过训练的人类评估文本时,往往过分关... 查看详情

人民大学提出听音识物ai框架,不用人工标注,嘈杂环境也能hold住,还可迁移到物体检测...

...出各自的位置。这是中国人民大学高瓴人工智能学院最近提出的新框架。对于人类而言,听音识物是一件小事,但是放在AI身上就不一样了。因为视觉和音频之间对应关系无法直接 查看详情

VGG16 Keras微调:精度低

...经问过类似的问题here,但现在我的问题略有不同,因此提出了新问题。我决定使用略有不同的方法,而不是在参考问题的答案中提出来训练,然后微调模型。更新:我已将此处提供的旧问题替换为更合适的版本这是我的操作顺... 查看详情

uc伯克利提出多任务框架slip

...,来自加州大学伯克利分校和FacebookAI研究院的研究者提出了一种结合语言监督和图像自监督的新框架SLIP。近来一些研究表明 查看详情

cvweeklyin20220103~0107

...22|即插即用!AMR:助力弱监督语义分割涨点!清华大学提出ACmix|这才是Self-Attention与CNN正确的融合范式,性能速度全面提升清华提出DAT:具有可变形注意力的视觉Transformer综述:主动学习(ActiveLearning... 查看详情

全新版大学英语综合教程第二册第7单元课文详解

参考技术A全新版大学英语综合教程第二册第7单元课文详解  导语:英语是世界上最广泛的第一语言,因此我们从小就开始学习英语,下面是一篇关于学习英语的英语课文,欢迎大家来学习。  LearningaboutEnglish  PartIPre-Readi... 查看详情

springboot啥时候提出的

SpringBoot由Pivotal团队在2013年开始研发、2014年4月发布第一个版本的全新开源的轻量级框架。它基于Spring4.0设计,不仅继承了Spring框架原有的优秀特性,而且还通过简化配置来进一步简化了Spring应用的整个搭建和开发过程。另外Spri... 查看详情

Xcode:将全新框架链接到全新应用程序失败并显示“找不到图像”

】Xcode:将全新框架链接到全新应用程序失败并显示“找不到图像”【英文标题】:Xcode:Linkingbrandnewframeworktobrandnewappfailswith"imagenotfound"【发布时间】:2013-02-0204:30:24【问题描述】:我对Xcode和Objective-C完全陌生,但我是经... 查看详情

springboot啥时候提出的

参考技术ASpringBoot由Pivotal团队在2013年开始研发、2014年4月发布第一个版本的全新开源的轻量级框架。它基于Spring4.0设计,不仅继承了Spring框架原有的优秀特性,而且还通过简化配置来进一步简化了Spring应用的整个搭建和开发过程... 查看详情

swintransformer为主干,清华等提出moby自监督学习方法,代码已开源

...迷路选自arXiv,作者:ZhendaXie等机器之心编译来自清华大学、西安交大、微软亚研的研究者提出了一种称为MoBY的自监督学习方法,其中以VisionTransformer作为其主干架构,将MoCov2和BYOL结合,并在ImageNet-1K线性评估... 查看详情

rdif.vnext全新低代码快速开发框架平台发布

RDIF.vNext,全新低代码快速开发集成框架平台,给用户和开发者最佳的.Net框架平台方案,为企业快速构建垮平台、企业级的应用提供强大支持。框架采用最新主流技术开发(.Net6+/Vue前后端分离,支持分布式部署,跨平台运行),... 查看详情