正文

视觉-语言表征学习新进展：提词优化器「琥珀」带你用好clip

Charmve  Charmve  2023-01-20  616

关键词：

选自丨机器之心 MMLab@NTU

你是否还在为设计 CLIP 模型的提词器（prompt）而烦恼？到底是「a photo of a [class]」还是「a [class] photo」？对于特定任务（例如食物分类或是卫星图像识别），如何添加符合语境的上下文（context）？本文提出的提词优化器 CoOp（中文名：琥珀）能够给你答案。

结合视觉和语言的预训练方法（Vision-Language Pretraining）最近成为视觉表征学习一种有前景的方向。不同于使用图像和离散标签进行学习的传统分类器，以 CLIP 为代表的视觉语言预训练模型利用了两个独立的编码器来对齐图像和原始文本。在这种范式下，监督来源变得更加灵活多样且容易获取（如图片评论或网络配图文案都可以做图片监督）。更重要的是，模型变得十分容易零样本（zero-shot）迁移到下游任务。这是因为下游任务的类别不必一定属于训练中离散标签的一种。只要提供下游任务的标签信息，通过适当提词器（prompt）生成的文本向量可以直接代替固定的离散标签。下图展示了 CLIP 模型的结构。

近日，来自新加坡南洋理工大学的研究者发现在实践中部署此类模型的主要挑战是对提词器的设计，这是因为设计合适的提词器需要专业领域的知识，尤其是针对专业类别名要设计专门的语境（即上下文，context）。同时，提词器的设计也需要花费大量时间来调整，因为微小的措辞变化可能会对性能产生巨大影响。例如在下图(a)中，在「a photo of [CLASS]」中的 [CLASS] 前加个「a」直接涨了将近 6 个点！此外，不同的下游任务需要的不同设计（例如图 b-d 中的「flower」、「texture」和「satellite」）也进一步阻碍了部署的效率。

为了克服这一挑战，该研究提出了一种名为上下文优化 (Context Optimization，英文名：CoOp，中文名：琥珀) 的新方法。

论文链接：https://arxiv.org/abs/2109.01134
代码链接：https://github.com/KaiyangZhou/CoOp

琥珀的主要思想是对提词器（prompt）中的上下文（context）用连续向量进行建模，而整个训练过程将仅对这几个上下文词向量进行端到端优化，而保持预训练参数不变。该方法完全自动化了提词器的设计过程，下图展示了琥珀的模型结构。

该研究在实验中使用了 11 个视觉数据集来验证琥珀的有效性：结果表明琥珀是一个十分高效的小样本学习方法，平均每个类别只需一到两张图片就可以击败基于手工提词器的零样本识别模型。当每个类别的图片有 16 张时，琥珀比手工提词器平均高出了大约 17 个百分点（最高可达 50 个百分点）。不仅如此，琥珀还对领域泛化表现出了极强的鲁棒性（见下图，其中 M 指代琥珀的提词器长度）。

不过，当研究者在词空间中寻找与优化得到的词向量距离最近的现实词汇时，很难找到有实际含义的词，因为研究者发现即便是最临近的现实词汇，其距离优化得到的词向量仍然相距甚远，并且在词空间中，临近的词向量不一定具有相似的含义。下图展示了 5 个数据集对应的距离最优解最近的 16 词提词器。这进一步表明人工设计的提词器可能始终无法达到琥珀的效果。

鉴于以上提词器可视化的结果，研究者大胆的推测，在一些数据集上，一些无厘头的提词器，例如「makka pakka akka yakka ikka akka [class]」甚至可能比「a photo of a [class]」在某些数据集上有更好的效果。

更多细节可参考论文原文，更多精彩内容请关注迈微AI研习社，每天晚上七点不见不散！

投稿或寻求报道微信：MaiweiE_com

GitHub中文开源项目《计算机视觉实战演练：算法与应用》，“免费”“全面“”前沿”，以实战为主，编写详细的文档、可在线运行的notebook和源代码。

项目地址 https://github.com/Charmve/computer-vision-in-action
项目主页 https://charmve.github.io/L0CV-web/

推荐阅读

（更多“抠图”最新成果）

迈微AI研习社

微信号: MaiweiE_com CSDN、知乎: @Charmve

主页: github.com/Charmve GitHub: @Charmve

投稿: yidazhang1@gmail.com

如果觉得有用，就请点赞、转发吧！

机器人自主学习新进展，百度飞桨发布四足机器人控制强化学习新算法

近日，百度强化学习团队发布了四足机器人控制上的最新研究进展，采用自进化的步态生成器与强化学习联合训练，从零开始学习并掌握多种运动步态，一套算法解决包括独木桥、跳隔板、钻洞穴等多种场景控制... 查看详情

机器人自主学习新进展，百度飞桨发布四足机器人控制强化学习新算法

面向流批一体的flinkruntime新进展

▼关注「ApacheFlink」，获取更多技术干货 ▼更多Flink相关技术问题，可扫码加入社区钉钉交流群～戳我，查看原文视频&演讲PDF～查看详情

美团基于flink的实时数仓平台建设新进展

传送门：Flink系统性学习笔记1.平台建设现状美团于2018年首次引入Flink实时计算引擎，当时的实时数仓概念还不太普及，平台只提供了FlinkJar任务的生命周期管理和监控报警。2019年，我们注意到实时计算的主要应用... 查看详情

新进展1.27

进度比预计的要满了好多现在已经能够和服务器进行通信完成在手机端注册和登录操作1.注册的时候如果用户名已经被注册了，则会显示“用户名已存在”如果注册失败了，则会显示“注册失败”如果注册成功，则会显示“注册... 查看详情

狂肝两万字带你用pytorch搞深度学习！！！(代码片段)

深度学习基础知识和各种网络结构实战...狂肝两万字带你用pytorch搞深度学习！！！深度学习前言一、基本数据：Tensor1.1Tensor的创建1.2torch.FloatTensor1.3torch.IntTensor1.4torch.randn1.5torch.range1.6torch.zeros/ones/empty二、Tenso 查看详情

高斯过程相关研究的新进展的8篇论文推荐（统计+人工智能）

1、Low-PrecisionArithmeticforFastGaussianProcessesWesleyJ.Maddox,AndresPotapczynski,AndrewGordonWilsonhttps://arxiv.org/abs/2207.06856低精查看详情

国产适配新进展!思迈特软件与飞腾完成产品兼容互认证!

近日，思迈特软件与天津飞腾信息技术有限公司积极开展了兼容性适配工作，经过一系列严格测试，思迈特大数据分析软件在飞腾公司的S2500处理器平台上顺利安装，运行稳定，这意味着双方产品完成兼容性互认证。此次产品兼... 查看详情

现代企业管理笔记——管理理论新进展

如果有兴趣了解更多相关内容，欢迎来我的个人网站看看：瞳孔空间一：危机管理企业组织面临的危机情境主要有以下几种:信息危机产品危机价格危机商誉危机财务危机资产危机人才危机危机情境的特点：实发性... 查看详情

机器学习基础一文带你用sklearn做特征工程(代码片段)

...？有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模... 查看详情

linux系统适配苹果m1芯片的项目有新进展

导读苹果自研的M1芯片于2020年正式发布，从产品发布起，一些开发者便开始了将 Linux 系统适配M1芯片的项目。近日消息苹果自研的M1芯片于2020年正式发布，从产品发布起，一些开发者便开始了将Linux系统适配M1芯... 查看详情

easycv带你复现更好更快的自监督算法-fastconvmae

...的标注工作，节省大量人力成本。近年来，自监督学习在视觉领域大放异彩，受到了越来越多的关注。在CV领域涌现了如SIMCLR、MOCO、SwAV、DINO、MoBY、MAE等一系列工作。其中MAE的表现尤为惊艳，大家都被M 查看详情

创峰时代-最新丨龙华大道新进展，观和路黎安路布新路道路建设正式开工！

创峰时代-最新丨龙华大道新进展，观和路、黎安路、布新路道路建设正式开工！最新要问昨日，龙华观澜泗黎路辅路观和路、黎安路、布新路三条道路建设工程正式开工，工程承建方、监理方及市政领导莅临黎安路参与开工仪... 查看详情

一文带你了解基于视觉的机器人抓取自学习(robotlearning)

作者：夏初点击上方“计算机视觉工坊”，选择“星标”干货第一时间送达 “一眼就能学会动作”，或许对人而言，这样的要求有点过高，然而，在机器人的身上，这个想法正在逐步实现中。马斯克（ElonMusk）创立的人工智... 查看详情

手摸手，带你用vue撸后台系列一

...里不会教你webpack的基础配置，热更新怎么做，webpack速度优化等等，有需求的请自行google。目录结构├──build//构建相关├──config//配置相关├──src//源代码│├──api//所有请求│├──assets//主题字体等静态资源│├──c... 查看详情

v3学院带你学习-如何让chipscope里面的信号不被优化掉

此文章为原创出自V3学院www.v3edu.org,FPGA培训专家在用ise对FPGA开发的时候，从仿真工具仿真的结果来看，功能都是能实现的，但是实际下载之后却不能实现具体的功能。这时我们一般会用ise自带的chipscope即在线逻辑分析仪... 查看详情

新进展！英伟达用ai给纪录片配音，情绪语调拿捏得稳稳地

编译 |禾木木出品| AI科技大本营（ID:rgznai100）AI已经将合成语音从单调的机器人电话和传统GPS导航系统转变为智能手机和智能扬声器中动听的虚拟助手。虽然日常和Siri、小爱或小度等对话时声音还是很机械，但最新... 查看详情

全固态电池新进展：日本团队解决「接触不良」问题，还提出配套无损检测方法...

Pine发自凹非寺量子位|公众号QbitAI不用破坏电动汽车的电池也能够检测它的健康状况。这个方法是日本研究团队为电动汽车下一代电池：全固态锂金属电池开发出来的。全固态锂金属电池可以提供更高的能量密度、安全性和... 查看详情