英特尔用vit做密集预测效果超越卷积,性能提高28%,miou直达sota|在线可玩

QbitAl QbitAl     2023-01-10     772

关键词:

丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

用全卷积网络做密集预测 (dense prediction),优点很多。

但现在,你可以试试Vision Transformer了——

英特尔最近用它搞了一个密集预测模型,结果是相比全卷积,该模型在单目深度估计应用任务上,性能提高了28%

其中,它的结果更具细粒度和全局一致性

在语义分割任务上,该模型更是在ADE20K数据集上以49.02%的mIoU创造了新的SOTA

这次,Transformer又在CV界秀了一波操作。

沿用编码-解码结构

此模型名叫DPT,也就是dense prediction transformer的简称。

总的来说,DPT沿用了在卷积网络中常用的编码器-解码器结构,主要是在编码器的基础计算构建块用了transformer。

它通过利用ViT为主干,将ViT提供的词包(bag-of-words)重新组合成不同分辨率的图像特征表示,然后使用卷积解码器将该表示逐步组合到最终的密集预测结果。

模型架构图如下:

具体来说就是先将输入图片转换为tokens(上图橙色块部分),有两种方法:

(1)通过展开图像表征的线性投影提取非重叠的图像块(由此产生的模型为DPT-Base与DPT-Large);

(2)或者直接通过ResNet-50的特征提取器来搞定(由此产生的模型为DPT-Hybrid)。

然后在得到的token中添加位置embedding,以及与图像块独立的读出token(上图红色块部分)。

接着将这些token通过transformer进行处理。

再接着将每个阶段通过transformer得到的token重新组合成多种分辨率的图像表示(绿色部分)。注意,此时还只是类图像(image-like)。

下图为重组过程,token被组装成具有输入图像空间分辨率1/s的特征图。

最后,通过融合模块(紫色)将这些图像表示逐步“拼接”并经过上采样,生成我们最终想要的密集预测结果。

ps.该模块使用残差卷积单元组合特征,对特征图进行上采样。

以上就是DPT的大致生成过程,与全卷积网络不同,ViT主干在初始图像embedding计算完成后放弃了下采样,并在全部处理阶段保持恒定维数的图像表示。

此外,它在每阶段都有一个全局感受野。

正是这两点不同对密集预测任务尤其有利,让DPT模型的结果更具细粒度和全局一致性。

用两种任务来检验效果

具体效果如何?

研究人员将DPT应用于两种密集预测任务。

由于transformer只有在大训练集上才能展现其全部潜能,因此单目深度估计评估是测试DPT能力的理想任务。

他们将DPT与该任务上的SOTA模型进行对比,采用的数据集包含约140万张图像,是迄今为止最大的单目深度估计训练集。

结果是,两种DPT变体的性能均显著优于最新模型(以上指标越低越好)。

其中,与SOTA架构MiDaS相比,DPT-Hybrid的平均相对改善率超过23%,DPT-Large的平均相对改善率则超过28%

为了确保该成绩不仅是由于扩大了训练集,研究人员也在更大的数据集上重新训练了MiDaS,结果仍然是DPT胜出。

通过视觉比较图还可以看出,DPT可以更好地重建细节,可以在对卷积结构具有挑战的区域(比如较大的均匀区域)中提高全局一致性。

另外,通过微调,研究人员发现DPT也可以有效地应用于较小的数据集。

在具有竞争力的语义分割任务上:研究人员在ADE20K数据集上对DPT进行了240个epoch的训练。

结果发现,DPT-Hybrid优于现有的所有全卷积结构,以49.02的mIoU达到了SOTA(其更清晰、更细粒度的边界效果如开头所展示)。

而DPT-Large的性能稍差,研究人员分析可能是因为与之前的实验相比,采用的数据集要小得多。

同时,他们在小数据集(Pascal)上对表现优异的DPT-Hybrid微调了50个epoch后发现,DPT的性能仍然强大。

最后,“百闻不如一见”,如果你想体验DPT的真实效果,可以到Huggingface官网。

论文地址:
https://arxiv.org/abs/2103.13413

模型地址:
https://github.com/intel-isl/dpt

Hugging Face体验地址:

https://huggingface.co/spaces/akhaliq/DPT-Large

用vit替代卷积网络做密集预测,英特尔实验室提出dpt架构,在线demo可用

...,因为在编码器中丢失的信息不可能在解码器中恢复。在英特尔的一项研究中,研究者提出了DPT架构(densepredictiontransformer)。DPT是一种用于密集预测的新架构,它仍然基于编码器-解码器的设计,但其中利用transformer作为编码器... 查看详情

第29篇mpvit:用于密集预测的多路径视觉转换器

MPViT:用于密集预测的多路径视觉转换器密集的计算机视觉任务(例如对象检测和分割)需要有效的多尺度特征表示来检测或分类具有不同大小的对象或区域。虽然卷积神经网络(CNN)一直是此类任务的主要架构,但... 查看详情

cnn卷土重来!超越transformer!fair重新设计纯卷积架构:convnext

NLP与视觉架构的一个差异体现在激活函数的实用。ConvNet大多采用ReLU,而ViT大多采用GELU。我们发现:ConvNet中的ReLU可以替换为GELU,同时性能不变(80.6%)。FewerActivationFunctions.Transformer与ResNet模块的一个小区别:Transformer模块使用了更... 查看详情

cv的未来是图神经网络?中科院软件所发布全新cv模型vig,性能超越vit(代码片段)

...,提出全新模型ViG,在等量参数情况下,性能超越ViT,可解释性也有所提升 查看详情

cv的未来是图神经网络?中科院软件所发布全新cv模型vig,性能超越vit(代码片段)

...,提出全新模型ViG,在等量参数情况下,性能超越ViT,可解释性也有所提升 查看详情

pytorch笔记-aconvnetforthe2020s(convnext)论文

...挥到极致。ViT用于目标检测和语义分割的效果较差,像素密集。SwinTransformer引入一些卷积的归纳偏置(InductiveBias),将标准的ResNet逐渐进行现代化(Modernize)进行改造,引入Transformer的结构。所以是下一代的卷积网络,即ConvNeXt,优于... 查看详情

提高单个样本的 SVC 预测性能

】提高单个样本的SVC预测性能【英文标题】:ImprovingSVCpredictionperformanceonsinglesamples【发布时间】:2014-02-2101:44:56【问题描述】:我有用于文本分类的大型SVC模型(~50MbcPickles),我正在尝试在生产环境中使用它们的各种方法。对... 查看详情

超越cnn的vit模型及其应用前景

参考技术A©作者| 苏菲Transformer模型在NLP领域获得了巨大的成功,以此为内核的超大规模预训练模型BERT、GPT-3在NLP各个任务中都大放异彩,令人瞩目。计算机视觉分析任务也借鉴了Transformer模型的思想和方法,Meta公司的DETR... 查看详情

cnn卷积概念理解

...断的更新权重,形成具有真实标签类别信息的权重矩阵。预测过程:利用训练高的权重矩阵去计算预测的输入数据,并产生一个结果,这个结果就是预测数据的类别或预测值。 理解:从上述过程中可以得到以下结论:预测过... 查看详情

把大核卷积拆成三步,清华胡事民团队新视觉backbone刷榜了,集cnn与vit优点于一身...

...是,再加上一步element-wise相乘可以获得类似注意力的效果,团队把新的卷积模块命名为大核注意力LKA(LargeKernelAttention)论文最后还提到,现在的VAN只是一个直觉的原始版本 查看详情

基于easycv复现vitdet:单层特征超越fpn(代码片段)

欢迎使用我们最近开源的EasyCV,主要聚焦于最新的VisionTransformer模型,以及相关的下游CV任务开源地址:https://github.com/alibaba/EasyCVViTDet其实是恺明团队MAE和ViT-basedMaskR-CNN两个工作的延续。MAE提出了ViT的无监督训练方法&#... 查看详情

是否值得同步 I/O 密集型线程以提高总磁盘性能?

】是否值得同步I/O密集型线程以提高总磁盘性能?【英文标题】:IsitworthsynchronizingI/Ointensivethreadsinordertoincreasetotaldiskperformance?【发布时间】:2015-04-1919:06:39【问题描述】:我们的Windows.NET应用程序有多个I/O密集型线程,它们不断... 查看详情

计算机视觉中图像分类任务脉络梳理

...有不少其他架构。两个特点:纵观这些卷积神经网络提高效果的方向,主要是更深、更宽、更多的分支结构和短连接等;AlexNet提出了卷积网络5+3的结构,后续不少经典网络都是在此基础上改进。经典网络:LeNet-5Ale 查看详情

如何将密集层转换为 Keras 中的等效卷积层?

】如何将密集层转换为Keras中的等效卷积层?【英文标题】:HowtoconvertadenselayertoanequivalentconvolutionallayerinKeras?【发布时间】:2017-04-3020:53:35【问题描述】:我想使用Keras做一些类似于完全卷积网络论文(https://people.eecs.berkeley.edu/~jon... 查看详情

用于犰狳稀疏密集乘法的 CSCMM

...9-1602:21:50【问题描述】:环境:犰狳4.320.0和4.400编译器:英特尔CPP编译器操作系统:Ubuntu12.04我正在尝试用英特尔MKL的CSCMM调用替换犰狳的原生稀疏密集乘法。我写了以下代码。#include<mkl.h>#defineARMA 查看详情

lightgbm(代码片段)

...:由于现在的比赛数据越来越大,想要获得一个比较高的预测精度,同时又要减少内存占用以及提升训练速度,lightgbm是一个非常不错的选择,其可达到与xgboost相似的预测效果。xgboost:在lightgbm出来之前,是打比赛的不二之选,... 查看详情

深度学习总结

输入模式与网络架构间的对应关系:向量数据:密集连接网络(Dense层)图像数据:二维卷积神经网络声音数据(比如波形):一维卷积神经网络(首选)或循环神经网络文本数据:一维卷积神经网络(首选)或循环神经网络时... 查看详情

openmmlab实战营打卡-第4课

...Lab目标检测目标检测滑窗滑窗的效率问题在特征图上进行密集预测目标检测技术的演进参考资料目标检测滑窗设定一个固定大小的窗口遍历图像所有位置,所到之处用分类模型(假设已经训练好)识别窗口中的内容为... 查看详情