把大核卷积拆成三步,清华胡事民团队新视觉backbone刷榜了,集cnn与vit优点于一身...

QbitAl QbitAl     2023-03-09     781

关键词:

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

在视觉任务上,CNN、ViT各有各的优势和劣势。

于是,以经典Backbone为基础、细节上相互借鉴,成了最近一个热门研究方向。

前有微软SwinTransformer引入CNN的滑动窗口等特性,刷榜下游任务并获马尔奖。

后有Meta AI的ConvNeXT用ViT上的大量技巧魔改ResNet后实现性能反超

现在一种全新Backbone——VAN(Visiual Attention Network, 视觉注意力网络)再次引起学界关注。

因为新模型再一次刷榜三大视觉任务,把上面那两位又都给比下去了。

VAN号称同时吸收了CNN和ViT的优势且简单高效,精度更高的同时参数量和计算量还更小。

VAN来自清华计图胡事民团队,他们提出一个标准大核卷积可以拆解成三部分

深度卷积(DW-Conv)、深度扩张卷积(DW-D-Conv)和1 × 1卷积(1 × 1 Conv)。

更关键的是,再加上一步element-wise相乘可以获得类似注意力的效果,团队把新的卷积模块命名为大核注意力LKA(Large Kernel Attention)

论文最后还提到,现在的VAN只是一个直觉的原始版本、没有仔细打磨,也就是说后续还有很大提升潜力。

(代码已开源,地址在文末)

拆解大核卷积能算注意力

注意力机制,可以理解为一种自适应选择过程,能根据输入辨别出关键特征并自动忽略噪声。

关键步骤是学习输入数据的长距离依赖,生成注意力图

有两种常用方法来生成注意图。

第一种是从NLP来的自注意力机制,但用在视觉上还有一些不足,比如把图像转换为一维序列会忽略其二维结构。

第二种是视觉上的大核卷积方法,但计算开销又太大。

为克服上面的问题,团队提出的LKA方法把大核卷积拆解成三部分。

设扩张间隔为d,一个K x K的卷积可以拆解成K/d x K/d的深度扩张卷积,一个(2d − 1) × (2d − 1)的深度卷积核一个1 x 1的point-wise卷积。

c为通道(channel)

这样做,在捕捉到长距离依赖的同时节省了计算开销,进一步可以生成注意力图。

LKA方法不仅综合了卷积和自注意力的优势,还额外获得了通道适应性。

在CNN里,LKA方法与MobileNet的两部分拆解法类似,增加的深度扩张卷积可以捕获长距离依赖。

与ViT相比,解决了自注意力的二次复杂度对高分辨率图像计算代价太大的问题,

MLP架构中的gMLP也引入了注意力机制,但只能处理固定分辨率的图像,且只关注了全局特征,忽略了图像的局部结构。

从理论上来说,LKA方法综合了各方优势,同时克服了上述缺点。

那么,实际效果如何?

新Backbone刷榜三大任务

根据LKA方法设计的新Backbone网络VAN,延续了经典的四阶段设计,具体配置如下。

每个阶段的结构如图所示,其中下采样率由步长控制,CFF代表卷积前馈网络( convolutional feed-forward network)

假输入和输出拥有相等的宽高和通道数,可以算出计算复杂性。

其中当卷积核大小(K)为21时,扩张间隔(d)取3可以让参数量最小,便以此为默认配置。

团队认为按此配置对于全局特征和局部特征的提取效果都比较理想。

最终,在ImageNet上不同规模的VAN精度都超过了各类CNN、ViT和MLP。

在COCO 2017目标检测任务上,以VAN为Backbone应用多种检测方法也都领先。

ADE20K语意分割任务上同样如此。

而且正如前文所述,VAN未经仔细打磨就已刷榜三大任务,后续还有提升空间。

对于今后的改进方向,团队表示可能会尝试更大的卷积核,引入来自Res2Net的多尺度结构,或者Inception中的多分支结构

另外用VAN做图像自监督学习和迁移学习,甚至能否做NLP都有待后续探索。

作者介绍

这篇论文来自清华大学计算机系胡事民团队。

胡事民教授是清华计图框架团队的负责人,计图框架则是首个由中国高校开源的深度学习框架。

一作博士生国孟昊,现就读于清华大学计算机系,也是计图团队的成员。

这次论文的代码已经开源,并且提供了Pytorch版和计图框架两种版本。

该团队之前有一篇视觉注意力的综述,还成了arXiv上的爆款

配套的GitHub仓库视觉注意力论文大合集Awesome-Vision-Attentions也有1.2k星。

最后八卦一下,莫非是团队研究遍了各种视觉注意力机制后,碰撞出这个新的思路?

也是666了。

论文地址:
https://arxiv.org/abs/2202.09741

GitHub地址:
https://github.com/Visual-Attention-Network

Awesome-Vision-Attentions
https://github.com/MenghaoGuo/Awesome-Vision-Attentions

南大周志华清华胡事民入围院士候选!计算机领域共计7人

...人工智能领域有南京大学人工智能学院院长周志华教授、清华大学胡事民教授入围增选。计算机领域共有5位学者入选。此轮初步候选人共有191人,包括数学物理学部29人、化学部28人、生命科学和医学学部32人、地学部27人、... 查看详情

清华&南开出品最新视觉注意力机制attention综述

...术分享,如有侵权,联系删除转载于:量子位清华大学计图团队和南开大学程明明教授团队、卡迪夫大学RalphR.Martin教授合作,在ArXiv上发布关于计算机视觉中的注意力机制的综述文章。该综述系统地介绍了注意力... 查看详情

5位华人博士生获英伟达奖学金,清华校友神经机器翻译工具opennmt的开发者在列...

...。今年共有10位博士生入选,其中5位华人,包括清华校友、著名神经机器翻译工具OpenNMT的开发者,以及电子科大、北航等校校友。他们每个人将获得最高5万美元的奖学金,作为他们在深度学习、计算机视觉、计... 查看详情

清华大学提出全新微调框架cpt

...语言模型有一个大问题就是训练过程和推理过程不匹配。清华大学孙茂松团队提出了一个全新的微调框架CPT,用颜色来遮蔽、融合 查看详情

清华&baai唐杰团队提出第一个开源的通用大规模预训练文本到视频生成模型cogvideo,含94亿超大参数量!代码即将开源!...

...rge-scalePretrainingforText-to-VideoGenerationviaTransformers』,油清华&BAAI唐杰团队提出第一个开源的通用大规模预训练文本到视频生成模型CogVideo,含94亿超大参数量!代码即将开源!详细信息如下:论文链接:http... 查看详情

改进yolo系列|microsoft团队|dynamicconvolution:自适应地调整卷积参数

动态卷积的卷积核可以根据输入数据进行动态调整,从而提高模型的表达能力。传统的卷积操作是使用静态的卷积核来对输入数据进行卷积操作,而动态卷积核则可以根据输入数据的特征自适应地调整卷积核的形状。这样做的好... 查看详情

改进yolo系列|microsoft团队|dynamicconvolution:自适应地调整卷积参数

动态卷积的卷积核可以根据输入数据进行动态调整,从而提高模型的表达能力。传统的卷积操作是使用静态的卷积核来对输入数据进行卷积操作,而动态卷积核则可以根据输入数据的特征自适应地调整卷积核的形状。这样做的好... 查看详情

permutations

...一的第一位和第三位换 思路 就是先把每个数都先拆成一个一个的  例如三位数拆成三个数  然后借用他们的坐标进行排列然后组合 然后做差 找最小值************** 查看详情

智能视觉食用指南(代码片段)

智能视觉食用指南卷积神经网络卷积运算边缘检测填补padding卷积步长3D卷积三类神经层卷积层池化层全连接层深度卷积网络目标检测人脸识别风格迁移卷积神经网络在《深度学习食用指南》里,我们做了一个神经网络,... 查看详情

第26篇mobilenets:用于移动视觉应用的高效卷积神经网络

MobileNets:用于移动视觉应用的高效卷积神经网络摘要我们提出了一类称为MobileNets的高效模型,用于移动和嵌入式视觉应用。MobileNets基于流线型架构,使用深度可分离卷积来构建轻量级深度神经网络。我们引入了两个... 查看详情

计算机视觉+人工智能面试笔试总结——卷积网络压缩面试题

目录1.卷积网络的压缩方法2.低秩近似3.剪枝与稀疏约束4.参数量化5.二值化网络 查看详情

convit:使用软卷积归纳偏置改进视觉变换器

摘要    卷积架构已被证明在视觉任务方面非常成功。它们的硬归纳偏差使样本高效学习成为可能,但代价是可能降低性能上限。视觉变换器(ViT)依赖于更灵活的自注意力层,并且最近在图像分类方面的表现优于CNN。然... 查看详情

清华刘知远团队巨作!pre-trainedprompttuning框架,让超大模型调参变简单

...n学习,选择加星标精彩内容不迷路机器之心报道来自清华大学的刘知远、黄民烈等研究者提出了一个名为「PPT」的新框架。PPT=Pre-trainedPromptTuning。近年来,微调预训练语言模型(PLM)取得了很大进展。通过微... 查看详情

计算机视觉(cv)基于卷积神经网络实现美食分类(代码片段)

【计算机视觉(CV)】基于卷积神经网络实现美食分类(文章目录)前言任务描述如何根据据图像的视觉内容为图像赋予一个语义类别是图像分类的目标,也是图像检索、图像内容分析和目标识别等问题的基础。本实践旨在通过一... 查看详情

腾讯ailab计算机视觉中心人脸&ocr团队近期成果介绍

...量技术实践干货哦~作者:周景超在上一期中介绍了我们团队部分已公开的国际领先的研究成果,近期我们有些新的成果和大家进一步分享。1人脸进展人脸是最重要的视觉信息之一。以貌识人、以貌取人是人的本性,也是最自然... 查看详情

消除视觉transformer与卷积神经网络在小数据集上的差距

...,弥补了Transformer在小数据集上从头训练的精度与传统的卷积神经网络之间的差距。本文分享自华为云社区《​​[NeurIPS2022]消除视觉Transformer与卷积神经网络在小数据集上的差距​​》,作者:Hint。本文简要介绍NeurIPS2022录用的... 查看详情

neuromation新研究:利用卷积神经网络进行儿童骨龄评估

...,Neuromation团队在Medium上撰文介绍其最新研究成果:利用卷积神经网络(CNN)评估儿童骨龄,这一自动骨龄评估系统可以得到与放射科专家相似或更好的结果。该团队评估了手骨不同区域,发现仅对掌骨和近端指骨进行评估,得... 查看详情

uoj#272.清华集训2016石家庄的工人阶级队伍比较坚强(代码片段)

...B_x,y=B_x~op2~y,0)那么我们要求的就是(f)与(B)的第一行的(t)次卷积的卷积其中下标运算为(op1)那么我们求出(f)和(B)的"点值表达",快速幂之后变换回去即可下标运算可以看成是每一位的模(3)的循环卷积,用三次单位根(FWT),每... 查看详情