cnn卷土重来!超越transformer!fair重新设计纯卷积架构:convnext

CVer CVer     2022-11-28     651

关键词:

NLP与视觉架构的一个差异体现在激活函数的实用。ConvNet大多采用ReLU,而ViT大多采用GELU。我们发现:ConvNet中的ReLU可以替换为GELU,同时性能不变(80.6%)。

Fewer Activation Functions. Transformer与ResNet模块的一个小区别:Transformer模块使用了更少的激活函数。类似的,我们对ConvNeXt模块进行下图所示的改进,模型性能从80.6%提升到了81.3%(此时,它具有与Swin-T相当的性能)。

Fewer Normalization Layers Transformer通常具有更少的Normalization层,因此我们移除两个BN层仅保留 卷积之前的一个BN模型的性能提升到了81.4%,超越了Swin-T。

Substituting BN with LN 尽管BN是ConvNet的重要成分,具有加速收敛降低过拟合的作用;但BN对模型性能也存在有害影响。Transformer中的LN对不同的应用场景均具有比较好的性能。直接在原始ResNet中将BN替换为LN会导致性能下降,而组合了上述技术后再将BN替换为LN则能带来性能的提升:81.5%

Separate Downsamling Layers 在ResNet中,每个阶段先采用stride=2的卷积进行下采样;而SwinTransformer则采用了分离式下采样层。我们探索了类似的策略:采用stride=2的卷积进行下采样,但这种方式导致了“不收敛”。进一步研究表明:在下采样处添加Normalization层有助于稳定训练。此时,模型的性能提升到了82.0%,大幅超越了Swin-T的81.3%。

Closing remarks. 到此为止,我们完成了ConvNet的进化之路,得到了超越SwinTransformer的纯ConvNet架构ConvNeXt。需要注意的是,上述设计并没有新颖之处,均得到了研究,但并未进行汇总集成。ConvNeXt具有与SwinTransformer相当的参数量、吞吐量、内存占用,更高的性能,且不需要依赖特定的模块(比如移位窗口注意力、相对位置偏置)

Exmpirical Evaluations on ImageNet

基于前述ConvNeXt架构,我们构建了ConvNeXt-T/S/B/L以对标Swin-T/S/B/L。此外,我们还构建了一个更大的ConvNeXt-XL以进一步测试ConvNeXt的缩放性。不同变种模型的区别在于通道数、模块数,详细信息如下:

  • ConvNeXt-T: C=,B=
  • ConvNeXt-S: C=,B=
  • ConvNeXt-B: C=,B=
  • ConvNeXt-L: C=,B=
  • ConvNeXt-XL: C=

    transformer模仿大脑,在预测大脑成像上超越42个模型,还能够模拟感官与大脑之间的传输...

    ...在很多AI应用模型,都不得不提到一个模型结构:Transformer。它抛弃了传统的CNN和RNN,完全由Attention机制组成。Transformer不仅赋予了各种AI应用模型写文作诗的功能,而且在多模态方面也大放异彩。尤其是ViT(Vis... 查看详情

    正面刚cnn,transformer居然连犯错都像人类

    ...里的一只猫:这是CNN眼里的一只猫:这是ViT(VisionTransformer)眼里的一只猫:从去年起,Transformer忙着跨界CV,如ViT在图像分类上准确率已超过CNN,大有取代之势。这背后的原因是什么?最近普林斯顿的一项研究... 查看详情

    深度网络设计技巧之van:visualattentionnetwork#超越swin的纯cnn#(代码片段)

    单位:清华,南开(程明明团队)ArXiv:https://arxiv.org/abs/2202.09741Github:https://github.com/Visual-Attention-Network导读:今天了解一个卷积的新操作,即解耦卷积。说是新,其实旧,比如Mo 查看详情

    transformer新型vitgan性能比肩基于cnn的gan

    ...容不迷路选自arXiv,作者ZhuowenTu、CeLiu等机器之心编译Transformer已经为多种自然语言任务带来了突飞猛进的进步,并且最近也已经开始向计算机视觉领域渗透,开始在一些之前由CNN主导的任务上暂露头角。近日,加... 查看详情

    TensorFlow CNN 形状不匹配

    】TensorFlowCNN形状不匹配【英文标题】:TensorflowCNNshapemismatch【发布时间】:2020-10-0507:40:05【问题描述】:defload_data(data_path,batch_size,num_workers=2):t_m=transforms.Compose([transforms.Grayscale(num_output_channels=1),transforms.Resize(( 查看详情

    transformer新型vitgan性能比肩基于cnn的gan

    ...容不迷路选自arXiv,作者ZhuowenTu、CeLiu等机器之心编译Transformer已经为多种自然语言任务带来了突飞猛进的进步,并且最近也已经开始向计算机视觉领域渗透,开始在一些之前由CNN主导的任务上暂露头角。近日,加... 查看详情

    深度学习transformer相关知识学习

    CNN和Transformer的区别:1)CNN卷积归纳偏置对于规模较小的数据集较为有用,但对于较大的数据集(千万级规模数据集)而言,Transformer学习相关模式就足够了,甚至更加有效;2)CNN提取局部信息,Transf... 查看详情

    深度学习transformer相关知识学习

    CNN和Transformer的区别:1)CNN卷积归纳偏置对于规模较小的数据集较为有用,但对于较大的数据集(千万级规模数据集)而言,Transformer学习相关模式就足够了,甚至更加有效;2)CNN提取局部信息,Transf... 查看详情

    国科大提出cnn和transformer基网模型,conformer准确率84.1%!

    ...术分享,如有侵权,联系删除转载于:新智元Transformer和CNN在处理视觉表征方面都有着各自的优势以及一些不可避免的问题。因此,国科大、鹏城实验室和华为研究人员首次将二者进行了融合并提出全新的Conformer... 查看详情

    国科大提出cnn和transformer基网模型,conformer准确率84.1%!

    ...术分享,如有侵权,联系删除转载于:新智元Transformer和CNN在处理视觉表征方面都有着各自的优势以及一些不可避免的问题。因此,国科大、鹏城实验室和华为研究人员首次将二者进行了融合并提出全新的Conformer... 查看详情

    swintransformer对cnn的降维打击

    一、前言一张图告诉你Transformer现在是多么的强!几乎包揽了ADE20K语义分割的前几名!该文章详细解读Swin-transformer的相关内容以及高明之处。看完学不会,你在评论区打我!CNN已然在计算机视觉领域取得了革命性... 查看详情

    swintransformer对cnn的降维打击

    一、前言一张图告诉你Transformer现在是多么的强!几乎包揽了ADE20K语义分割的前几名!该文章详细解读Swin-transformer的相关内容以及高明之处。看完学不会,你在评论区打我!CNN已然在计算机视觉领域取得了革命性... 查看详情

    swintransformer对cnn的降维打击

    一、前言一张图告诉你Transformer现在是多么的强!几乎包揽了ADE20K语义分割的前几名!该文章详细解读Swin-transformer的相关内容以及高明之处。看完学不会,你在评论区打我!CNN已然在计算机视觉领域取得了革命性... 查看详情

    convnext:超越transformer?总结涨点技巧与理解代码(附注释)(代码片段)

    ...样层3.代码理解4.涨点技巧5.结语1.前言近年来,VisionTransformer在图像分类问题中表现出极大优势。但在目标检测,语义分割和图像恢复等问题中存在诸多不足,因此在该类问题中以ConvNet作为先验,Transformer作为主干... 查看详情

    attentionisallyouneed(transformer)原理小结

    ...为encoder-decoder的模型基础,而谷歌最新的只基于Attention的Transformer模型摒弃了固有的定式,并没有用任何CNN或者RNN的结构。该模型可以高度并行地工 查看详情

    transformer学习(代码片段)

    Transformer学习此帖用于整理回顾自己学transformer的一些问题和知识极好的博客和资料:Transformer模型详解-CSDN博客:原理讲的很清楚举个例子讲下transformer的输入输出细节及其他-知乎(zhihu.com):讲的是输入输出的细节Transformer论文逐... 查看详情

    transformer模型解读

      最近在关注谷歌发布关于BERT模型,它是以Transformer的双向编码器表示。顺便回顾了《Attentionisallyouneed》这篇文章主要讲解Transformer编码器。使用该模型在神经机器翻译及其他语言理解任务上的表现远远超越了现有算法。  ... 查看详情