正文

清华&南开出品最新视觉注意力机制attention综述

人工智能博士  人工智能博士  2023-02-21  486

关键词：

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★，第一时间获取资源

仅做学术分享，如有侵权，联系删除

转载于：量子位

清华大学计图团队和南开大学程明明教授团队、卡迪夫大学Ralph R. Martin教授合作，在ArXiv上发布关于计算机视觉中的注意力机制的综述文章。该综述系统地介绍了注意力机制在计算机视觉领域中相关工作

清华计图胡事民团队的这篇注意力机制的综述火了！

在上周的arXiv上，这是最热的一篇论文：

推特以及GitHub上也有不低的热度：

而这篇论文引用近200篇内容，对计算机视觉领域中的各种注意力机制进行了全面回顾。

在大量调查之后，论文将注意力机制分为多个类别，GitHub还给出了各类别下提到内容的PDF下载文件：

现在，就来一起看看这篇论文。

文章主要内容

论文首先将基于注意力的模型在计算机视觉领域中的发展历程大致归为了四个阶段：

将深度神经网络与注意力机制相结合，代表性方法为RAM
明确预测判别性输入特征，代表性方法为STN
隐性且自适应地预测潜在的关键特征，代表方法为SENet
自注意力机制

同时，注意力机制也被分为了通道注意、空间注意、时间注意、分支注意，以及两个混合类别：

针对不同类别，研究团队给出了其代表性方法和发展背景：

通道注意力（Channel Attention）

在深度神经网络中，不同特征图的不同通道常代表不同对象。

而通道注意力作为一个对象选择过程，可以自适应地重新校准每个通道的权重，从而决定关注什么。

因此，按照类别和出版日期将代表性通道关注机制进行分类，应用范围有分类（Cls）、语义分割（SSeg）、实例分割（ISeg）、风格转换（ST）、动作识别（Action）。

其中，(A)代表Channel-wise product，(I）强调重要通道，（II）捕捉全局信息。

空间注意力（Spatial Attention）

空间注意力可以被看作是一种自适应的空间区域选择机制。

其应用范围比通道注意力多出了精细分类（FGCls）和图像字幕（ICap）。

时间注意力（Temporal Attention）

时间注意力可以被看作是一种动态的时间选择机制，决定了何时进行注意，因此通常用于视频处理。

分支注意力（Branch Attention）

分支注意可以被看作是一种动态的分支选择机制，通过多分支结构决定去注意什么。

通道空间注意力（Channel & Spatial Attention）

通道和空间结合的注意力机制可以自适应地选择重要的对象和区域，由残差注意力（Residual Attention）网络开创了这一内容。

在残差注意力之后，为了有效利用全局信息，后来的工作又相继引入全局平均池化（Global Average Pooling），引入自注意力机制等内容。

时空注意力（Spatial & Temporal Attention）

时空注意力机制可以自适应地选择重要区域和关键帧。

最后，作者也提出了注意力机制在未来的一些研究方向：

探索注意力机制的必要和充分条件
是否可以有一个通用的注意块，可以根据具体的任务在各类注意力机制之间进行选择
开发可定性和可解释的注意力模型
注意力机制可以产生稀疏的激活，这促使我们去探索哪种架构可以更好地模拟人类的视觉系统
进一步探索基于注意力的预训练模型
为注意力模型研究新的优化方法
找到简单、高效、有效的基于注意力的模型，使其可以广泛部署

关于作者

这篇论文来自清华大学计算机系胡事民团队。

胡事民为清华大学计算机系教授，教育部长江学者特聘教授，曾经和现任IEEE、Elsevier、Springer等多个期刊的主编、副主编和编委。同时，他也是清华“计图”框架团队的负责人，这是首个由中国高校开源的深度学习框架。

文章一作为胡事民教授的博士生国孟昊，现就读于清华大学计算机系，也是清华计图团队的一员。

各类资源汇总链接：
https://github.com/MenghaoGuo/Awesome-Vision-Attentions

论文地址：
https://arXiv.org/abs/2111.07624

---------♥---------

声明：本内容来源网络，版权属于原作者

图片来源网络，不代表本公众号立场。如有侵权，联系删除

AI博士私人微信，还有少量空位

如何画出漂亮的深度学习模型图？

如何画出漂亮的神经网络图？

一文读懂深度学习中的各种卷积

点个在看支持一下吧

python实现注意力机制

...理能力。在处理视觉数据的初期,人类视觉系统会迅速将注意力集中在场景中的重要区域上,这一选择性感知机制极大地减少了人类视觉系统查看详情

视觉注意力机制——通道注意力空间注意力自注意力

前言本文介绍注意力机制的概念和基本原理，并站在计算机视觉CV角度，进一步介绍通道注意力、空间注意力、混合注意力、自注意力等。目录前言一、注意力机制二、通道注意力机制三、空间注意力机制四、混合注意力... 查看详情

视觉注意力机制——通道注意力空间注意力自注意力

[转]深度学习中的注意力机制

from: https://zhuanlan.zhihu.com/p/37601161注意力模型最近几年在深度学习各个领域被广泛使用，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都很容易遇到注意力模型的身影。所以，了解注意力机制的工作... 查看详情

计算机视觉中的注意力机制的学习笔记

1介绍关于注意力机制（Attension）的综述请参考博文《综述｜计算机视觉中的注意力机制》关于Attention机制，我总觉得是一个很有趣的话题，因为根据“万能拟合器”理论，似乎应该是不会需要使用Attension... 查看详情

综述｜计算机视觉中的注意力机制

...心思想是突出对象的某些重要特征。本文主要介绍了多种注意力机制的基本结构和实现过程。之前在看DETR这篇论文中的self_attention，然后查看详情

计算机视觉中的注意力机制研究

...了很久的，不想交上去就完了，所以发上来留个纪念。将注意力机制用在计算机视觉任务上，可以有效捕捉图片中有用的区域，从而提升整体网络性能。计算机视觉领域的注意力机制主要分为两类：(1)self-attention；(2)scaleattention... 查看详情

深度学习中的注意力机制(attentionmodel)

目录一、人类的视觉注意力二、Encoder-Decoder框架三、Attention模型四、SoftAttention模型Attention机制的本质思想五、SelfAttention模型六、Attention机制的应用注意力模型最近几年在深度学习各个领域被广泛使用，无论是图像处理、语... 查看详情

无聊读论文：视觉注意力模型rare2012

...章啦，今天看到有文章使用它的方法，特地拜读下。视觉注意力机制这东西我们感兴趣，那就是因为它有用呀。比如帮助人机交互界面优化，让用户使用交互按钮更加舒服；广告设计的评估；视频图像数据压缩，着重保留更感兴... 查看详情

聊一聊计算机视觉中常用的注意力机制附pytorch代码实现(代码片段)

聊一聊计算机视觉中常用的注意力机制以及Pytorch代码实现注意力机制（Attention）是深度学习中常用的tricks，可以在模型原有的基础上直接插入，进一步增强你模型的性能。注意力机制起初是作为自然语言处理中的... 查看详情

目前主流的attention方法有哪些

参考技术A注意力模型最近几年在深度学习各个领域被广泛使用，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都很容易遇到注意力模型的身影。所以，了解注意力机制的工作原理对于关注深度学习技... 查看详情

注意力机制

参考技术A 注意力模型最近几年在深度学习各个领域被广泛使用，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都很容易遇到注意力模型的身影。视觉注意力机制是... 查看详情

深度学习注意力机制真能提高吗

真能提高。深度学习注意力机制是对人类视觉注意力机制的仿生，是人类视觉注意力能够以高分辨率接收于图片上的某个区域，并且以低分辨率感知其周边区域提高注意力。参考技术A深度学习的注意力机制可以帮助神经网络模... 查看详情

[深度学习学习笔记]注意力机制-attentionalmechanism

注意力机制最早在自然语言处理和机器翻译对齐文本中提出并使用，并取得了不错的效果。在计算机视觉领域，也有一些学者探索了在视觉和卷积神经网络中使用注意力机制来提升网络性能的方法。注意力机制的基... 查看详情

把大核卷积拆成三步，清华胡事民团队新视觉backbone刷榜了，集cnn与vit优点于一身...

...现在一种全新Backbone——VAN（VisiualAttentionNetwork,视觉注意力网络）再次引起学界关注。因为新模型再一次刷榜三大视觉任务，把上面那两位又都给比下去了。VAN号称同时吸收了CNN和ViT的优势且简单高效，精度更高... 查看详情

rnn架构解析gru模型&注意力机制(代码片段)

...结构图和计算公式1.2Pytorch中GRU工具的使用1.3GRU的优缺点2.注意力机制2.1什么是注意力机制2.2注意力机制的作用2.3注意力机制实现步骤1.GRU模型学习目标了解GRU内部结构及计算公式.掌握Pytorch中GRU工具的使用.了解GRU的优势与缺点.GRU... 查看详情

rnn架构解析gru模型&注意力机制(代码片段)

nlp新秀prompt跨界出圈，清华刘知远最新论文将它应用到vlm图像端

...P，和南洋理工大学的CoOp都用了这种思路。现在，清华副教授刘知远团队最新发布的视觉语言模型论文中，也提出了一种基于prompt的查看详情