cv的未来是图神经网络?中科院软件所发布全新cv模型vig,性能超越vit(代码片段)

Charmve Charmve     2022-10-21     553

关键词:

点击上方“迈微AI研习社”,选择“星标★”公众号

重磅干货,第一时间送达

转载自:新智元

后台回复加群”进入—> CV 微信技术交流群

【新智元导读】最近,中科院软件所等四个机构的研究团队将CV与图神经网络结合起来,提出全新模型ViG,在等量参数情况下,性能超越ViT,可解释性也有所提升。

计算机视觉的网络结构又要迎来革新了?

从卷积神经网络到带注意力机制的视觉Transformer,神经网络模型都是把输入图像视为一个网格或是patch序列,但这种方式无法捕捉到变化的或是复杂的物体。

比如人在观察图片的时候,就会很自然地就将整个图片分为多个物体,并在物体间建立空间等位置关系,也就是说整张图片对于人脑来说实际上是一张graph,物体则是graph上的节点。

最近中科院软件研究所、华为诺亚方舟实验室、北京大学、澳门大学的研究人员联合提出了一个全新的模型架构Vision GNN (ViG),能够从图像中抽取graph-level的特征用于视觉任务。

论文链接:https://arxiv.org/pdf/2206.00272.pdf

首先需要将图像分割成若干个patch作为图中的节点,并通过连接最近的邻居patch构建一个graph,然后使用ViG模型对整个图中所有节点的信息进行变换(transform)和交换(exchange)。

ViG 由两个基本模块组成,Grapher模块用graph卷积来聚合和更新图形信息,FFN模块用两个线性层来变换节点特征。

在图像识别和物体检测任务上进行的实验也证明了ViG架构的优越性,GNN在一般视觉任务上的开创性研究将为未来的研究提供有益的启发和经验。

论文作者为吴恩华教授,中国科学院软件研究所博士生导师、澳门大学名誉教授,1970年本科毕业于清华大学工程力学数学系,1980年博士毕业于英国曼彻斯特大学计算机科学系。主要研究领域为计算机图形学与虚拟现实, 包括: 虚拟现实 、真实感图形生成、 基于物理的仿真与实时计算、 基于物理的建模与绘制、 图像与视频的处理与建模、 视觉计算与机器学习。

视觉GNN

网络结构往往是提升性能最关键的要素,只要能保证数据量的数量和质量,把模型从CNN换到ViT,就能得到一个性能更佳的模型。

但不同的网络对待输入图像的处理方式也不同,CNN在图像上滑动窗口,引入平移不变性和局部特征。

而ViT和多层感知机(MLP)则是将图像转换为一个patch序列,比如把224×224的图像分成若干个16×16的patch,最后形成一个长度为196的输入序列。

图神经网络则更加灵活,比如在计算机视觉中,一个基本任务是识别图像中的物体。由于物体通常不是四边形的,可能是不规则的形状,所以之前的网络如ResNet和ViT中常用的网格或序列结构是多余的,处理起来不灵活。

一个物体可以被看作是由多个部分组成的,例如,一个人可以大致分为头部、上半身、胳膊和腿。

这些由关节连接的部分很自然地形成了一个图形结构,通过分析图,我们最后才能够识别出这个物体可能是个人类。

此外,图是一种通用的数据结构,网格和序列可以被看作是图的一个特例。将图像看作是一个图,对于视觉感知来说更加灵活和有效。

使用图结构需要将输入的图像划分为若干个patch,并将每个patch视为一个节点,如果将每个像素视为一个节点的话就会导致图中节点数量过多(>10K)。

建立graph后,首先通过一个图卷积神经网络(GCN)聚合相邻节点间的特征,并抽取图像的表征。

为了让GCN获取更多样性的特征,作者将图卷积应用multi-head操作,聚合的特征由不同权重的head进行更新,最后级联为图像表征。

以前的GCN通常重复使用几个图卷积层来提取图数据的聚合特征,而深度GCN中的过度平滑现象则会降低节点特征的独特性,导致视觉识别的性能下降。

为了缓解这个问题,研究人员在ViG块中引入了更多的特征转换和非线性激活函数。

首先在图卷积的前后应用一个线性层,将节点特征投射到同一域中,增加特征多样性。在图形卷积之后插入一个非线性激活函数以避免层崩溃。

为了进一步提高特征转换能力,缓解过度平滑现象,还需要在每个节点上利用前馈网络(FFN)。FFN模块是一个简单的多层感知机,有两个全连接的层。

 

在Grapher和FFN模块中,每一个全连接层或图卷积层之后都要进行batch normalization,Grapher模块和FFN模块的堆叠构成了一个ViG块,也是构建大网络的基本单元。

与原始的ResGCN相比,新提出的ViG可以保持特征的多样性,随着加入更多的层,网络也可以学习到更强的表征。

在计算机视觉的网络架构中,常用的Transformer模型通常有一个等向性(Isotropic)的结构(如ViT),而CNN更倾向于使用金字塔结构(如ResNet)。

为了与其他类型的神经网络进行比较,研究人员为ViG同时建立了等向性和金字塔的两种网络架构。

在实验对比阶段,研究人员选择了图像分类任务中的ImageNet ILSVRC 2012数据集,包含1000个类别,120M的训练图像和50K的验证图像。

目标检测任务中,选择了有80个目标类别的COCO 2017数据集,包含118k个训练图片和5000个验证集图片。

在等向性的ViG架构中,其主要计算过程中可以保持特征大小不变,易于扩展,对硬件加速友好。在将其与现有的等向性的CNN、Transformer和MLP进行比较后可以看到,ViG比其他类型的网络表现得更好。其中ViG-Ti实现了73.9%的top-1准确率,比DeiT-Ti模型高1.7%,而计算成本相似。

金字塔结构的ViG中,随着网络的加深逐渐缩小了特征图的空间大小,利用图像的尺度不变量特性,同时产生多尺度的特征。

高性能的网络大多采用金字塔结构,如ResNet、Swin Transformer和CycleMLP。在将Pyramid ViG与这些有代表性的金字塔网络进行比较后,可以看到Pyramid ViG系列可以超越或媲美最先进的金字塔网络包括CNN、MLP和Transfomer。

结果表明,图神经网络可以很好地完成视觉任务,并有可能成为计算机视觉系统中的一个基本组成部分。

为了更好地理解ViG模型的工作流程,研究人员将ViG-S中构建的图结构可视化。在两个不同深度的样本(第1和第12块)的图。五角星是中心节点,具有相同颜色的节点是其邻居。只有两个中心节点是可视化的,因为如果绘制所有的边会显得很乱。

可以观察到,ViG模型可以选择与内容相关的节点作为第一阶邻居。在浅层,邻居节点往往是根据低层次和局部特征来选择的,如颜色和纹理。在深层,中心节点的邻居更具语义性,属于同一类别。

ViG网络可以通过其内容和语义表征逐渐将节点联系起来,帮助更好地识别物体。

参考资料:

https://arxiv.org/pdf/2206.00272.pdf

后台回复加群”进入—> CV 微信技术交流群


 

 

绘图神器下载

后台回复:绘图神器,即可下载绘制神经网络结构的神器!
PyTorch 学习资料下载

后台回复:PyTorch资料,即可下载访问最全的PyTorch入门和实战资料!
专栏推荐下载

专栏订阅:https://blog.csdn.net/charmve/category_10595130.html

迈微AI学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群

迈微AI研习社

微信号: MaiweiE_com

GitHub: @Charmve

CSDN、知乎: @Charmve

投稿: yidazhang1@gmail.com

主页: github.com/Charmve

整理不易,请点赞和在看

cv未来,路在何方?李飞飞指路!

...程,在部分任务性能已超越人类的情况下,计算机视觉的未来又该如何发展?李飞飞最近发文指了三个方向:具身智能,视觉推理和场景理解。在深度学习革命进程中,计算机视觉依托大规模数据集ImageNet,在图像分类、目标检... 查看详情

cv的未来究竟是convnext还是transformer?

点击上方“迈微AI研习社”,选择“星标★”公众号重磅干货,第一时间送达作者:gwave |  已授权转载 https://zhuanlan.zhihu.com/p/5020761322012年,AlexNet横空出世,推动深度学习快速发展,带动AI的第三波浪潮&#... 查看详情

2018走向成熟2019未来可期|paddlepaddle大有可为

深度学习框架如同智能时代的“发电机”,让人工智能技术更快速地普及到各行各业,推动融合创新,成为智能时代最重要的基础设施。PaddlePaddle作为目前国内唯一功能完备的深度学习框架,经过2018年的快速成长,初具模型领... 查看详情

cv::VideoCapture 适用于网络摄像头,但不适用于 IP 摄像头?

...?【英文标题】:cv::VideoCaptureworksforwebcamsbutnotIPcameras?【发布时间】:2013-05-0821:00:02【问题描述】:它必须发生,我被困在项目的最后阶段,当我想在我的网络摄像头和IP摄像头上使用我的代码时,它就像一个魅力。该URL在我的... 查看详情

机动目标跟踪——匀速运动cv模型(代码片段)

机动目标跟踪——匀速运动CV模型原创不易,路过的各位大佬请点个赞WX:ZB823618313机动目标跟踪——目标模型概述机动目标跟踪——匀速运动CV模型1.对机动目标跟踪的理解2.目标模型概述3.机动目标模型3.1匀速运动CV模型3.1.1一... 查看详情

mini6410 上的 Open Cv 和 GPIO 出现问题

...GPIO出现问题【英文标题】:troublewithOpenCvandGPIOonmini6410【发布时间】:2013-05-0915:23:35【问题描述】:我正在做一个基于arm的mini6410的简单项目。我在mini上安装了debian软件包。我的项目是将一个IR运动传感器和我的USB网络摄像头与mi... 查看详情

将 OpenCV CV 转换为 CV2 代码

...VCV转换为CV2代码【英文标题】:ConvertingOpenCVCV-to-CV2-Code【发布时间】:2014-10-3122:18:16【问题描述】:我正在尝试将我在互联网上找到的OpenCV代码示例从旧的IplImage格式转换为当前使用的Mat格式,但我对指针/类的正确使用缺乏经验... 查看详情

深度学习与cv教程|卷积神经网络

本文讲解了卷积神经网络的重点知识:卷积层、池化层、ReLU层、全连接层、局部连接、参数共享、最大池化、步长、零填充、经典案例等【对应CS231nLecture5】本文讲解了卷积神经网络的重点知识:卷积层、池化层、ReLU层、全连... 查看详情

计算机视觉(cv)基于卷积神经网络实现美食分类(代码片段)

【计算机视觉(CV)】基于卷积神经网络实现美食分类(文章目录)前言任务描述如何根据据图像的视觉内容为图像赋予一个语义类别是图像分类的目标,也是图像检索、图像内容分析和目标识别等问题的基础。本实践旨在通过一... 查看详情

深度学习与cv教程|神经网络训练技巧(下)

本文讲解训练神经网络的核心方法:优化方式(SGD、动量更新、Nesterov动量、Adagrad、RMSProp、Adam等),正则化(L2、Dropout),迁移学习,模型集成等【对应CS231nLecture7】本文讲解训练神经网络的核心方法:优化方式(SGD、动量更... 查看详情

cv第九课不同网络的对比

1.ResNet+Inception有着最高的Accuracy2.VGG最占内存,最多的操作数3.GoogleNet最efficient,这里的效率怎么计算的?4.AlexNet最少的操作数,但内存大,accuracy低5.Resnet效率适中,accuracy最高 注:图中圆的面积代表所占内存大小,横坐标代... 查看详情

OpenCV cv::Mat 大小限制

】OpenCVcv::Mat大小限制【英文标题】:OpenCVcv::Matsizelimit【发布时间】:2021-07-0207:18:52【问题描述】:当我设置一个宽高大的cv::Mat对象时,代码会运行异常...或打印“bgModel.size!=tsize”。当我降低宽度或高度时,打印“bgModel.size==tsi... 查看详情

AttributeError:模块'cv2.cv2'没有属性'cv'(类似的主题没有帮助)

...r:模块\'cv2.cv2\'没有属性\'cv\'(类似的主题没有帮助)【发布时间】:2021-01-1219:35:04【问题描 查看详情

OpenCV:使用 cv::triangulatepoints() 进行立体摄像机跟踪的问题

...】:OpenCV:IssuewithStereocameraTrackingusingcv::triangulatepoints()【发布时间】:2018-05-1816:55:30【问题描述】:我正在尝试使用cv::triangulatePoints()函数来跟踪棋盘图案,使用两个现成的网络摄像头。我使用MATLAB的Stereocam 查看详情

cv2.imshow 不显示网络摄像头视频并且不打开任何窗口

...文标题】:Thecv2.imshownotshowingwebcamvideoandnotopeninganywindow【发布时间】:2021-12-1922:28:32【问题描述】:我在使用OpenCV显示窗口和摄像头时遇到问题当我运行脚本时,我看到cam正在工作,但是带有这个cam的窗口没有显示在任何地方,... 查看详情

深度学习与cv教程(11)|循环神经网络及视觉应用

本文讲解了循环神经网络RNN的多种形式(1对1、1对多、多对1、多对多),语言模型,图像标注,视觉问答,注意力模型,RNN梯度流等【对应CS231nLecture10】本文讲解了循环神经网络RNN的多种形式(1对1、1对多、多对1、多对多),... 查看详情

安霸cv2fs/cv22fs获得asilc芯片功能安全认证

...司,专注于汽车和自动化系统功能安全评估、报警管理、网络安保评估和产品测试认证。exida为客户提供与功能安全标准实施以及其它标准相关的帮助和指导。exida认证安霸芯片CV2FS/CV22FS符合ISO26262汽车功能安全标准的ASILC要求,... 查看详情

计算机视觉(cv)基于全连接网络实现宝石分类(代码片段)

【计算机视觉(CV)】基于全连接网络实现宝石分类(文章目录)前言(一)、任务描述本次实践是一个多分类任务,需要将照片中的宝石分别进行识别,完成宝石的识别实践平台:百度AI实训平台-AIStudio、PaddlePaddle2.0.0动态图(二)、环... 查看详情