正文

【cv论文笔记】maskr-cnn之roialign理解

author  author  2023-05-13  133

关键词：

参考技术A

本文主要用于介绍Kaiming He, rbg等大神于2017年提出的Mask R-CNN网络，该网络架构是在其前作Fast R-CNN上的升级改进版可以用于实例分割。本笔记主要为自我温习回顾，以备后用。

论文链接： https://arxiv.org/pdf/1703.06870.pdf
github主页： https://github.com/facebookresearch/Detectron
rbg大神个人主页： http://www.rossgirshick.info/#girshick2014rcnn
恺明大神的演讲视频： https://www.youtube.com/watch?v=g7z4mkfRjI4&t=601s

为更好的理解该论文，建议先行阅读Faster R-CNN网络的相关论文，这里也附上本菇之前写的1篇论文笔记供大家参考～
Faster R-CNN理解

基本目录如下：

------------------第一菇 - 摘要------------------

我们从概念上提出了一种简单，易变和通用的框架用于目标实例分割。我们的方法能够高效的在一张图片中检测出物体同时对于该物体生成高质量的分割蒙版（segmentation mask），我们称此方法为，“Mask R-CNN”，其本质也是由Faster R-CNN衍化而来的，就是在Faster R-CNN后面多加了一个分支用于预测目标的蒙版，跟预测目标的识别和位置的分支是平行的。Mask R-CNN也易于去训练，仅仅只比Faster R-CNN慢一点，运行效率达到5fps。另外，Mask R-CNN也能够十分简单的被转移去训练其他的任务，比如去预测人体的姿态关键点。我们在COCO数据集上运用该模型训练了多个任务，包括实例分割，目标框预测和人体关键点检测，均取得不错的成绩。我们希望Mask R-CNN能够成为业界新的标杆，并能被广泛运用于新领域的研究。

------------------第二菇 - 核心思想------------------

整体架构十分容易理解，就是在RPN之后新添了一个分支用于预测mask的。网上其他的讲解资料也很多，这里我只记录一下Mask R-CNN中的重点，RoIAlign。不过我们还是先来温习一下，什么是RoIPool的实现原理。

为了搞明白原理，我们先问一个问题，为什么需要RoIPool？
原因就是经过RPN生成的候选区域大小不一样，无法直接连接全连接层进行后续的分类及定位处理，因此需要RoIPool层将其转为固定维度大小的特征。当然这是很明确的一个原因，不过还有一个潜在的原因可以理解为特征的二次提取。因为在RPN中，特征只被共享卷积层提取过一次，而为了提升后续的定位及分类准确率，对于每一个候选区域进一步提取特征也是符合逻辑的，贴一张示意图，方便理解，

原理很简单，我们再来看具体的细节处理，会产生的像素偏差。

第一个就是从输入图上的RoI到特征图上的RoI Feature，

假如现在我们输入了一张的图像，图像中有2个目标（狗和猫），其中狗的识别框为，经过VGG16网络后，图像得到对应的feature map为（5次池化操作），而对应的狗的识别框就变为了，因此这里就会有一个误差，于是这里就有了第一个量化操作，即取整，使其结果变为，如下所示（右图中未能重叠的部分就是误差了～）

第二个误差就是将每个特征转化为固定大小维度的时候所产生的。比如现在要将的特征映射到上，对应的大小就是了，因此同上这里又会有一个误差，于是就有了第二个量化操作，也是取整。即原先由大小生成的值，现在只由的大小生成了～虽然看起来这是一个很小很小的误差，但是要知道，这时候我们的感受野已经是32倍了，相当于原图的像素差了～

这里也贴一张网上流行的RoIPool的示意图，帮助理解，

因此以上两种取整的量化操作，对于分类问题来说可能影响不大，但是对于实例分割这种像素级别的，细微的像素误差可能就会导致最终结果的崩坏。因此，本文才会提出了RoIAlign，其主要目的就是为了消除这种误差的。

简单来讲，RoIAlign的作用就是用双线性插值的办法取代了之前的取整操作，从而使得每个RoI取得的特征能更好的对齐原图上的RoI区域。具体来讲，双线性插值是一种比较理想的图像缩放算法，他通过拟合一个虚拟的点（该点的值由其周围4个确定点的像素值决定），从而将那些浮点数的点的值给表达出来，如下图所示，

作者同时也强调了一件事情，即，

We note that the results are not sensitive to the exact sampling locations, or how many points are sampled, as long as no quantization is performed.

也就是说该方法对采样点的个数和位置并不是十分敏感在意的～而且采用了这种方法以后，准确率有了很大的提升～！

至此，整一个新的RoIAlign层的作用及原理算是讲明白了。

剩下的网络架构类的，实现细节等不再多记录了。

------------------第三菇 - 总结------------------

本文主要是记录了Mask R-CNN中的一个创新难点，ROIAlign的作用及实现方法，其他有关Mask R-CNN的相信不难理解。

参考文献：
【1】 https://blog.csdn.net/jiongnima/article/details/79094159

cv开山之作：《alexnet》深度学习图像分类经典论文总结学习笔记（原文＋总结）

...et（ImageNetClassificationwithDeepConvolutionalNeuralNetworks）论文原文：https://dl.acm.org/doi/pdf/10.1145/3065386目录深度学习论文总结前言一.Abstract-摘要二.Introduce-介绍三.TheDataset-数据集四.TheArchitecture-网络结构五.ReducingOverfitting-减少... 查看详情

论文阅读总结maskr-cnn翻译总结(代码片段)

MaskR-CNN1.摘要MaskR-CNN相关介绍与优点2.引言3.文献综述3.1R-CNN3.2InstanceSegmentation【实例分割】4.MaskR-CNN介绍4.1FasterR-CNN(相关细节请看相关文章)4.2MaskR-CNN4.3MaskRepresentation【遮罩表示法】4.4RoIAlign【感兴趣区域对齐】4.4.1RoIPool【感兴趣区... 查看详情

深度之眼paper带读笔记目录

文章目录简介图神经网络（已完结）NLP精读论文目录（已完结）NLPBaseline（已完结）CV目录（已太监）简介本次的Paper学习营分CV和NLP两个方向，每个方向又分精读、重点阅读和推荐阅读三类文章&... 查看详情

论文笔记之：deepmetriclearningvialiftedstructuredfeatureembedding

DeepMetricLearningviaLiftedStructuredFeatureEmbeddingCVPR2016 　　摘要：本文提出一种距离度量的方法，充分的发挥trainingbatches的优势，byliftingthevectorofpairwisedistanceswithinthebatchtothematrixofpairwisedistan 查看详情

论文笔记之：visualtrackingwithfullyconvolutionalnetworks

论文笔记之：VisualTrackingwithFullyConvolutionalNetworksICCV2015 CUHK　　本文利用FCN来做跟踪问题，但开篇就提到并非将其看做是一个黑匣子，只是用来提取特征，而是在大量的图像和ImageNet分类任务上关于CNN的feature做了大量的深度的... 查看详情

deeplearning论文笔记之sparsefiltering稀疏滤波

DeepLearning论文笔记之（二）SparseFiltering稀疏滤波自己平时看了一些论文，但老感觉看完过后就会慢慢的淡忘，某一天重新拾起来的时候又好像没有看过一样。所以想习惯地把一些感觉... 查看详情

2读书笔记之论文感想

...商业转载请联系作者获得授权，非商业转载请注明出处。论文的组成。下面，针对论文给出7个大部分的一些内容组成：（1）Abstract——对自己工作及其贡献的总结：a）阐述问题；b）说明自己的解决方案和结果。（150-200words）（... 查看详情

论文笔记之：speeduptrackingbyignoringfeatures

SpeedUpTrackingbyIgnoringFeaturesCVPR2014 　　Abstract：本文提出一种特征选择的算法，来实现用最“精简”的特征以进行目标跟踪。重点是提出一种上界（UpperBound）来表示一块区域包含目标物体的概率，并且忽略掉这个bound比较... 查看详情

论文笔记之：multiplefeaturefusionviaweightedentropyforvisualtracking

MultipleFeatureFusionviaWeightedEntropyforVisualTracking ICCV2015 　　本文主要考虑的是一个多特征融合的问题．如何有效的进行加权融合，是一个需要解决的问题．本文提出一种新的data-adaptivevisualtrackingapproach通过weightedentropy进行... 查看详情

论文笔记之：acnncascadeforlandmarkguidedsemanticpartsegmentation

ACNNCascadeforLandmarkGuidedSemantic PartSegmentation ECCV2016 　　摘要：本文提出了一种CNNcascade（CNN级联）结构，根据一系列的定位（landmarksorkeypoints），得到特定的pose信息，进行语义part分割。前人有许多单独的工作，... 查看详情

论文笔记之：collaborativedeepreinforcementlearningforjointobjectsearch

CollaborativeDeepReinforcementLearningforJointObjectSearch CVPR2017Motivation：　　传统的bottom-upobjectregionproposals的方法，由于提取了较多的proposal，导致后续计算必须依赖于抢的计算能力，如GPU等。那么，在计算机不足的情况下，则会导... 查看详情

论文笔记之：ratm:recurrentattentivetrackingmodel

RATM:RECURRENTATTENTIVETRACKINGMODEL　　ICLR2016 　　Paper: http://xueshu.baidu.com/s?wd=RATM%3A+RECURRENT+ATTENTIVE+TRACKING+MODEL&rsv_bp=0&tn=SE_baiduxueshu_c1gjeupa&rsv_spt=3& 查看详情

论文笔记之：siameseinstancesearchfortracking

　　　　　　最近一直在赶AAAI的deadline，几乎停滞了文章的阅读，今天虽属休息日，拿来之前一直想看的paper，继续写，为接下来的tracker打下基础。。。　　今天要讲的是做视觉跟踪的，利用孪生网络进行示例的搜... 查看详情

论文笔记之：hierarchicalconvolutionalfeaturesforvisualtracking

HierarchicalConvolutionalFeaturesforVisualTracking ICCV2015 　　摘要：跟卢湖川的那个文章一样，本文也是利用深度学习各个layer之间提取出来的不同特征进行跟踪。因为各个层次提出来的feature具有不同的特征。并且将各个层级... 查看详情

cv之——bow分类

1.基于BOW的图像检索https://blog.csdn.net/qq_42617827/article/details/900482212.SIFT算法的应用--目标识别之Bag-of-words模型https://blog.csdn.net/v_JULY_v/article/details/65558993.论文：BeyondBagsofFeatures:SpatialPyramidMatc 查看详情

论文笔记之：deeprecurrentq-learningforpartiallyobservablemdps

DeepRecurrentQ-LearningforPartiallyObservableMDPs 　摘要：DQN的两个缺陷，分别是：limitedmemory和relyonbeingabletoperceivethecompletegamescreenateachdecisionpoint. 　　为了解决这两个问题，本文尝试用LSTM单元替查看详情

deeplearning论文笔记之cnn卷积神经网络推导和实现（转）

DeepLearning论文笔记之（四）CNN卷积神经网络推导和实现[email protected]http://blog.csdn.net/zouxy09 自己平时看了一些论文，但老感觉看完过后就会慢慢的淡忘，某一天重新拾起来的时候又... 查看详情

【cv论文笔记】mobilenetv2:invertedresidualsandlinearbottlenecks（mobilenetv2理解）

...tV2。本笔记主要为方便初学者快速入门，以及自我回顾。论文链接：http://openaccess.thecvf.com/content_cvpr_2018/papers/Sandler_MobileNetV2_Inverted_Residuals_CVPR_2018_paper.pdf基本目录如下：------------------第一菇-摘要------------------在本论文中，我们... 查看详情