正文

经典目标检测算法介绍

author  author  2023-03-20  791

关键词：

参考技术A 姓名：牛晓银；学号：20181213993；学院：计算机科学与技术

转自：https://zhuanlan.zhihu.com/p/34142321

【嵌牛导读】：目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割。随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行实时跟踪研究越来越热门，对目标进行动态实时跟踪定位在智能化交通系统、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。

【嵌牛鼻子】：目标检测、检测模型、计算机视觉

【嵌牛提问】：你知道或者用过哪些目标检测算法？

【嵌牛正文】：

（一）目标检测经典工作回顾

本文结构

两阶段模型因其对图片的两阶段处理得名，也称为基于区域（Region-based）的方法，我们选取R-CNN系列工作作为这一类型的代表。

R-CNN: R-CNN系列的开山之作

论文链接： Rich feature hierarchies for accurate object detection and semantic segmentation

本文的两大贡献：1）CNN可用于基于区域的定位和分割物体；2）监督训练样本数紧缺时，在额外的数据上预训练的模型经过fine-tuning可以取得很好的效果。第一个贡献影响了之后几乎所有2-stage方法，而第二个贡献中用分类任务（Imagenet）中训练好的模型作为基网络，在检测问题上fine-tuning的做法也在之后的工作中一直沿用。

传统的计算机视觉方法常用精心设计的手工特征(如SIFT, HOG)描述图像，而深度学习的方法则倡导习得特征，从图像分类任务的经验来看，CNN网络自动习得的特征取得的效果已经超出了手工设计的特征。本篇在局部区域应用卷积网络，以发挥卷积网络学习高质量特征的能力。

R-CNN将检测抽象为两个过程，一是基于图片提出若干可能包含物体的区域（即图片的局部裁剪，被称为Region Proposal），文中使用的是Selective Search算法；二是在提出的这些区域上运行当时表现最好的分类网络（AlexNet），得到每个区域内物体的类别。

另外，文章中的两个做法值得注意。

一是数据的准备。输入CNN前，我们需要根据Ground Truth对提出的Region Proposal进行标记，这里使用的指标是IoU（Intersection over Union，交并比）。IoU计算了两个区域之交的面积跟它们之并的比，描述了两个区域的重合程度。

文章中特别提到，IoU阈值的选择对结果影响显著，这里要谈两个threshold，一个用来识别正样本（如跟ground truth的IoU大于0.5），另一个用来标记负样本（即背景类，如IoU小于0.1），而介于两者之间的则为难例（Hard Negatives），若标为正类，则包含了过多的背景信息，反之又包含了要检测物体的特征，因而这些Proposal便被忽略掉。

另一点是位置坐标的回归（Bounding-Box Regression），这一过程是Region Proposal向Ground Truth调整，实现时加入了log/exp变换来使损失保持在合理的量级上，可以看做一种标准化（Normalization)操作。

小结

R-CNN的想法直接明了，即将检测任务转化为区域上的分类任务，是深度学习方法在检测任务上的试水。模型本身存在的问题也很多，如需要训练三个不同的模型（proposal, classification, regression）、重复计算过多导致的性能问题等。尽管如此，这篇论文的很多做法仍然广泛地影响着检测任务上的深度模型革命，后续的很多工作也都是针对改进这一工作而展开，此篇可以称得上"The First Paper"。

Fast R-CNN: 共享卷积运算

论文链接： Fast R-CNN

文章指出R-CNN耗时的原因是CNN是在每一个Proposal上单独进行的，没有共享计算，便提出将基础网络在图片整体上运行完毕后，再传入R-CNN子网络，共享了大部分计算，故有Fast之名。

上图是Fast R-CNN的架构。图片经过feature extractor得到feature map, 同时在原图上运行Selective Search算法并将RoI（Region of Interset，实为坐标组，可与Region Proposal混用）映射到到feature map上，再对每个RoI进行RoI Pooling操作便得到等长的feature vector，将这些得到的feature vector进行正负样本的整理（保持一定的正负样本比例），分batch传入并行的R-CNN子网络，同时进行分类和回归，并将两者的损失统一起来。

RoI Pooling 是对输入R-CNN子网络的数据进行准备的关键操作。我们得到的区域常常有不同的大小，在映射到feature map上之后，会得到不同大小的特征张量。RoI Pooling先将RoI等分成目标个数的网格，再在每个网格上进行max pooling，就得到等长的RoI feature vector。

文章最后的讨论也有一定的借鉴意义：

multi-loss traing相比单独训练classification确有提升

multi-scale相比single-scale精度略有提升，但带来的时间开销更大。一定程度上说明CNN结构可以内在地学习尺度不变性

在更多的数据(VOC)上训练后，精度是有进一步提升的

Softmax分类器比"one vs rest"型的SVM表现略好，引入了类间的竞争

更多的Proposal并不一定带来精度的提升

小结

Fast R-CNN的这一结构正是检测任务主流2-stage方法所采用的元结构的雏形。文章将Proposal, Feature Extractor, Object Classification&Localization统一在一个整体的结构中，并通过共享卷积计算提高特征利用效率，是最有贡献的地方。

Faster R-CNN: 两阶段模型的深度化

论文链接： Faster R-CNN: Towards Real Time Object Detection with Region Proposal Networks

Faster R-CNN是2-stage方法的奠基性工作，提出的RPN网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。粗略的讲，Faster R-CNN = RPN + Fast R-CNN，跟RCNN共享卷积计算的特性使得RPN引入的计算量很小，使得Faster R-CNN可以在单个GPU上以5fps的速度运行，而在精度方面达到SOTA（State of the Art，当前最佳）。

本文的主要贡献是提出Regional Proposal Networks，替代之前的SS算法。RPN网络将Proposal这一任务建模为二分类（是否为物体）的问题。

第一步是在一个滑动窗口上生成不同大小和长宽比例的anchor box（如上图右边部分），取定IoU的阈值，按Ground Truth标定这些anchor box的正负。于是，传入RPN网络的样本数据被整理为anchor box（坐标）和每个anchor box是否有物体（二分类标签）。RPN网络将每个样本映射为一个概率值和四个坐标值，概率值反应这个anchor box有物体的概率，四个坐标值用于回归定义物体的位置。最后将二分类和坐标回归的损失统一起来，作为RPN网络的目标训练。

由RPN得到Region Proposal在根据概率值筛选后经过类似的标记过程，被传入R-CNN子网络，进行多分类和坐标回归，同样用多任务损失将二者的损失联合。

小结

Faster R-CNN的成功之处在于用RPN网络完成了检测任务的"深度化"。使用滑动窗口生成anchor box的思想也在后来的工作中越来越多地被采用（YOLO v2等）。这项工作奠定了"RPN+RCNN"的两阶段方法元结构，影响了大部分后续工作。

单阶段（1-stage）检测模型

单阶段模型没有中间的区域检出过程，直接从图片获得预测结果，也被成为Region-free方法。

YOLO

论文链接： You Only Look Once: Unified, Real-Time Object Detection

YOLO是单阶段方法的开山之作。它将检测任务表述成一个统一的、端到端的回归问题，并且以只处理一次图片同时得到位置和分类而得名。

YOLO的主要优点：

快。

全局处理使得背景错误相对少，相比基于局部（区域）的方法，如Fast RCNN。

泛化性能好，在艺术作品上做检测时，YOLO表现比Fast R-CNN好。

YOLO的工作流程如下：

1.准备数据：将图片缩放，划分为等分的网格，每个网格按跟Ground Truth的IoU分配到所要预测的样本。

2.卷积网络：由GoogLeNet更改而来，每个网格对每个类别预测一个条件概率值，并在网格基础上生成B个box，每个box预测五个回归值，四个表征位置，第五个表征这个box含有物体（注意不是某一类物体）的概率和位置的准确程度（由IoU表示）。测试时，分数如下计算：

等式左边第一项由网格预测，后两项由每个box预测，以条件概率的方式得到每个box含有不同类别物体的分数。因而，卷积网络共输出的预测值个数为S×S×(B×5+C)，其中S为网格数，B为每个网格生成box个数，C为类别数。

3.后处理：使用NMS（Non-Maximum Suppression，非极大抑制）过滤得到最后的预测框

损失函数的设计

损失函数被分为三部分：坐标误差、物体误差、类别误差。为了平衡类别不均衡和大小物体等带来的影响，损失函数中添加了权重并将长宽取根号。

小结

YOLO提出了单阶段的新思路，相比两阶段方法，其速度优势明显，实时的特性令人印象深刻。但YOLO本身也存在一些问题，如划分网格较为粗糙，每个网格生成的box个数等限制了对小尺度物体和相近物体的检测。

SSD: Single Shot Multibox Detector

论文链接： SSD: Single Shot Multibox Detector

SSD相比YOLO有以下突出的特点：

多尺度的feature map：基于VGG的不同卷积段，输出feature map到回归器中。这一点试图提升小物体的检测精度。

更多的anchor box，每个网格点生成不同大小和长宽比例的box，并将类别预测概率基于box预测（YOLO是在网格上），得到的输出值个数为(C+4)×k×m×n，其中C为类别数，k为box个数，m×n为feature map的大小。

小结

SSD是单阶段模型早期的集大成者，达到跟接近两阶段模型精度的同时，拥有比两阶段模型快一个数量级的速度。后续的单阶段模型工作大多基于SSD改进展开。

检测模型基本特点

最后，我们对检测模型的基本特征做一个简单的归纳。

检测模型整体上由基础网络（Backbone Network）和检测头部（Detection Head）构成。前者作为特征提取器，给出图像不同大小、不同抽象层次的表示；后者则依据这些表示和监督信息学习类别和位置关联。检测头部负责的类别预测和位置回归两个任务常常是并行进行的，构成多任务的损失进行联合训练。

相比单阶段，两阶段检测模型通常含有一个串行的头部结构，即完成前背景分类和回归后，把中间结果作为RCNN头部的输入再进行一次多分类和位置回归。这种设计带来了一些优点：

对检测任务的解构，先进行前背景的分类，再进行物体的分类，这种解构使得监督信息在不同阶段对网络参数的学习进行指导

RPN网络为RCNN网络提供良好的先验，并有机会整理样本的比例，减轻RCNN网络的学习负担

这种设计的缺点也很明显：中间结果常常带来空间开销，而串行的方式也使得推断速度无法跟单阶段相比；级联的位置回归则会导致RCNN部分的重复计算（如两个RoI有重叠）。

另一方面，单阶段模型只有一次类别预测和位置回归，卷积运算的共享程度更高，拥有更快的速度和更小的内存占用。读者将会在接下来的文章中看到，两种类型的模型也在互相吸收彼此的优点，这也使得两者的界限更为模糊。

深度学习之目标检测常用算法原理+实践精讲

...家从整体上了解本门课程的整体脉络。1-1课程导学第2章目标检测算法基础介绍本章节主要介绍目标检测算法的基本概念、传统的目标检测算法、目前深度学习目标检测主流方法（one-stage、two-stage、多任务网络）、相关算法的基... 查看详情

深度学习之目标检测常用算法原理+实践精讲

课程介绍:本课程从整个目标检测技术发展的历程开始，从算法角度出发，对各个模型进行全面细致的讲解，并结合人脸检测、物体检测、行人车辆检测、文本检测等项目，熟悉算法工程师在工作中会接触到的数据打包、网络训... 查看详情

目标检测算法经典论文回顾（一）

参考技术A论文名称：Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation提出时间：2014年论文地址：https://openaccess.thecvf.com/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf针对问题：从Alexnet提出后，作者等人思考... 查看详情

第06课：cnn在机器视觉中的应用——目标检测

...容将在上一节课的基础上，为大家介绍机器视觉中另一类经典案例——目标检测。本节课核心内容包括：卷积神经网络的应用：图像目标检测滑动窗口算法基于卷积神经网络的算法目前基于深度神经网络的目标检测模型有：YOLO... 查看详情

深度学习之目标检测常用算法原理+实践精讲

...等，帮助大家从整体上了解本门课程的整体脉络。第2章目标检测算法基础介绍本章节主要介绍目标检测算法的基本概念、传统的目标检测算法、目前深度学习目标检测主流方法（one-stage、two-stage、多任务网络）、相关算法的基... 查看详情

深度学习之目标检测常用算法原理+实践精讲yolo/fasterrcnn/ssd/文本检测/多任务网络

深度学习之目标检测常用算法原理+实践精讲YOLO/FasterRCNN/SSD/文本检测/多任务网络资源获取链接：点击这里第1章课程介绍本章节主要介绍课程的主要内容、核心知识点、课程涉及到的应用案例、深度学习算法设计通用流程、适应... 查看详情

卷积网络应用于目标检测算法

简介：目标检测算法作为计算机视觉领域最基本且最具挑战性的任务之一，一直处于研究的热门领域。近年来，随着深度学习和卷积神经网络的兴起，传统的目标检测算法的性能已不能满足现今的指标要求而被基... 查看详情

目标检测—two-stage检测

　　目前主流的目标检测算法主要是基于深度学习模型，其可以分成两大类：two-stage检测算法；one-stage检测算法。本文主要介绍第一类检测算法，第二类在下一篇博文中介绍。　　目标检测模型的主要性能指标是检测准确度和速... 查看详情

domainadaptivefasterr-cnn：经典域自适应目标检测算法，解决现实中痛点，代码开源|cvpr2018

论文从理论的角度出发，对目标检测的域自适应问题进行了深入的研究，基于H-divergence的对抗训练提出了DAFasterR-CNN，从图片级和实例级两种角度进行域对齐，并且加入一致性正则化来学习域不变的RPN。从实验来看，论文的方法... 查看详情

深度剖析目标检测算法yolov4

深度剖析目标检测算法YOLOV4 目录简述yolo的发展历程介绍 yolov3 算法原理介绍 yolov4 算法原理（相比于yolov3，有哪些改进点）YOLOV4 源代码日志解读 yolo 发展历程采用卷积神... 查看详情

计算机视觉框架openmmlab开源学习：目标检测基础

前言：本系列第四篇文章主要介绍目标检测知识，介绍单阶段与双阶段算法发展，并学习目标检测模型，了解计算机视觉框架OpenMMLab的MMDetection工具基本原理及使用，为后续目标检测实战做铺垫。计算机视觉框... 查看详情

目标检测算法-mrcnn

...过一系列的卷积操作输出featuremap，这部分可以使用各种经典的网络结构，这部分就是提取原始图像的特征信息。二.RegionAdaptationModule这部分就是给定一个Region和网络输出的featuremap。此模块将Region映射到featuremap上，进行裁剪后，... 查看详情

菜品识别系统（faster-rcnn目标检测算法）(代码片段)

目录一、Faster-RCNN目标检测算法的介绍二、效果展示三、环境配置四、图片数据集准备五、代码具体实现一、Faster-RCNN目标检测算法的介绍Faster-RCNN算法由于其较高的检测准确率成为主流的目标检测算法之一，相比较YOLO系列算... 查看详情

目标检测|经典算法cascader-cnn:delvingintohighqualityobjectdetection

作者从detector的overfittingattraining/qualitymismatchatinference问题入手，提出了基于multi-stage的CascadeR-CNN，该网络结构清晰，效果显著，并且能简单移植到其它detector中，带来2-4%的性能提升论文:CascadeR-CNN:DelvingintoHighQualityObjectDetection论文... 查看详情

异常检测——从经典算法到深度学习》14对于流数据基于rrcf的异常检测

《异常检测——从经典算法到深度学习》0概论1基于隔离森林的异常检测算法2基于LOF的异常检测算法3基于One-ClassSVM的异常检测算法4基于高斯概率密度异常检测算法5Opprentice——异常检测经典算法最终篇6基于重构概率的VAE异常检... 查看详情

异常检测——从经典算法到深度学习》14对于流数据基于rrcf的异常检测

目标检测算法总结(代码片段)

转自：https://www.cnblogs.com/guoyaohua/p/8994246.html目标检测是很多计算机视觉任务的基础，不论我们需要实现图像与文字的交互还是需要识别精细类别，它都提供了可靠的信息。本文对目标检测进行了整体回顾，第一部分从RCNN开始介... 查看详情

正文

经典目标检测算法介绍

深度学习之目标检测常用算法原理+实践精讲

深度学习之目标检测常用算法原理+实践精讲

目标检测算法经典论文回顾（一）

第06课：cnn在机器视觉中的应用——目标检测

深度学习之目标检测常用算法原理+实践精讲

深度学习之目标检测常用算法原理+实践精讲yolo/fasterrcnn/ssd/文本检测/多任务网络

卷积网络应用于目标检测算法

目标检测—two-stage检测

domainadaptivefasterr-cnn：经典域自适应目标检测算法，解决现实中痛点，代码开源|cvpr2018

深度剖析目标检测算法yolov4

计算机视觉框架openmmlab开源学习：目标检测基础

目标检测算法-mrcnn

菜品识别系统（faster-rcnn目标检测算法）(代码片段)

目标检测|经典算法cascader-cnn:delvingintohighqualityobjectdetection

异常检测——从经典算法到深度学习》14对于流数据基于rrcf的异常检测

异常检测——从经典算法到深度学习》14对于流数据基于rrcf的异常检测

目标检测算法总结(代码片段)

《异常检测——从经典算法到深度学习》20hotspot：多维特征additivekpi的异常定位