正文

目标跟踪检测算法（一）——传统方法

author  author  2023-03-20  347

关键词：

参考技术A 姓名：刘帆；学号：20021210609；学院：电子工程学院

https://blog.csdn.net/qq_34919792/article/details/89893214

【嵌牛导读】目标跟踪算法研究难点与挑战在于实际复杂的应用环境、背景相似干扰、光照条件的变化、遮挡等外界因素以及目标姿态变化，外观变形，尺度变化、平面外旋转、平面内旋转、出视野、快速运动和运动模糊等。而且当目标跟踪算法投入实际应用时，不可避免的一个问题——实时性问题也是非常的重要。正是有了这些问题，才使得算法研究充满着难点和挑战。

【嵌牛鼻子】目标跟踪算法，传统算法

【嵌牛提问】利用目标跟踪检测算法要达到何目的?第一阶段的单目标追踪算法包括什么?具体步骤有哪些?它们有何特点?

【嵌牛正文】

第一阶段

目标跟踪分为两个部分，一个是对指定目标寻找可以跟踪的特征，常用的有颜色，轮廓，特征点，轨迹等，另一个是对目标特征进行跟踪。

1、静态背景

1）背景差：对背景的光照变化、噪声干扰以及周期性运动等进行建模。通过当前帧减去背景图来捕获运动物体的过程。

2）帧差：由于场景中的目标在运动，目标的影像在不同图像帧中的位置不同。该类算法对时间上连续的两帧或三帧图像进行差分运算，不同帧对应的像素点相减，判断灰度差的绝对值，当绝对值超过一定阈值时，即可判断为运动目标，从而实现目标的检测功能。

与二帧差分法不同的是，三帧差分法（交并运算）去除了重影现象，可以检测出较为完整的物体。帧间差分法的原理简单，计算量小，能够快速检测出场景中的运动目标。但帧间差分法检测的目标不完整，内部含有“空洞”，这是因为运动目标在相邻帧之间的位置变化缓慢，目标内部在不同帧图像中相重叠的部分很难检测出来。帧间差分法通常不单独用在目标检测中，往往与其它的检测算法结合使用。

3）Codebook

算法为图像中每一个像素点建立一个码本，每个码本可以包括多个码元（对应阈值范围），在学习阶段，对当前像素点进行匹配，如果该像素值在某个码元的学习阈值内，也就是说与之前出现过的某种历史情况偏离不大，则认为该像素点符合背景特征，需要更新对应点的学习阈值和检测阈值。

如果新来的像素值与每个码元都不匹配，则可能是由于动态背景导致，这种情况下，我们需要为其建立一个新的码元。每个像素点通过对应多个码元，来适应复杂的动态背景。

在应用时，每隔一段时间选择K帧通过更新算法建立CodeBook背景模型，并且删除超过一段时间未使用的码元。

4）GMM

混合高斯模型（Gaussian of Micture Models，GMM）是较常用的背景去除方法之一（其他的还有均值法、中值法、滑动平均滤波等）。

首先我们需要了解单核高斯滤波的算法步骤：

混合高斯建模GMM（Gaussian Mixture Model）作为单核高斯背景建模的扩展，是目前使用最广泛的一种方法，GMM将背景模型描述为多个分布，每个像素的R、G、B三个通道像素值的变化分别由一个混合高斯模型分布来刻画，符合其中一个分布模型的像素即为背景像素。作为最常用的一种背景建模方法，GMM有很多改进版本，比如利用纹理复杂度来更新差分阈值，通过像素变化的剧烈程度来动态调整学习率等。

5）ViBe（2011）

ViBe算法主要特点是随机背景更新策略，这和GMM有很大不同。其步骤和GMM类似。具体的思想就是为每个像素点存储了一个样本集，样本集中采样值就是该像素点过去的像素值和其邻居点的像素值，然后将每一个新的像素值和样本集进行比较来判断是否属于背景点。

其中pt（x）为新帧的像素值，R为设定值，p1、p2、p3….为样本集中的像素值，以pt（x）为圆心R为半径的圆被认为成一个集，当样本集与此集的交集大于设定的阈值#min时，可认为此为背景像素点（交集越大，表示新像素点与样本集越相关）。我们可以通过改变#min的值与R的值来改变模型的灵敏度。

Step1：初始化单帧图像中每个像素点的背景模型。假设每一个像素和其邻域像素的像素值在空域上有相似的分布。基于这种假设，每一个像素模型都可以用其邻域中的像素来表示。为了保证背景模型符合统计学规律，邻域的范围要足够大。当输入第一帧图像时，即t=0时，像素的背景模型。其中，NG（x,y）表示空域上相邻的像素值，f(xi,yi)表示当前点的像素值。在N次的初始化的过程中，NG（x,y）中的像素点(xi,yi)被选中的可能次数为L=1,2,3,…,N。

Step2：对后续的图像序列进行前景目标分割操作。当t=k时，像素点(x,y)的背景模型为BKm(x,y)，像素值为fk(x,y)。按照下面判断该像素值是否为前景。这里上标r是随机选的；T是预先设置好的阈值。当fk(x,y)满足符合背景#N次时，我们认为像素点fk(x,y)为背景，否则为前景。

Step3：ViBe算法的更新在时间和空间上都具有随机性。每一个背景点有1/ φ的概率去更新自己的模型样本值，同时也有1/ φ的概率去更新它的邻居点的模型样本值。更新邻居的样本值利用了像素值的空间传播特性，背景模型逐渐向外扩散，这也有利于Ghost区域的更快的识别。同时当前景点计数达到临界值时将其变为背景，并有1/ φ的概率去更新自己的模型样本值（为了减少缓慢移动物体的影响和摄像机的抖动）。

可以有如下总结，ViBe中的每一个像素点在更新的时候都有一个时间和空间上随机影响的范围，这个范围很小，大概3x3的样子，这个是考虑到摄像头抖动时会有坐标的轻微来回变化，这样虽然由于ViBe的判别方式仍认为是背景点，但是也会对后面的判别产生影响，为了保证空间的连续性，随机更新减少了这个影响。而在样本值保留在样本集中的概率随着时间的增大而变小，这就保证了像素模型在时间上面的延续特性。

6）光流

光流是由物体或相机的运动引起的图像对象在两个连续帧之间的视在运动模式。它是2D矢量场，其中每个矢量是一个位移矢量，显示点从第一帧到第二帧的移动。

光流实际上是一种特征点跟踪方法，其计算的为向量，基于三点假设：

1、场景中目标的像素在帧间运动时亮度（像素值或其衍生值）不发生变化；2、帧间位移不能太大；3、同一表面上的邻近点都在做相同的运动；

光流跟踪过程：1）对一个连续视频帧序列进行处理；2）对每一帧进行前景目标检测；3）对某一帧出现的前景目标，找出具有代表性的特征点（Harris角点）；4）对于前后帧做像素值比较，寻找上一帧在当前帧中的最佳位置，从而得到前景目标在当前帧中的位置信息；5）重复上述步骤，即可实现目标跟踪

2、运动场（分为相机固定，但是视角变化和相机是运动的）

1）运动建模（如视觉里程计运动模型、速度运动模型等）

运动学是对进行刚性位移的相机进行构型，一般通过6个变量来描述，3个直角坐标，3个欧拉角（横滚、俯仰、偏航）。

Ⅰ、对相机的运动建模

由于这个不是我们本次所要讨论的重点，但是在《概率机器人》一书中提出了很多很好的方法，相机的运动需要对图像内的像素做位移矩阵和旋转矩阵的坐标换算。除了对相机建立传统的速度运动模型外，也可以用视觉里程计等通关过置信度的更新来得到概率最大位置。

Ⅱ、对于跟踪目标的运动建模

该方法需要提前通过先验知识知道所跟踪的目标对象是什么，比如车辆、行人、人脸等。通过对要跟踪的目标进行建模，然后再利用该模型来进行实际的跟踪。该方法必须提前知道要跟踪的目标对象是什么，然后再去跟踪指定的目标，这是它的局限性，因而其推广性相对比较差。（比如已知跟踪的物体是羽毛球，那很容易通过前几帧的取点，来建立整个羽毛球运动的抛物线模型）

2）核心搜索算法（常见的预测算法有Kalman(卡尔曼)滤波、扩展卡尔曼滤波、粒子滤波）

Ⅰ、Kalman 滤波

Kalman滤波器是通过前一状态预测当前状态，并使用当前观测状态进行校正，从而保证输出状态平稳变化，可有效抵抗观测误差。因此在运动目标跟踪中也被广泛使用。

在视频处理的运动目标跟踪里，每个目标的状态可表示为(x,y,w,h)，x和y表示目标位置，w和h表示目标宽高。一般地认为目标的宽高是不变的，而其运动速度是匀速，那么目标的状态向量就应该扩展为(x,y,w,h,dx,dy)，其中dx和dy是目标当前时刻的速度。通过kalman滤波器来估计每个时刻目标状态的大致过程为：

对视频进行运动目标检测，通过简单匹配方法来给出目标的第一个和第二个状态，从第三个状态开始，就先使用kalman滤波器预测出当前状态，再用当前帧图像的检测结果作为观测值输入给kalman滤波器，得到的校正结果就被认为是目标在当前帧的真实状态。(其中，Zt为测量值，为预测值，ut为控制量，Kt为增益。)

Ⅱ、扩展卡尔曼滤波（EKF）和无迹卡尔曼滤波（UKF）

由于卡尔曼滤波的假设为线性问题，无法直接用在非线性问题上，EKF和UKF解决了这个问题（这个线性问题体现在用测量量来计算预测量的过程中）。EKF是通过构建线性函数g(x)，与非线性函数相切，并对每一时刻所求得的g（x）做KF，如下图所示。

UKF与EKF去求解雅可比矩阵拟合线性方程的方法不同，通过对那个先验分布中的采集点，来线性化随机变量的非线性函数。与EKF所用的方法不同，UKF产生的高斯分布和实际高斯分布更加接近，其引起的近似误差也更小。

Ⅲ、粒子滤波

1、初始状态：基于粒子滤波的目标追踪方法是一种生成式跟踪方法，所以要有一个初始化的阶段。对于第一帧图像，人工标定出待检测的目标，对该目标区域提出特征；

2、搜索阶段：现在已经知道了目标的特征，然后就在目标的周围撒点(particle), 如：a)均匀的撒点;b)按高斯分布撒点，就是近的地方撒得多，远的地方撒的少。论文里使用的是后一种方法。每一个粒子都计算所在区域内的颜色直方图，如初始化提取特征一样，然后对所有的相似度进行归一化。文中相似性使用的是巴氏距离；

3、重采样：根据粒子权重对粒子进行筛选，筛选过程中，既要大量保留权重大的粒子，又要有一小部分权重小的粒子；

4、状态转移：将重采样后的粒子带入状态转移方程得到新的预测粒子；

5、测量及更新：对目标点特征化，并计算各个粒子和目标间的巴氏距离，更新粒子的权重；

6、决策阶段：每个粒子都获得一个和目标的相似度，相似度越高，目标在该范围出现的可能性越高，将保留的所有粒子通过相似度加权后的结果作为目标可能的位置。

3）Meanshift算法

MeanShift算法属于核密度估计法，它不需要任何先验知识而完全依靠特征空间中样本点的计算其密度函数值。对于一组采样数据，直方图法通常把数据的值域分成若干相等的区间，数据按区间分成若干组，每组数据的个数与总参数个数的比率就是每个单元的概率值；核密度估计法的原理相似于直方图法，只是多了一个用于平滑数据的核函数。采用核函数估计法，在采样充分的情况下，能够渐进地收敛于任意的密度函数，即可以对服从任何分布的数据进行密度估计。

Meanshift算法步骤

1、通过对初始点（或者上一帧的目标点）为圆心，绘制一个半径为R的圆心，寻找特征和该点相似的点所构成的向量；

2、所有向量相加，可以获得一个向量叠加，这个向量指向特征点多的方向；

3、取步骤二的向量终点为初始点重复步骤一、二，直到得到的向量小于一定的阈值，也就是说明当前位置是特征点密度最密集的地方，停止迭代，认为该点为当前帧的目标点；

4）Camshift算法

Camshift算法是MeanShift算法的改进，称为连续自适应的MeanShift算法。Camshift 是由Meanshift 推导而来 Meanshift主要是用在单张影像上，但是独立一张影像分析对追踪而言并无意义，Camshift 就是利用MeanShift的方法，对影像串列进行分析。

1、首先在影像串列中选择目标区域。

2、计算此区域的颜色直方图（特征提取）。

3、用MeanShift演算法来收敛欲追踪的区域。

4、通过目标点的位置和向量信息计算新的窗口大小，并标示之。

5、以此为参数重复步骤三、四。

Camshift 关键就在于当目标的大小发生改变的时候，此算法可以自适应调整目标区域继续跟踪。

3、小结

第一阶段的单目标追踪算法基本上都是传统方法，计算量小，在嵌入式等设备中落地较多，opencv中也预留了大量的接口。通过上面的两节的介绍，我们不难发现，目标检测算法的步骤分为两部分，一部分是对指定目标寻找可以跟踪的特征，常用的有颜色，轮廓，特征点，轨迹等，另一部分是对目标特征进行跟踪，如上文所提及的方法。所以目标检测方法的发展，也可总结为两个方面，一个是如何去获得更加具有区分性的可跟踪的稳定特征，另一个是如何建立帧与帧之间的数据关联，保证跟踪目标是正确的。

随着以概率为基础的卡尔曼滤波、粒子滤波或是以Meanshift为代表向量叠加方法在目标检测的运用，使得目标检测不再需要假设自身的一个状态为静止的，而是可以是运动的，更加符合复杂场景中的目标跟踪。

深度学习之目标检测常用算法原理+实践精讲

课程介绍:本课程从整个目标检测技术发展的历程开始，从算法角度出发，对各个模型进行全面细致的讲解，并结合人脸检测、物体检测、行人车辆检测、文本检测等项目，熟悉算法工程师在工作中会接触到的数据打包、网络训... 查看详情

tld算法原理2--学习理解之

TLD(Tracking-Learning-Detection)是一种新的单目标长时间（long term tracking）跟踪算法。该算法与传统跟踪算法的显著区别在于将传统的跟踪算法和传统的检测算法相结合来解决被跟踪目标在被跟踪过程中发生的形变... 查看详情

多假设追踪方法mht是啥算法

MHT算法是多假设多目标跟踪算法，这种方法简单来说就是把所有出现的目标都进行跟踪假设，连续跟踪几帧之后，有些假设就站不住脚了，被“剪枝”掉。留下来的就是真实的目标跟踪。显然，这种方法理想情况下表现不错，但... 查看详情

运动目标检测跟踪主流算法

不全，需要慢慢补充一．运动目标检测（一）背景差 1.帧差2.GMM等背景减算法可以对背景的光照变化、噪声干扰以及周期性运动等进行建模，在各种不同情况下它都可以准确地检测出运动目标。因此对于固定摄... 查看详情

深度学习之目标检测常用算法原理+实践精讲

...家从整体上了解本门课程的整体脉络。1-1课程导学第2章目标检测算法基础介绍本章节主要介绍目标检测算法的基本概念、传统的目标检测算法、目前深度学习目标检测主流方法（one-stage、two-stage、多任务网络）、相关算法的基... 查看详情

传统目标检测方法研究(代码片段)

1传统算法目标检测区域选择-->特征提取-->特征分类1.1区域选择python实现图像滑动窗口区域选取：首先选取图像中可能出现物体的位置，由于物体位置、大小都不固定，因此传统算法通常使用滑动窗口（SlidingWi... 查看详情

深度学习之目标检测常用算法原理+实践精讲yolo/fasterrcnn/ssd/文本检测/多任务网络

深度学习之目标检测常用算法原理+实践精讲YOLO/FasterRCNN/SSD/文本检测/多任务网络资源获取链接：点击这里第1章课程介绍本章节主要介绍课程的主要内容、核心知识点、课程涉及到的应用案例、深度学习算法设计通用流程、适应... 查看详情

目标检测基于matlabgui背景差分算法视频运动物体跟踪含matlab源码1915期(代码片段)

一、背景差分法和帧间差分法的车辆运动目标检测简介1引言运动目标检测是从图像序列中检测运动目标.通过运动目标检测可以得到图像中的运动目标,获取图像中的运动信息.运动目标检测在医学辅助诊断、航天航空、军事导弹... 查看详情

图像工程——目标检测与目标跟踪

...衰减最优；运算效率高算法缺点：把阴影当做前景；运动目标不完整。优点：算法实现简单，程序设计复杂度低，运行速度快；动态环境自适应性强，对场景光线变化不敏感。优点：实时性高将单个目标的跟踪问题看作是MDP过程... 查看详情

传统目标检测方法的比较

...优点缺点帧差法(1)摄像头固定场景；(2)实时性要求高；(3)目标的信息要求不高；(1)对运动目标敏感；(2)计算简单；(3)检测速度快、实时性高；(1)光线变化快时，算法失效；(2)缓慢运动和背景颜色一致时不能提取出特征像素点；(3)... 查看详情

经典目标检测算法介绍

...技术转自：https://zhuanlan.zhihu.com/p/34142321【嵌牛导读】：目标检测，也叫目标提取，是一种基于目标几何和统计特征的图像分割。随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行实时跟... 查看详情

基于混合高斯模型与帧差法结合的目标跟踪算法matlab仿真(代码片段)

...、理论基础二、核心程序三、仿真测试结果一、理论基础目标检测：混合高斯模型与帧差法结合的算法，与单独的混合高斯模型算法作对比，体现前者的优越性3、要求和结果：对比改进前后的算法，可以非常... 查看详情

基于混合高斯模型与帧差法结合的目标跟踪算法matlab仿真(代码片段)

目标跟踪入门：使用opencv实现质心跟踪

目标跟踪的过程：1、获取对象检测的初始集2、为每个初始检测创建唯一的ID3、然后在视频帧中跟踪每个对象的移动，保持唯一ID的分配本文使用OpenCV实现质心跟踪，这是一种易于理解但高效的跟踪算法。质心跟踪算... 查看详情

基于二轴云台目标跟踪系统设计

文章目录前言机器学习之前的目标检测研究一、系统总览上位机及其功能下位机及其功能二、基本方案设计云台结构设计机器视觉运算需求分析三、目标识别算法与跟踪算法运用HOG特征结合SVM的目标识别和跟踪算法改进的HOG... 查看详情

目标检测与跟踪的研究热点以及发展趋势

目标检测与跟踪的研究热点以及发展趋势:1)场景信息与目标状态的融合场景信息包含了丰富的环境上下文信息,对场景信息进行分析及充分利用,能够有效地获取场景的先验知识,降低复杂的背景环境以及场景中与目标相似的物体的... 查看详情

目标检测算法的历史及分类

　　随着人工智能的兴起，目标检测算法在各行业中起的作用越来越大，怎么落地，这是一个非常严峻的话题。今天看到一位大牛的分享，学习了。把该领域的算法和历史做个梳理。方便后续研究。　　按照时间分类，可以把该... 查看详情

运动对象检测和描述

运动图像检测基于背景减法目标跟踪，背景分割器：KNN、MOG2和GMGBasicmotiondetectionandtrackingwithPythonandOpenCV使用背景减除进行目标检测用OpenCV实现多目标追踪（C++/Python)通过形态学改善图像过滤，追踪人脸，检测前景/背景区域和深度... 查看详情