正文

机器学习-分类器-adaboost原理

宋兴柱-Sindrol  宋兴柱-Sindrol  2022-08-10  301

关键词：

Adaboost原理

Adaboost(AdaptiveBoosting)是一种迭代算法，通过对训练集不断训练弱分类器，然后把这些弱分类器集合起来，构成强分类器。adaboost算法训练的过程中，初始化所有训练样例的具有相同的权值重，在此样本分布下训练出一个弱分类器，针对错分样本加大对其对应的权值，分类正确的样本降低其权值，使前一步被错分的样本得到突显，获得新的样本分布，在新的样本分布下，再次对样本进行训练，又得到一个分类器。依次循环，得到T个分类器，将这些分类器按照一定的权值组合，得到最终的强分类器。训练的关键是针对比较难分的训练样本，在联合弱分类器时，使用加权投票，这样分类效果好的弱分类器得到较大的权重，分类效果差的则权值较小。Adaboost方法是经过调整的boosting算法，能够对弱学习得到的弱分类器的错误率进行适应性调整，相对boosting算法，Adaboost方法使用加权后选取的训练数据代替随机选取的训练样本，训练的焦点集中在比较难分的训练数据样本上；在联合弱分类器联合时，使用加权的投票机制代替平均投票机制。让分类效果好的弱分类器具有较大的权重，而分类效果差的分类器具有较小的权重。

Adaboost算法的具体过程

1.初始化所有训练样例的权重为1 / N,其中N是样例数

2.for m=1,……M:

a).训练弱分类器ym()，使其最小化权重误差函数（weighted error function）：

b)接下来计算该弱分类器的话语权α：

c)更新权重：

其中Zm：

是规范化因子，使所有w的和为1。(这里公式稍微有点乱)

3.得到最后的分类器：

Adaboos的过程可以用如下结构表示：

最后的分类器YM是由数个弱分类器（weak classifier）组合而成的,相当于最后m个弱分类器来投票决定分类，而且每个而且每个弱分类器的“话语权”α不一样。

　　上述迭代算法中，每一次循环根据当前的权重分布对样本x定一个分布P，然后对这个分布下的样本使用弱学习算法得到弱分类器，而这个错误率的上限并不需要事先知道。每一次迭代，都要对权重进行更新。更新的规则是：减小弱分类器分类效果较好的数据的概率，增大弱分类器分类效果较差的数据的概率。最终的分类器是个弱分类器的加权平均。

adaboost在目标检测中的应用

在实际应用中，adaboost基本上可以训练任何想要检测的目标比如车辆、人脸、字符、商标、建筑物等等，收集正负样本，正样本为所训练的目标,比如下图中车辆、字符、人脸等目标已经切分好的目标。

负样本可以为图像中未包含正样本的任意图像。分类器训练方法可以按照http://www.cnblogs.com/whowhoha/p/5623483.html 的方法训练分类器，训练完成后，导入分类器（openCv中为xml文件）参数对图像进行扫描检测，将扫描的多个候选框合并即可得到最终的目标位置。

另外：训练分类器参数设置示例及训练过程中的参数设置方法说明

训练级联Adaboost参数如下:

numPos: 9000

numNeg: 28000

numStages: 18

precalcValBufSize[Mb] : 1000

precalcIdxBufSize[Mb] : 1000

stageType: BOOST

featureType: HARR

sampleWidth: 24

sampleHeight: 24

boostType: DAB

minHitRate: 0.95

maxFalseAlarmRate: 0.65

weightTrimRate: 0.97

maxDepth: 1

maxWeakCount: 100

1 正负样本比例问题：比例大约1:3的样子比较好，1:3或者1:4训练出来的分类器要优于1:1或者1:9，原因是正负样本比例接近时，对负样本的命中程度低（实际中负样本肯定远远多于正样本），正负样本比例较大（比如1:9）时，重视负样本的统计特性而忽略了正样本的统计特性，造成正样本权重总和小，当权重小于一定程度的时候可能很大一部分正样本都不参与训练了(在weightTrimRate=0.95时)。

2 minHitRate：分类器的每一级希望得到的最小检测率。总的检测率大约为minHitRate ^ numStages。影响每个强分类器阈值，当设置为0.95时如果正训练样本个数为12000个，那么其中的600个就很可能被判别为负样本，第二次选择的时候必须多选择后面的600个，按照这种规律我们为后面的每级多增加numPos*minHitRate个正样本，根据训练的级数可以得到如下公式

numPos+（numStages-1）*numPos*（1-minHitRate），即需要准备的训练正样本个数

3 maxFalseAlarm：分类器的每一级希望得到的最大误检率。总的误检率大约为maxFalseAlarm ^ numStages，.影响每个强分类器中弱分类器的个数，设置较大，每级可以滤除负样本的比例就较小，这样在测试过程中虚警率就较高；设置较小，每级强分类器中弱分类器的个数就较多，检测时间就会相对要长，在可以接受的检测时间下尽量降低maxFalseAlarm是我们要追求的目标

关于负样本的选择，因为每级剩下的负样本个数低于numNeg*maxFalseAlarm，在第二轮选择的时候从之前选择的负样本后面继续选择，而不是重头开始将选择过的负样本也包含进来，只有当遍历完一遍负样本列表后才重头在扫描一遍

4 weightTrimRate：影响参与训练的样本（不管是正样本还是负样本），当更新完样本权重之后，将样本权重按照从小到大的顺序排列，从后面开始累加样本权重大于weightTrimRate时，前面的样本就不参与后面的训练了

5 maxWeakCount：决定每级强分类器中弱分类器的最大个数，当FA降不到指定的maxFalseAlarm时可以通过指定最大弱分类器个数停止单个强分类器。

6 boost参数(maxDepth、bt)：影响决策树构建的法则以及权重更新策略

本文来源：http://www.cnblogs.com/whowhoha/p/5623977.html

人脸检测——基于机器学习3adaboost算法

简介主要工作AdaBoost算法的人脸检测算法包含的主要工作：（1）通过积分图快速求得Haar特征；（2）利用AdaBoost算法从大量的特征中选择出判别能力较强的少数特征用于人脸检测分类；（3）提出一个级联结构模型，将若干个弱分... 查看详情

机器学习算法-adaboost

本章内容组合类似的分类器来提高分类性能应用AdaBoost算法处理非均衡分类问题主题：利用AdaBoost元算法提高分类性能1.基于数据集多重抽样的分类器-AdaBoost长处泛化错误率低，易编码，能够应用在大部分分类器上，无需參数调整... 查看详情

机器学习——提升方法adaboost算法，推导过程

0提升的基本方法　　对于分类的问题，给定一个训练样本集，求比较粗糙的分类规则（弱分类器）要比求精确的分类的分类规则（强分类器）容易的多。提升的方法就是从弱分类器算法出发，反复学习，得到一系列弱分类器（... 查看详情

机器学习—adaboost和梯度提升树gbdt

1、Adaboost算法原理，优缺点：　　理论上任何学习器都可以用于Adaboost.但一般来说，使用最广泛的Adaboost弱学习器是决策树和神经网络。对于决策树，Adaboost分类用了CART分类树，而Adaboost回归用了CART回归树。　　Adaboost算法可以... 查看详情

机器学习之adaboost算法原理

...代表算法就是是boosting系列算法。在boosting系列算法中，Adaboost是最著名的算法之一。Adaboost 查看详情

机器学习实战第7章——利用adaboost元算法提高分类性能(代码片段)

将不同的分类器组合起来，这种组合结果被称为集成方法或元算法（meta-algorithm）。使用集成方法时会有多种形式：（1）可以是不同算法的集成（2）可以是同一种算法在不同设置下的集成（3）数据集不同部分分配给不同分类器... 查看详情

用cart（分类回归树）作为弱分类器实现adaboost

...集成学习里我们说了决策树和集成学习的基本概念（用了adaboost昨晚集成学习的例子），其后我们分别学习了决策树分类原理和adaboost原理和实现，上两篇我们学习了cart（决策分类树），决策分类树也是决策树的一种，也是很强... 查看详情

机器学习实战笔记-利用adaboost元算法提高分类性能

做重要决定时，大家可能都会考虑吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此？这就是元算法（meta-algorithm)背后的思路。元算法是对其他算法进行组合的一种方式7.1基于数据集多重抽样的分类器??... 查看详情

集成学习之boosting——adaboost原理

集成学习之Boosting——AdaBoost原理集成学习之Boosting——AdaBoost实现集成学习大致可分为两大类：Bagging和Boosting。Bagging一般使用强学习器，其个体学习器之间不存在强依赖关系，容易并行。Boosting则使用弱分类器，其个体学习器之... 查看详情

adaboost提升算法从原理到实践

...可学习算法的算法。如何地这些弱算法进行提升是关键！AdaBoost算法是其中的一个代表。2.分类算法提升的思路： 1.找到一个弱分类器，分类器简单，快捷，易操作(如果它本身就很复杂，查看详情

集成学习之adaboost算法原理小结

...代表算法就是是boosting系列算法。在boosting系列算法中，Adaboost是最著名的算法之一。Adaboost既可以用作分类，也可以用作回归。本文就对Adaboost算法做一个总结。1.回顾boosting算查看详情

机器学习之集成学习

1.概念梳理：AdaBoost：运行过程：训练数据中的每一个样本，并赋一个权重，这些权重值构成向量D，已开始这些权重值一样。第一次训练完，得到一个弱分类器，计算该分类器的错误率，然后调整每个样本的权重值，对同一个训... 查看详情

adaboost原理与理论

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每... 查看详情

关于adaboost分类器(代码片段)

我花了将近一周的时间，才算搞懂了adaboost的原理。这根骨头终究还是被我啃下来了。Adaboost是boosting系的解决方案，类似的是bagging系，bagging系是另外一个话题，还没有深入研究。Adaboost是boosting系非常流行的算法。但凡是介绍boo... 查看详情

haar+adaboost制作自己的分类器过程(代码片段)

目录做haar特征的原因以下几个网站都可以学注意的点问题实现代码做haar特征的原因有些深度学习的目标检测算法有时候在物体非常相近的时候，误检率会非常高。所以我们可以先进行深度学习然后检测出大概的区域，然后再使... 查看详情

adaboost

...成。代表算法是boosting系列算法。在boosting系列算法中，Adaboost是最著名的算法之一。第二类是个体学习器之间不存在强依赖关系，一系列个体学习器可以并行生成，代表算法是bagging和随机森林（RandomForest）系列算法。。Adaboost既... 查看详情

机器学习-分类器-级联分类器训练（traincascadeclassifier）

一、简介：　　adaboost分类器由级联分类器构成，"级联"是指最终的分类器是由几个简单分类器级联组成。在图像检测中，被检窗口依次通过每一级分类器，这样在前面几层的检测中大部分的候选区域就被排除了，全部通过每一... 查看详情

提升算法——adaboost

思路：通过改变训练样本权重，学习多个分类器，并将这些分类器进行线性组合，提高分类器性能。大多数提升方法都是改变训练数据的概率分布（数据的权值）强可学习：存在一个多项式的学习算法能够学习他，并且正确率很... 查看详情