正文

adaboost算法

author  author  2023-05-01  314

关键词：

参考技术A

链接:
1. 线性回归总结
2. 正则化
3. 逻辑回归
4. Boosting
5. Adaboost算法

转自：原地址
提升方法（boosting）是一种常用的统计学习方法，应用广泛且有效。在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。
本章首先介绍提升方法的思路和代表性的提升算法AdaBoost，然后通过训练误差分析探讨AdaBoost为什么能够提高学习精度，并且从前向分布加法模型的角度解释AdaBoost，最后叙述提升方法更具体的事例——提升术（boosting tree）。AdaBoost算法是1995年由Freund和Schapire提出的，提升树是2000年由Friedman等人提出的。（开头几段内容来自《统计学习方法》）
Adaboost算法基本原理

提升方法的基本思路
提升方法是基于这样一种思想：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。通俗点说，就是”三个臭皮匠顶个诸葛亮”。
Leslie Valiant 首先提出了“强可学习（strongly learnable）”和”弱可学习（weakly learnable）”的概念，并且指出：在概率近似正确（probably approximately correct, PAC）学习的框架中，一个概念（一个类），如果存在一个多项式的学习算法能够学习它，并且正确率很高，那么就称这个概念是强可学习的，如果正确率不高，仅仅比随即猜测略好，那么就称这个概念是弱可学习的。 2010年的图灵奖给了L. Valiant，以表彰他的PAC理论
。非常有趣的是Schapire后来证明强可学习与弱可学习是等价的，也就是说，在PAC学习的框架下，一个概念是强可学习的充要条件是这个概念是可学习的。
这样一来，问题便成为，在学习中，如果已经发现了“弱学习算法”，那么能否将它提升（boost）为”强学习算法”。大家知道，发现弱学习算法通常比发现强学习算法容易得多。那么如何具体实施提升，便成为开发提升方法时所要解决的问题。关于提升方法的研究很多，有很多算法被提出。最具代表性的是AdaBoost算法（Adaptive Boosting Algorithm），可以说，AdaBoost实现了PAC的理想。
对于分类问题而言，给定一个训练数据，求一个比较粗糙的分类器（即弱分类器）要比求一个精确的分类器（即强分类器）容易得多。提升方法就是从弱学习算法出发，反复学习，得到一系列弱分类器，然后组合这些弱分类器，构成一个强分类器。大多数的提升方法都是改变训练数据的概率分布（训练数据中的各个数据点的权值分布），调用弱学习算法得到一个弱分类器，再改变训练数据的概率分布，再调用弱学习算法得到一个弱分类器，如此反复，得到一系列弱分类器。
这样，对于提升方法来说，有两个问题需要回答：一是在每一轮如何如何改变训练数据的概率分布；而是如何将多个弱分类器组合成一个强分类器。
关于第一个问题，AdaBoost的做法是，提高那些被前几轮弱分类器线性组成的分类器错误分类的的样本的权值。这样一来，那些没有得到正确分类的数据，由于权值加大而受到后一轮的弱分类器的更大关注。于是，分类问题被一系列的弱分类器”分而治之”。至于第二个问题，AdaBoost采取加权多数表决的方法。具体地，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。
AdaBoost的巧妙之处就在于它将这些想法自然而然且有效地实现在一种算法里。

AdaBoost算法
输入：训练数据集T=(x1,y1),(x2,y2),…,(xN,yN)，其中xi∈X⊆Rn，表示输入数据，yi∈Y=-1,+1，表示类别标签；弱学习算法。
输出：最终分类器G(x)。
流程：
初始化训练数据的概率分布，刚开始为均匀分布

D1=(w11,w12,…,w1N), 其中w1i=

, i=1,2,..,N . Dm表示在第m轮迭代开始前，训练数据的概率分布（或权值分布），wmi表示在第i个样本的权值，

计算Gm(x)在训练数据集上的分类误差率

更新训练数据的权值分布

这里，Zm是规范化因子

，它使Dm+1称为一个概率分布。将M个基本分类器进行线性组合

得到最终分类器

对AdaBoost算法作如下说明：
步骤(1) 初始时假设训练数据集具有均匀分布，即每个训练样本在弱分类器的学习中作用相同。
步骤(2) (c) αm表示Gm(x)在最终分类器中的重要性。由式(公式 2)可知，当em ≤1/2时，αm≥0，并且αm随着em的减小而增大，即意味着误差率越小的基本分类器在最终分类器中的作用越大。
(d) 式可以写成：

由此可知，被弱分类器Gm(x)误分类的样本的权值得以扩大，而被正确分类的样本的权值得以缩小。因此误分类样本在下一轮学习中起到更大的作用。不改变所给的训练数据，而不断改变训练数据权值的分布，使得训练数据在基本分类器的学习中起不同的作用，这是AdaBoost的一个特点。
步骤(3) 这里，αm之和并不等于1。f(x)的符号决定实例x的类别，f(x)的绝对值表示分类的确信度。利用基本分类器进行线性组合得到最终分类器是AdaBoost的另一个特点。

AdaBoost的例子
例 1 给定如表 1所示训练数据。假设弱分类器由G(x)=sign(x-v)产生，其中v为常量，表示阀值。试用AdaBoost算法学习一个强分类器。
表 1 训练数据样本

序号 1 2 3 4 5 6 7 8 9 10
x 0 1 2 3 4 5 6 7 8 9
y 1 1 1 -1 -1 -1 1 1 1 -1
解
初始化训练数据的权值分布

当m=1，进行第一轮迭代
在权值分布为D1的情况下，用一根垂直扫描线从左到右扫描，会发现，阀值v取2.5时分类误差率最低，故基本分类器G1(x)=sign(x-2.5)。

，第7,8,9个实例被误分类。

=0.4236。

更新训练数据的权值分布：

分类器sign[f1(x)]在训练数据集上有3个误分类点，因此，继续迭代。
当m=2，进行第二轮迭代
在权值分布为D2的情况下，阀值v取8.5时分类误差率最低，故基本分类器G2(x)=sign(x-8.5)。

G2(x)在训练数据集上的误差率e2=0.07143+0.07143+0.07143+0.07143，第4,5,6个实例被错误分类。

计算G2(x)的系数：α2=0.6496。

更新训练数据的权值分布：

分类器sign[f2(x)]在训练数据集上有3个误分类点，因此，继续迭代。
当m=3，进行第三轮迭代
在权值分布为D3的情况下，阀值v取5.5时分类误差率最低，故基本分类器G3(x)=-sign(x-5.5)，注意，这里符号反向了。

G3(x)在训练数据集上的误差率e3=0.0455+0.0455+0.0455+0.0455=0.1820，第1,2,3,10个实例被误分类。

计算G3(x)的系数：α2=0.7514。

更新训练数据的权值分布：

分类器sign[f3(x)]在训练数据集上的误分类点个数为0，因此，终止迭代。
于是，最终分类器为

注意，G1(x)，G2(x)和G3(x)，是一个sign函数，从图像看是一个方波图，而最终分类器G(x)也是一个方波图，由三个波形图叠加合成。从信号的角度看，这是振幅叠加。G1(x)，G2(x)和G3(x)都是弱分类器，分类正确率仅大于0.5，但线性组合而成的分类器G(x)正确率是100%，是一个强分类器。
AdaBoost算法的训练误差分析
AdaBoost最基本的性质是它能在学习过程中不断减少训练误差，关于这个问题有下面的两个定理：
**定理 1 (AdaBoost的训练误差界****) **AdaBoost算法的最终分类器的训练误差界为

先推导如下：

（ 定理**** 1 的证明@特级飞行员舒克有很大贡献）
这一定理说明，可以在每一轮选取最适当的Gm使得Zm最小，从而使训练误差下降最快。对二类分类问题，有如下结果：
定理 2 （二类分类问题AdaBoost的训练误差界）

因此等式

adaboost算法的原理推导及解释(代码片段)

文章目录Adaboost算法的原理推导及解释前置知识：Boosting概述Boosting方法的基本思想Boosting方法的的学习方法核心部分：Adaboost算法的原理推导和解释Adaboost算法的基本思想Adaboost算法的算法流程Adaboost算法的原理推导及解释... 查看详情

adaboost算法的原理推导及解释(代码片段)

人脸检测——基于机器学习3adaboost算法

简介主要工作AdaBoost算法的人脸检测算法包含的主要工作：（1）通过积分图快速求得Haar特征；（2）利用AdaBoost算法从大量的特征中选择出判别能力较强的少数特征用于人脸检测分类；（3）提出一个级联结构模型，将若干个弱分... 查看详情

集成学习之adaboost算法原理小结

...代表算法就是是boosting系列算法。在boosting系列算法中，Adaboost是最著名的算法之一。Adaboost既可以用作分类，也可以用作回归。本文就对Adaboost算法做一个总结。1.回顾boosting算查看详情

机器学习算法-adaboost

本章内容组合类似的分类器来提高分类性能应用AdaBoost算法处理非均衡分类问题主题：利用AdaBoost元算法提高分类性能1.基于数据集多重抽样的分类器-AdaBoost长处泛化错误率低，易编码，能够应用在大部分分类器上，无需參数调整... 查看详情

机器学习——adaboost元算法

...他算法进行组合的一种方式，其中最流行的一种算法就是AdaBoost算法。某些人认为AdaBoost是最好的监督学习的方法，所以该方法是机器学习工具箱中最强有力的工具之一。　　集成学习或者元算法的一般结构是：先产生一组“个... 查看详情

图像算法研究---adaboost算法具体解释

本篇文章先介绍了提升放法和AdaBoost算法。已经了解的可以直接跳过。后面给出了AdaBoost算法的两个样例。附有详细计算过程。1、提升方法（来源于统计学习方法）提升方法是一种经常使用的统计学习方法，应用十分广... 查看详情

机器学习之adaboost算法原理

...代表算法就是是boosting系列算法。在boosting系列算法中，Adaboost是最著名的算法之一。Adaboost 查看详情

特别翔实的adaboost分类算法讲解转的(代码片段)

.../9332370.html作为(曾)被认为两大最好的监督分类算法之一的adaboost元算法(另一个为前几节介绍过的SVM算法)，该算法以其简单的思想解决复杂的分类问题，可谓是一种简单而强大的算法，本节主要简单介绍adaboost元算法，并以实例看... 查看详情

adaboost算法的原理与推导

0引言一直想写Adaboost来着，但迟迟未能动笔。其算法思想虽然简单“听取多人意见，最后综合决策”，但一般书上对其算法的流程描述实在是过于晦涩。昨日11月1日下午，邹博在我组织的机器学习班第8次课上... 查看详情

apache hama 是不是适合实现 adaboost 算法？

】apachehama是不是适合实现adaboost算法？【英文标题】：Isapachehamasuitableforimplementingadaboostalghoritm?apachehama是否适合实现adaboost算法？【发布时间】：2014-03-2718:53:54【问题描述】：我有兴趣在hadoop环境中实现adaboost算法。我进行了研... 查看详情

adaboost算法原理分析和实例+代码（简明易懂）

Adaboost算法原理分析和实例+代码（简明易懂）【尊重原创，转载请注明出处】http://blog.csdn.net/guyuealian/article/details/70995333 本人最初了解AdaBoost算法着实是花了几天时间，才明白他的基本原理。也许是自己能力有限吧，很... 查看详情

adaboost人脸检测介绍:矩形特征和积分图

　　本系列文章总共有七篇，目录索引如下：　　AdaBoost人脸检测介绍(1):AdaBoost身世之谜　　AdaBoost人脸检测介绍(2):矩形特征和积分图　　AdaBoost人脸检测介绍(3):AdaBoost算法流程　　AdaBoost人脸检测介绍(4):AdaBoost算法举例　　AdaBoo... 查看详情

adaboost

pfont-size:15pxAdaBoost是一种迭代型的算法，其核心思想是针对同一个训练集训练不同的学习算法，即弱学习算法，然后将这些弱学习算法集合起来，构造一个更强的最终学习算法。用于二分类或多分类的应用场景在AdaBoost算法中，... 查看详情

adaboost算法

...考技术A链接:1.线性回归总结2.正则化3.逻辑回归4.Boosting5.Adaboost算法转自：原地址提升方法（boosting）是一种常用的统计学习方法，应用广泛且有效。在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器... 查看详情

r数据分析之adaboost算法

Rattle实现AdaBoost算法Boosting算法是简单有效、易使用的建模方法。AdaBoost（自适应提升算法）通常被称作世界上现成的最好分类器。Boosting算法使用其他的弱学习算法建立多个模型，对数据集中对结果影响较大的对象增加权重，一... 查看详情

adaboost算法详解及python实现python机器学习系列（十八）

文章目录1.AdaBoost算法简介2.AdaBoost算法逻辑详解2.1数据2.2带权错误率2.3损失函数与确定样本权重2.3确定模型权重2.4输出模型3.AdaBoost算法的python实现1.AdaBoost算法简介Boosting是机器学习的三大框架之一，其特点是，训练过程... 查看详情

一文搞懂：adaboost及手推算法案例

...成更好的模型。代表自然就是我们的随即森林了。GBDT和Adaboost是boost算法中比较常见的两种，这里主要讲解Adaboost。AdaboostAdaboost算法的核心就是两个权重。对于数据有一个权重，权重大的数据计算的损失就大；然后对于每一个弱... 查看详情