正文

利用adaboost提高分类性能

author  author  2022-09-18  517

关键词：

Adaboost为一种集成算法，是对其他算法进行组合的一种方式。

本文将通过单层决策树分类器建立一个Adaboost优化算法，即利用多个弱分类器构建一个强分类器。

弱分类器：分类器性能比随机猜测要略好，但是也不会好太多。

强分类器：分类器性能比随机猜测好很多。

下面结合代码说明Adaboost算法原理和思路：

单层决策树是一种简单的决策树，仅基于单个特征来做决策。

首先加载简单的训练数据。

def loadSimpleData():
    dataMat = np.mat(
        [ [1.0,2.1],
          [2.0,1.1],
          [1.3,1.0],
          [1.0,1.0],
          [2.0,1.0]]
    )
    classLabels = [1.0,1.0,-1.0,-1.0,1.0]
    return dataMat,classLabels

训练数据：训练数据大小为(5, 2)，即 m = 5, n = 2，同时返回的还有每个数据点对应的类别所组成的向量。

为了方便使用，我们首先构造单层决策树的代码：

def buildStump(dataArr, classLabels, D):
    dataMatrix = np.mat(dataArr)
    labelMatrix = np.mat(classLabels).T
    m,n = np.shape(dataArr)
    numSteps = 10.0
    bestStump = {}
    bestCalssEst = np.mat(np.zeros((m,1)))
    minError = math.inf   # 正无穷大
    for i in range(n):  # 遍历所有的特征
        rangeMin = dataArr[ : ,i].min()
        rangeMax = dataArr[ : ,i].max()
        stepSize = (rangeMax - rangeMin) / numSteps
        for j in range(-1,int(numSteps) + 1):  # 该维度上分隔线能取的范围内移动
            for inequal in [‘lt‘,‘gt‘]:        # 指定分类的方向
                threshVal = (rangeMin + float(j) * stepSize)  # 计算阈值
                predictedVals = stumpClassify(dataMatrix,i,threshVal,inequal)
                errArr = np.mat(np.ones((m,1)))
                errArr[predictedVals == labelMatrix] = 0
                weightedError = D.T * errArr   # 根据权重值计算误差
                print(‘split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted error is %.3f‘
                      %(i,threshVal,inequal,weightedError))
                if weightedError < minError:
                    minError = weightedError
                    bestCalssEst = predictedVals.copy()
                    bestStump[‘dim‘] = i
                    bestStump[‘thresh‘] = threshVal
                    bestStump[‘ineq‘] = inequal
    return bestStump,minError,bestCalssEst

上面代码执行的流程：

该函数传入三个参数：训练数据集（dataArr）, 类别数据集（classLabels）, 每个样本点权重组成的向量（D）。

遍历所有特征（本例为两个特征）
- 计算该特征维度上的取值区间，并根据设定的步长分割得到一系列阈值
- 遍历每个特征中每个阈值（threshVal）
  - 指定分类的方向（一般为两类）
    - 调用函数stumpClassify得到预测的数据predictedVals（列向量）
    - 计算误差，并结合权重D计算新的权重误差，若比之前保存的最小权重误差小，则更新最小权重误差（minError），保存类别数据（bestCalssEst）和分类情况bestStump（dim：分类维度；threshVal：阈值；inequal：分类方向）：当前决策树即为最佳单层决策树

这是上面用到的预测类别的函数：

def stumpClassify(dataMatrix,dimen,threshVal,threshIneq):
    retArray = np.ones((np.shape(dataMatrix)[0], 1))
    if threshIneq == ‘lt‘:   #根据指定的分类的方向修改数据的类别
        retArray[dataMatrix[ : ,dimen] <= threshVal] = -1.0   # 小于阈值的为-1类
    else:
        retArray[dataMatrix[ : ,dimen] > threshVal] = -1.0    # 大于阈值的为-1类
    return retArray

了解了单层决策树的原理流程后，接下来就是完整的Adaboost算法的实现了：

# 基于单层决策树的AdaBoost训练过程
def adaBoostTrainDS(dataArr, classLabels, numIt = 40):
    weakClassArr = []
    m = np.shape(dataArr)[0]  # 行数
    D = np.mat(np.ones((m,1))/m) # 初始化D
    aggClassEst = np.mat(np.zeros((m,1)))
    for i in range(numIt):
        bestStump,error,classEst = buildStump(dataArr,classLabels,D)
        print(‘D:‘,D.T)
        alpha = float(0.5 * math.log((1.0- error)/max(error,1e-16))) # 避免除数为0溢出
        bestStump[‘alpha‘] = alpha
        weakClassArr.append(bestStump)
        print(‘classEst:‘,classEst.T)
        expon = np.multiply(-1* alpha * np.mat(classLabels).T, classEst)
        D = np.multiply(D, np.exp(expon))
        D = D/D.sum()
        aggClassEst += alpha * classEst
        print(‘aggClassEst:‘,aggClassEst.T)
        aggErrors = np.multiply(np.sign(aggClassEst) != np.mat(classLabels).T,np.ones((m,1)))
        errorRate = aggErrors.sum()/m
        print(‘total error:‘,errorRate,‘
‘)
        if errorRate == 0: break
    return weakClassArr

代码执行的流程简要如下：该函数三个输入参数分别为：训练数据集（dataArr）, 类别数据集（classLabels）, 迭代次数（用户指定）

初始化权重向量D
按照迭代次数循环
- 调用单层决策树函数buildStump，获得此次迭代分类效果最好（权重误差最小）的分类情况相关数据（权重误差minError，类别数据bestCalssEst，bestStump（dim：分类维度；threshVal：阈值；inequal：分类方向））
- 根据最小误差计算并更新$alpha$（分类器的权重值），公式为 $alpha =frac{1}{2}ln(frac{1-epsilon }{epsilon })$
- 将$alpha$添加到bestStump（字典）中，至此，bestStump中保存四个信息：分类器的权重值$alpha$，分类维度i，阈值threshVal，分类方向unequal。并将bestStump添加到weakClassArr（保存每次迭代得到的分类器）中
- 计算并更新D的值：如果某个样本分类正确，该样本的权重更新为： $D = frac{D*{e}^{-alpha}}{Sum(D)}$ 如果某个样本分类错误，该样本的权重更新为： $D = frac{D*{e}^{alpha}}{Sum(D)}$ 更新权重向量D的目的在于将正确分类的样本的权重降低而错误分类的样本的权重升高。
- 累加每个分类器对每个数据点预测类别，并且计算误差，误差为0或者到达指定迭代次数则退出。

以上就是基于单层决策树利用Adaboost算法构建强分类器的过程，当然也可用其他类型的分类器作为弱分类器来构建。

《机器学习实战第7章：利用adaboost元算法提高分类性能》(代码片段)

importnumpyasnpimportmatplotlib.pyplotaspltdefloadSimpData():dataMat=np.matrix([[1.,2.1],[2.,1.1],[1.3,1.],[1.,1.],[2.,1.]])classLabels=[1.0,1.0,-1.0,-1.0,1.0]returndataMat,classLabelsdefshowDataSet(d 查看详情

机器学习实战笔记-利用adaboost元算法提高分类性能

做重要决定时，大家可能都会考虑吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此？这就是元算法（meta-algorithm)背后的思路。元算法是对其他算法进行组合的一种方式7.1基于数据集多重抽样的分类器??... 查看详情

机器学习实战第7章——利用adaboost元算法提高分类性能(代码片段)

将不同的分类器组合起来，这种组合结果被称为集成方法或元算法（meta-algorithm）。使用集成方法时会有多种形式：（1）可以是不同算法的集成（2）可以是同一种算法在不同设置下的集成（3）数据集不同部分分配给不同分类器... 查看详情

机器学习算法-adaboost

本章内容组合类似的分类器来提高分类性能应用AdaBoost算法处理非均衡分类问题主题：利用AdaBoost元算法提高分类性能1.基于数据集多重抽样的分类器-AdaBoost长处泛化错误率低，易编码，能够应用在大部分分类器上，无需參数调整... 查看详情

使用adaboost元算法提高分类器性能

... 另外据可靠数据分析，较之逻辑回归，AdaBoost分类器没有过度拟合(overfitting)现象。 &nbs 查看详情

第九篇：使用adaboost元算法提高分类器性能

前言有人认为AdaBoost是最好的监督学习的方式。某种程度上因为它是元算法，也就是说它会是几种分类器的组合。这就好比对于一个问题能够咨询多个"专家"的意见了。 &n... 查看详情

提升算法——adaboost

思路：通过改变训练样本权重，学习多个分类器，并将这些分类器进行线性组合，提高分类器性能。大多数提升方法都是改变训练数据的概率分布（数据的权值）强可学习：存在一个多项式的学习算法能够学习他，并且正确率很... 查看详情

人脸检测——基于机器学习3adaboost算法

简介主要工作AdaBoost算法的人脸检测算法包含的主要工作：（1）通过积分图快速求得Haar特征；（2）利用AdaBoost算法从大量的特征中选择出判别能力较强的少数特征用于人脸检测分类；（3）提出一个级联结构模型，将若干个弱分... 查看详情

图像算法研究---adaboost算法具体解释

本篇文章先介绍了提升放法和AdaBoost算法。已经了解的可以直接跳过。后面给出了AdaBoost算法的两个样例。附有详细计算过程。1、提升方法（来源于统计学习方法）提升方法是一种经常使用的统计学习方法，应用十分广... 查看详情

adaboost算法

...考技术A链接:1.线性回归总结2.正则化3.逻辑回归4.Boosting5.Adaboost算法转自：原地址提升方法（boosting）是一种常用的统计学习方法，应用广泛且有效。在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器... 查看详情

class-提升方法boosting

1AdaBoost算法2AdaBoost训练误差分析3AdaBoostalgorithm另外的解释3.1前向分步算法3.2前向分步算法与AdaBoost4提升树4.1提升树模型4.2梯度提升Boosting在分类问题中，通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合... 查看详情

adaboost理解

AdaBoost是一种准确性很高的分类算法，它的原理是把K个弱分类器(弱分类器的意思是该分类器的准确性较低)，通过一定的组合(一般是线性加权进行组合)，组合成一个强的分类器，提高分类的准确性。因此，要想使用AdaBoost，需要... 查看详情

adaboost元算法(代码片段)

boosting：不同的分类器是通过串行训练而获得的，每个新分类器都根据已经训练出的分类器的性能来进行训练。通过集中关注被已有分类器错分的那些样本来获得新的分类器。权重alpha：弱分类器的线性组合系数，用来构成完整... 查看详情

《统计学习方法（李航）》讲义第08章提升方法

...性能.本章首先介绍提升方法的思路和代表性的提升算法AdaBoost;然后通过训练误差分析探讨AdaBoost为什么能够提高学习精度;并且从前向分步加法模型的最后叙述提升方法更具体的实例一一提升树(bo 查看详情

[opencv][转载]利用级联分类器车辆检测训练

本文转载：Adaboost卡口车辆检测训练-Hello~again-博客园之前做了SVM的车脸检测，主要是针对车脸，接下来尝试利用Adaboost和Haar进行车脸的检测。我利用的主要是opencv中的cascade，其已经把Adaboost相关的算法做成了exe... 查看详情

boosting

boosting:加权组合多个分类器adaBoosting：隶属于boosting加权组合多个分类器训练单个分类器的时候通过提高预测错误的样本的权重来提高单个分类器的预测准确率查看详情

adaboost提升算法从原理到实践

...可学习算法的算法。如何地这些弱算法进行提升是关键！AdaBoost算法是其中的一个代表。2.分类算法提升的思路： 1.找到一个弱分类器，分类器简单，快捷，易操作(如果它本身就很复杂，查看详情

adaboost(自适应增强算法)

AdaBoost(自适应增强算法)AdaBoost的目标是通过一个弱分类器构建一个强分类器，AdaBoost的大致运行过程：训练数据中的每一个样本，并赋予其一个权重，形成对应的权重向量DD，一开始所有训练样本具有相同权值，然... 查看详情