李航统计学习方法--8.提升方法(详细推导)

wx5cbd4315aefc1 wx5cbd4315aefc1     2022-11-29     705

关键词:


【李航】统计学习方法--8.



目录



  • 提升方法的基本思路:将弱可学习算法提升为强可学习算法
  • 集成学习:序列方法和并行方法
  • 集成学习: Bagging, Boosting, Stacking
  • Bagging:每个预测器使用的算法相同,但是在不同的训练集随机子集上进行训练。采样时如果将样本放回,这时方法叫做 Bagging
  • Boosting:可以将几个弱学习器结合成一个强学习器的集成方法,大多数提升方法的总体思路是循环训练预测器,每一次都对其前序做出一些改变。

8.1 提升方法AdaBoost算法


8.1.1 提升方法的基本思路


朴素介绍:

  • 提升方法基于这样一种思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。实际上,就是“三个臭皮匠顶个诸葛亮”的道理。

几个概念

  • 强可学习:在概率近似正确(probably approximatelycorrect, PAC)学习的框架中,一个概念(一个类),如果存在一个多项式的学习算法能够学习它,并且正确率很高,那么就称这个概念是强可学习的;
  • 弱可学习:一个概念,如果存在一个多项式的学习算法能够学习它,学习的正确率仅比随机猜测略好,那么就称这个概念是弱可学习的。
  • 强可学习与弱可学习是等价的

具体说来,整个Adaboost迭代算法就3步:

  1. 初始化训练数据的权值分布。如果有【李航】统计学习方法--8.个样本,则每一 一个训练样本最开始时都被赋予相同的权值:【李航】统计学习方法--8.
  2. 训练弱分类器。具体训练过程中,如果某个样本点已经被准确地分类,那么在构造下一个训练集中,它的权值就被降低;相反,如果某个样本点没有被准确地分类,那么它的权值就得到提高。然后,权值更新过的样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去。
  3. 将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后,加大分类误差率小的弱分类器的权重,使其在最终的分类函数中起着较大的决定作用,而降低分类误差率大的弱分类器的权重,使其在最终的分类函数中起着较小的决定作用。换言之,误差率低的弱分类器在最终分类器中占的权重较大,否则较小。

8.1.2 AdaBoost算法


AdaBoost算法

输入: 训练数据集 【李航】统计学习方法--8., 其中 统计学习方法 李航 提升方法

很好理解,就是将一些基本的性能一般的弱分类器组合起来,来构成一个性能较好的强分类器;这其中如果数据一样的话那不是每次训练出的分类器就都一样了嘛,所以在每次训练后要根据训练结果来改变数据的权重;还有一个... 查看详情

统计学习方法(李航)

统计学习方法概论:(一),统计学习1,统计学习的特点  2,统计学习的对象  3,统计学习的目的  4,统计学习的方法  (二),监督学习重要概念1,输入空间,特征向量空间,输出空间   (三),统计学习... 查看详情

统计学习方法--提升方法adaboost算法(集成学习)

1、主要内容  介绍集成学习,然后讲述boosting和bagging的区别与联系,同时对adaBoost进行推导然后进行gbdt的推导,最后比较随机森林和gdbt的区别和联系。2、集成学习  集成学习(ensamblelearning)通过构建多个学习器来完成任... 查看详情

《统计学习方法》李航读书笔记

《统计学习方法》李航读书笔记习题1.1伯努利模型下的极大似然估计与贝叶斯估计。答:伯努利模型:总体信息、样本信息\[P(A|\theta)=\sum_i=1^N\fracI(O_i=1)N\quad^[1]\]贝叶斯估计:总体信息、样本信息、先验信息\[P(A|\theta_Bayes)=\frack+1N... 查看详情

统计学习方法李航

链接:https://pan.baidu.com/s/178FaXInAAA7TrvLwoJnt_g提取码:87vn                链接:https://pan.baidu.com/s/178FaXInAAA7TrvLwoJ 查看详情

每月学习数理统计--《统计学习方法—李航》

   现在这本书已经看完70%,在看完后我将会将每一章的内容按照自己的理解并结合其他书籍包括<<统计机器学习导论>>[1] ,<<机器学习>>[2],<<大数据分析>>[3]这三本书总结经典的几大算法... 查看详情

统计学习方法-李航第一章

第一章统计学习方法概论学习:如果一个系统能够通过执行某个过程改进它的性能,这就是学习监督学习:从训练数据集中学习模型,对测试数据进行预测回归问题:输入变量与输出变量均为连续变量的预测问题分类问题:输出... 查看详情

统计学习方法李航学习笔记

一、决策树1、决策树是一种基本的分类与回归方法,本文主要讨轮用于分类的决策树,决策树模型呈现树形结构,在分类问题中,表示基于特征对实例进行分类的过程,学习时,利用训练数据,根据损失函数最小化的原则建立... 查看详情

李航老师的《统计学习方法》第二章算法的matlab程序

参考了http://blog.sina.com.cn/s/blog_bceeae150102v11v.html#post %感知机学习算法的原始形式,算法2.1参考李航《统计学习方法》书中第二章的算法P29closeallclearallclcX=[3,3;4,3;1,1];Y=[1,1,-1];%训练数据集及标记learnRate=1;%学习率Omega=zeros(1,size(X, 查看详情

李航《统计学习方法》ch02

CH02感知机前言章节目录感知机模型感知机学习策略数据集的线性可分性感知机学习策略感知机学习算法感知机学习算法感知机学习算法的原始形式算法的收敛性感知机学习算法的对偶形式导读感知机是二类分类的线性分类模型... 查看详情

李航统计学习方法——算法2——k近邻法

一、K近邻算法  k近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法,输入实例的特征向量,输出实例的类别,其中类别可取多类二、k近邻模型  2.1 距离度量         ... 查看详情

《统计学习方法(李航)》讲义第04章朴素贝叶斯

   朴素贝叶斯(naiveBayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求... 查看详情

《统计学习方法(李航)》讲义第05章决策树

    决策树(decisiontree)是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是... 查看详情

决策树(统计学习方法(李航))的贷款的例子的实现(代码片段)

以统计学习方法(李航)这本书的例子为基础需要注意的地方:我用的是pycharmpython版本是3.7graphviz是一个软件,在pycharm里面下了还得去官网下下完之后得加入环境变量可能还需要重启电脑缺啥库就安啥库那个数据是我自己设置... 查看详情

李航统计学习方法(第二版)基本概念:泛化能力

 1泛化误差学习方法的泛化能力(generalizationability)是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质重要的性质。泛化误差反映了学习方法的泛化能力,如果一种方法学习的模型比另一种方法学习的模型具有... 查看详情

每月学习数理统计--《统计学习方法—李航》:感知器

 1. 感知器的介绍2.感知器的算法3.感知器的更新规则4.感知器的收敛性5.感知器的局限性 1.感知器的介绍 首先        2.感知器的算法           &nbs... 查看详情

李航统计学习方法chapter6逻辑斯蒂回归

第6章逻辑斯蒂回归和最大熵模型逻辑斯谛回归(LR)是经典的分类方法1.逻辑斯谛回归模型是由以下条件概率分布表示的分类模型。逻辑斯谛回归模型可以用于二类或多类分类。P(Y=k∣x)=exp⁡(wk⋅x)1+∑k=1K−1exp⁡(wk... 查看详情

李航统计学习方法chapter6最大熵模型

第6章逻辑斯蒂回归和最大熵模型逻辑斯谛回归(LR)是经典的分类方法1.逻辑斯谛回归模型是由以下条件概率分布表示的分类模型。逻辑斯谛回归模型可以用于二类或多类分类。P(Y=k∣x)=exp⁡(wk⋅x)1+∑k=1K−1exp⁡(wk... 查看详情