正文

集成学习算法：bagging和随机森林(代码片段)

黑马程序员官方  黑马程序员官方  2022-12-06  387

关键词：

学习目标

知道Bagging集成原理
知道随机森林构造过程
知道RandomForestClassifier的使用
了解baggind集成的优点

1 Bagging集成原理

目标：把下面的圈和方块进行分类

实现过程：

1.采样不同数据集

2.训练分类器

3.平权投票，获取最终结果

4.主要实现过程小结

2 随机森林构造过程

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

随机森林 = Bagging + 决策树

例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个树的结果是False, 那么最终投票结果就是True

随机森林够造过程中的关键步骤（M表示特征数目）：

1）一次随机选出一个样本，有放回的抽样，重复N次（有可能出现重复的样本）

2）随机去选出m个特征, m <<M，建立决策树

思考
- 1.为什么要随机抽样训练集？　　
  - 如果不进行随机抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也是完全一样的
- 2.为什么要有放回地抽样？
  - 如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，这样每棵树都是“有偏的”，都是绝对“片面的”（当然这样说可能不对），也就是说每棵树训练出来都是有很大的差异的；而随机森林最后分类取决于多棵树（弱分类器）的投票表决。

3 随机森林api介绍

sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)
- n_estimators：integer，optional（default = 10）森林里的树木数量120,200,300,500,800,1200
- Criterion：string，可选（default =“gini”）分割特征的测量方法
- max_depth：integer或None，可选（默认=无）树的最大深度 5,8,15,25,30
- max_features="auto”,每个决策树的最大特征数量
  - If "auto", then max_features=sqrt(n_features).
  - If "sqrt", then max_features=sqrt(n_features)(same as "auto").
  - If "log2", then max_features=log2(n_features).
  - If None, then max_features=n_features.
- bootstrap：boolean，optional（default = True）是否在构建树时使用放回抽样
- min_samples_split:节点划分最少样本数
- min_samples_leaf:叶子节点的最小样本数
超参数：n_estimator, max_depth, min_samples_split,min_samples_leaf

4 随机森林预测案例

实例化随机森林

# 随机森林去进行预测
rf = RandomForestClassifier()

定义超参数的选择列表

param = "n_estimators": [120,200,300,500,800,1200], "max_depth": [5, 8, 15, 25, 30]

使用GridSearchCV进行网格搜索

# 超参数调优
gc = GridSearchCV(rf, param_grid=param, cv=2)

gc.fit(x_train, y_train)

print("随机森林预测的准确率为：", gc.score(x_test, y_test))

注意

随机森林的建立过程
树的深度、树的个数等需要进行超参数调优

5 bagging集成优点

Bagging + 决策树/线性回归/逻辑回归/深度学习… = bagging集成学习方法

经过上面方式组成的集成学习方法:

均可在原有算法上提高约2%左右的泛化正确率
简单, 方便, 通用

6 小结

bagging集成过程【知道】
- 1.采样 — 从所有样本里面，采样一部分
- 2.学习 — 训练弱学习器
- 3.集成 — 使用平权投票
随机森林介绍【知道】
- 随机森林定义
  - 随机森林 = Bagging + 决策树
- 流程：
  - 1.随机选取m条数据
  - 2.随机选取k个特征
  - 3.训练决策树
  - 4.重复1-3
  - 5.对上面的若决策树进行平权投票
- 注意：
  - 1.随机选取样本，且是有放回的抽取
  - 2.选取特征的时候吗，选择m<<M
  - M是所有的特征数
- api
  - sklearn.ensemble.RandomForestClassifier()
Bagging + 决策树/线性回归/逻辑回归/深度学习… = bagging集成学习方法【了解】
bagging的优点【了解】
- 1.均可在原有算法上提高约2%左右的泛化正确率
- 2.简单, 方便, 通用

史诗级干货长文集成学习算法(代码片段)

集成学习算法1.集成学习算法简介1.1什么是集成学习1.2复习：机器学习的两个核心任务1.3集成学习中boosting和Bagging1.4小结2.Bagging和随机森林2.1Bagging集成原理2.2随机森林构造过程2.3随机森林api介绍2.4随机森林预测案例2.5bagging集... 查看详情

数据结构-集成算法-随机森林(代码片段)

数据结构-集成算法-随机森林[内附spark-ml代码]随机森林集成算法随机森林的相关基础知识随机森林梯度提升树多层感知分类器随机森林集成模型指将基础模型组合成为一个模型。Spark支持两种主要的集成算法：随机森林和梯... 查看详情

bagging与随机森林算法原理小结

　　　　在集成学习原理小结中，我们讲到了集成学习有两个流派，一个是boosting派系，它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派，它的特点是各个弱学习器之间没有依赖关系，可以并行拟合。本文就对集成... 查看详情

bagging与随机森林算法原理小结

　　在集成学习原理小结中，我们讲到了集成学习有两个流派，一个是boosting派系，它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派，它的特点是各个弱学习器之间没有依赖关系，可以并行拟合。本文就对集成学习... 查看详情

bagging与随机森林算法原理小结

集成学习-bagging和boosting算法(代码片段)

文章目录集成学习Bagging随机森林BostingAdaboostGBDTXGBoost集成学习集成学习（ensemblelearning）博采众家之长，通过构建并结合多个学习器来完成学习任务。“三个臭皮匠顶个诸葛亮”，一个学习器（分类器、回归器&... 查看详情

机器学习-集成算法(代码片段)

文章目录集成算法1.定义2.具体模型2.1.Bagging2.2.Boosting2.3.Stacking3.随机森林3.1.树模型结构3.2.随机森林的优点3.3.分类与回归问题3.4.树模型个数问题3.5.参数问题(特征重要性)3.6.可视化展示问题4.集成基本思想4.1.硬投票策略步骤4.2.软... 查看详情

集成学习与随机森林(代码片段)

1、集成学习概念集成学习(ensemblelearning)是一类机器学习框架，通过构建并结合多个学习器来完成学习任务。一般结构是：先产生一组“个体学习器”，再用某种策略将它们结合起来。结合策略主要有平均法、投票法... 查看详情

集成学习-bagging和boosting算法(代码片段)

文章目录集成学习Bagging随机森林BostingAdaboostGBDTXGBoost前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。集成学习集成学习（ensemblelearning）博采众家... 查看详情

随机森林模型及案例（python）(代码片段)

目录1集成模型简介1.1Bagging算法简介1.2Boosting算法简介2 随机森林模型基本原理3 使用sklearn实现随机森林模型4 案例：股票涨跌预测模型4.1 股票衍生变量生成4.1.1 获取股票基本数据4.1.2 生成简单衍生变量4.1.3 生成移动平均... 查看详情

集成学习之随机森林案例专题python机器学习系列（十七）(代码片段)

集成学习之随机森林案例专题【Python机器学习系列（十七）】文章目录1.Bagging与随机森林简介2.随机森林--分类任务2.1准备数据2.2python实现随机森林--分类任务2.3绘制ROC曲线与计算AUC2.4绘制决策树3.随机森林--回归任务集成... 查看详情

随机森林算法及贝叶斯优化调参python实践(代码片段)

1.随机森林算法1.1.集成模型简介集成学习模型使用一系列弱学习器（也称为基础模型或基模型）进行学习，并将各个弱学习器的结果进行整合，从而获得比单个学习器更好的学习效果。集成学习模型的常见算法有... 查看详情

随机森林算法及贝叶斯优化调参python实践(代码片段)

3.集成学习（ensemblelearning）随机森林（randomforest）

1.前言相信看了之前关于集成学习的介绍，大家对集成学习有了一定的了解。本文在给大家介绍下远近闻名的随机森林（RF）算法。随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法，尤其是它可以很方便的并行训练，... 查看详情

集成学习：随机森林

在集成学习（一）中介绍过，Bagging(bootstrapaggregation)是一种增强模型多样性，降低方差的有效手段，特别适用于高方差，低偏差的模型，例如决策树，注意到Bagging也是一种可并行模型，而Boosting是一种... 查看详情

随机森林(rf)的原理

参考技术A集成学习有两个流派，一个是boosting派系，它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派，它的特点是各个弱学习器之间没有依赖关系，可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个... 查看详情