正文

史诗级干货长文决策树算法(代码片段)

ZSYL  ZSYL  2022-12-08  689

关键词：

决策树算法

1. 决策树算法简介
2. 决策树分类原理
3. cart剪枝
4. 特征工程-特征提取
5. 决策树算法API
6. 案例：泰坦尼克号乘客生存预测
7. 回归决策树

1. 决策树算法简介

决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-else结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法

决策树：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树。

怎么理解这句话？通过一个对话例子

在这里插入图片描述
想一想这个女生为什么把年龄放在最上面判断！！！

上面案例是女生通过定性的主观意识，把年龄放到最上面，那么如果需要对这一过程进行量化，该如何处理呢？

此时需要用到信息论中的知识：信息熵，信息增益

小结

决策树定义：
- 是一种树形结构，
- 本质是一颗由多个判断节点组成的树

2. 决策树分类原理

学习目标

知道如何求解信息熵
知道信息增益的求解过程
知道信息增益率的求解过程
知道基尼系数的求解过程
知道信息增益、信息增益率和基尼系数三者之间的区别、联系

请参考:【机器学习】决策树分类原理

3. cart剪枝

3.1 为什么要剪枝?

在这里插入图片描述

图形描述
- 横轴表示在决策树创建过程中树的结点总数，纵轴表示决策树的预测精度。
- 实线显示的是决策树在训练集上的精度，虚线显示的则是在一个独立的测试集上测量出来的精度。
- 随着树的增长，在训练样集上的精度是单调上升的，然而在独立的测试样例上测出的精度先上升后下降。
出现这种情况的原因：
- 原因1：噪声、样本冲突，即错误的样本数据。
- 原因2：特征即属性不能完全作为分类标准。
- 原因3：巧合的规律性，数据量不够大。

3.2 常用的减枝方法

3.2.1 预剪枝

（1）每一个结点所包含的最小样本数目，例如10，则该结点总样本数小于10时，则不再分；

（2）指定树的高度或者深度，例如树的最大深度为4；

（3）指定结点的熵小于某个值，不再划分。随着树的增长，在训练样集上的精度是单调上升的，然而在独立的测试样例上测出的精度先上升后下降。

3.2.2 后剪枝

后剪枝，在已生成过拟合决策树上进行剪枝，可以得到简化版的剪枝决策树。

3.3 小结

剪枝原因
- 噪声、样本冲突，即错误的样本数据
- 特征即属性不能完全作为分类标准
- 巧合的规律性，数据量不够大。
常用剪枝方法
- 预剪枝
  - 在构建树的过程中，同时剪枝
    - 限制节点最小样本数
    - 指定数据高度
  - 指定熵值的最小值
- 后剪枝
  - 把一棵树，构建完成之后，再进行从下往上的剪枝

4. 特征工程-特征提取

学习目标

了解什么是特征提取
知道字典特征提取操作流程
知道文本特征提取操作流程
知道tfidf的实现思想

请参考:【机器学习】特征工程-＞特征提取

5. 决策树算法API

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)
- criterion
  - 特征选择标准
  - “gini"或者"entropy”，前者代表基尼系数，后者代表信息增益。一默认"gini"，即CART算法。
- min_samples_split
  - 内部节点再划分所需最小样本数
  - 这个值限制了子树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。默认是2.如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。我之前的一个项目例子，有大概10万样本，建立决策树时，我选择了min_samples_split=10。可以作为参考。
- min_samples_leaf
  - 叶子节点最少样本数
  - 这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。默认是1,可以输入最少的样本数的整数，或者最少样本数占样本总数的百分比。如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。之前的10万样本项目使用min_samples_leaf的值为5，仅供参考。
- max_depth
  - 决策树最大深度
  - 决策树的最大深度，默认可以不输入，如果不输入的话，决策树在建立子树的时候不会限制子树的深度。一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间
- random_state
  - 随机数种子

6. 案例：泰坦尼克号乘客生存预测

学习目标

通过案例进一步掌握决策树算法api的具体使用

请参考:【决策树算法】泰坦尼克号乘客生存预测

7. 回归决策树

学习目标

知道回归决策树的实现原理

前面已经讲到，关于数据类型，我们主要可以把其分为两类，连续型数据和离散型数据。在面对不同数据时，决策树也可以分为两大类型： 分类决策树和回归决策树。前者主要用于处理离散型数据，后者主要用于处理连续型数据。

请参考:【机器学习】回归决策树

加油!

感谢!

努力!

史诗级干货长文聚类算法(代码片段)

ClusteringAlgorithm1.聚类算法简介1.1认识聚类算法1.1.1聚类算法在现实中的应用1.1.2聚类算法的概念1.1.3聚类算法与分类算法最大的区别1.2小结2.聚类算法api初步使用2.1api介绍2.2案例2.2.1流程分析2.2.2代码实现2.3小结3.聚类算法实现流程4... 查看详情

史诗级干货长文k-近邻算法(代码片段)

K-近邻算法前言1.K-近邻算法简介1.1什么是K-近邻算法1.2K-近邻算法(KNN)概念1.3电影类型分析1.4KNN算法流程总结2.KNN算法API初步使用2.1Scikit-learn工具介绍2.1.1安装Scikit-learn2.1.2Scikit-learn包含的内容2.2K-近邻算法API2.3案例2.3.1步骤分析2.3.2... 查看详情

史诗级干货长文线性回归算法(代码片段)

线性回归算法前言1.线性回归简介1.1线性回归应用场景1.2什么是线性回归1.2.1定义与公式1.2.2线性回归的特征与目标的关系分析2.线性回归API初步使用2.1线性回归API2.2举例2.2.1步骤分析2.2.2代码过程3.数学:求导3.1常见函数的导数3.2导... 查看详情

史诗级干货长文支持向量机(代码片段)

支持向量机SVM1.SVM算法简介1.1SVM算法导入1.2SVM算法定义1.2.1定义1.2.2超平面最大间隔介绍1.2.3硬间隔和软间隔1.2.3.1硬间隔分类1.2.3.2软间隔分类1.3小结2.SVM算法API初步使用3.SVM算法原理3.1定义输入数据3.2线性可分支持向量机3.3SVM的计... 查看详情

史诗级干货长文集成学习进阶（xgboost&lightgbm）(代码片段)

集成学习进阶1.xgboost算法原理1.1最优模型的构建方法1.2XGBoost的目标函数推导1.2.1目标函数确定1.2.2CART树的介绍1.2.3树的复杂度定义1.2.3.1定义每课树的复杂度1.2.3.2树的复杂度举例1.2.4目标函数推导1.3XGBoost的回归树构建方法1.3.1计算... 查看详情

史诗级干货长文朴素贝叶斯(代码片段)

朴素贝叶斯学习目标1.朴素贝叶斯算法简介2.概率基础复习2.1概率定义2.2案例：判断女神对你的喜欢情况2.3联合概率、条件概率与相互独立2.4贝叶斯公式2.4.1公式介绍2.4.2案例计算2.4.3文章分类计算2.5小结3.案例：商品评论... 查看详情

史诗级干货长文hmm模型(代码片段)

HMM模型1.马尔科夫链1.1简介1.2经典举例1.3小结2.HMM简介2.1简单案例2.2案例进阶2.2.1问题阐述2.2.2问题解决2.2.2.1一个简单问题【对应问题2】2.2.2.2看见不可见的，破解骰子序列【对应问题1】2.2.2.3谁动了我的骰子？【对应问题3... 查看详情

361机器学习常见算法

...tNeighbors）参考：机器学习实战教程（一）：K-近邻算法（史诗级干货长文）决策树算法（DecisionTree）参考：机器学习实战教程（二）：决策树基础篇之让我们从相亲说起参考：机器学习实战教程（三）：决策树实战篇之为自己配... 查看详情

nlp电商评论处理-史诗级长文(代码片段)

#autherbioamin#nlpof电商评论#-*-conding=utf-8-*-importnumpyasnpimportpandasaspd#画图的包importmatplotlib.pyplotaspltimportseabornassnsplt.rcParams[‘font.sans-serif‘]=[‘SimHei‘]plt.rcParams[‘axes.unicode_minus 查看详情

实验四决策树算法及应用(代码片段)

...计算机18级作业要求实验四学号3180701128【实验目的】理解决策树算法原理，掌握决策树算法框架；理解决策树学习算法的特征选择、树的生成和树的剪枝；能根据不同的数据类型，选择不同的决策树算法；针对特定应用场景及数... 查看详情

实验四决策树算法及应用(代码片段)

...与信息学院AHPU-机器学习实验-计算机18级作业要求实验四决策树算法及应用作业目标（1）理解决策树算法原理，掌握决策树算法框架；（2）理解决策树学习算法的特征选择、树的生成和树的剪枝；（3）能根据不同的数据类型，... 查看详情

算法干货－－－－决策树算法中的熵与信息增益

什么是决策树？为什么要用决策树？　　　　　决策树是一种二分树，或是多分数。对于大量数据的细分工作有很大帮助。在日常生活中，决策树的算法可谓是每天都在用。小到用户分类，大到辅助决策。实际上他的使用很多。... 查看详情

实验四决策树算法及应用(代码片段)

博客班级机器学习作业要求实验四作业目标决策树算法及应用学号3180701124一、【实验目的】理解决策树算法原理，掌握决策树算法框架；理解决策树学习算法的特征选择、树的生成和树的剪枝；能根据不同的数据类型，选择不... 查看详情

决策树算法(代码片段)

...算法的评估：-准确率-速度-强壮性-可规模性-可解释性1.决策树(decisiontree)决策树是一个类似于流程图的树结构：-每个内部结点表示在一个属性上的测试-每个分支代表一个属性输出-每个树叶结点代表类或类分布树的最顶层是根结... 查看详情

决策树算法(代码片段)

基本的决策树算法，基本的决策树算法可以设计成为一个递归的算法，递归算法在无需或者无法进行划分的时候返回值，上面红色的部分标出了递归函数返回的三种情况，第一种情况是训练集的标签都相同，直接把结果标为该标... 查看详情

决策树算法(代码片段)

1、决策树的概念决策树是非参数学习算法，可以解决分类问题，天然可以解决多分类问题，也可以解决回归问题，有非常好的可解释性。编写PlotDecisionBoundary.py文件importnumpyasnpimportmatplotlib.pyplotaspltdefplot_decison_bound... 查看详情

女神也用的约会决策：决策树算法实践(代码片段)

一、决策树决策树是一个应用非常广泛的模型。由于决策树算法模型非常有价值，还衍生出了很多高级版本，比如随机森林、梯度提升决策树算法（GBDT）。今天要介绍的是一个应用非常广泛的机器学习模型——决... 查看详情

机器学习算法学习02：决策树的学习以及应用决策树解决cora数据集论文分类问题(代码片段)

机器学习算法学习02：决策树的学习以及应用决策树解决Cora数据集论文分类问题文章目录机器学习算法学习02：决策树的学习以及应用决策树解决Cora数据集论文分类问题1.前言2.算法分析2.1算法概述2.2算法优化3.算法代码3.... 查看详情