决策树的剪枝

keye keye     2022-11-30     149

关键词:

决策树算法原理(ID3,C4.5)

决策树算法原理(CART分类树)

CART回归树

 

  决策树的剪枝是通过极小化决策树整体的损失函数。(决策树的生成只考虑局部最优,决策树的剪枝考虑全局最优)

  设树T的叶节点为 t,个数为 |T|,该叶节点有 Nt 个样本点,其中 k 类的样本点有 Ntk 个,k = 1,2,...,K,Ht(T)为叶节点 t 上的经验熵,α≥0为参数,则决策树的损失函数:

技术图片

其中经验熵Ht(T),也称特征熵

技术图片

在损失函数中,式子右端的第一项记作:

技术图片

这时损失函数为:

Cα(T) = C(T) + α|T|

C(T) 表示模型对训练数据的预测误差即模型与训练数据拟合程度,|T| 表示模型复杂度,参数 α≥0控制两者之间的影响。较大的α促使选择简单的模型(树),较小的α促使选择复杂的模型(树),α=0只考虑模型与训练数据的拟合程度,不考虑模型的复杂度。

  当α确定时,子树越大,与训练数据拟合越好,但模型复杂度越高;相反,子树越小,与训练数据拟合不好,但模型复杂度低。

  上面两个决策树损失函数的极小化等价于正则化的极大似然估计。所以,利用损失函数最小原则进行剪枝就是用正则化的极大似然估计进行模型选择。

 

决策树剪枝

首先剪枝(pruning)的目的是为了避免决策树模型的过拟合。因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本,不停地对结点进行划分,因此这会导致整棵树的分支过多,也就导致了过拟合。决策树的剪枝策略... 查看详情

5-5决策树的剪枝算法(代码片段)

树的剪枝算法输入:ID3或C4.5的决策树参数a输出:剪枝后的决策树TaT_aTa​递归版本从树的根结点开始如果该结点的孩子中存在子树(不全是叶子结点),则先对子树做prune所有子树都prune之后,再判断该结... 查看详情

机器学习面试问答:决策树如何进行剪枝?剪枝的方法有哪些?

决策树如何进行剪枝?分为预剪枝和后剪枝。预剪枝的思想是在树中结点进行扩展之前,先计算当前的划分是否带来模型泛化能力的提升,如果不能,则不再继续生长子树。预剪枝对何时停止决策树的生长有几种... 查看详情

决策树之剪枝

  在决策树的学习过程中,为了尽可能正确分类训练样本,节点划分过程将不断重复,有时会造成决策树分支过多,这是可能因为训练样本学的“太好了”,以至于把训练集自身的一些特点当作所有数据都具有的一般性质而导... 查看详情

决策树剪枝问题

决策树的剪枝是将生成的树进行简化,以避免过拟合。《统计学习方法》上一个简单的方式是加入正则项a|T|,其中|T|为树的叶节点个数。其中C(T)为生成的决策树在训练集上的经验熵,经验熵越大,表明叶节点上的数据标记越不... 查看详情

机器学习算法:cart剪枝

...常用的cart剪枝方法1为什么要剪枝 图形描述横轴表示在决策树创建过程中树的结点总数,纵轴表示决策树的预测精度。实线显示的是决策树在训练集上的精度,虚线显示的则是在一个独立的测试集上测量出来的精度。随... 查看详情

详解决策树-剪枝十分钟机器学习系列笔记

 决策树生成算法递归地产生决策树,直到不等你继续下去为止。这样产生的树往往对训练数据的分类很准确,但对未知的测试数据的分类却没有那么准确,模型结构过于复杂,即出现过拟合现象直接来看优秀的决策树一般要求... 查看详情

cart剪枝

1.CART剪枝介绍CART剪枝算法从完全生长的决策树的底端剪去一些子树,使决策树变小(模型简单),从而能够对未知数据有更准确的预测。CART剪枝算法由两步组成:首先从生成算法产生的决策树(T_0)底端开始不断剪枝,直到(T_0)的... 查看详情

决策树(主要针对cart)的生成与剪枝

这次主要想写两篇,一篇把决策树的相关思想和方法解释清楚,另外一个说一下ensemble形式的决策树,randomforest,依据主要是breiman的论文。这篇讲决策树(主要以cart为例,因为randomforest的大多实现也是根据cart)1、cart的生成。ca... 查看详情

《机器学习》西瓜书习题第4章(代码片段)

...记不同)的训练集,必存在与训练集一致(即训练误差为0)的决策树.  既然每个标记不同的数据特征向量都不同,只要树的每一条(从根解点到一个叶节点算一条)枝干代表一种向量,这个决策树就与训练集一致.4.2  试析使用"最... 查看详情

【理论篇】决策树剪枝策略

参考技术A首先,我们来思考一个问题:决策树为什么要进行剪枝呢?试想一下,如果决策树足够庞大,无限分裂下去,直到每个叶子节点的熵值都为0。这个时候,分类结果没有不确定性,100%准确。这样的决策树最终的结果就是... 查看详情

决策树算法原理

参考技术A决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。如果不考虑效... 查看详情

决策树算法

文章目录决策树1.决策树的整体理解2.决策树的构造2.1决策树----熵2.2构造决策树3.C4.5算法4.决策树剪枝决策树1.决策树的整体理解​决策树,顾名思义,首先它是一棵树,其次,这棵树可以起到决策的作用(即... 查看详情

机器学习笔记之三cart分类与回归树

...本的类别,回归树的输出是一个实数。CART算法有两步:决策树生成和剪枝。决策树生成:递归地构建二叉决策树的过程,基于训练数据集生成决策树,生成的决策树要尽量大;自上而下 查看详情

随机森林

现在现将随机森林的学习的大纲进行列举:1.决策树的算法:ID3,C4.5,CART,bagging,GBDT,RandomForest.2.RandomForest的原理:在m个样本中,有放回的随机抽取m个样本,作为训练集。将在n个特征中抽取k(k<n)个特征来构建决策树,通过构建... 查看详情

决策树和随机森林

一棵决策树包含一个根结点、若干内部结点和若干个叶节点;叶结点对应决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到每个... 查看详情

大数据项目8(sklearn决策树)

决策树一、了解什么是决策树二、决策树模型三、决策树-信息增益四、信息增益比五、ID3算法六、决策树的剪枝一、了解什么是决策树分类分类树:分类标签值(天气?是否垃圾网页?)定性决策树:定... 查看详情

决策树分类算法小结

引言  本文主要是对分类型决策树的一个总结。在分类问题中,决策树可以被看做是if-then规则的结合,也可以认为是在特定特征空间与类空间上的条件概率分布。决策树学习主要分为三个步骤:特征选择、决策树的生成与剪... 查看详情