决策树--c4.5算法

author author     2022-08-09     281

关键词:

C4.5是另一个分类决策树算法,是基于ID3算法的改进,改进点如下:
1、分离信息
 技术分享
解释:数据集通过条件属性A的分离信息,其实和ID3中的熵;
 
2、信息增益率
 技术分享
解释:Gain(A)为获的A的信息增益,C4.5中选择具有最大增益率的属性作为分裂属性;
 
 
3、C4.5中所采用的悲观剪枝法
解释:数据的内容,还没有特别理解,之后补上。
 
 
相较ID3的改进:
1、用信息增益率来选择属性,克服了使用信息增益选择属性时偏向选择取值多的属性的不足;
2、在数构造过程中进行剪枝;
3、能够完成对连续属性的离散化处理;
4、能够对不完整数据进行处理;
 
优点:
产生的分类规则易于理解,准确率较高;
缺点:
在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大的无法在内存中容纳时程序无法运行;
 
 
相关内容:
决策树的过拟合问题:
      算法生成的决策树详细而庞大,很多错误数据数据也会被吸收和学习,成为决策树中的一部分,这些决策树的部分可能在训练数据中表现很好,但在以后的数据终究不会那么好,甚至错误率要高。
 
剪枝方法:先剪枝和后剪枝
      先剪枝方法中通过提前停止树的构造(比如决定在某个节点不在分裂或划分训练元组的子集)而对树剪枝。一旦停止,这个节点就变成输液,改树叶可能取它持有的子集最频繁的类作为自己的类。先剪枝有很多方法,比如:1、当决策树达到一定的高度就停止决策树的生长;2、到达此节点的实例具有相同的特征向量,而不必一定属于同一类,也可以停止生长;3、到达此节点的实例个数小于某个阈值的时候也可以厅直属的生长,不足之处是不能处理那些数据量比较小的特殊情况;4、计算每次扩展对系统性能的增益,如果小于某个阈值就可以让它停止生长。先剪枝有个缺点就是视野效果问题,也就是说在相同的标准下,也许当前扩展不能满足要求,但更进一步扩展又能满足要求。这样会过早停止决策树的生长。
     后剪枝方法由完全成长的树减去子树而形成。通过删除节点的分支并用树叶来替换它。树叶一般用子树中最频繁的类别来标记。剪枝过程是对拥有同样父节点的一组节点进行检查,判断如果将其合并,熵的增加量是否小于某一阈值。如果确实小,则合并为一个节点。
    后剪枝算法有很多种,Reduced-Error Pruning(REP,错误率降低剪枝)、Pessimistic Error Pruning(PEP,悲观剪枝);

分类算法:决策树(c4.5)(转)

C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点: 1)用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来... 查看详情

决策树之c4.5算法学习

决策树<DecisionTree>是一种预測模型,它由决策节点,分支和叶节点三个部分组成。决策节点代表一个样本測试,通常代表待分类样本的某个属性,在该属性上的不同測试结果代表一个分支;分支表示某个决策节点的不同取... 查看详情

决策树之c4.5算法

...3中的相关数学公式及概念还有些迷惑,欢迎移步至《决策树之ID3算法》。版权说明著作权归作者所有。商业转载请联系作者获得授权ÿ 查看详情

为啥 C4.5 算法使用剪枝来减少决策树,剪枝如何影响预测精度?

】为啥C4.5算法使用剪枝来减少决策树,剪枝如何影响预测精度?【英文标题】:WhydoestheC4.5algorithmusepruninginordertoreducethedecisiontreeandhowdoespruningaffectthepredicionaccuracy?为什么C4.5算法使用剪枝来减少决策树,剪枝如何影响预测精度?... 查看详情

机器学习总结决策树id3,c4.5算法,cart算法

本文主要总结决策树中的ID3,C4.5和CART算法,各种算法的特点,并对比了各种算法的不同点。决策树:是一种基本的分类和回归方法。在分类问题中,是基于特征对实例进行分类。既可以认为是if-then规则的集合,也可以认为是定... 查看详情

决策树算法cart和c4.5决策树有啥区别?各用于啥领域?

...计算GINI系数,GINI系数,GINI系数越小则划分越合理。2、决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本... 查看详情

大数据经典算法解析(1)一c4.5算法

...之C4.5简单介绍【嵌牛提问】:C4.5是一种怎么的算法,其决策机制靠什么实现?【嵌牛正文】:决策树模型:决策树是一种通过对特征属性的分类对样本进行分类的树形结构,包括有向边与三类节点:根节点(rootnode),表示第... 查看详情

c4.5算法

...。C4.5由J.RossQuinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构,其中每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点存放一个类标号。... 查看详情

决策树算法

 在决策树算法原理(上)这篇里,我们讲到了决策树里ID3算法,和ID3算法的改进版C4.5算法。对于C4.5算法,我们也提到了它的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不能处理回归... 查看详情

决策树之c4.5算法

...3中的相关数学公式及概念还有些迷惑,欢迎移步至《决策树之ID3算法》。版权说明著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。本文作者:Q-WHai发表日期:2016年7月6日本文链接࿱... 查看详情

weka代码算法j48决策树c4.5

用weka做的决策树c4.5算法,我想知道怎么看到他的算法代码?weka好像是java编的,那么怎么把这段java代码提取出来呢?谢谢我想你应该是想通过这个页面的url来得到这个网页里面的某些数据把。用HttpClient。下面我这个方法是得到... 查看详情

多元决策树学习器

】多元决策树学习器【英文标题】:MultivariateDecisionTreelearner【发布时间】:2011-01-2921:31:29【问题描述】:确实存在很多单变量决策树学习器实现(C4.5等),但实际上有人知道多变量决策树学习器算法吗?【问题讨论】:您能进... 查看详情

sparkmllib回归算法之决策树

SparkMLlib回归算法之决策树(一),决策树概念1,决策树算法(ID3,C4.5,CART)之间的比较:  1,ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性... 查看详情

机器学习——决策树(下)算法实现

Decisiontree在机器学习(5)——决策树(上)原理中介绍了决策树的生成和剪枝原理。介绍了CART,ID3,C4.5等算法的算法流程,其中CART算法可以实现回归和分类,是基于基尼不纯度实现的,这里并未实... 查看详情

thinkinginsql系列之四:数据挖掘c4.5决策树算法(代码片段)

原创:牛超  2017-02-11  Mail:10867910@qq.comC4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于... 查看详情

thinkinginsql系列之四:数据挖掘c4.5决策树算法(代码片段)

原创:牛超  2017-02-11  Mail:10867910@qq.comC4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于... 查看详情

决策树系列算法总结(id3,c4.5,cart,randomforest,gbdt)

...,如果不想使用多层的神经网络做分类的话,用决策树系列的算法就是不错的选择。注:这里 查看详情

C4.5 决策树:分类概率分布?

】C4.5决策树:分类概率分布?【英文标题】:C4.5decisiontree:classificationprobabilitydistribution?【发布时间】:2012-08-0423:37:09【问题描述】:我正在使用Weka的J48(C4.5)决策树分类器。一般来说,对于决策树,一旦碰到叶子就可以确定分类... 查看详情