强调实用细节的 C4.5 和 ID3 算法

     2023-03-12     59

关键词:

【中文标题】强调实用细节的 C4.5 和 ID3 算法【英文标题】:C4.5 and ID3 algorithms with emphasis on practical details 【发布时间】:2012-11-16 21:29:57 【问题描述】:

我开始应用数据挖掘算法。现在我研究决策树。互联网上有很多关于 C4.5 和 ID3 算法的资料,但我想知道这两种算法的实际细节、优缺点和一些技术细节。如果有此类材料的链接,我会很高兴

【问题讨论】:

【参考方案1】:

决策树的两个优点是它们能够处理嘈杂的数据,并且它们提供了对数据的直观解释(您可以很容易地看到决策树认为哪些属性最重要)。缺点是它们是贪心算法(它们选择分支属性而不考虑这如何影响最终分类精度),因此它们不一定会产生最佳树结构。决策树很容易集成到集成方法中,例如random forests。

C4.5 是对 ID3 的改进,使其能够处理实值属性(ID3 使用分类属性)和缺失属性。互联网上有很多关于这两种算法的描述。***对ID3 和C4.5 都有描述。对于这两种算法的另一种描述,你可以从here开始。

【讨论】:

决策树之c4.5算法

前言由于C4.5算法是建立在ID3算法基础之上的,所以在讲解C4.5的时候,会有很多与ID3重合的内容,这里就不过多冗余地说明了。本文旨在阐明ID3存在的问题,以及C4.5的改进方案。如果你对于ID3中的相关数学公式及... 查看详情

ID3 和 C4.5:“增益比”如何规范“增益”?

...;Gain"?【发布时间】:2012-10-2420:21:58【问题描述】:ID3算法使用“信息增益”度量。C4.5使用“增益比”度量,即信息增益除以SplitInfo,而SplitInfo对于记录在不同结果之间平均分配的拆分较高,否则较低。我的问题是:这如何 查看详情

决策树--c4.5算法

C4.5是另一个分类决策树算法,是基于ID3算法的改进,改进点如下:1、分离信息 解释:数据集通过条件属性A的分离信息,其实和ID3中的熵; 2、信息增益率 解释:Gain(A)为获的A的信息增益,C4.5中选择具有最大增益率... 查看详情

分类算法:决策树(c4.5)(转)

C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点: 1)用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来... 查看详情

c4.5算法

C4.5是一套用来处理分类问题的算法,属于有监督学习的类型,每个实例由一组属性来描述,每个实例仅属于一个类别。如下是一个数据集 算法的发展历史J.RossQuinlan设计的C4.5算法源于名为ID3的一种决策树诱导算法。而ID3是迭... 查看详情

决策树之c4.5算法

前言由于C4.5算法是建立在ID3算法基础之上的,所以在讲解C4.5的时候,会有很多与ID3重合的内容,这里就不过多冗余地说明了。本文旨在阐明ID3存在的问题,以及C4.5的改进方案。如果你对于ID3中的相关数学公式及... 查看详情

如何理解c4.5算法解决了id3算法的偏向于选择取值较多的特征问题

如何理解C4.5算法解决了ID3算法的偏向于选择取值较多的特征问题考虑一个极端情况,某个属性(特征)的取值很多,以至于每一个取值对应的类别只有一个。这样根据\[H(D)-H(D|A)\]可以得知后面的那一项的值为0。这样得到信息增... 查看详情

基于r语言的用户分析

1.基本分析理论C5.0是决策树模型中的算法,79年由JRQuinlan发展,并提出了ID3算法,主要针对离散型属性数据,其后又不断的改进,形成C4.5,它在ID3基础上增加了队连续属性的离散化。C5.0是C4.5应用于大数据集上的分类算法,主要... 查看详情

决策树算法

 在决策树算法原理(上)这篇里,我们讲到了决策树里ID3算法,和ID3算法的改进版C4.5算法。对于C4.5算法,我们也提到了它的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不能处理回归... 查看详情

决策树系列算法总结(id3,c4.5,cart,randomforest,gbdt)

前言线性系列的算法(比如logisticregression,SVM;当然,它们不完全是线性的)的逻辑一般是求每个特征对最终分类结果的贡献权重。但是,这种线性组合并不总是有意义的。在这种情况下,如果不想使... 查看详情

sparkmllib回归算法之决策树

SparkMLlib回归算法之决策树(一),决策树概念1,决策树算法(ID3,C4.5,CART)之间的比较:  1,ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性... 查看详情

数据挖掘十大算法

大数据时代数据挖掘十大经典算法  不不过选中的十大算法,事实上參加评选的18种算法。实际上随便拿出一种来都能够称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。  1.C4.5  C4.5算法是机器学习算法... 查看详情

数据挖掘十大经典算法

 一、C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1)用信息增益率来选择属性,克服了用信息增益选择属性时偏... 查看详情

id3决策树分析

  1简述1.1   id3是一种基于决策树的分类算法,由J.RossQuinlan在1986年开发。id3根据信息增益,运用自顶向下的贪心策略建立决策树。信息增益用于度量某个属性对样本集合分类的好坏程度。由于采用了信息增益,id3算... 查看详情

Weka 使用增益比和信息增益(ID3 和 C4.5(J48))

...我正在使用Weka,我需要分析一个具有信息增益和增益比的数据集,但是我找不到从哪里设置这些。我知道id3使用信息增益,J48使用增益比,但是,我可以设置J48使用信息增益或id3使用增益比吗? 查看详情

决策树id3,c4.5,cart算法中某一属性分类后,是不是能运用该属性继续分类

我在看算法的时候发现ID3在使用一个属性进行分类后,它的枝叶中是把该属性剔除的也就是不能再用该属性进行分类,而在MATLAB函数fitctree中看到同一属性是可以重复使用的,而matlab使用的算法应该是cart,是不是这三种算法在这... 查看详情

决策树算法cart和c4.5决策树有啥区别?各用于啥领域?

1、C4.5算法是在ID3算法的基础上采用信息增益率的方法选择测试属性。CART算法采用一种二分递归分割的技术,与基于信息熵的算法不同,CART算法对每次样本集的划分计算GINI系数,GINI系数,GINI系数越小则划分越合理。2、决策树... 查看详情

机器学习——决策树(下)算法实现

...绍了决策树的生成和剪枝原理。介绍了CART,ID3,C4.5等算法的算法流程,其中CART算法可以实现回归和分类,是基于基尼不纯度实现的,这里并未实现。这里主要实现了ID3和C4.5算法,是基于信息熵的 查看详情