算法干货----决策树算法中的熵与信息增益

author author     2022-08-08     156

关键词:

什么是决策树?为什么要用决策树?

   

  决策树是一种二分树,或是多分数。对于大量数据的细分工作有很大帮助。在日常生活中,决策树的算法可谓是每天都在用。小到用户分类,大到辅助决策。实际上他的使用很多。

  至于为什么要用到决策树,个人认为就是因为这种算法简单。代码实现起来主要就是IF-ELSE就可以实现。可这一算法的发展也是从ID3--->C4.5----->C5.0.

  它的主要步骤就两个:1,建树 2,剪树

  如何建树,就是如何分你的数据,按照哪种特性?比如人口统计数据,是按年龄,身高,体重,学历.............而如何选取里面一个指标,这就是建树的根本。比较这些指标的优劣势则较为重要,而这就是我们本文要讨论的熵与信息增益。


 

  小名就叫信息增益,还是拿人口统计数据来说,你要分析的目标人群是什么也决定着各指标商的大小。比如说,你分析人口数据是为了指到要买你减肥药的目标人群,那体重就在所有指标中显得尤其重要了。这一点,是我们拍着脑门就能够知道的,而当统计指标太多,如何确定哪项指标重要就要用到熵的这个概念。也就相当于把这些指标给量化成数值可供我们比较。

  现代社会,我们手中的数据量是非常庞大的。例如说一些国有事业单位,它们里边的数据字段(也就是上边说的指标)大都在20列以上。而要如何确定那此字段是我们所需要的是要与我们的分析目标相链接的。而每一列的数据又是分为分类变量与连续变量,而决策树起到的作用主要是在分类变量上,但如果要连续变量或都离散变量进行相应转换,也可以按分类变量对待。

  好了,把熵的概念理解清楚,你就明白了每一个分枝节点该选什么变量了!这一步完成了建树的过程。


剪树

  

  当一棵树长的特别茂盛的时候,我们就要开始修剪了,园艺师的说法是剪枝,而在我们决策树算法里就叫做剪树。

  剪树的过程也不复杂,就是把你用熵分出来的最终数据来一个统一要求,比如你是要二分树还是多分树?你要最多几个级别?最小的分叉要有多少个数据?这都是要考虑进来的因素。剪树到最后的阶段,就要开始与业务部门进行相应的互动。去验证你的算法,也即回到上边的那个例子,你找到的这些用户是否当你联系对方时,对方都会购买你的产品。

  然后根据业务部分统计到的信息,可以做正向处理(邮寄产品)或反向处理(改正产品特色进行精准营销)。


总结

  

  当进行了以上的操作之后,再把原始的数据按4:3:3的原则分配,再套入相应的模型开始做分类验证,相信在数据分析的过程中不断的完善自己的模型与算法。势必会达到我们的目的!

  以上就是自己对于决策树算法中的关键部分的理解,还有不足之处,还望大家都能多多指正,彼此学习,共同进步!

本文出自 “数据挖掘与可视化” 博客,请务必保留此出处http://bingyang.blog.51cto.com/533655/1859824

学习笔记|机器学习决策树

文章目录一、算法原理二、基础知识1.自信息、信息熵与条件熵2.信息增益和增益率3.Gini值和Gini指数三、过拟合与剪枝四、连续值和缺失值处理1.连续值处理2.缺失值处理五、总结通过这篇博客,您将收获如下知识:熟悉决策树相... 查看详情

决策树--c4.5算法

C4.5是另一个分类决策树算法,是基于ID3算法的改进,改进点如下:1、分离信息 解释:数据集通过条件属性A的分离信息,其实和ID3中的熵; 2、信息增益率 解释:Gain(A)为获的A的信息增益,C4.5中选择具有最大增益率... 查看详情

决策树

一、决策树不同算法信息指标:发展过程:ID3->C4.5->Cart;相互关系:ID3算法存在这么一个问题,如果某一个特征中种类划分很多,但是每个种类中包含的样本个数又很少,就会导致信息增益很大的情况,但是这个特征和结果... 查看详情

机器学习之决策树(代码片段)

1、算法介绍决策树是一种基本的分类和回归方法,决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。决策树学习通常包括三个步骤:特征选择、决策树的生成和决策树的修剪。决策树的本质是从训... 查看详情

机器学习算法:决策树算法简介以及分类原理(代码片段)

学习目标知道什么是决策树知道如何求解信息熵知道信息增益的求解过程知道信息增益率的求解过程知道基尼系数的求解过程知道信息增益、信息增益率和基尼系数三者之间的区别、联系决策树思想的来源非常朴素,程序设... 查看详情

分类算法:决策树(c4.5)(转)

C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点: 1)用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来... 查看详情

决策树中的熵和基尼指数

...很基本的分类与回归方法,但正如前面博文机器学习排序算法:RankNettoLambdaRanktoLambdaMART中所讲的LambdaMART算法一样,这种最基本的算法却是很多经典、复杂、高效的机器学习算法的基础。关于什么是决策树,网上一搜就会有很多... 查看详情

sparkmllib回归算法之决策树

SparkMLlib回归算法之决策树(一),决策树概念1,决策树算法(ID3,C4.5,CART)之间的比较:  1,ID3算法在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性... 查看详情

机器学习——决策树,decisiontreeclassifier参数详解,决策树可视化查看树结构(代码片段)

...时每个叶结点中的实例都属于同一类。 1.决策树学习算法的特点  决策树算法的最大优点是可以自学习。在学习的过程中,不需要使用者了解过多知识背景,只需要对训练实例进行较好的标注,就能够进行学习了。  在... 查看详情

决策树算法

...熵:Entropy2.基尼不纯度:Giniimpurity2.类型常见三种决策树算法:决策树ID3算法, 决策树C4.5算法, CART分类树算法ID3算法是用信息增益大小来判断当前节点应该用什么特征来构建决策树ID3算法有四个主要的不足,一是不能处... 查看详情

id3决策树分析

  1简述1.1   id3是一种基于决策树的分类算法,由J.RossQuinlan在1986年开发。id3根据信息增益,运用自顶向下的贪心策略建立决策树。信息增益用于度量某个属性对样本集合分类的好坏程度。由于采用了信息增益,id3算... 查看详情

决策树

(1)建树  1.选择属性    ID3算法用的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系数 2.选择属性的最优分割点   ID3算法:使用信息增益作为分裂的规则,信息增益越大,则选取该... 查看详情

决策树算法——计算步骤示例

使用决策树算法手动计算GOLF数据集步骤:1、通过信息增益率筛选分支。(1)共有4个自变量,分别计算每一个自变量的信息增益率。首先计算outlook的信息增益。outlook的信息增益Gain(outlook)=其中,v是可能取值的集合(本例中,out... 查看详情

常见机器学习算法原理+实践系列4(决策树)

决策树分类决策树算法借助于树的分支结构实现分类,决策树在选择分裂点的时候,总是选择最好的属性作为分类属性,即让每个分支的记录的类别尽可能纯。常用的属性选择方法有信息增益(InformationGain),增益比例(gainratio... 查看详情

机器学习之决策树(代码片段)

1、C4.5算法介绍C4.5算法与ID3算法不同的是采用了信息增益比作为特征的选择,原因是:信息增益在选择属性时偏向于选择取值较多的属性。2、信息增益比特征A对训练数据集D的信息增益比定义为其信息增益g(D,A)与特征A的熵HA(D)之... 查看详情

决策树与随机森林

...此时每个叶节点中的实例都属于同一类。决策树三种生成算法ID3--- 信息增益 最大的准则C4.5--- 信息增益比 最大的准则CART回归树: 平方误差 最小 的准则分类树: 基尼系数&nbs 查看详情

决策树是啥东东?

...。哈哈决策树详解决策树(DecisionTree)是一种有监督学习算法,常用于分类和回归。本文仅讨论分类问题。决策树模型是运用于分类以及回归的一种树结构。决策树由节点和有向边组成,一般一棵决策树包含一个根节点、若干内... 查看详情

实验四决策树算法及应用(代码片段)

...18级作业要求实验四学号3180701128【实验目的】理解决策树算法原理,掌握决策树算法框架;理解决策树学习算法的特征选择、树的生成和树的剪枝;能根据不同的数据类型,选择不同的决策树算法;针对特定应用场景及数据,能... 查看详情