算法决策树

小辉辉可爱多 小辉辉可爱多     2022-08-01     315

关键词:

本文旨在用最短的文章,最通俗的描述,让读者迅速掌握决策树究竟是什么?干什么?怎么用?三大问题。只需要您注意力集中25分钟。

1.明白概念:

a)决策树是一种分类算法,通过训练数据集构建决策树,可以高效的对未知的数据进行分类,主要是用来做预测

b)决策树是一种树状结构,它的每个叶节点对应着一个分类,非叶节点对应着某个属性的划分,根据样本在该属性上的不同取值将其划分成若干个子集。

2.怎么用?

a).根据一些特征值,建立起一个树状结构,根据树状结构的评判标准,来进行预测。 
 
b).树的内部结点表示对某个属性的判断,该结点的分支是对应的判断结果;叶子结点代表一个类标
 
3.关键点:
构造决策树的核心问题是每一步如何选择适当的属性对样本做拆分。
 
这就要用到信息熵,熵值越大,不确定程度就越高,就可以把这个属性放在树的根节点。
 
4.举例:
假如你想通过过去的天气,是否周末,是否促销三个属性和销量的关系来预测将来的销量的高低,这时你就可以通过以前的数据,选择这三个属性,通过计算信息熵的值来进行排序,对样本进行划分。这样就可以形成树状图了
 
5.具体建立决策树的步骤:
a)计算总的信息熵
b)计算每个测试属性的信息熵
c)计算天气,是否周末和是否促销属性的信息增益值
  信息增益值=总的信息熵-测试属性的信息熵
d)针对每一个分支节点继续进行信息增益的计算,如此反复,直到没有新的节点分支,最终形成一棵决策树
e)当有新的样本进来就可以利用这颗决策树进行预测
 
6.补充————信息熵的计算

信息增益基于香浓的信息论,它找出的属性R具有这样的特点:以属性R分裂前后的信息增益比其他属性最大。这里信息的定义如下:

其中的m表示数据集D中类别C的个数,Pi表示D中任意一个记录属于Ci的概率,计算时Pi=(D中属于Ci类的集合的记录个数/|D|)。Info(D)表示将数据集D不同的类分开需要的信息量。

 

举例:
a)比如我们将一个立方体A抛向空中,记落地时着地的面为f1,f1的取值为{1,2,3,4,5,6},
 f1的熵entropy(f1)=-(1/6*log(1/6)+…+1/6*log(1/6))=-1*log(1/6)=2.58;
b)现在我们把立方体A换为正四面体B,记落地时着地的面为f2,f2的取值为{1,2,3,4},
  f2的熵entropy(1)=-(1/4*log(1/4)+1/4*log(1/4)+1/4*log(1/4)+1/4*log(1/4)) =-log(1/4)=2;
c)如果我们再换成一个球C,记落地时着地的面为f3,显然不管怎么扔着地都是同一个面,即f3的取值为{1},
  故其熵entropy(f3)=-1*log(1)=0。
结论:可以看到面数越多,熵值也越大,而当只有一个面的球时,熵值为0,此时表示不确定程度为0,也就是着地时向下的面是确定的。

机器学习算法之决策树(上)

信息熵决策树决策树优化剪枝决策树可视化决策树直观理解比特化(Bits) 查看详情

实验四决策树算法及应用(代码片段)

...18级作业要求实验四学号3180701128【实验目的】理解决策树算法原理,掌握决策树算法框架;理解决策树学习算法的特征选择、树的生成和树的剪枝;能根据不同的数据类型,选择不同的决策树算法;针对特定应用场景及数据,能... 查看详情

决策树算法

 决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。本文就对决策树算法原理做一个总结,上篇对ID3,C4.5的算法思想做了总结,下... 查看详情

实验四决策树算法及应用(代码片段)

...学院AHPU-机器学习实验-计算机18级作业要求实验四决策树算法及应用作业目标(1)理解决策树算法原理,掌握决策树算法框架;(2)理解决策树学习算法的特征选择、树的生成和树的剪枝;(3)能根据不同的数据类型,选择不... 查看详情

决策树分类算法小结

...选择、决策树的生成与剪枝操作。本文简单总结ID3和C4.5算法,之后是决策树的修剪。ID3算法  ID3算法和核心是:在决策树各级节点上选择属性时,用信息增益(informationgain)作为属性的选择标准,具 查看详情

决策树算法cart和c4.5决策树有啥区别?各用于啥领域?

1、C4.5算法是在ID3算法的基础上采用信息增益率的方法选择测试属性。CART算法采用一种二分递归分割的技术,与基于信息熵的算法不同,CART算法对每次样本集的划分计算GINI系数,GINI系数,GINI系数越小则划分越合理。2、决策树... 查看详情

史诗级干货长文决策树算法(代码片段)

决策树算法1.决策树算法简介2.决策树分类原理3.cart剪枝3.1为什么要剪枝?3.2常用的减枝方法3.2.1预剪枝3.2.2后剪枝3.3小结4.特征工程-特征提取5.决策树算法API6.案例:泰坦尼克号乘客生存预测7.回归决策树1.决策树算法简介决策... 查看详情

ml:决策树算法

     在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(DecisionTreeModel)和朴素贝叶斯模型(NaiveBayesianModel,NBC)。决策树模型通过构造树来解决分类问题。首先利用训练数据集来构造一棵决策树... 查看详情

算法干货----决策树算法中的熵与信息增益

...量数据的细分工作有很大帮助。在日常生活中,决策树的算法可谓是每天都在用。小到用户分类,大到辅助决策。实际上他的使用很多。  至于为什么要用到决策树,个人认为就是因为这种算法简单。代码实现起来主要就是I... 查看详情

机器学习--决策树分类算法及应用

1.决策树分类算法原理1.1概述决策树(decisiontree)——是一种被广泛使用的分类算法。相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置在实际应用中,对于探测式的知识发现,决策树更加适用1.2算法... 查看详情

决策树算法

 在决策树算法原理(上)这篇里,我们讲到了决策树里ID3算法,和ID3算法的改进版C4.5算法。对于C4.5算法,我们也提到了它的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不能处理回归... 查看详情

一文看懂决策树

 决策树是一种逻辑简单的机器学习算法,它是一种树形结构,所以叫决策树。本文将介绍决策树的基本概念、决策树学习的3个步骤、3种典型的决策树算法、决策树的10个优缺点。什么是决策树?决策树是一种解决分类问题... 查看详情

课时决策树和随机森林

决策树通常决策树主要有三种实现,分别是ID3算法,CART算法和C4.5算法。随机森林的重点在于单个决策树是如何建造的CARTClassificationAndRegressionTree,即分类回归树算法,简称CART算法,它是决策树的一种实现.CART算法是一种二分递... 查看详情

机器学习决策树

1、决策树简介1.1决策树概述决策树算法是一种基于树形结构的分类算法,它能从给定的无序的训练样本中,提炼出树型的分类模型,树形中包含判断模块和终止模块。它是一种典型的分类算法,首先对数据进行处理,利用归纳... 查看详情

女神也用的约会决策:决策树算法实践(代码片段)

...、决策树决策树是一个应用非常广泛的模型。由于决策树算法模型非常有价值,还衍生出了很多高级版本,比如随机森林、梯度提升决策树算法(GBDT)。今天要介绍的是一个应用非常广泛的机器学习模型——决策... 查看详情

r(rattle)实现决策树算法

使用R实现决策树分析决策树算法也是数据挖掘的核心算法之一,使用树形结构模型进行知识表达。非叶子节点为分支条件,叶子节点为决策条件。分支算法主要使用的信息增益,这里不再详述。本篇案例主要也是使用weather数据... 查看详情

ml之监督学习算法之分类算法一————决策树算法

一、概述  决策树的一个重要任务是为了数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,在这些机器根据数据创建规则时,就是机器学习的过程。二、决策树的构造  决策树:... 查看详情

决策树生成算法

...树状分叉结构。本文主要想总结一下最常用的决策树生成算法构造的原则熟悉决策树的你一定记得,决策树每个非叶子结点对应的其实是一个属性。比方说,想判断一个男生是不是gay,我们首先需要判断他的性别是不是男的,是... 查看详情