机器学习算法决策树-5cart回归树法,m5回归树算法对cart算法改进了什么

晴天qt01 晴天qt01     2023-03-15     478

关键词:

目录

Cart字段回归树算法

CART回归树的字段选择方式:

小插曲:M5如何利用模型树来提升CART回归树的效能

继续CART字段选择方式


我的主页:晴天qt01的博客_CSDN博客-数据分析师领域博主

目前进度:第四部分【机器学习算法】

Cart字段回归树算法

CART回归树的字段选择方式、如何利用模型树来提升CART回归树的效能

CART回归树和分类数大体上是相同的。只有在叶结点的地方比较特别,分类树在叶结点是yes或者no,回归树就是一个值。

数值其实就是平均数,方差作为不纯度衡量的标准(衡量目前的分布,是不是有一致性的倾向,就和之前的entropy,gain ratio差不多)

之前发明ID3,C4.5,C5.0的人也搞了一个M5,其实就是CART的加强版预测的比较准。

我们先说明CART回归数的基本内容,再说明M5对它的改进

案例:

 

字段1代表的是地理位置,字段2代表的是房屋类型,是独立的还是连接的,字段3代表的是与学区房的距离,字段4代表的是房屋大小。字段5代表的房屋社区有多少户人家(一般户数越多,价格越低)。实际成交价格。

这里我们把房屋价格作为均值,来预测房屋价格可以吗,当然是可以的,价格的均值是173.5,如果我们用这个来预测,我们就会发现,预测结果误差比较大。均值代表我们的机械模型,我们的结果一定要比这个好。我们发现如果预测结果差,那么它的方差误差也会非常大

现在我们了解了,我们要用均值为预测结果,方差为预测依据。那我们就可以建立CART模型了。

 

我们发现市区的房子,大概比郊区的房子贵2.5倍。

我们这个时候用252K来预测Urban的房屋价格。105K来预测Rural房屋价格。肯定是要比178.5K来预测二者价格要准确许多。

然后我们在用房屋类型字段进行划分,我们发现,结果是300K和220K

右边Type效果,所以我们使用Miles进行分堆,就是用之前的二分法。进行分堆。

我们发现,其实它很像是吧数据根据字段进行一个聚类,然后预测。所以效果很好,就算到现在也非常好用。

CART回归树的字段选择方式:

之前我们叶节点用的都是平价值,那我们就想,能不能不用平均值来预测,而采用线性回归来预测呢?发现效果很好。

我们这里用的是简单线性回归,它不采用很多的字段,就采用一个字段,进行预测。

比如左下角的那个数据,我们原本使用的是300这个平均值作为预测结果。但是现在我们选用简单线性回归,我们那第一个字段来试一试,0.1*2200+90=310,发现结果和第一个字段是一致的,相对来说比较准确。

 

小插曲:M5如何利用模型树来提升CART回归树的效能

M5的改进就是在这一步,选择不使用一元的简单线性回归,而是采用多元的线性回归来改进叶节点的精确性。

 

他把这个命名为模型树,因为你会发现如果树不成长的话,最差也是一个多元线性回归的模型进行预测。如果树展开,有4个叶节点,那么就说明有4个多元线性回归预测模型。那肯定要比一个多元线性回归预测要准确。

为什么效果一定会好呢?

举个例子,如果现在出现了一个非线性的模型它是呈现抛物线的情况,那么只有一条多元线性回归线的话,点到线的距离,就是误差值。

 

但是如果我们做2条多元线性回归,左边用一条线性回归模型来预测,右边用另一台多元线性回归模型来预测,那么就可以用多条线性回归模型来预测非线性的问题了。

 

模型树可以做非线性的回归,所以它一定会比多元线性回归的效果好。最差就是退回多元回归线性模型。

继续CART字段选择方式

 

如果我们用178.5继续预测,我们说预测结果误差太大,那怎么表现这个误差大呢?我们就采用方差的形式来表现这个误差。于是我们和之前CART的分类树一样,我们一个一个试,找出字段中效果最好的二元分支。

我们发现用location把数值将分差降低到2408,原本是7810.25.

然后我们计算其他的字段

 

明显location效果主要些。

然后是连续型字段,mails

 

每个切点我们都试一试。方差最小的情况是以17为分割点3300。

然后我们选择最好的字段,也就是location。

M5改善的效果就是叶节点利用多元线性回归方程(模型树来预测模型。)来作为预测结果。

机器学习笔记之三cart分类与回归树

本文结构:CART算法有两步回归树的生成分类树的生成剪枝CART-ClassificationandRegressionTrees分类与回归树,是二叉树,可以用于分类,也可以用于回归问题,最先由Breiman等提出。分类树的输出是样本的类别,回归树的输出是一个实... 查看详情

机器学习回归决策树(代码片段)

回归决策树1.原理概述2.算法描述3.简单实例3.1实例计算过程3.2回归决策树和线性回归对比4.小结1.原理概述上篇文章已经讲到,关于数据类型,我们主要可以把其分为两类,连续型数据和离散型数据。在面对不同数据... 查看详情

郑捷《机器学习算法原理与编程实践》学习笔记(第三章决策树的发展)_scikit-learn与回归树

  (上接第三章)   3.4Scikit-Learn与回归树  3.4.1回归算法原理  在预测中,CART使用最小剩余方差(squaredResidualsMinimization)来判断回归时的最优划分,这个准则期望划分之后的子树与样本点的误差方差最小。这样决策... 查看详情

spark机器学习:决策树算法

1.决策树基本知识决策树就是通过一系列规则对数据进行分类的一种算法,可以分为分类树和回归树两类,分类树处理离散变量的,回归树是处理连续变量。样本一般都有很多个特征,有的特征对分类起很大的作用,有的特征对... 查看详情

机器学习决策树理论第二卷

决策树内容来至于《统计学习与方法》李航,《机器学习》周志华,以及《机器学习实战》PeterHarringTon,相互学习,不足之处请大家多多指教!本卷的大纲为1CART算法1.1CART回归树1.2CART分类树2CART剪枝3总结1CART算法CART分类与回归树(classi... 查看详情

ai机器学习-决策树算法-概念和学习过程

1.概念决策树是通过一系列规则对数据进行分类的过程,它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。分类决策树模型是... 查看详情

决策树法(一)

...策树(decisiontree)是一种基本的分类与回归方法。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。些决策树学习的思想主要来源于由Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法,以及由Breiman等人在... 查看详情

决策树系列决策树基础

  机器学习按数据的使用方式来说可以分为有监督学习、无监督学习、半监督学习、强化学习等,机器学习中的算法还有另外一种划分方式:分类、聚类、回归。但我更喜欢分为两种:广义的分类(分类+聚类)和回归,这里... 查看详情

机器学习系列(三十六)——回归决策树与决策树总结

参考技术A回归决策树树是用于回归的决策树模型,回归决策树主要指CART算法,同样也为二叉树结构。以两个特征预测输出的回归问题为例,回归树的原理是将特征平面划分成若干单元,每一个划分单元都对应一个特定的输出。... 查看详情

构建决策树回归模型并预测样本的输出 - 机器学习

】构建决策树回归模型并预测样本的输出-机器学习【英文标题】:BuildDecisionTreeRegressionModelandpredictingoutputfromsample-Machinelearning【发布时间】:2020-05-2714:06:35【问题描述】:我是机器学习的新手。当我使用来自scikit-learn模块的波士... 查看详情

机器学习——树回归

  线性回归创建模型需要拟合所有的样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂的时候,构建全局模型的想法就显得太难了,也略显笨拙。而且,实际生活中很多问题都是非线性的,不... 查看详情

浅谈对机器学习算法的一些认识(决策树,svm,knn最近邻,随机森林,朴素贝叶斯逻辑回归)

一、决策树   定下一个最初的质点,从该点出发、分叉。(由于最初质点有可能落在边界值上,此时有可能会出现过拟合的问题。二、SVM   svm是除深度学习在深度学习出现之前最好的分类算法了。它的特征如下: ... 查看详情

分析决策树算法和逻辑回归算法的准确率问题

...树算法的召回率是远远大于逻辑回归的。如果想了解更多机器学习再业务中的应用,请关注我 查看详情

6分钟了解所有机器学习模型

所有机器学习模型都可以分为有监督的或无监督的。如果模型是监督模型,则将其再分类为回归模型或分类模型。我们将介绍这些术语的含义以及下面每个类别中对应的模型。监督学习模型监督学习涉及基于示例输入-输出对学... 查看详情

数模预测模型那些

...回归有以下几点优势:初步了解分类和多分类问题,这是机器学习任务的重要部分理解函数转换,如Sigmoid函数的转换了解梯度下降的其他函数的用法,以及如何对函数进行优化。03、决策树首先要研究的非线性算法应该是决策树... 查看详情

通俗理解决策树

...考文献​​前言从这一期开始,我们准备介绍一系列经典机器学习算法模型,主要包括​​逻辑回归​​,​​支持向量机​​,决策树,因子分析,主成分分析,K-Means聚类,多元线性回归,时间序 查看详情

决策树算法

 决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。本文就对决策树算法原理做一个总结,上篇对ID3,C4.5的算法思想做了总结,下... 查看详情

机器学习入门之决策树法

决策树法1、决策树模型与学习1.1、决策树模型分类决策树模型是一种描述对实例进行分类的树形结构,决策树由结点和有向边组成。结点分为两种,内部结点和叶子结点;内部结点表示一个特征或者属性;叶子结... 查看详情