在构建决策树模型时处理分类特征

     2023-03-12     93

关键词:

【中文标题】在构建决策树模型时处理分类特征【英文标题】:Process categorical features when building decision tree models 【发布时间】:2017-11-09 13:46:48 【问题描述】:

我使用 H2O 来构建 GBM、DRF 和 DL 等分类模型。 我拥有的数据集包含一些分类列,如果我想将它们用作构建模型的特征,是否需要手动将它们转换为虚拟变量?我读到 GBM 可以在内部对分类变量进行虚拟化?

【问题讨论】:

【参考方案1】:

是的,H2O 是少数不需要用户对分类变量进行预处理或一次性编码(又名“虚拟编码”)的机器学习库之一。只要数据框中的列类型是“因子”(又名“枚举”),那么 H2O 就会自动知道要做什么。

特别是,H2O 允许在随机森林或 GBM 等基于树的方法中直接使用分类变量。基于树的算法能够本地使用分类数据,通常这会导致比单热编码更好的性能。在 GLM 或深度学习中,H2O 将在后台自动对分类进行一次热编码——无论哪种方式,您都不需要进行任何预处理。如果您想要更多控制,可以使用categorical_encoding 参数控制自动编码的类型。

【讨论】:

【参考方案2】:

恕我直言,能够直接在树算法中处理分类变量是 H2O 的巨大优势。

如果你对一个分类变量进行 one-hot 编码,你实际上是取了一个变量并将它们分成几个值主要为 0 的变量(例如稀疏)。正如 Erin 所说,这会使 Trees 的表现更差。这是因为树在每次拆分时都使用“信息增益”。稀疏特征(来自 one-hot 编码)的信息增益较少,因此不如分类特征有用。

【讨论】:

统计学习方法 李航 决策树

...then规则的集合.具体做法就是,从根节点到叶节点的每条路构建一个规则,路径上内部节点的特征对应着规则条件,叶节点的类则对应着规则的结论.因此决策树及其对应的if-then规则还有一个重要性质,互斥并且完备.即一对一且不会有... 查看详情

决策树

第5章决策树决策树(decisiontree)是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义... 查看详情

如何获得具有预处理和分类步骤的决策树管道的特征重要性?

...我正在尝试在UCI成人数据集上拟合决策树模型。为此,我构建了以下管道:nominal_features=[\'workc 查看详情

决策树(decisiontree)

决策树是一种基本的分类和回归方法。本章主要讨论用于分类的决策树,决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上... 查看详情

如何在 spark ml 中处理决策树、随机森林的分类特征?

...2-1101:32:10【问题描述】:我正在尝试在UCI银行营销数据上构建决策树和随机森林分类器->https://archive.ics.uci.edu/ml/datasets/bank+market 查看详情

统计学习五:1.决策树基本概念(代码片段)

...学习时,主要利用训练数据,根据损失函数最小化原则去构建决策树;在 查看详情

统计学习方法李航学习笔记

一、决策树1、决策树是一种基本的分类与回归方法,本文主要讨轮用于分类的决策树,决策树模型呈现树形结构,在分类问题中,表示基于特征对实例进行分类的过程,学习时,利用训练数据,根据损失函数最小化的原则建立... 查看详情

机器学习之决策树(代码片段)

目录1、决策树2、决策树的构建2.1特征选择2.2特征树的生成2.3特征树的剪枝1、决策树树:是由节点和边两种元素组成的结构。其中节点包括根结点、父节点、子节点和叶子节点。决策树:利用树结构进行决策,每一个非叶子节点... 查看详情

李航统计学习方法(第二版):决策树简介

...,规则的过程:由决策树的根结点到叶结点间每一条路径构建一条规则;路径上内部结点的特征对应着规则的条件,而叶节点的类对应着规则的结论;重要的性质:互斥并且完备(这就是说,每一个实例都被一条路径或一条规则... 查看详情

《统计学习方法》--决策树

...模型具有很好的可解释性,分类速度快,缺点是构建决策树时用的特征序列对分类效果有较大的影响。决策树学习过程通常包括三个步骤 查看详情

决策树(decisiontree)

决策树ID3,C4.5,CART,决策树的生成,剪枝。一、概述    决策树(decisiontree)是一种基本的分类与回归方法(这里是分类的决策树)。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程... 查看详情

决策树(代码片段)

 决策树概述决策树(DecisionTree)算法是一种基本的分类与回归方法,是最经常使用的数据挖掘算法之一。我们这章节只讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。... 查看详情

机器学习中---分类模型--决策树模型

 决策树模型 决策树(DecisionTree,DT)是一种常见的用于分类和回归的非参数监督学习方法,目标是创建一个模型,通过从数据特性中推导出简单的决策规则来预测目标变量的值。决策树模型的优点在于:1,简单容易理解,数... 查看详情

spark机器学习:决策树算法

...据,而性别、婚姻状况等等就是次要的判断依据。决策树构建的过程,就是根据特征的决定性程度,先使用决定性程度 查看详情

《统计学习方法(李航)》讲义第05章决策树

    决策树(decisiontree)是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是... 查看详情

决策树算法常见问题(面试相关)

整理一下决策树常见问题。0.相关术语决策树(DecisionTrees,DTs)ID3C4.5CART信息熵信息增益信息增益率基尼系数1.简单描述什么是决策树算法决策树算法是一种用于分类和回归的非参数化的监督学习方法。在分类问题中,... 查看详情

决策树法(一)

...过程是这样的:由决策树的根结点到叶结点的每一条路径构建一条规则;路径上内部结点的特征对应着规则的条件,而叶结点的类对应着规则的结论。  决策树的路径或其对应的if-then规则集合具有一个重要 查看详情

决策树模型本质连续值

摘自《统计学习方法》李航 第五章决策树学习通常包括3个步骤:特征选择、决策树的生成、决策树的剪枝 决策树学习本质上是从训练集中归纳出一组分类规则。决策树学习的损失函数通常是正则化的极大似然函数。决... 查看详情