如何区分回归分析中的分类变量和有序变量?

     2023-03-12     83

关键词:

【中文标题】如何区分回归分析中的分类变量和有序变量?【英文标题】:How to differentiate categorical and ordinal variables in regression analysis? 【发布时间】:2016-03-12 04:19:51 【问题描述】:

我正在对与房屋有关的数据进行线性回归分析。目前我有 23 个功能。其中一些显然是序数(例如年份、房间数、层数)。有些特征是分类的,我对在编码为数字格式时如何处理它们感到困惑。我对使用什么编码方法犹豫不决:单热编码(用于分类)或只是序数映射(用于序数数据)。 我知道颜色、性别、地区、国籍等分类特征显然必须使用虚拟编码进行编码。同样清楚的是,像条件这样的分类特征,可能值为 'old'、'renovated'、'new' 可以排序和编码为 1, 2, 3分别。

但我不确定如何编码不太明显的特征。该特征的性质不会立即引起注意,并且在某种程度上可以同时归因于序数数据和分类数据。我们来看例子:

Strongly Agree 
Agree 
Undecided 
Disagree 
Strongly Disagree 

这是来自问题: https://stats.stackexchange.com/questions/58818/can-ordinal-variables-be-used-as-predictor-for-linear-multiple-regression-analys

作者决定按顺序对它们进行编码。有些人建议使用虚拟编码。不清楚。 另一个例子(材料):

Plastic
Wood    
Metal
Armored 

在我看来,这些数据可以按顺序排列和编码为 1、2、3、4。简单装甲比金属贵。金属比木头贵等。但是我在 youtube 上看到了一个讲座,据说不会因为您看到一些上升或下降模式而按顺序对特征进行编码。这些模式可能是错觉和错误的。

另一个例子(互联网连接类型):

DSL
ADSL
SDSL
Cable
Broadband

其中一些更快,一些比其他慢,但没有“明确的顺序”。如何处理这种“不清楚”的分类数据。

如何区分分类数据和有序数据?或者我只需要通常只对非常简单的序数变量(例如“条件”)进行编码,并将其余不清楚的变量保留为分类和虚拟编码。

【问题讨论】:

【参考方案1】:

我会说序数变量是您可以订购的东西,并且在您的值集之外回答仍然有意义。很好的例子是“同意”/“不同意”。你可以将它们映射到值 1-5,即使你得到 2.3,你也知道这意味着什么:它不仅仅是“同意”。但它对“塑料”/“木头”完全没有意义——这是绝对的。 关于互联网连接类型。这取决于。如果我们谈论的是速度并且您可以订购这些连接,那么将其视为序数可能是有意义的。但如果我们在谈论例如调制解调器类型的流行度不仅仅是一个分类变量

【讨论】:

回归分析中的分类和有序特征数据差异?

】回归分析中的分类和有序特征数据差异?【英文标题】:Categoricalandordinalfeaturedatadifferenceinregressionanalysis?【发布时间】:2016-03-0819:52:47【问题描述】:在进行回归分析时,我试图完全理解分类数据和有序数据之间的差异。现在... 查看详情

spss二元logistics回归结果分析

...问题吗?怎么小于0.05的这么少?要怎么分析啊!!Logistic回归:主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。变量为二分类的称为二项... 查看详情

如何解读logistic回归分析

参考技术Alogistic回归主要用于危险因素探索。因变量y为二分类或多分类变量,自变量既可以为分类变量,也可以为连续变量。  回归分析预测法,是在分析市场现象自变量和因变量之间相关关系的基础上,建立变量之间的回... 查看详情

如何在spss进行logistic单因素回归分析

1、打开spss统计软件,然后单击“Analyze - Regression - BinaryLogistic”。2、出现“逻辑回归”窗口。将“高血压”放入“依赖变量”框,并将其他变量(如“性别”和“体重指数”)放入“分隔符”框中。3、单击“分... 查看详情

如何使用spss对logistic回归中分类变量进行处理

1、数据录入SPSS。2、选择Analyze→Regression→Binary Logistic。3、主对话框设置:将因变量cancer送入Dependent框中,将纳入模型的自变量sex, age, BMI和COPD变量Covariates中。本研究中,纳入age变量仅仅是为了调整该变量带来的混... 查看详情

如何减少R中逻辑回归模型中的分类变量

】如何减少R中逻辑回归模型中的分类变量【英文标题】:HowtoreduceacategoricalvariableinalogisticregressionmodelinR【发布时间】:2020-07-1608:24:59【问题描述】:我为各种品牌和型号的汽车创建了一个关于mpg的逻辑回归公式。一个变量“原... 查看详情

怎么由logistics分析结果得到其影响因素的大小

参考技术ALogistic回归简介Logistic回归:主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。因变量为二分类的称为二项logistic回归,因变量为... 查看详情

spss数据分析—最优尺度回归

在之前介绍的线性回归模型中,有一个隐含的假设是自变量均为连续变量,但实际上自变量有时候是分类变量,类似于方差分析中的因素,这种分类自变量在回归分析中,也默认作为连续变量使用,这就会产生一个问题,如果是... 查看详情

多元非线性回归分析用spss如何操作

参考技术A菜单:analyze--regression--选好自变量、因变量、回归模式即可,因变量符合正态性分布,自变量可以是分类变量,无序分类变量需要进行哑变量转换。回归模式有前进、后退,逐步法可以选择 参考技术B分析下面的回归分... 查看详情

卡方检验和趋势卡方检验的区别?如何在spss中操作?

...检验和趋势卡方检验,不知道两者有什么区别,在SPSS中如何操作,本人对统计不是很熟悉,希望可以回答的详细点,谢谢!近日又有不少盟友咨询说看到文献中率的比较用了Cochran–Armitagetrendtests,纷纷问我这是什么高大上的统... 查看详情

回归分析中分类变量的符号

】回归分析中分类变量的符号【英文标题】:Notationofcategoricalvariablesinregressionanalysis【发布时间】:2019-02-2717:35:48【问题描述】:在使用carret的mdrr数据研究逻辑回归的过程中,问题出现了。我使用总共19个变量创建了一个完整模... 查看详情

统计学习方法五逻辑回归分类

逻辑回归分类1,概念  2,算法流程      3,多分类逻辑回归  4,逻辑回归总结 优点:1)预测结果是界于0和1之间的概率;2)可以适用于连续性和类别性自变量;3)容易使用和解释;缺点:1)对模型中自变量多... 查看详情

如何使用spss进行一元非线性回归分析

参考技术A1.打开数据,依次点击:analyse--regression,打开多元线性回归对话框。2.将因变量和自变量放入格子的列表里,上面的是因变量,下面的是自变量。3.设置回归方法,这里选择最简单的方法:enter,它指的是将所有的变量... 查看详情

在多元线性回归 Python 中处理分类变量和数值变量

】在多元线性回归Python中处理分类变量和数值变量【英文标题】:DealingwithbothcategoricalandnumericalvariablesinaMultipleLinearRegressionPython【发布时间】:2019-04-2500:54:30【问题描述】:所以我已经使用sklearn中的LinearRegression在Python中执行了... 查看详情

正确选择相关性分析的统计方法

...:https://www.medsci.cn/article/show_article.do?id=55c91839569a相关性分析主要用于:(1)判断两个或多个变量之间的统计学关联;(2)如果存在关联,进一步分析关联强度和方向。那么,什么样的研究可以进行相关性分析呢?我们在这里列... 查看详情

什么是logistic模型

...,如果是负二项分布,就是负二项回归,等等。只要注意区分它们的因变量就可以了。  logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类... 查看详情

决策树(回归树)分析及应用建模

...量。决策树分为分类决策树(目标变量为分类型数值)和回归决策树(目标变量为连续型变量)。分类决策树叶 查看详情

挖掘建模

...的因变量的值。常用的分类与预测算法算法名称算法简介回归分析回归分析是确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。包括线性回归,非线性回归,Logistic回归,岭回归,主成分回归,偏... 查看详情