干货机器学习中的五种回归模型及其优缺点

dicksonjyl dicksonjyl     2022-12-26     418

关键词:

http://blog.itpub.net/31542119/viewspace-2199810/

 

线性和逻辑斯蒂(Logistic)回归通常是是机器学习学习者的入门算法,因为它们易于使用和可解释性。然而,尽管他们简单但也有一些缺点,在很多情况下它们并不是最佳选择。实际上存在很多种回归模型,每种都有自己的优缺点。

在这篇文章中,我们将介绍5种最常见的回归算法及特点。我们很快就会发现,很多算法只在特定的情况和数据下表现良好。

线性回归(Linear Regression)

回归是用于建模和分析变量之间关系的一种技术,分析变量是如何影响结果的。线性回归是指完全由线性变量组成的回归模型。从简单情况开始,单变量线性回归(Single Variable Linear Regression)是一种用于使用线性模型来建模单个输入自变量(特征变量)和输出因变量之间关系的技术。

更一般的情况是多变量线性回归(Multi Variable Linear Regression),它体现了为多个独立输入变量(特征变量)与输出因变量之间的关系。该模型保持线性,因为输出是输入变量的线性组合。我们可以对多变量线性回归建模如下:

技术分享图片

其中是系数,是变量,是偏置。正如我们所看到的,这个函数只有线性关系,所以它只适用于建模线性可分数据。这很容易理解,因为我们只是使用系数权重来加权每个特征变量的重要性。我们使用随机梯度下降(SGD)来确定这些权重技术分享图片和偏置b。具体过程如下图所示:

技术分享图片

线性回归的几个关键点:

? 建模快速简单,特别适用于要建模的关系不是非常复杂且数据量不大的情况。

? 有直观的理解和解释。

? 线性回归对异常值非常敏感。

多项式回归(Polynomial Regression)

当我们要创建适合处理非线性可分数据的模型时,我们需要使用多项式回归。在这种回归技术中,最佳拟合线不是一条直线,而是一条符合数据点的曲线。对于一个多项式回归,一些自变量的指数是大于1的。例如,我们可以有这下式:

技术分享图片

一些变量有指数,其他变量没有。然而,选择每个变量的确切指数自然需要当前数据集合与最终输出的一些先验知识。请参阅下面的图,了解线性与多项式回归的比较。

技术分享图片

技术分享图片

多项式回归的几个要点:

? 能够模拟非线性可分的数据;线性回归不能做到这一点。它总体上更灵活,可以模拟一些相当复杂的关系。

? 完全控制要素变量的建模(要设置变量的指数)。

? 需要仔细的设计。需要一些数据的先验知识才能选择最佳指数。

? 如果指数选择不当,容易过拟合。

岭回归(Ridge Regression)

标准线性或多项式回归在特征变量之间存在很高的共线性(high collinearity)的情况下将失败。共线性是自变量之间存在近似线性关系,会对回归分析带来很大的影响。

我们进行回归分析需要了解每个自变量对因变量的单纯效应,高共线性就是说自变量间存在某种函数关系,如果你的两个自变量间(X1和X2)存在函数关系,那么X1改变一个单位时,X2也会相应地改变,此时你无法做到固定其他条件,单独考查X1对因变量Y的作用,你所观察到的X1的效应总是混杂了X2的作用,这就造成了分析误差,使得对自变量效应的分析不准确,所以做回归分析时需要排除高共线性的影响。

高共线性的存在可以通过几种不同的方式来确定:

? 尽管从理论上讲,该变量应该与Y高度相关,但回归系数并不显著。

? 添加或删除X特征变量时,回归系数会发生显着变化。

? X特征变量具有较高的成对相关性(pairwise correlations)(检查相关矩阵)。

我们可以首先看一下标准线性回归的优化函数,然后看看岭回归如何解决上述问题的思路:

技术分享图片

其中X表示特征变量,w表示权重,y表示真实情况。岭回归是缓解模型中回归预测变量之间共线性的一种补救措施。由于共线性,多元回归模型中的一个特征变量可以由其他变量进行线性预测。

为了缓解这个问题,岭回归为变量增加了一个小的平方偏差因子(其实也就是正则项):

技术分享图片 

这种平方偏差因子向模型中引入少量偏差,但大大减少了方差。

岭回归的几个要点:

? 这种回归的假设与最小平方回归相同,不同点在于最小平方回归的时候,我们假设数据的误差服从高斯分布使用的是极大似然估计(MLE),在岭回归的时候,由于添加了偏差因子,即w的先验信息,使用的是极大后验估计(MAP)来得到最终参数的。

? 它缩小了系数的值,但没有达到零,这表明没有特征选择功能。

Lasso回归

Lasso回归与岭回归非常相似,因为两种技术都有相同的前提:它们都是在回归优化函数中增加一个偏置项,以减少共线性的影响,从而减少模型方差。然而,不像岭回归那样使用平方偏差,Lasso回归使用绝对值偏差作为正则化项:

技术分享图片

岭回归和Lasso回归之间存在一些差异,基本上可以归结为L2和L1正则化的性质差异:

? 内置的特征选择(Built-in feature selection):这是L1范数的一个非常有用的属性,而L2范数不具有这种特性。这实际上因为是L1范数倾向于产生稀疏系数。例如,假设模型有100个系数,但其中只有10个系数是非零系数,这实际上是说“其他90个变量对预测目标值没有用处”。 而L2范数产生非稀疏系数,所以没有这个属性。因此,可以说Lasso回归做了一种“参数选择”形式,未被选中的特征变量对整体的权重为0。

? 稀疏性:指矩阵(或向量)中只有极少数条目非零。 L1范数具有产生具有零值或具有很少大系数的非常小值的许多系数的属性。

? 计算效率:L1范数没有解析解,但L2范数有。这使得L2范数的解可以通过计算得到。然而,L1范数的解具有稀疏性,这使得它可以与稀疏算法一起使用,这使得在计算上更有效率。

弹性网络回归(ElasticNet Regression)

ElasticNet是Lasso回归和岭回归技术的混合体。它使用了L1和L2正则化,也达到了两种技术的效果:

  技术分享图片

在Lasso和岭回归之间进行权衡的一个实际优势是,它允许Elastic-Net在循环的情况下继承岭回归的一些稳定性。

ElasticNet回归的几个关键点:

? 它鼓励在高度相关变量的情况下的群体效应,而不是像Lasso那样将其中一些置零。当多个特征和另一个特征相关的时候弹性网络非常有用。Lasso 倾向于随机选择其中一个,而弹性网络更倾向于选择两个。

? 对所选变量的数量没有限制。

结论

所有这些回归正则化方法(Lasso回归,岭回归和ElasticNet)在数据集中的变量之间具有高维度和多重共线性的情况下也能有良好的效果。 

【本文转载自:机器学习算法与Python学习,作者:编译 | 专知,原味链接:https://mp.weixin.qq.com/s/mr83EK24S94b_UUlecyqlA】

机器学习算法的五种基本算子是

...对误差的衡量来探索变量之间的关系的一类算法,是统计机器学习的利器。2.基于实例的算法。基于实例的算法常常用来对决策问题建立模型,这样的模型常常先选取一批样本数据,然后根据某些近似性把新数据与样本数据进行... 查看详情

五种回归方法的比较

  引言 线性和逻辑回归通常是人们为机器学习和数据科学学习的第一个建模算法。两者都很棒,因为它们易于使用和解释。然而,它们固有的简单性也有一些缺点,在许多情况下它们并不是回归模型的最佳选择。实际上有... 查看详情

探索五大机器学习技术及其应用(代码片段)

...、线性回归1.1基本原理1.2示例代码1.3应该什么时候使用1.4优缺点二、逻辑回归2.1基本原理2.2示例代码2.3应该什么时候使用2.4优缺点三、随机森林3.1基本原理3.2示例代码3.3应该什么时候使用3.4优缺点四、XGBoost4.1基本原理4.2示例代... 查看详情

机器学习常见算法优缺点之逻辑回归

...算法,在这篇文章中我们给大家介绍一下关于逻辑回归的优缺点,大家有兴趣的一定要好好阅读哟。首先我们给大家介绍一下逻辑回归的相关知识,逻辑回归的英文就是LogisticRegression。一般来说,逻辑回归属于判别式模型,同时... 查看详情

机器学习面试总结————

...辑回归算法为何使用交叉熵损失函数16、逻辑回归算法的优缺点是什么17、什么是决策树模型?有哪些算法18、什么是信息增益与基尼系数19、什么是随机森林模型20、决策树怎么解决过拟合问题21、在构建决策树时,怎么处理连... 查看详情

线性回归模型原理及其应用(代码片段)

...指正,谢谢!目录1.一元线性回归2.多元线性回归3.两大算法优缺点4.算法优化问题5.多元线性回归应用正文线性回归,是回归分析中的一种,其表示自变量与因变量之间存在线性关系.回归分析是从数据出发,考察变量之间的数量关系,并... 查看详情

如何搞懂机器学习中的线性回归模型?机器学习系列之线性回归基础篇

...原理都是由多元统计分析发展而来,但在数据挖掘和机器学习领域中,也是不可多得的行之有效的算法模型。一方面,线性回归蕴藏的机器学习思想非常值得借鉴和学习,并且随着时间发展,在线性回归的基... 查看详情

机器学习:logistic回归原理及其实现

Logistic回归是机器学习中非常经典的一个方法,主要用于解决二分类问题,它是多分类问题softmax的基础,而softmax在深度学习中的网络后端做为常用的分类器,接下来我们将从原理和实现来阐述该算法的思想。1.原理a.问题描述考... 查看详情

机器学习算法的优点和缺点总结

机器学习算法的优点和缺点总结  1.正则化算法(RegularizationAlgorithms) 它是另一种方法(通常是回归方法)的拓展,这种方法会基于模型复杂性对其进行惩罚,它喜欢相对简单能够更好的泛化的模型。例子:岭回归(R... 查看详情

rr中的自定义评估回归模型脚本用于azure机器学习(代码片段)

查看详情

逻辑回归机器学习模型可以在这里工作吗?

】逻辑回归机器学习模型可以在这里工作吗?【英文标题】:WouldaLogisticRegressionMachineLearningModelWorkHere?【发布时间】:2019-05-2013:59:16【问题描述】:我在10年级,我希望对患者数据使用机器学习模型,以找出一周中的时间与患者... 查看详情

机器学习中几个常见模型的优缺点

机器学习中几个常见模型的优缺点朴素贝叶斯:优点:对小规模的数据表现很好,适合多分类任务,适合增量式训练。缺点:对输入数据的表达形式参考技术A机器学习中几个常见模型的优缺点朴素贝叶斯:优点:对小规模的数... 查看详情

数模预测模型那些

...单且可解释的算法,它将让你很好地掌握非线性算法及其优缺点。决策树是所有基于树模型的基础,通过学习决策树,你还将准备学习其他技术,如XGBoost或LightGBM。而且,决策树同时适用于回归和分类问题,两者之间的差异最小... 查看详情

五种高阶io模型以及多路转接技术(selectpoll和epoll)及其代码验证(代码片段)

...lect、poll、epoll)2.1select函数2.1.1select函数详解2.1.2select函数优缺点2.2poll函数2.2.1poll函数详解2.2.2poll函数优缺点2.3epoll函数2.3.1epoll相关函数详解2.3.2epoll工作原理2.3 查看详情

五种高阶io模型以及多路转接技术(selectpoll和epoll)及其代码验证(代码片段)

...lect、poll、epoll)2.1select函数2.1.1select函数详解2.1.2select函数优缺点2.2poll函数2.2.1poll函数详解2.2.2poll函数优缺点2.3epoll函数2.3.1epoll相关函数详解2.3.2epoll工作原理2.3 查看详情

机器学习分类总览

...、决策树、朴素Bayes、SVM、线性回归、随机森林;CNN优缺点:准确性可控、高 查看详情

机器学习——多变量线性回归

【一、多变量线性回归模型】多变量线性回归是指输入为多维特征的情况。比如:在上图中可看出房子的价格price由四个变量(size、numberofbedrooms、numberoffloors、ageofhome)决定。为了能够预測给定条件(四个变量)下的房子的价格(y... 查看详情

机器学习实战基础:创建多项式回归器(代码片段)

简介线性回归模型有一个主要的局限性,那就是它只能把输入数据拟合成直线,而多项式回归模型通过拟合多项式方程来克服这类问题,从而提高模型的准确性。准备工作  从图1-6中可以看到,数据点本身的模式中带有自... 查看详情