线性回归算法

所有的遗憾都是成全 所有的遗憾都是成全     2022-10-09     692

关键词:

回归是指利用样本(已知数据),产生拟合方程,从而对(未知数据)进行预测。

 

用途:预测、判别合理性。

困难:①选定变量(多元);②避免多重共线性;③观察拟合方程,避免过度拟合;④检验模型的合理性。

因变量与自变量的关系:①相关关系(非确定性关系,比如物理与化学成绩相关性),使用相关系数衡量线性相关性的强弱;②函数关系(确定性关系)

相关系数求解:Pearson样本积矩相关系数

技术分享图片

 

注意,如果样本是两组配对的顺序数据时,则采用Spearman等级相关系数(秩相关或名次相关)

技术分享图片

公式中,技术分享图片分别表示技术分享图片的名次(从大到小或从小到大)。

 

线性回归中最小二乘法的应用

判断直线拟合程度,如果是通过点向直线引垂线,由解析几何点到直线的距离公式可知,涉及到开方,这样不好求极值,所以改为由点向直线引竖直线求长度技术分享图片,去绝对值,技术分享图片

这回归误差/残差平方和技术分享图片(二乘数)

 

为了使得二乘数RSS最小,则求RSS的极小值,该方法称为最小二乘法

技术分享图片

解二元一次方程组,得到a, b的估计值。

注意:回归问题擅长于内推插值,而不擅长于外推归纳,在使用回归模型做预测时要注意x适用的取值范围。


 

(1)多元线性回归模型

①   判定系数(模型对样本数据的解释程度)

技术分享图片

②回归系数检验统计量技术分享图片(变量的显著性)

 

③线性回归方程拟合程度检验统计量(模型的拟合程度)

技术分享图片

技术分享图片

④简单线性回归(一元),样本Pearson积矩相关系数
技术分享图片

 

 

(2)含虚拟变量的多元线性回归模型

技术分享图片

如果直接定义黄、白、黑分别为1,2,3,这样是错误的

技术分享图片

 

虚拟变量技术分享图片在这里起到调整截距作用

(3)逐步回归

向前引入法:从一元回归开始,逐步增加变量,使指标值达到最优为止;

向后剔除法:从全变量回归开始,逐步删去某个变量,使指标值。。。;

逐步筛选法:同时向前引入和向后删除

 

(4)回归诊断

①样本是否符合正态分布假设,如果不符合,则检验和区间预测没法做,这是因为很多检验和预测方法都是基于正态分布的假定之上;

②是否存在离群值导致模型产生较大误差,比如输入错误;

③线性模型是否合理;

④误差是否满足独立性、等方差性、正态分布等假设条件,即不会随y的改变而改变,误差项不受y的影响

⑤是否存在多重共线性,这会导致矩阵行列式值为0,则矩阵的逆会趋于无穷大,多元回归模型的系数也会失真变大。

技术分享图片

 

对应的解决方法:

①   拟合度检验,卡方统计量;

②   散点图观察等;

③   统计量是否合理;

④   残差图是否合理;

⑤   逐步回归,解决多重共线性的一种方法

 

(5)多重共线性

若存在多重共线性,则技术分享图片至少一个特征值近似接近于0。

技术分享图片经过中心化和标准化得到的向量,记技术分享图片技术分享图片

技术分享图片

 

因此,如果存在多重共线性,则技术分享图片是没办法求解的,或者求解结果不稳定。

出现模型不稳定情况(鲁棒性较低),当数据发生一小点变化时,结果就会发生很大变化,比如系数求出来很大,几千万、几百万;系数正负符号也会经常发生切变。

   (注意:矩阵技术分享图片出现奇异性原因有两个:①变量个数比样本多;②出现多重共线性。)

 

多重共线性度量指标

技术分享图片

 

如何找出哪些变量是多重共线性

技术分享图片

 











线性回归算法原理推导

查看详情

05线性回归算法

...定误差:  (5)误差计算方法与优化: 2.思考线性回归算法可以用来做什么?(大家尽量不要写重复)根据历史气象记录预测明天的温度、根据历史行情预测明天股票的走势、房价信息、根据历史记录预测某篇文章的... 查看详情

5.线性回归算法

...及说明该知识点的重要性(1)回归与分类的区别 (2)线性回归的应用 ①房价预测②贷款额度预测③销售额预测④面积与房价的关系(3)矩阵的乘积运算(4)线性回归关系模型  (5)损失函数  可以计算误差... 查看详情

机器学习算法:线性回归简介

学习目标了解线性回归的应用场景知道线性回归的定义1线性回归应用场景房价预测销售额度预测贷款额度预测举例: 2什么是线性回归2.1定义与公式线性回归(Linearregression)是利用回归方程(函数)对一个或多个自变量(特征值)... 查看详情

机器学习算法---线性回归

一、线性回归算法的简介   线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y=w‘x+e,e为误差服从均值为0的正态分布。  回归... 查看详情

机器学习--线性回归与梯度算法

线性回归(LinearRegression),亦称为直线回归,即用直线表示的回归,与曲线回归相对。若因变量Y对自变量X1、X2…、Xm的回归方程是线性方程,即μy=β0+β1X1+β2X2+…βmXm,其中β0是常数项,βi是自变量Xi的回归系数,M为任何自然数... 查看详情

回归-线性回归算法(房价预测项目)(代码片段)

...录简介损失函数优化算法正规方程梯度下降项目实战简介线性回归(LinearRegression)是回归任务中最常见的算法,利用回归方程对自变量和因变量进行建模,且因变量和自变量之间是线性关系而得名,从而可以... 查看详情

回归-线性回归算法(房价预测项目)(代码片段)

...录简介损失函数优化算法正规方程梯度下降项目实战简介线性回归(LinearRegression)是回归任务中最常见的算法,利用回归方程对自变量和因变量进行建模,且因变量和自变量之间是线性关系而得名,从而可以... 查看详情

线性回归算法

这里有两组数据:X1、X2。需要得到的结论是Y拟合上面的平面:误差分析:附:高斯分布(正态分布) 化简: 最后化简的结果就是我们希望得到的:  评估: 查看详情

掌握spark机器学习库-07-线性回归算法概述

1)简介自变量,因变量,线性关系,相关系数,一元线性关系,多元线性关系(平面,超平面)2)使用线性回归算法的前提3)应用例子沸点与气压浮力与表面积  查看详情

线性回归

回归拟合是最基础的数据分析方法,而线性回归又是最基础的回归拟合。对于分布非常集中的数据,可以直接采用最小二乘法进行回归拟合。甚至,我们可以直接把数据放到excel表格中,使用excel直接进行拟合。然而,当数据中... 查看详情

机器学习100天(十四):014梯度下降算法求解线性回归

机器学习100天,今天讲的是:使用梯度下降算法求解线性回归问题。一、梯度下降更新公式之前我们介绍了正规方程法直接求解线性回归问题,但是梯度下降算法在机器学习中更为常用,因为面对复杂问题时,梯度下降算法能够... 查看详情

机器学习100天(十四):014梯度下降算法求解线性回归

机器学习100天,今天讲的是:使用梯度下降算法求解线性回归问题。一、梯度下降更新公式之前我们介绍了正规方程法直接求解线性回归问题,但是梯度下降算法在机器学习中更为常用,因为面对复杂问题时,梯度下降算法能够... 查看详情

机器学习模型和算法(代码片段)

文章目录python简介python基本语法监督学习--回归模型线性回归模型一元线性回归线性回归最小二乘代码实现多元线性回归梯度下降法和最小二乘法相比线性回归梯度下降代码实现非线性回归python简介略python基本语法文件开头加上#... 查看详情

机器学习之线性回归算法

...运算:(3)、最小二乘法:     2.思考线性回归算法可以用来做什么?  线性回归的预测模型虽然是一元(线性)方程,但现实中很多应用场景符合这个模型,例如商品的价格与商品的销量之间的关系。一般... 查看详情

5.线性回归算法4/20(代码片段)

...们先了解回归算法:       · 课上老师举了线性回归的应用:①房价预测;②销售额预测;③贷款额度预测;   我们可以发现做线性回归,需要的数据都应该为连续型,最终要预测的因素成为目标值,把影响... 查看详情

通俗得说线性回归算法线性回归实战(代码片段)

前情提要:通俗得说线性回归算法(一)线性回归初步介绍一.sklearn线性回归详解1.1线性回归参数介绍完线性回归,那么我们来看看如何运用sklearn来调用线性回归模型,进行训练和预测。defLinearRegression(fit_intercept=True,normalize=False... 查看详情

r语言回归分析(regression)常见算法:简单线性回归多项式回归多元线性回归多水平回归多输出回归逻辑回归泊松回归cox比例风险回归时间序列分析非线性回归非参数回归稳健回归等

R语言回归分析(regression)常见算法:简单线性回归、多项式回归、多元线性回归、多水平回归、多输出回归、逻辑回归、泊松回归、cox比例风险回归、时间序列分析、非线性回归、非参数回归、稳健回归等目录开发者涨薪指南4... 查看详情