正文

回归分析

immaculate  immaculate  2022-08-23  523

关键词：

回归分析即，量化因变量受自变量影响的大小，建立线性回归方程或者非线性回归方程，从而达对因变量的预测，或者对因变量的解释作用。

回归分析流程如下：

①探索性分析，画不同变量之间的散点图，进行相关性检验等，了解数据的大致情况，以及得知重点关注那几个变量；

②变量和模型选择，；

③回归分析假设条件验证；

④共线性和强影响点检查；

⑤模型修改，并且重复③④；

⑥模型验证。

基本原理

相关系数只能说明变量之间的相关性，并不能对相关性进行量化，回归分析就能够做到这一点。

一元线性回归方程为：Y=β0+β1X1+β2X2+...+βiXi+ε

而进行线性回归分析则要分析线性关系的显著性和回归系数的显著性，以及残差ε的检验。

线性关系的显著性，先假设原假设H0为各个变量间无线性关系即β0=β1=...=βi=0。这里的统计两为F统计量，只要F>F_1-α，则拒绝原假设。

回归系数的显著性，在确定了线性关系的显著性之后，还需要对各个变量的归回系数的显著性进行检验，即剔除一些可有可无的变量以及回归系数，最后达到简化线性方程的效果，这里一般用T统计量进行检测，原假设为回归系数不显著，即βi=0.

残差检验，很容易想到残差是具有随机性的，能服从正太分布的特点。否则则认为还有总体的差异的信息没有提取完，需要考虑从别的方面提取。如残差散点图如二次函数分布，则应增加变量的二次项式。或者残差非独立，有自相关关系，以后的几篇博客会进一步解释。或者残差的方差为非齐性，随着自变量增大而方差增大，即应为因变量做一个转换。

探索性分析之相关性检验

H0原假设为：相关系数ρ=0。

PROC CORR DATA=EX.RETAIL RANK NOSIMPLE PLOTS(ONLY)=SCATTER(ELLIPSE=NONE NVAR=ALL);
    VAR MEMBER SQUARE INVENTORY LOYALTY POPULATION TENURE;
    WITH REVENUE;
RUN;

以上用到了选项，RANK表示输出报表中皮尔逊相关系数由大到小排列。NOSIMPLE表明不输出基本统计报表。PLOTS(ONLY)指明只输出PLOTS指定的图形（不输出PROC CORR默认的其他图形）。SCATTER指明做亮亮变量的散点图。NVAR=N表明分析VAR中的N个变量，NVAR=ALL最多分析10个变量。若无WITH语句则说明VAR中变量两两进行分析，若有WITH语句说明用WITH中的每一个变量分别跟VAR中的每一个变量两两分析。

结果如下：

WITH变量（REVENUE）分别和每一个VAR变量的相关系数以及P值。其中有SQUARE和POPULATION和因变量具有比较强的相关性。

一下值只列出相关的几个变量的散点图：

变量和模型的选择

全部选择法：假设我们没有对变量的任何先验概率，可以在过程步中设置自动拟合所有可能的变量组合模型。

PROC REG DATA=EX.RETAIL PLOTS(ONLY)=(RSQUARE ADJRSQ CP);
    ALL_REG: MODEL REVENUE=MEMBER SQUARE INVENTORY LOYALTY POPULATION TENURE
        /SELECTION=RSQUARE ADJRSQ CP;
RUN;
QUIT;

PLOTS(ONLY)=(RSQUARE ADJRSQ CP)只显示有关R方和调整R方和CP的图，选项SELECTION=RSQUARE ADJRSQ CP即输出报表中按照第一个统计量的取值排序。
结果如下：

以上是输出所有变量组合的模型的拟合的统计值。
前面的博客中有提到过调整R方和R方的区别是：调整R方避免了R方统计是变量越多R方值越大的情况，避免给使用者造成变量越多越好的误导。





星星符号代表固定参数计算出的最佳模型。调整后R方显示最好的模型包含2~3个参数。CP散点图中有两条参考线MALLOWS为Y=P的函数线（P为参数个数），HOCKING为：Y=2P-P_FULL+1。
当CP<=P时，代表该模型适合用于预测。当CP<=2P-P_FULL+1代表该模型适合用于参数估计以及对因变量的解释。
上图由于CP的散点图中的散点过多，可以运用PLOTS(ONLY)=(CP)以及在model选项中加上BEST=20来只显示CP图以及值显示前20个点，来更加清晰的观察CP图。
有上图得出结论：用来预测变量是SQUARE,以解释为目的的回归模型的变量为：SQUARE和INVENTORY。
选好变量之后就可以进行拟合模型和参数估计了,提交一下代码：

PROC REG DATA=EX.RETAIL;
    PREDICT:MODEL REVENUE=SQUARE;
    EXPLAIN:MODEL REVENUE=SQUARE INVENTORY;
RUN;
QUIT;

代码中的PREDICT:为报表中表明两个模型的标签，结果如下：

表一种的为：线性模型的显著性检验，表中F=112.78,P<0.001代表预测模型的revenue和square具有显著的线性关系。

表二中的R方=0.5351代表回归模型能够解释应变量的54%。

表三中对参数进行了估计β0=31.47 β1=1.48,所以回归模型的方程为：Y=31.47+1.48*SQUARE.

拟合诊断对残差进行了验证，包括指明了强影响点和残差分布。如上图中有几个强影点第二三个图中的两根范围线意为的几个点。还有残差分布检验何以容易的得知服从只能怪态分布。

SQUARE的残差图几乎均匀的分布的平面内，进一步说明正态性。

表明拟合的模型的精度，虚线以内是95%的预测限：给定一个SQUARE,REVENUE的值有95%的概率落在预测限内。

深色区域为95%置信限:即给定一个SQUARE,REVENUE的均值，有95%的概率落在置信限内。

解释模型和预测模型的输出结果类是，这里不赘述。

以上为全部选择法，同样的变量选择法还有向前选择法，向后选择法，逐步选择法，在前面的博客中对原理有过介绍，这里不说了。接下来看代码：

PROC REG DATA=EX.RETAIL PLOTS(ONLY)=ADJRSQ;
    FORWARD:MODEL REVENUE=MEMBER SQUARE INVENTORY LOYALTY POPULATION TENURE/SELECTION=FORWARD;
    BCKWARD:MODEL REVENUE=MEMBER SQUARE INVENTORY LOYALTY POPULATION TENURE/SELECTION=BCKWARD;
    STEPWISE:MODEL REVENUE=MEMBER SQUARE INVENTORY LOYALTY POPULATION TENURE/SELECTION=STEPWISE;
RUN;
QUIT;

分别提交的三种选择方法生成的模型，这里只挑逐步选择法模型进行解释，如下图：

先把SQUARE变量选进去之后，同样验证线性关系和估计参数

表明出square变量外，无法在选别的变量进入模型了，最后是逐步选择法的汇总情况。

最后是调整R方图。表明第一步时模型最好。

三种变量选择方法最后得出的结论可能会不同，这时就需要使用者进行权衡。（用用R方的来权衡表象总体的贡献率）

自变量间的共线性诊断

需要知道的是：自变量间的共线性问题容易导致模型不稳定。VIF是model的选项（也称作方差膨胀系数），可以进行共线性诊断。

VIF_I=1/(1-R_I²)

如提交如下代码：

PROC REG DATA=EX.RETAIL PLOTS(ONLY)=ADJRSQ;
    FULLMODEL:MODEL REVENUE=MEMBER SQUARE INVENTORY LOYALTY POPULATION TENURE/VIF;
RUN;
QUIT;

输出如下结果：

输出了线性模型检测以及方差膨胀系数，这里VIF值>10则代表存在共线性。可以一次剔除后再进行共线性验证。如先把MEMBER剔除后再进行共线性检验，直到无共线性变量为止。同时最后的模型中最好也别出现共线性变量。当然这里VIF选项可以和select选项一起使用，得到模型的变量的同时也进行共线性检验。

模型验证

得到归回方程后可以对因变量进行验证以及预测，这里可以手动编写回归方程也可以像之前的博客判别分析中的一样用PROC sore进行打分预测。提交一下代码：

DATA NEED;
    INPUT SQUARE @@;
    DATALINES;
    30 40 50 60 70 80 90
    ;
RUN;
PROC REG DATA=EX.RETAIL NOPRINT OUTEST=BETAS;
    PREREV:MODEL REVENUE=SQUARE;
RUN;
QUIT;
PROC PRINT DATA=BETAS;
RUN;
PROC SCORE DATA=NEED SCORE=BETAS OUT=SCORED TYPE=PARMS;
    VAR SQUARE;
RUN;
PROC PRINT;
RUN;

PROC REG输出的数据集为估计参数模型如图：

后面只要提供该数据集，集合对因变量进行预测，换句话说我们自己人工造一个这样的数据集也可以进行预测。

PROC SCORE的输出为：

这里是对因变量进行了预测，同样可以输入几个已知的观测中的SQUARE值对REVENUE进行验证。

数据挖掘-回归分析

回归分析回归分析是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预测器，自变量数量可以是单个也可以是多个）之间的关系。这种技术通常用于预测分析，时间序列模型以及发现变量之间的因果关系。例如，... 查看详情

在哪些情形下要用logistic回归分析？

在哪些情形下要用Logistic回归分析？Logistic回归主要分为三类，一种是因变量为二分类得logistic回归，这种回归叫做二项logistic回归，一种是因变量为无序多分类得logistic回归，比如倾向于选择哪种产品，这种回归叫做多项logistic回... 查看详情

岭回归需要变量正太分布吗

回归分析的认识及简单运用回归分析（regressionanalysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛，回归分析按照涉及的自变量的多少，分为回归和多重回归分析；按照自变量的多少，... 查看详情

什么是回归分析（regressionanalysis）？有哪些类型的回归分析（regressionanalysis）?

什么是回归分析（regressionanalysis）？有哪些类型的回归分析（regressionanalysis）?#线性回归（LinearRegression）线性回归被用作预测模型，它假设因变量（也就是我们试图预测/估计的变量）和自变量/（预测中使用的输入变量）之间存... 查看详情

r语言回归分析（regression）常见算法：简单线性回归多项式回归多元线性回归多水平回归多输出回归逻辑回归泊松回归cox比例风险回归时间序列分析非线性回归非参数回归稳健回归等

R语言回归分析（regression）常见算法：简单线性回归、多项式回归、多元线性回归、多水平回归、多输出回归、逻辑回归、泊松回归、cox比例风险回归、时间序列分析、非线性回归、非参数回归、稳健回归等目录开发者涨薪指南4... 查看详情

多因素方差分析与回归分析有啥异同啊？

...因素对因变量的影响显著性的时候，该选用方差分析还是回归分析啊？可以通用吗？1、分析对象不同回归分析（regressionanalysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。多因素方差分析，当有两个... 查看详情

回归分析

回归分析即，量化因变量受自变量影响的大小，建立线性回归方程或者非线性回归方程，从而达对因变量的预测，或者对因变量的解释作用。回归分析流程如下：①探索性分析，画不同变量之间的散点图，进行相关性检验等，了... 查看详情

备战数学建模30-回归分析2(代码片段)

目录一、回归分析的使命二、回归分析的分类三、数据的分类及处理方法四、回归系数的解释五、特殊变量的处理六、回归分析案例一、回归分析的使命回归分析的三个使命如下：第一、识别重要变量，可以用逐步回归&#... 查看详情

优化建模-第二节：回归分析

文章目录一：概述（1）回归分析概述（2）回归分析描述（3）常见回归分析类型（4）过拟合和欠拟合二：线性回归模型（1）线性回归模型（2）正则化线性回归模型①：Tik... 查看详情

数学建模：1.监督学习--回归分析模型(代码片段)

1.回归分析在统计学中，回归分析（regressionanalysis）指的是确定两种或两种以上变量间互相依赖的定量关系的一种统计分析方法。按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。 2... 查看详情

为啥在研究经济变量之间的非确定性关系时，回归分析是唯一可用的分析方法

在大数据分析中，回归分析是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预测器）之间的关系。这种技术通常用于预测分析，时间序列模型以及发现变量之间的因果关系。例如，司机的鲁莽驾驶与道路交通事... 查看详情

r语言使用回归方法解决方差分析问题

R语言使用回归方法解决方差分析问题线性回归与t检验等价；线性回归与方差分析等价；线性回归与协方差分析等价；ANOVA和回归都是广义线性模型的特例。案例1回归分析做ANOVAlibrary(multcomp)levels(cholesterol$trt)fit.aov<-aov(response~trt... 查看详情

如何用spss做多因素回归分析

参考技术ASPSS统计软件可以用来做许多数据分析，回归分析就是其中之一。回归分析就是探索两种及其以上变量之间的关系，运用十分广泛，按照自变量和因变量之间的函数关系类型可以分为线性回归分析和非线性回归分析。回... 查看详情

回归与时间序列分析(代码片段)

这篇博客是记录在数据挖掘中的回归与时间序列分析的学习过程基础概念回归分析应用回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系，侧重考察变量之间的数量变化规律，并通过回归方... 查看详情

回归与时间序列分析(代码片段)

数据挖掘回归分析

回归分析回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系，侧重考察变量之间的数量变化规律，并通过回归方程的形式描述和反映这种关系，以帮助人们准确把握变量受其他一个或多个... 查看详情

方差分析和回归分析的异同是啥

一、方差分析和回归分析的相异处1、研究变量的分析点不同回归分析法既研究变量Y又研究变量X并在此基础上集中研究变量Y与X的函数关系,得到的是在不独立的情况下自变量与因变量之间的更加精确的回归函数式,也即判断相关... 查看详情

回归分析p值是啥意思？

P值是拒绝原假设的值。回归系数P的检验是t检验，当P<α值，即回归系数显著，拒绝原假设。回归模型检验是检验模型是否合适，通过F检验，当F检验P<α，则模型显著，即反映的总体回归。通过这两种检验，而且符合经济自... 查看详情