单变量最小二乘回归中的多重 R 平方和调整 R 平方有啥区别?

     2023-03-12     95

关键词:

【中文标题】单变量最小二乘回归中的多重 R 平方和调整 R 平方有啥区别?【英文标题】:What is the difference between Multiple R-squared and Adjusted R-squared in a single-variate least squares regression?单变量最小二乘回归中的多重 R 平方和调整 R 平方有什么区别? 【发布时间】:2011-02-21 16:10:26 【问题描述】:

谁能解释一下Multiple R-squaredAdjusted R-squared 之间的区别是什么?我正在做如下单变量回归分析:

 v.lm <- lm(epm ~ n_days, data=v)
 print(summary(v.lm))

结果:

Call:
lm(formula = epm ~ n_days, data = v)

Residuals:
    Min      1Q  Median      3Q     Max 
-693.59 -325.79   53.34  302.46  964.95 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2550.39      92.15  27.677   <2e-16 ***
n_days        -13.12       5.39  -2.433   0.0216 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746,     Adjusted R-squared: 0.1451 
F-statistic: 5.921 on 1 and 28 DF,  p-value: 0.0216 

【问题讨论】:

StatsOverflow 是个好主意。我希望有人建议它作为一个新的 StackExchange 站点。 去投票:meta.stackexchange.com/questions/5547/… 你的意思是crossvalidated.com(又名stats.stackexchange.com)? @BrandonBertelsen 我当时没有,因为它还不存在! 另见the answers provided to a very similar question on Cross Validated 【参考方案1】:

调整后的R平方中的“调整”与变量的数量和观察的数量有关。

如果您不断向模型中添加变量(预测变量),R 平方会有所改善 - 也就是说,预测变量似乎可以解释方差 - 但其中一些改善可能仅是由于偶然性。因此,调整后的 R 平方试图通过考虑比率 (N-1)/(N-k-1) 来纠正这一点,其中 N = 观察数,k = 变量数(预测变量)。

在您的情况下,这可能不是问题,因为您只有一个变量。

一些参考资料:

    How high, R-squared? Goodness of fit statistics Multiple regression Re: What is "Adjusted R^2" in Multiple Regression

【讨论】:

【参考方案2】:

R 平方不依赖于模型中的变量数量。调整后的 R 平方为。

调整后的 R 平方增加了向模型添加与您试图解释的变量不相关的变量的惩罚。您可以使用它来测试变量是否与您要解释的内容相关。

Adjusted R-squared 是 R-squared 添加了一些除法以使其取决于模型中变量的数量。

【讨论】:

注意:在回归中添加预测变量几乎总是会增加 r-squared,即使由于随机抽样只会增加一点点。 ty Jeromy,我的意思是说“下去”而不是上去。 R 平方永远不会因为向模型中添加新变量而下降。如果添加新变量,调整后的 R 平方可以上升或下降。这是一个不好的例子,所以我删除了它。【参考方案3】:

调整后的 R 平方接近但不同于 R2 的值。它不是基于解释的平方和 s-s-r 和总平方和 SSY,而是基于总体方差(我们通常不计算的量),s2T = SSY/(n - 1) 和误差方差 MSE (来自 ANOVA 表)并计算如下:调整后的 R 平方 = (s2T - MSE) / s2T。

这种方法通过添加解释变量为判断拟合的改进提供了更好的基础,但它没有 R2 所具有的简单概括解释。

如果我没记错的话,你应该验证调整后的 R-squared 和 R-squared 的值如下:

s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T

另一方面,R2 为:s-s-r/SSY,其中 s-s-r = SSY - SSE

attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
s-s-r <- (SSY - SSE) # or s-s-r <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- s-s-r / SSY 

【讨论】:

最后一个代码框有错别字:deviance(v.lm)调用实际上会输出模型s-s-r,这反过来意味着SSE &lt;- (SSY - s-s-r)。至于SSY,无需重新调整模型即可检索它的更简单方法是:SSY &lt;- sum(anova(v.lm)$"Sum Sq") 其实我的意思是用s-s-r来解释SS是违反直觉的,s-s-r更容易表示残余SS,而SSE解释SS... s-s-r 是回归的平方和。 Rquares 的剩余朗姆酒是“RSS”en.wikipedia.org/wiki/Explained_sum_of_squares 该死的那些约定!我手头的书(Wooldridge,2009 年)分别使用 s-s-r、SSE、SST 来表示残差、解释和总 SS。我想当使用这些模棱两可的约定时,对其预期含义的注释会很方便...... Wiki 还将 s-s-r 定义为“残差平方和”:en.wikipedia.org/wiki/Residual_sum_of_squares。在我看来,RSS、ESS 和 TSS 是最不容易混淆的符号。【参考方案4】:

请注意,除了预测变量的数量外,上述调整后的 R 平方公式还会根据样本量进行调整。一个小样本会给出一个看似大的 R 平方。

Ping Yin & Xitao Fan, J. of Experimental Education 69(2): 203-224,“Estimating R-squared shrinkage in multiple regression”,比较了不同的调整 r-squared 的方法,总结出常用的方法上面引用的不好。他们推荐 Olkin & Pratt 公式。

但是,我看到一些迹象表明,人口规模的影响比这些公式中的任何一个都大得多。我不相信这些公式中的任何一个都足以让您比较使用非常不同的样本大小(例如,2,000 与 200,000 个样本;标准公式几乎不会进行基于样本大小的调整)的回归。我会做一些交叉验证来检查每个样本的 r 平方。

【讨论】:

在R中的最小二乘回归图中绘制垂直偏移量

】在R中的最小二乘回归图中绘制垂直偏移量【英文标题】:GraphingperpendicularoffsetsinaleastsquaresregressionplotinR【发布时间】:2011-02-0800:38:21【问题描述】:我有兴趣制作一个带有最小二乘回归线和将数据点连接到回归线的线段的图... 查看详情

尝试计算 Tensorflow 线性回归模型的 R 平方时出错

...21:07:03【问题描述】:我有一个使用Tensorflow编写的简单单变量线性回归模型。我正在尝试计算此模型的决定系数(R平方)。我将R_squared声明为tf.Variable(我也 查看详情

r构建加权最小二乘回归模型(weightedleastsquaresregression)

R构建加权最小二乘回归模型(WeightedLeastSquaresRegression)目录R构建加权最小二乘回归模型(WeightedLeastSquaresRegression) 查看详情

拓端tecdat|r语言编程指导用线性模型进行臭氧预测:加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值

R语言用线性模型进行臭氧预测:加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值  在这篇文章中,我将从一个基本的线性模型开始,然后从那里尝试找到一个更合适的线性模型。数据预处理由于空气... 查看详情

机器学习-线性回归补充-r^

线性回归算法在选自变量会遇到两个问题:一是去掉多重共线性干扰,二是选择最优自变量组合。线性回归步骤1.选择自变量注意点 去掉多重共线性干扰,选择最优自变量组合。这里需要理解决定系数:R^。它是理解选自变... 查看详情

微怎么回归?

...线性回归。4、第二张表,方差分析表,df是自由度,SS是平方和,MS是均方,F是F统计量,SignificanceF是回归方程总体的显著性检验,其中我们主要关注F检验的结果,即SignificanceF值,F检验主要是检验因变量与自变量之间的线性关... 查看详情

什么是最小二乘法回归分析?

...区别,这时通过让回归方程计算值和试验点结果间差值的平方和最小来建立回归方程的办法就是最小二乘法,二乘的意思就是平方。最小二乘就是指回归方程计算值和实验值差的平方和最小。参考技术A最小二乘法(又称最小平... 查看详情

什么是最小二乘法回归分析?

...最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。对于一元线性回归模型,假设从总体中获取了n组观察值(X1,Y1),(X2,Y2),…,(Xn,Yn)。对于平面中的这n个点,可以使用无数条曲... 查看详情

机器学习-线性回归(基于r语言)

...数,使得理论值与观测值之差(即误差,或者说残差)的平方和达到最小。在这里模型就是理论值,点为观测值。使得拟合对象无限接近目 查看详情

最小二乘法

...说,最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”),“最小”指的是参数的估计值要保证各个观测点与估... 查看详情

用微表格能做回归分析?

...线性回归。4、第二张表,方差分析表,df是自由度,SS是平方和,MS是均方,F是F统计量,SignificanceF是回归方程总体的显著性检验,其中我们主要关注F检验的结果,即SignificanceF值,F检验主要是检验因变量与自变量之间的线性关... 查看详情

统计学里r^2表示啥意思?有啥用呢?

...:一、在统计学中,R平方值的计算方法为:R平方值=回归平方和(ssreg)/总平方和(sstotal),其中回归平方和=总平方和-残差平方和(ssresid)。二、R^2的特点:1、可决系数是非负的统计量;2、可决系数的取值范围:0<=R^2<=1;3、可... 查看详情

R中的第一阶段IV回归输出

...间】:2019-10-2413:43:25【问题描述】:我想报告我的两阶段最小二乘回归的两个阶段的结果,但stargazer输出只给了我第二阶段。我用R中的ivreg命令计算了两阶段最小二乘回归。这是我的代码的样子:ivmodel1<-ivreg(Y~X+W1+W2+W3+W4|W1+W2+W... 查看详情

浅谈最小二乘法

...的一种标准方法,它通过最小化每个方程式结果中的残差平方和来近似超定系统(方程组多于未知数的方程组)。回归分析(regressionanalysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。最重要的... 查看详情

r语言普通最小二乘(ols)回归说明以及构建普通最小二乘(ols)回归需要满足的四个假设(normality(正态性)independence(独立性)linearity(线性度)方差齐性)

R语言普通最小二乘(OLS)回归说明、以及构建普通最小二乘(OLS)回归需要满足的四个假设(Normality(正态性)、Independence(独立性)、Linearity(线性度)、方差齐性)目录 查看详情

析因设计的方差分析的spss结果下有r方和调整r方值怎么解释

...下面的Rsquared怎么解释R方和校正的R方是为了说明你的自变量A、自变量B以及A和B的交互作用,这三者一共可以解释多少因变量的方差变异。所以说跟回归的R方和调整的R方是一样的。可以说你的三个自变量解释因变量的64.5%的方差... 查看详情

从线性回归中提取 p 值和 r 平方

...述】:如何从简单的线性回归模型中提取p值(单个解释变量的系数的显着性不为零)和R平方值?比如……x=cumsum(c(0,runif(100,-1,+1)))y=cumsum(c(0,runif(100,-1,+1)))fit=lm(y~x) 查看详情

excel曲线拟合中的决定系数r平方是如何求出来的?

...定系数。判定系数R² (coefficientofdetermination):回归平方和占总误差平方和的比例:反映回归直线的拟合程度,取值范围在[0,1]之间,R²越趋近于1,说明回归方程拟合的越好;R²越趋近于0,说明回归方程拟合的越差,... 查看详情