拓端tecdat|r语言代码编写相关分析和稳健线性回归分析

author author     2022-12-09     199

关键词:

R语言相关分析和稳健线性回归分析

目录

​​怎么做测试​​

​​功率分析​​


介绍

下面以物种多样性为例子展示了如何在R语言中进行相关分析和线性回归分析。

 

怎么做测试

相关和线性回归示例

 

Data = read.table(textConnection(Input),header=TRUE)

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_数据

 

数据简单图

                                                                      

plot(Species ~ Latitude, 
data=Data,
pch=16,
xlab = "Latitude",
ylab = "Species")

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_数据_02

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_r语言_03

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_数据_04

 

 

相关性

可以使用 cor.test函数。它可以执行Pearson,Kendall和Spearman相关。

 

皮尔逊相关

皮尔逊相关是最常见的相关形式。假设数据是线性相关的,并且残差呈正态分布。

 

cor.test( ~ Species + Latitude, 
data=Data,
method = "pearson",
conf.level = 0.95)



Pearsons product-moment correlation



t = -2.0225, df = 15, p-value = 0.06134



cor

-0.4628844

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_数据_05

 

 

肯德尔相关

肯德尔秩相关是一种非参数检验,它不假设数据的分布或数据是线性相关的。它对数据进行排名以确定相关程度。

 

 

cor.test( ~ Species + Latitude, 
data=Data,
method = "kendall",
continuity = FALSE,
conf.level = 0.95)



Kendalls rank correlation tau



z = -1.3234, p-value = 0.1857



tau

-0.2388326

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_r语言_06

 

 

 

斯皮尔曼相关

Spearman等级相关性是一种非参数检验,它不假设数据的分布或数据是线性相关的。它对数据进行排序以确定相关程度,并且适合于顺序测量。

 

 

 

 

 

线性回归

线性回归可以使用 lm函数执行。可以使用lmrob函数执行稳健回归。

 

summary(model)                    # shows parameter estimates,
# p-value for model, r-square



Estimate Std. Error t value Pr(>|t|)

(Intercept) 585.145 230.024 2.544 0.0225 *

Latitude -12.039 5.953 -2.022 0.0613 .



Multiple R-squared: 0.2143, Adjusted R-squared: 0.1619

F-statistic: 4.09 on 1 and 15 DF, p-value: 0.06134







Response: Species

Sum Sq Df F value Pr(>F)

Latitude 1096.6 1 4.0903 0.06134 .

Residuals 4021.4 15

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_线性回归_07

 

 

 

绘制线性回归

 

plot(Species ~ Latitude,
data = Data,
pch=16,
xlab = "Latitude",
ylab = "Species")

abline(int, slope,
lty=1, lwd=2, col="blue") # style and color of line

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_数据_08

 

 

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_数据_09

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_r语言_10

检查模型的假设

 

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_数据_11

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_数据_12

 

线性模型中残差的直方图。这些残差的分布应近似正态。

 

 

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_r语言_13

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_线性回归_14

 

 

残差与预测值的关系图。残差应无偏且均等。 

 

 

 

稳健回归

该线性回归对响应变量中的异常值不敏感。

 

 

summary(model)                    # shows parameter estimates, r-square



Estimate Std. Error t value Pr(>|t|)

(Intercept) 568.830 230.203 2.471 0.0259 *

Latitude -11.619 5.912 -1.966 0.0681 .



Multiple R-squared: 0.1846, Adjusted R-squared: 0.1302





anova(model, model.null) # shows p-value for model



pseudoDf Test.Stat Df Pr(>chisq)

1 15

2 16 3.8634 1 0.04935 *

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_r语言_15

 

 

 

绘制模型

 

 

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_数据_16

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_数据_17

 

 

线性回归示例

 

 

summary(model)                    # shows parameter estimates, 
# p-value for model, r-square



Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 12.6890 4.2009 3.021 0.0056 **

Weight 1.6017 0.6176 2.593 0.0154 *



Multiple R-squared: 0.2055, Adjusted R-squared: 0.175

F-statistic: 6.726 on 1 and 26 DF, p-value: 0.0154



### Neither the r-squared nor the p-value agrees with what is reported

### in the Handbook.





library(car)

Anova(model, type="II") # shows p-value for effects in model



Sum Sq Df F value Pr(>F)

Weight 93.89 1 6.7258 0.0154 *

Residuals 362.96 26



# # #

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_线性回归_18

 

 

功率分析

功率分析的相关性

 

### --------------------------------------------------------------
### Power analysis, correlation
### --------------------------------------------------------------

pwr.r.test()



approximate correlation power calculation (arctangh transformation)



n = 28.87376

拓端tecdat|R语言代码编写相关分析和稳健线性回归分析_r语言_19

 

如果您有任何疑问,请在下面发表评论。 

 



拓端tecdat|r语言编程指导时间序列数据指数平滑法分析交互式动态可视化

R语言时间序列数据指数平滑法分析交互式动态可视化 R语言提供了丰富的功能,可用于绘制R中的时间序列数据。包括:自动绘制 ​​xts​​ 时间序列对象(或任何可转换为xts的对象)的图。高度可配置的轴和系列显... 查看详情

拓端tecdat|r语言bootstrap的岭回归和自适应lasso回归可视化(代码片段)

原文链接:http://tecdat.cn/?p=22921原文出处:拓端数据部落公众号拟合岭回归和LASSO回归,解释系数,并对其在λ范围内的变化做一个直观的可视化。 #加载CBI数据 #子集所需的变量(又称,列) CBI_sub<-CBI   #... 查看详情

拓端tecdat|r语言编程指导用线性模型进行臭氧预测:加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值

R语言用线性模型进行臭氧预测:加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值  在这篇文章中,我将从一个基本的线性模型开始,然后从那里尝试找到一个更合适的线性模型。数据预处理由于空气... 查看详情

拓端tecdat|r语言辅导wald检验vs似然比检验

R语言Wald检验vs似然比检验 在开展基于概率推理的课程时,关键主题之一是基于似然函数的检验和置信区间构建。通常包括Wald,似然比和分数检验。在这篇文章中,我将修改Wald和似然比检验的优缺点。我将重点关注置信区间... 查看详情

拓端tecdat|r语言中的多类别问题的绩效衡量:f1-score和广义auc

R语言中的多类别问题的绩效衡量:F1-score和广义AUC 对于分类问题,通常根据与分类器关联的混淆矩阵来定义分类器性能。根据混淆矩阵,可以计算灵敏度(召回率),特异性和精度。 对于二进制分类问题,所有这些性能... 查看详情

拓端tecdat|r语言代写使用混合模型进行聚类

R语言使用混合模型进行聚类  混合模型是k个分量分布的混合,它们共同形成混合分布:F(x )f(x)F(x )= Σk = 1ķαķFķ(x )f(x)=∑k=1Kαkfk(x)  为什么要使用混合模型?让我们通过一个例子激... 查看详情

拓端tecdat|r语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用

R语言多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用 通常,我们在回归模型中一直说的一句话是“ 请查看一下数据 ”。在​​上一篇文章中​​,我们没有查看数据。如果我们查看单个损失的... 查看详情

拓端tecdat|基于出租车gps轨迹数据的研究:出租车行程的数据分析

基于出租车GPS轨迹数据的研究:出租车行程的数据分析数据Reddit用户imjasonh和fhoffa解析了原始数据,该模式如下所示:  每次骑行都有非常具体的上/下车位置以及开始/结束时间的详细信息。 下面显示了一个示例 ... 查看详情

r语言回归分析(regression)常见算法:简单线性回归多项式回归多元线性回归多水平回归多输出回归逻辑回归泊松回归cox比例风险回归时间序列分析非线性回归非参数回归稳健回归等

R语言回归分析(regression)常见算法:简单线性回归、多项式回归、多元线性回归、多水平回归、多输出回归、逻辑回归、泊松回归、cox比例风险回归、时间序列分析、非线性回归、非参数回归、稳健回归等目录开发者涨薪指南4... 查看详情

拓端tecdat:看推特数据如何”塑造”地区形象

“高度信息化的今天,社交媒体向我们提供直接认识外界的一个窗口,决定着大家对一个地区的认知,像是一双对地区形象“塑型”的“看不见”的手。▼根据这个背景,tecdat对素有“塞上江南”之称的宁夏热门推文(hottweet,推... 查看详情

拓端tecdat|python辅导基于粒子群优化的投资组合优化研究

基于粒子群优化的投资组合优化研究 我今年的研究课题是​​使用粒子群优化(PSO)的货币进行交易组合优化​​。在本文中,我将介绍投资组合优化并解释其重要性。其次,我将演示粒子群优化如何应用于投资组合优化。... 查看详情

大数据挖掘通常用哪些软件

...方案、模型和算法,让它成为业界的一棵常春藤。用Java语言编写的RapidMiner,是通过基于模板的框架为用户提供先进的分析技术的。它最大的好处就是,作为一个服务提供给用户,而不是一款本地软件,用户无需编写任何代码,... 查看详情

如何用r语言做线性相关回归分析

...系数,还可以用scatterplotMatrix()函数生成散点图矩阵不过R语言没有直接给出偏相关的函数;我们要是做的话,要先调用cor.test()对变量进行Pearson相关性分析,得到简单相关系数,然后做t检验,判断显著性。参考技术A可以直接用cor... 查看详情

拓端tecdat|python代写辅导使用神经网络进行简单文本分类

Python使用神经网络进行简单文本分类深度学习无处不在。在本文中,我们将使用Keras进行文本分类。准备数据集出于演示目的,我们将使用  20个新闻组  数据集。数据分为20个类别,我们的工作是预测这些类别。如... 查看详情

r语言中多分类问题multicalssclassification的性能测量(代码片段)

判别分析包括可用于分类和降维的方法。线性判别分析(LDA)特别受欢迎,因为它既是分类器又是降维技术。二次判别分析(QDA)是LDA的变体,允许数据的非线性分离。最后,正则化判别分析(RDA)是LDA和QDA之间的折衷。本文主... 查看详情

非线性混合效应nlme模型对抗哮喘药物茶碱动力学研究|附代码数据(代码片段)

...关系:plot(data=theo.data2) +eo_ine(oaes(group=id))相关视频**拓端,赞14**拓端,赞21**拓端,赞7**拓端,赞17数据的个体差异我们还可以在12个单独的图上绘制12个单独的浓度分布图,pl + geom_line() + facet_wrap(~id)这12个人的... 查看详情

《r语言实战》自学笔记71-主成分和因子分析

参考技术A主成分分析主成分分析((PrincipalComponentAnalysis,PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分(原来变量的线性组合)。整体思想就是化繁为简,抓住问题关... 查看详情

r语言独立成分分析fastica谱聚类支持向量回归svr模型预测商店销量时间序列可视化(代码片段)

全文链接:http://tecdat.cn/?p=31948原文出处:拓端数据部落公众号本文利用R语言的独立成分分析(ICA)、谱聚类(CS)和支持向量回归SVR模型帮助客户对商店销量进行预测。首先,分别对商店销量的历史数据进行了独立成分分析,... 查看详情