关键词:
两个变量或两组变量之间的联系,对于连续变量称为相关性,对于分类变量称为关联性。
一、连续变量间的相关性
常用命令及选项如下
使用方法如下:
1.计算相关系数及相关系数矩阵
> cor(count,speed)
[1] 0.7237206
> cor(count,speed,method = "spearman")
[1] 0.5269556
> cor(mf)
Length Speed Algae NO3 BOD
Length 1.0000000 -0.34322968 0.7650757 0.45476093 -0.8055507
Speed -0.3432297 1.00000000 -0.1134416 0.02257931 0.1983412
Algae 0.7650757 -0.11344163 1.0000000 0.37706463 -0.8365705
NO3 0.4547609 0.02257931 0.3770646 1.00000000 -0.3751308
BOD -0.8055507 0.19834122 -0.8365705 -0.37513077 1.0000000
> cor(mf$Length,mf)可以通过$指定显示某个变量的相关系数
Length Speed Algae NO3 BOD
[1,] 1 -0.3432297 0.7650757 0.4547609 -0.8055507
2.计算方差及协方差矩阵
> cov(count,speed)
[1] 123
> var(count,speed)
[1] 123
> cov(mf)
Length Speed Algae NO3 BOD
Length 9.4900000 -4.95000000 45.858333 0.70683333 -111.55667
Speed -4.9500000 21.91666667 -10.333333 0.05333333 41.74167
Algae 45.8583333 -10.33333333 378.583333 3.70166667 -731.73333
NO3 0.7068333 0.05333333 3.701667 0.25456667 -8.50850
BOD -111.5566667 41.74166667 -731.733333 -8.50850000 2020.87333
> cov2cor(cov(mf))
Length Speed Algae NO3 BOD
Length 1.0000000 -0.34322968 0.7650757 0.45476093 -0.8055507
Speed -0.3432297 1.00000000 -0.1134416 0.02257931 0.1983412
Algae 0.7650757 -0.11344163 1.0000000 0.37706463 -0.8365705
NO3 0.4547609 0.02257931 0.3770646 1.00000000 -0.3751308
BOD -0.8055507 0.19834122 -0.8365705 -0.37513077 1.0000000
3.相关系数的显著性检验
> cor.test(count,speed)
Pearson‘s product-moment correlation
data: count and speed
t = 2.5689, df = 6, p-value = 0.0424
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.03887166 0.94596455
sample estimates:
cor
0.7237206
4.使用公式语法
> cor.test(~count+speed,data=fw3,subset = cover%in%c("open","closed"))
计算fw3数据框中cover分类变量的open和closed两个类别的相关系数检验。
============================================================
二、分类变量的关联性
分类变量间的关联性分析基本使用卡方检验,数据都为频数,卡方检验的命令及选项如下
分类变量根据类别的多少,会分为几种情况:
1.两变量均为多分类
此时就是通常说的分析变量间的关联性,此时数据一般为数据框或矩阵结构的频数表,可直接使用chisq.test()命令进行处理,如:
> chisq.test(bird.df)
如果频数表中有频数为0,则会输出一个错误信息:Chi-squared approximation may be incorrect
2.两变量均为二分类
此时数据为2*2列联表,chisq.test()会默认使用耶茨连续性校正,可通过corrct=TRUE进行关闭,实际上,chisq.test()只会对2*2列联表使用耶茨校正。如果设定了使用蒙特卡洛方法,则不会再使用耶茨校正。
3.一个变量为二分类一个变量为多分类
这种情况下为卡方拟合优度检验,为保险起见,基本上都要设定rescale.p=TRUE,如果不指定P,则认为期望概率全部相等的情况。
> chisq.test(survey$new,p=survey$old,rescale.p = TRUE)
r语言关联分析之啤酒和尿布
关联分析概述啤酒和尿布的故事,我估计大家都听过,这是数据挖掘里面最经典的案例之一。它分析的方法就关联分析。关联分析,顾名思义,就是研究不同商品之前的关系。这里就发现了啤酒和尿布这两个看起来毫不相关的东... 查看详情
r语言描述性统计分析:相关性分析
R语言描述性统计分析:相关性分析相关性分析:pearson、spearman、kendall相关性系数的显著性检验;偏相关性分析;library(ISwR)attach(thuesen)cor(blood.glucose,short.velocity)#WRONGcor(blood.glucose,short.velocity,use="complete.obs")cor(thuesen,use= 查看详情
r语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战
R语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战目录R语言相关性计算及使用ggcorrplot包相关性分析热力图可视化分析实战 查看详情
r语言应用实战-基于r语言的典型相关分析
...法。它实际上是利用主成分的思想来讨论两组随机变量的相关性问题,把两组变量间的相关性研究化为少数几对变量间的相关性研究,而且这少数几对变量之间又是不相关的,以 查看详情
如何用r语言进行相关系数与多变量的meta分析
...a分析数据包实现相关系数的Meta分析,第二大部分如何用R语言进行多变量的meta分析。想获取R语言相关系数meta分析的程序模板的同学请在公众号(全哥的学习生涯)内回复“相关系数”即可。meta数据包提供实现相关系数的Meta分... 查看详情
r语言聚类分析之层次聚类(hierarchicalclustering)实战
R语言聚类分析之层次聚类(hierarchicalclustering)实战目录R语言聚类分析之层次聚类(hierarchicalclustering)实战#距离计算 查看详情
拓端tecdat|r语言代码编写相关分析和稳健线性回归分析
R语言相关分析和稳健线性回归分析目录怎么做测试功率分析介绍下面以物种多样性为例子展示了如何在R语言中进行相关分析和线性回归分析。 怎么做测试相关和线性回归示例 Data=read.table(textConnection(Inp... 查看详情
r语言数据分析系列之五
R语言数据分析系列之五—— bycomaple.zhang本节来讨论一下R语言的基本图形展示,先来看一张效果图吧。这是一张用R语言生成的,虚拟的wordcloud云图,详细实现细节请參见我的github项目:https://github.com/comaple/R-wordcloud.git好了我... 查看详情
如何用r语言做线性相关回归分析
...数;我们要是做的话,要先调用cor.test()对变量进行Pearson相关性分析,得到简单相关系数,然后做t检验,判断显著性。参考技术A可以直接用corrcoef(x,y)函数啊……例如,求出已知的x,y向量的相关系数矩阵R,则输入R=corrcoef(x,y)然... 查看详情
r语言之方差分析
一、单因素方差分析单因素方差分析只有一个分组变量,因此数据看起来像一个多列的数据框,如 GrassHeathArable1 3 6 192 4 &n 查看详情
r语言生存分析之竞争风险模型
R语言生存分析之竞争风险模型竞争风险模型(CompetingRiskModel)是一种处理多种潜在结局生存数据的分析方法,早在1999年Fine和Gray就提出了部分分布的半参数比例风险模型,通常使用的终点指标是累积发生率函数(cumulativeincidencef... 查看详情
主成分分析(pca)原理及r语言实现
...库主成分分析(PrincipalComponentAnalysis)原理主成分分析及R语言案例-文库主成分分析法的原理应用及计算步骤-文库主成分分析之R篇关于主成分分析的五个问题多变量统计方法,通过析取主成分显出最大的个别差异,也用来削减回... 查看详情
r语言聚类分析之基于划分的聚类kmeans实战:基于菌株数据
R语言聚类分析之基于划分的聚类KMeans实战:基于菌株数据 目录R语言聚类分析之基于划分的聚类KMeans实战:基于菌株数据 查看详情
r语言聚类分析之基于划分的聚类kmeans实战:基于葡萄酒数据
R语言聚类分析之基于划分的聚类KMeans实战:基于葡萄酒数据目录R语言聚类分析之基于划分的聚类KMeans实战:基于葡萄酒数据 查看详情
r语言伪相关性分析(spuriouscorrelation)相关关系不是因果关系:以哺乳动物数据集msleep为例
R语言伪相关性分析(SpuriousCorrelation):相关关系不是因果关系、相关关系不是因果关系、相关关系不是因果关系#correlationdoesn\'tmeanscausation目录 查看详情
r语言伪相关性分析(spuriouscorrelation)相关关系不是因果关系:以缅因州离婚率数据集为例
R语言伪相关性分析(SpuriousCorrelation)、相关关系不是因果关系:以缅因州离婚率数据集为例#correlationdoesn\'tmeanscausation目录 查看详情
r语言之logistic回归分析
一、probit回归模型在R中,可以使用glm函数(广义线性模型)实现,只需将选项binomial选项设为probit即可,并使用summary函数得到glm结果的细节,但是和lm不同,summary对于广义线性模型并不能给出决定系数,需要使用pscl包中的pR2函数... 查看详情
r语言金融数据分析之quantmod
获取港股基本信息library(quantmod)tx<-getSymbols("0700.hk",auto.assign=F)tail(tx)chartSeries(tx,subset="last1years") 获取股票分红数据: getDividends(\'tx\') &nb 查看详情