正文

1.基础概念(统计分布抽样置信区间标准差)

wangprince2017  wangprince2017  2023-01-20  342

关键词：

统计分布

抽样

置信区间

标准误

StatQuest（https://statquest.org/)是一个非常好的生物统计学课程，课程简单明了，几乎涵盖了目前生信所用到的全部统计学知识，作者不会过于使用复杂难明的式子，清晰简单的解释出复杂的统计学术语，非常适合统计学新手由浅入深地了解生信工具的内在统计学原理。

But I wanted them to understand that what I do isn’t magic – it’s actually quite simple. It only seems hard because it’s all wrapped up in confusing terminology and typically communicated using equations.

—— Josh Starmer (author of StatQuest)

本周开始，我将和大家一起学习分享StatQuest课程。

作者的所有课程都上传在YouTube上，有上网条件的可以去学习，课程列表在https://statquest.org/video-index/，整个课程体系是比较完备的，不过我会从中挑选部分内容来进行学习分享。

一.统计分布

首先从一个场景开始，假设你在参加一个Party，无意中听到有人在讨论统计学，并且正好讨论到了统计分布，那么什么是统计分布呢？（作者举的这个话题引入的例子看起来真的很直接，这是得多喜欢统计学，连party都不放过）

假设我们在统计测量Party上参会人的身高，身高分别是5.2，5.8，5.6，5.9，5.1，6.3，...（英尺），那么你可以将他们逐个表示到一个图形上，如下图，每个红球代表一个身高数据，下面的蓝框代表身高的范围。

这样的长条组合在一起时可以叫做直方图，可以看到大部分人的身高在5-6英尺。

技术分享图片

如果将蓝框的范围减小，那么可以看到这个直方图会变得更加平滑和精确，大部分人的身高集中在5.25-5.75之间。

技术分享图片

如果继续增加身高数据和降低蓝框的范围，那么就可以得到下面的直方图：

技术分享图片

同时，我们还可以在这个直方图上画一条平滑曲线，来代表这种数据趋势（大部分人的身高在5-6之间，少部分在5以下和6以上）。

这个平滑曲线还有很多优点，直方图右侧是有一个空缺的，导致无法知道身高在此区间的概率是多少，但是平滑曲线是可以给出这个答案的，而且它不会受到直方图的分段大小（图一中的蓝框）的影响。

再比如在我们没有足够的财力和精力去测定全部总体数据时，一个基于平均数和标准差的平滑曲线就可以帮我们很好的理解数据趋势。

技术分享图片

图中的直方图和平滑曲线就是统计分布，它可以告诉我们测量值的概率是怎么分布的，主要集中在哪些范围，哪些数据出现的概率很低。

除了这个例子中的分布外，还有很多其他分布，他们的数据趋势都可以帮我们理解大量的自然数据。

二. 抽样

绝大部分情况下，从一个特定的分布中抽样，其实就是我们利用计算机生成一个随机数，且这个随机数得抽取满足直方图或平滑曲线描述的数据趋势，以上图的趋势图为例，越靠近中间的数值越容易被抽到，而越偏离中间的数值越不容易被抽到。

进一步的，我们将可以抽样得到的样本进行t检验，就可以探索这其中发生了什么：

假设下图的一个分布，随机取了两个样本，每个样本3个数值，由于两个样本服从同一分布，因此它们都更倾向于取值在中间区域（如图），因此t检验也会给出较大的p值（p值就是可能性，p越大代表可能性越大，此处就代表两者来自于同一分布的可能性越大）：

技术分享图片

但是如果两个样本来自于两个不同的分布，那么由于它们两个的中间区域不一样，因此t检验就会倾向于给出较小的p值：

技术分享图片

三.置信区间

想直观了解置信区间是什么，要先从bootstrap谈起：

假定我们要估计一群雌性小鼠的体重，抽样12个小鼠，称重，计算均值如下图。

技术分享图片

然后我们就可以使用bootstrap方法，得出这个样本的均值的置信区间，如下图，

从这12个样本数据中随机抽取12个数据（有放回）；
计算这个样本的均值；
重复步骤1、2，直到计算到足够多的均值（如1000次，10000次等）

技术分享图片

一般常用的95%置信区间就是覆盖了中间95%的均值的区间（如下图黑线所示），这其实就是置信区间了。

技术分享图片

置信区间有什么用？

95%置信区间代表覆盖了均值95%的范围，超出这个范围的数值的出现次数都是<5%的，因此所有超出95%置信区间的数值的p值都是<0.05，都是显著的。

假如要比较雌性和雄性小鼠的体重，得到如下的置信区间结果，那么根据两者置信区间没有交界，就可以知道两者差异显著。

技术分享图片

Bootstrap跟传统的区间估计是有些相似的，但是更有普适性。

无论总体的分布是什么样，我们知道样本均值是渐进正态分布的（假设总体均值存在）。利用渐进分布我们就可以构造样本均值的置信区间，但是问题是，要多少样本量才收敛到渐进分布呢？

如果总体不是常见分布，我们很难判断近似程度。并且，有的时候渐进分布很难写出来。Bootstrap就提供了一种灵活的，绝大多数情况都有效的方法，去判断统计量的是否合适。

标准误

误差线作为数据波动和可信度的衡量，是必须的科研绘图元素。

常见的误差数据有3种：标准差、标准误以及置信区间。

标准差：Standard Deviations，又叫做标准偏差，大部分情况下图表中使用的都是标准差；
标准误：Standard Errors，标准误差，它代表样本均值的分布情况；
置信区间：Confidence Intervals，和标准误是相关的。

标准差大家都知道，置信区间上面也说过了，那么什么是标准误呢？

如下图，假设从一个正态总体中抽样，共得到3个样本，每个样本5个数据，分别用红、绿、蓝色小球表示。

每个样本都有一个均值和标准差，如下图下半部分所示。而对3个平均值继续求标准差，这个标准差就是均值的标准误了。当然，如果需要的话，也可以求出标准差的标准误（下图3个标准差数据的标准差）、中位数的标准误等等。

标准误可以给出抽样均值的波动程度如何，而不像标准差只是单次抽样数据的波动，因此它往往更能估计总体均值。

技术分享图片

那么如何计算标准误呢？

少数情况下，标准误可以使用特定的公式计算。而任何情况下，你都可以使用bootstrap方法计算标准误。

此处的bootstrap方法同上面置信区间中的方法相同：

如下图，首先得到一个抽样样本，5个红色小球；
随机抽取一个测量值（红色小球），并记录；
重复随机抽取，直到拥有5个测量值（小球是有放回地抽取的）；
计算均值（或其他统计量，一般情况下我们更关心均值）；
重复上述4步，直到获得足够的均值数，如1000个；
计算这个1000个数值的标准差即是标准误。

技术分享图片

应用统计学简单随机抽样的区间估计和样本容量的确定

一、置信度和置信区间二、总体均值的置信区间1.总体服从正态分布，且方差已知若随机变量X服从正态分布，那么它抽样分布的样本均值也服正态分布。同时，我们可以先将它转化为标准正态分布根据区间估计的... 查看详情

应用统计学简单随机抽样的区间估计和样本容量的确定

一、置信度和置信区间二、总体均值的置信区间1.总体服从正态分布，且方差已知若随机变量X服从正态分布，那么它抽样分布的样本均值也服正态分布。同时，我们可以先将它转化为标准正态分布根据区间估计的定... 查看详情

应用统计学简单随机抽样的区间估计和样本容量的确定

统计学（45）-利用bootstrap法估计置信区间

...果没有计算机辅助进行重复抽样，靠手工是极其麻烦的。统计最核心的思想是什么？我想现在可以理解为就是估计，部分估计总体假定我们从某所学校中随机抽样调查了20名学生的身高，打算通过这20人的身高估计该学校所有学... 查看详情

在统计学中的样本量是如何计算的，置信度是如何计算的？

...d为抽样误差范围、σ为标准差，一般取0.5。扩展资料:在统计学中，当估算一个变量的期望值时，一个经常用到的方法是重复测量此变量的值，然后用所得数据的平均值来作为此变量的期望值的估计。在概率分布中，期望值和方... 查看详情

标准误，标准差，置信区间分不清？派森诺教你画误差线

...现方法之前，我们先来了解下误差折线图涉及的三个统计概念。01、三个概念1.标准误（StandardError，SE）标准误差（简称标准误）表示的是抽样的误差。因为从一个总体中可以抽取出无数多种样本，每一种样本的数据都是对总体... 查看详情

仅根据均值和标准差绘制置信区间

】仅根据均值和标准差绘制置信区间【英文标题】：PlotingConfidenceintervalfromonlymeanandstandarddeviation【发布时间】：2017-04-0103:50:32【问题描述】：我正在尝试根据数据的均值和标准差(std)绘制置信区间。这是我写的一段代码：MeanA=1.87... 查看详情

lesson9-置信区间

参考技术A尝试根据统计量来推断总体参数,例如钓鱼如果撒一张网调到鱼的可能性更大,那么这个网需要多大呢那么网越大,那么抓到鱼的信心越大,因为总体参数总是不会发生改变,所以就好像水中不会动的鱼一样,但提供一个区间,... 查看详情

视频教程人工智能之统计学基础

【视频教程】人工智能之统计学基础课程介绍：1.1.1数理统计学的基本知识.mp42.2.2.1参数估计的方法.mp43.3.2.2估计的优良性标准4.4.2.3置信区间5.5.2.4分布函数与密度函数的估计6.6.3.1假设检验问题的提出7.7.3.2-3.4似然比检验8.8.3.5-3.6p... 查看详情

如何求标准差的置信区间

如何计算均值和标准差的置信区间评估某个项目的重复性时,测试了20次,测试结果如下：37.837.237.836.836.837.637.237.438.337.937.237.737.637.738.5383737.137.737.620次的均值为37.545,标准差为0.4594,请问如何分别计算该均值和标准差的95%置信区间,... 查看详情

《r语言实战》自学笔记69-重抽样和自助法

参考技术A数据准备许多实际情况中统计假设（假定观测数据抽样自正态分布或者其他性质较好的理论分布）并不一定满足，比如数据抽样于未知或混合分布、样本量过小、存在离群点、基于理论分布设计合适的统计检验过于复... 查看详情

怎么用matlab计算一组数据的总体均值和标准差σ的95%置信区间

怎么用matlab计算一组数据的总体均值和标准差σ的95%置信区间zhixingqujian=[(ave-1.96*biaozhuncha)/160,(ave+1.96*biaozhuncha)/160]zhixinqujian为置信区间，ave为总体均值，biaozhuncha为标准差。参考技术A使用normfit函数。[MU,SIGMA,MUCI,SIGMACI]=normfit(X,ALPHA... 查看详情

怎样估计样本量的大小？

...0.5。样本量是指总体中抽取的样本元素的总个数，应用于统计学、数学、物理学等学科。样本量大小是选择检验统计量的一个要素。由抽样分布理论可知，在大样本条件下，如果总体为正态分布，样本统计量服从正态分布；如果... 查看详情

统计学中样本与zscore值

参考技术A仅针对个人在考统计师时，对这些名词的理解。样本：指一次抽样调查中调查的元素总和。（误区：经常会将抽样调查的元素理解为样本）。在总体N中，无放回的获得元素个数为n的样本的可能个数为C（N，n），以此获... 查看详情

r语言入门--第十一节（置换检验与自助法求置信区间）

参考技术A原理参考文章，主要思想我认为是求出所有分布的可能（中间的一般为零假设），出现这种分布的概率。distribution=参数可为exact（精确模式，即依据所有可能的排列组合，仅适用于两样本问题）、approxiamate(nresample=#)（... 查看详情

客观缓解率的可信区间如何计算

...的所在范围。5、　　2.从计算公式看　　若指标服从正态分布，95%参考值范围的公式是：μ±1.96s。6、　　总体均数95%可信区间的公式是：μ±1.96s/√n。7、　　前者用标准差，后者用标准误。8、前者用1.96，后者用α为0.05，自由度... 查看详情

区间估计intervalestimation

...估计的时候，不可能完全的准确。我们可以在点估计值的基础上附加一个误差限Marginoferror构造一个总体均值的区间估计，使得我们可以了解点估计值与总体参数的近似程度。区间估计=点估计值±误差限通常情况下总体的方差同... 查看详情