spss——描述性统计分析——探索性分析

会编程的大白熊 会编程的大白熊     2022-07-31     1037

关键词:

菜单

除了可以计算基本的统计量之外,也可以给出一些简单的检验结果和图形,有助于用户进一步的分析数据。使得用户能够从大量的分析结果之中挖掘到所需要的统计信息。

适用范围
对资料的性质、分布特点等完全不清楚的时候

Analyze -> Descriptive Statistics -> Expore

数据源

ceramics.sav

这里写图片描述

这里写图片描述

  • 因变量列表
    用于选入待分析的变量
  • 因子列表
    用于选择分组变量,根据该变量取值不同,分组分析因变量列表中的变量
  • 标注个案
    选择标签变量

统计量

这里写图片描述

  • 描述性
    计算一般的描述性统计量,及指定的均数可信区间
  • M-估计量
    描述集中趋势的统计量,用于稳健估计
  • 界外值
    分别输出5个极大值和极小值
  • 百分位数
    输出变量5%,10%,25%,50%,75%,90%,95%分位数

绘制

这里写图片描述

  • 带校验的正态图
    选择是否进行正态校验,且是否输出相应的Q-Q图
  • 伸展与级别Levene检验
    当选入分组变量时,该功能才被激活,主要用于比较各组之间的离散程度是否一致。在这里可以选择“未转换”,用于方差齐性检验

选项

这里写图片描述

输出结果

个案处理分析结果

包括观测量、缺失值等信息

这里写图片描述

描述性统计量

包括:均值、95%置信区间、方差、中位数、标准差、最大最小值、偏度和峰度等信息

这里写图片描述

集中趋势分布的3种较佳平稳测度

  • 较佳测度之一:中位数等

    • 中位数
      与均值和众数大不相同,中位数是依赖于数据的主体部分而不是极值,因此它的值不是过分地受某几个观察值的影响
    • 平稳估计量
      如果对数据来源的总体做出某个假设(比如假定服从正态分布),则会有更佳分布位置的估计量,这种估计量称为平稳或稳健测度的估计量
  • 较佳测度之二:修正均值
    由于均值深受极端值影响,因此可通过去掉一些远离主体数据的极端值,进而获得一个对于分布位置简单而平稳的估计量

    • 5%修正均值
      是通过去掉所有观察值中最大的5%和最小的5%的数据而获得
      调整后的均值与中位数可更好的利用数据
  • 较佳测度之三:M估计
    将极端值计算在内,而赋予比靠近中央值较小的一个权重,这种方法可借助M估计或采用广义最大似然估计
    M-estimators:平稳分布位置的最大似然估计量

    • Huber的M估计值
    • Tukey双权重估计值
    • Hampel重复递减M估计值
    • Andrew波形估计值

M-估计器

这里写图片描述

极值

这里写图片描述

这里用标注个案来标记极值

正态性检验

这里写图片描述

  • 其中Premium变量对应的K-S检验P值和Shapiro-Wilk检验P值均为0.000,非常显著,应该拒绝原假设。所以,此变量的数据分布不是正态分布。
  • 而Standard数据的分布不是显著的,可以认为是正态分布

在‘探索’里出现的Kolmogorov-Smirnov 检验,它的右上角有一个a 的注释号。它将Kolmogorov-Smirnov 检验改进用于一般的正态性检验。

而在‘非参数检验’里出现的Kolmogorov-Smirnov 检验,是没有经过纠正或改进的。

该正态性检验只能做标准正态检验。

 SPSS 规定:当样本含量3≤n≤5000 时,结果以Shapiro—Wilk(W 检验)为难,当样本含量n>5000 结果 以Kolmogorm —Smimov(D检验)为准。

问题:

(1) 在实际应用中常出现检验结果与直方图、正态性概率图不一致,甚至几种假设检验方法结果完全不同的情况。

(2) Shapiro—Wilk 检验(Ⅳ 检验)和经过Lilliefors 显著水平修正的Kolmogorov—Smirnov 检验(D 检验)是用 一个综合指标(顺序统计量Ⅳ 或D)来判定资料的正态性由于两种方法都是用一个指标反映资料的正态性,

所以当资料的正态峰和对称性两个特征有一个不满足正态性要求时,两种方法出现假阴性错误的机率均较 大;而且两种方法的检验统计量都是进行大小排序后得到,所以易受异常值的影响。

(3) Kolmogorov—Smirnov 单一样本检验是根据实际的累计频数分布和理论的累计频数分布的最大差异来检验资料的正态性,可对正态分布进行拟合优度检验。但它并非检验正态性的专用方法,因此它的检验效率是最低的,最容易受样本量和异常值等因素的影响。

方差齐性检验

这里写图片描述

假设检验:
H0: 两样本方差齐性(相等,或无显著性差异)

如上图,Sig > 0.2,并无显著差异。

正态Q-Q图

正态性检验可以通过直观的Q-Q图,进行人工验证。

这里写图片描述

这里写图片描述

Q-Q图是一种散点图,对应于正态分布的Q-Q图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图. 要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.

如上图,batch=Standard Q-Q图上的点在一条直线附近,可以认为是正态分布,和正态性检验Lilliefors,Shapiro-Wilk得出的结果一致。

反趋势正态 Q-Q 图

这里写图片描述

这里写图片描述

如上图,反趋势正态概率Q-Q图以变量的观测值为X坐标,以变量的Z得分与期望值的偏差为Y坐标。
batch=Standard 图的观测点离期望值很集中,说明符合正态分布。

盒子图

这里写图片描述

Premiun中有部分异常数据,数据偏大。需要进行异常值检测。

spss输出最多的五个选项是啥

...变量和因变量数据,点击确定即可。4、直方图分析。5、统计分析。SPSS(StatisticalProductandServiceSolutions),是一款“统计产品与服务解决方案”软件。软件产品特点:操作简便:界面非常友好,除了数据录入及部分命令程序等少... 查看详情

实验11-spss-rfm公司营销行为分析

...找到那些高价值的客户。1.1RFM分析介绍   所谓探索性分析,主要是运用写分析方法从大量的数据中发现未知且有价值信息的过程。常用的探索性分析包括RFM分析、聚类分析、因子分析、对应分析等。  SPSS提供... 查看详情

spss异常值剔除用啥方法

参考技术A我常用一下方法:1、可以通过“分析”下“描述统计“下“频率”的”绘制“直方图”,看图发现频数出现最少的值,就可能是异常值,但还要看距离其它情况的程度。2、可通过“分析”下的“描述统计”下的“探索... 查看详情

python描述性统计分析(descriptivestatistics)+探索性数据分析eda

python描述性统计分析(descriptivestatistics)+探索性数据分析EDA什么是描述统计分析(DescriptiveAnalysis)概念:使用几个关键数据来描述整体的情况描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分... 查看详情

spss安装及破解教程

SPSS是一种统计分析软件,其全称为“StatisticalProductandServiceSolutions”。以下是SPSS的作用和好处:作用:数据管理:SPSS可以帮助用户有效地收集、整理、编码和管理数据。统计分析:SPSS提供了广泛的统计方法,包括描述性统计、... 查看详情

cda数据分析数据处理工具spss

...有超过80%的市场占有率,是目前世界上最流行的三大通用统计分析软件【SPSS、SAS、STATA】之一。二.功能  SPSS最突出的特点是操作界面极为友好,几乎所有的功能都以统一、规范的界面展现出来。  1.SPSS非常全面地涵盖了数... 查看详情

r语言之描述性和探索性分析

探索性分析简称EDA一、基本描述性统计量1.summary函数可以得到最大值、最小值、中位数和均值2.四分位数四分位数可以通过quantile函数得到,diff得到各分位数的之差>library(RSADBE)>data("TheWALL")>quantile(TheWALL$Score)>diff(quantile(Th... 查看详情

相关性分析matlabspssexcel哪个最好

...利于该软件的推广应用。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析... 查看详情

spss参数的区间估计(代码片段)

...”,调出“探索:统计量”对话框,勾选“描述性”项,设置置信区间。最后点击“继续”→“确定”即可。         代码如下:1EXAMINEVARIABLES=score2/PLOTNONE3/STATISTICSDESCRIPTIVES4/CINTERV... 查看详情

如何用spss做相关性分析

...部分分析需要对原始数据进行统计描述,即如果需要进行描述性分析,可以选择均值和标准差,如上图所示的.mean(均值)和sd(标准差),分别对数据的大小和离散程度作出一定的描述,并点击“确定按钮”  如果需要对数... 查看详情

用spss分析几个因素对某一因素的影响,用啥研究方法。

...:SPSS的相关要求规定:1、SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分... 查看详情

如何用spss进行数据分析?

...出,于2009年被IBM收购,主要运用于各领域数据的管理和统计分析。作为世界社会科学数据分析的标准,SPSS操作操作界面极其友好,结果输出界面也很美观,同时还配备十分详细的用户手册。1.1SPSS的核心功能?1.2数据编辑功能可... 查看详情

spss数据分析—信度分析

测量最常用的是使用问卷调查。信度分析主要就是分析问卷测量结果的稳定性,如果多次重复测量的结果都很接近,就可以认为测量的信度是高的。与信度相对应的概念是效度,效度是指测量值和真实值的接近程度。二者的区别... 查看详情

spss独立样本t分类变量??

...的命名在值选项那里进行2.之后,要保证正态性,可以用分析-描述统计-探索-绘制-正态分布之后进行分析3.符合正态分布之后,进行独立样本T检验的分析,分析-比较均值-独立样本T检验4.之后,进入独立样本T检验,组别放在分组... 查看详情

实验7-spss频率分析

SPSS频率分析---对公司购物网站用户消费行为以及消费态度进行分析 频率分析频率分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各种统计量来描述数据的分布特征,以便我们对数据的分布特征形成... 查看详情

如何用spss做多因素回归分析

参考技术ASPSS统计软件可以用来做许多数据分析,回归分析就是其中之一。回归分析就是探索两种及其以上变量之间的关系,运用十分广泛,按照自变量和因变量之间的函数关系类型可以分为线性回归分析和非线性回归分析。回... 查看详情

豆瓣电影的探索性分析实现(代码片段)

1、数据描述  使用python软件对豆瓣电影数据集进行探索性分析字段描述:MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_IDNAME: 电影名称ALIAS: 别名ACTORS: 主演COVER: 封面图片地址DIRECTORS: 导演GENRES: 类型OFFICIAL_SITE: ... 查看详情

用 R 重现 SPSS 因子分析

】用R重现SPSS因子分析【英文标题】:ReproducingSPSSfactoranalysiswithR【发布时间】:2013-08-1022:46:37【问题描述】:我希望有人能指出我正确的方向。首先,我不是统计学家。我是一名软件开发人员,我的任务是尝试使用R重现SPSS的因... 查看详情