请选择 进入手机版 | 继续访问电脑版

正态分布检验

已有 2285 次阅读2022-4-23 00:37 |个人分类:科研笔记|系统分类:医学科学| 正态分布, 正态性检验

一、正态检验的必要性[1]

当对样本是否服从正态分布存在疑虑时,应先进行正态检验;如果有充分的理论依据或根据以往积累的信息可以确认总体服从正态分布时,不必进行正态检验。

当然,在正态分布存疑的情况下,也就不能采用基于正态分布前提的参数检验方法,而应采用非参数检验。

二、图示法

1、P-P图

以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。

2、Q-Q图

以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。

Q-Q图为佳,效率较高。

以上两种方法以

3、直方图

判断方法:是否以钟形分布,同时可以选择输出正态性曲线。

4、箱式图

判断方法:观测离群值和中位数。

5、茎叶图

类似与直方图,但实质不同。

三、计算法

1、峰度(Kurtosis)和偏度(Skewness)

(1)概念解释

峰度是描述总体中所有取值分布形态陡缓程度的统计量。这个统计量需要与正态分布相比较,峰度为0表示该总体数据分布与正态分布的陡缓程度相同;峰度大于0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰;峰度小于0表示该总体数据分布与正态分布相比较为平坦,为平顶峰。峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。

峰度的具体计算公式为:

注:SD就是标准差σ。峰度原始定义不减3,在SPSS中为分析方便减3后与0作比较。

偏度与峰度类似,它也是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性。这个统计量同样需要与正态分布相比较,偏度为0表示其数据分布形态与正态分布的偏斜程度相同;偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值;偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。

偏度的具体计算公式为:

各种正态分布,尽管μ和σ可以分别取不同的值,但偏度都等于0,峰度都等于3,它们的密度函数曲线的形状都是一样的[1]。(SPSS中峰度减3与0比较

(2)适用条件

样本含量应大于200。

(3)检验方法

计算得到的峰度、偏度根据正态分布的值3、0(SPSS中为0、0)来直观判断是否接近。

应对二者分别进行U检验来定量描述显著性,方法如下[2]:峰度U检验:|峰度-3| / 峰度标准差 <= U0.05 = 1.96(SPSS中将3替换为0)偏度U检验:|偏度-0| / 偏度标准差 <= U0.05 = 1.96

如果上述都成立,则可认为在0.05显著水平符合正态分布(下例偏度可判断不符合。

2、KS检验和SW检验

非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk(W检验)。

(1)KS检验和SW检验的区别

二者以样本量大小来区分适用范围,样本量的判定标准有以下几种不同说法:

①SAS软件规定:当样本含量n≤2000时,结果以Shapiro – Wilk(W检验)为准,当样本含量n >2000时,结果以Kolmogorov – Smirnov(D检验)为准。

②SPSS软件规定:

a.如果指定的是非整数权重,则在加权样本大小位于3和50之间时,计算Shapiro-Wilk统计量。对于无权重或整数权重,在加权样本大小位于3和5000之间时,计算该统“Shapiro – Wilk适用于样本量3-50之间的数据”计量。由此可见,部分SPSS教材里面关于的说法不准确。

b.单样本KS检验可用于检验变量(是否为正态分布。(理解为样本5000以上)

③国标GB/T 4882-2001《数据的统计处理和解释正态性检验》:SW检验适用于样本数8≤n≤50,小样本(n<8)对偏离正态分布的检验不太有效。

(2)KS检验的使用方法

KS检验属于非参数检验,SPSS有两种方式:一是explore(探索)结果中的KS检验(如下表),二是单样本KS检验。

在KS检验中,由于未考虑已知总体参数的情形,而是直接从样本中提取参数作为总体参数的估计值,因此它实质上是修正的正态检验,即Lilliefors修正。因此,KS检验不适用于小样本检验,而适合大样本的连续变量。SPSS在explore(探索)结果中会注明KS检验结果是“Lilliefors Significance Correction”,而在单样本KS检验中没有注明(根据网络资料,老版本SPSS此处未修正,新版本则进行了修正)。

因此,上述两种方式在新版本SPSS中是相同结果。

(3)SW检验的使用方法

SPSS没有专门的菜单选项,同样是在explore(探索)中给出SW检验结果(如下表)。SPSS统计分析1:正态分布检验.

3.卡方检验

也叫Pearson卡方检验,主要用于分类变量,根据样本数据推断总体分布与期望分布是否有显著差异,或推断两个分类变量是否相关或相互独立,主要依据观察频数与期望频数的差异来判断。注意,使用前提是样本量足够大(不小于50)[3,4],而且每个单元格中的期望频数不能太小,如果小于5则与相邻单元格合并;如果20%的单元格理论频率都小于5,卡方检验不再适用[4]。

注:SPSS中非参数检验卡方菜单只提供了均布的选项,其他分布需要手工填写分布频率,故不便于直接使用。

四、方法的比较

1. 图示法相对于其他方法而言,比较直观,方法简单,从图中可以直接判断,无需计算,但这种方法效率不是很高,它所提供的信息只是正态性检验的重要补充。

2. 经常使用的卡方拟合优度检验和Kolmogorov-Smirnov检验的检验功效较低,在许多计算机软件的Kolmogorov-Smirnov检验无论是大小样本都用大样本近似的公式,很不精准,一般使用Shapiro-Wilk检验和Lilliefor检验。

3. Kolmogorov-Smirnov检验只能检验是否一个样本来自于一个已知样本,而Lilliefor检验可以检验是否来自未知总体。

4. Shapiro-Wilk检验和Lilliefor检验都是进行大小排序后得到的,所以易受异常值的影响。

5. Shapiro-Wilk检验只适用于3-50小样本场合,其他方法的检验功效一般随样本容量的增大而增大。

6. 拟合优度检验和Kolmogorov-Smirnov检验都采用实际频数和期望频数进行检验,前者既可用于连续总体,又可用于离散总体,而Kolmogorov-Smirnov检验只适用于连续和定量数据。

7. 拟合优度检验的检验结果依赖于分组,而其他方法的检验结果与区间划分无关。

8. 偏度和峰度检验易受异常值的影响,检验功效就会降低。

9. 假设检验的目的是拒绝原假设,当p值不是很大时,应根据数据背景再作讨论。

五、大样本数据的描述

(1)正态分布

描述格式为:均数±标准差

(2)非正态分布

用中位数和四分位数来描述,格式为:M(Q1,Q3)或M(Q3-Q1)

参考文献

[1]梁小筠.正态性检验[J].上海统计,2000(10-12

[2]宇传华.SPSS与统计分析[M].北京:电子工业出版社,2007:256-257

[3]杨虎.应用数理统计[M].北京:清华大学出版社,2006.12:75-76


路过

鸡蛋

鲜花

握手

雷人

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 立即注册

返回顶部