标准差为什么除以n-1

前言

在学习统计学的时候,我遇到过这么一个问题,也就是说,样本的标准差公式,如下所示:

很多统计学书上都提到,在样本标准差的计算公式中,平方根中的分子是 $n-1$,而总体标准差则是 $n$ 。其理由是为了校正样本变异性而做出的调整,这是对总体标准差的无偏估计。

但是,为什么说这是一种无偏估计,很多书中并没有提及,或者说是只用了很粗略的语言简单地说了一下,其实也没必过于纠结这个问题,记住就行。但是,如果实在是想弄明白这个问题,网上也有人给出了证明过程,但是证明过程对于没有数学基础的人来讲,还是有点难的,这个完整的证明过程的可以参考知乎上的这个帖子《为什么样本方差(sample variance)的分子是n-1》

最近我看到了一本统计学的书《行为科学统计》(第七版)作者:[美]FrederickJ Gravetter,这本书中对这个问题的描述很清楚,通过用举例子的方式说明了一下(并非严格证明),为什么在样本标准差中,使用 $n-1$ 是对总体方差的无偏估计。

另外说明一下,《行为科学统计》这本书原本就是给社会学的学生学习统计学准备的,里面的语言浅显易懂,没有复杂的公式,对于数学功底差的学生来说,非常友好,最新一版已经到了第9版。

背景知识

  1. 离差:数据到平均数的距离,例如对于一个 $\mu = 50$ 的分布来说,如果你的一个数据是 $X=53$ ,那么离差就是 $X-\mu = 53 - 50 = 3$。如果数据是45,那么离差就是 $45-50=-5$。
  2. 离均差平方和(SS,sum of squares of deviation from mean):由于离差有正有负,最终所有离均差的和即 $(X-\mu)$ 为0,因此离均差的和无法描述一组数据的变异大小。因此将离均差平方后相加得到平方和$Var(X)=E(X-\mu)^2$,这就是离均差平方和(sum of squares of deviations from mean, SS)。
  3. 方差:方差定义为离均差平方和的平均数,如下所示:

  1. 标准差:方差的平方根。

计算过程

先来看一组数据,即1, 9, 5, 8, 7,我们把这个数据当作是总体,现在我们计算它的离差,离差的平方等,如下所示:

1
2
3
4
5
6
a <- c(1,9, 5, 8, 7) # 原始数据
a - mean(a) # 离差
(a- mean(a))^2 # 离差的平方
sum((a- mean(a))^2) # 离均差平方和
sum((a- mean(a))^2)/length(a) # 方差
sqrt(sum((a- mean(a))^2)/length(a)) #标准差

计算结果如下所示:

1
2
3
4
5
6
7
8
9
10
11
> a <- c(1,9, 5, 8, 7) # 原始数据
> a - mean(a) # 离差
[1] -5 3 -1 2 1
> (a- mean(a))^2 # 离差的平方
[1] 25 9 1 4 1
> sum((a- mean(a))^2) # 离差的平方和
[1] 40
> sum((a- mean(a))^2)/length(a) # 方差
[1] 8
> sqrt(sum((a- mean(a))^2)/length(a)) #标准差
[1] 2.828427

总体方差与样本方差

总体方差的计算公式就是方差的定义:

总体标准差就是总体方差的平方根,如下所示:

样本方差与总体方差有所不同,为了校正样本变异性,我们需要对方差和标准有效期的公式做出调整,此时样本方差公式中的分母是 $n-1$, 如下所示:

样本标准差的公式如下所示:

这里要注意的是,公式使用了 $n-1$ 来代替 $n$ ,这是为了校正样本变异性的偏误做出的调整,调整的结果使所得的结果变大,从而使样本方差成为对总体方差精确的无偏估计(如果是n,则是有偏估计)。

下面我们用不太严谨的一个案例来说明一下为什么样本方差中的分母是 $n-1$ 。

举例说明为什么是n-1

现在我们设计一个N=6的总体,它的元素为0, 0, 3, 3, 9, 9,现在我们计算可知它的总体均数为 $\mu=4$, 方差 $\sigma^2 = 14$。

现在我们从这个总体中选择一个 $n=2$ 的样本,我们选出所有可能的组合,并计算出其平均数,有偏方差,无偏方差,如下所示:

样本编号 第1个数 第2个数 平均数 有偏的方差(n) 无偏的方差(n-1)
1 0 0 0 0 0
2 0 3 1.5 2.25 4.5
3 0 9 4.5 20.25 40.5
4 3 0 1.5 2.25 4.5
5 3 3 3 . 0
6 3 9 6 9 18
7 9 0 4.5 20.25 40.5
8 9 3 6 9 18
9 9 9 9 0 0
总和 36 63 126

现在我们观察平均数这一列,原始的总体均数为 $\mu = 4$。虽然没有一个样本的均数恰好为4,但是如果考虑整组样本,将会发现,9个样本的平均数总和为36,因此样本均数数的平均数为 36/9=4,此时样本平均数恰好等于总体平均数。根据定义,这是一个无偏的统计量,也就是说,样本精确地代表了总体。

现在我们考虑用除以n得到的存在偏误的样本方差这一列。原始的总体方差是 $\sigma^2 = 14$。 然而,9个样本方差的总和为63, 这使得63/9=7。注意,这些样本方差的平均值不等于总体方差,也就是说,如果用除以n得到的样本方差,得出的结果不能精确估计总体方差, 也就是说,这些样本方差低估了总体方差,因此是存在偏误的统计量。

现在我们再考虑除了n-1得到的样本详这一列,虽然总体方差为$\sigma^2=14$,然而没有一个样本的方差恰好等于14。但是,如果考虑整组样本方差,将会发现这9个值总和为126,因此方差的平均值为126/9=14。因此,样本方差的平均值恰好等于总体方差。也就是说,样本方差(此时是使用了n-1来代替n)是对总体方差的一个精确的、无偏的估计。

结论就是,样本平均数和样本方差(使用n-1)都是无偏估计的例子。这个事实使样本平均数和样本方差在推论统计方面变得非常重要。虽然没有单个样本恰好具有与总体一样的平均数和方差,但是,样本平均数和样本方差的平均值确实提供了对相应总体参数的精确估计。

参考资料

  1. 行为科学统计 作者: [美] F. J. Gravetter / [美] L. B. Wallnau,出版社: 中国轻工业出版社,原作名: Statistics for the behavioral sciences,译者: 王爱民 / 李悦,出版年: 2008-7