样本方差计算公式里分母为n-1的目的是为了让方差的估计是无偏的。无偏估计(unbiased estimator)比有偏估计(biased estimator)是更符合数学推导的。在这里最让我们困惑的地方是,为什么分母必须得是n-1而不是n才能该估计无偏。这才是令大家真正困惑的地方!
理论推导验证设随机变量 X 的数学期望 μ 是已知的,然而方差 σ2 未知。在这个条件下,根据方差的定义我们有
因此 1n∑ni=1(Xi−μ)2=σ2 是方差 σ2 的一个无偏估计,注意式中的分母不偏不倚正好是n!
这个结果是符合我们的直觉的,在数学期望 μ 已知的条件下,求其方差我们用了n个数据。
现在,我们要考虑的是随机变量 X 的数学期望 μ 未知的情形(因为大部分情况下,我们对于总体是没有办法获得其准确均值的,我们获得的只是样本均值)。这时,我们会用样本均值 X¯ 替换掉上面式子中的 μ ,这样做很显然是不能得到总体真实均值的,肯定会有误差,这种不精确是更加倾向于低估差误的。
下面来看证明过程:
所以,在并不知道随机变量 X 真是数学期望的前提下,如何“正确”的估计方差呢?
答案就是把上式分母n换成n-1,通过这种方法可以把原来偏小的估计“放大”一点点,我们就能获得对方差的正确估计.
至于分母为什么是n-1,而不是n-2,这是通过无偏估计的方法求出来的,形式推导此处略过。
下面是无偏估计的具体形式:
深层次理解(无理论推导)
要理解分母为什么是n-1,我们先要理解在统计学当中自由度是什么,它是怎样确定的?
自由度的定义:构成样本统计量的独立的样本观测值的数目或自由变动的样本观测值的数目叫做自由度(Degrees of freedom 简称df)。
自由度的提出是出于这样的理由:在总体均值未知时,用样本均值去计算方差会受到一个限制——要计算标准差就必须得先知道样本均值,而样本均值和n都知道的情况下,数据的总和就是一个定值。
我们知道样本均值由下式得来:
我们可以把这个看作是一个方程。方程有n个变量,方程就是约束,一个方程代表了一个约束。n个变量就会有n个自由度,一个方程(约束)就会限制住一个自由度。所以由上式只有n-1个自由度(实质上这和线性代数理论中秩的概念不谋而合),当然如果要更深层次探究下去,也可以理解成这n个样本组成的向量就满足了一个线性条件,也就是只能在一个维度是n-1的空间里取值。(拓展到空间)
举个例子,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来了,自由度少一个了。
简单点就好比你有一百块,这是固定的,已知的,假设你打算买五件东西,那么前四件你可以随便买你想买的东西,只要还有钱的话,比如说你可以吃KFC可以买笔,可以买衣服,这些花去的钱数目不等,独特的龙猫只剩2块钱时,或许你最多只能买一瓶可乐了,当然也可以买一个肉松蛋卷,但无论怎么花,你都只有两块钱,而这在你花去98块那时就已经定下来了。
换句话说,在计算作为估计量的统计量时,引进一个统计量就会失去一个自由度。或者说为了估计期望而花费了一个自由度。(若能看懂此句,说明真的懂了)
回到最初的问题,为什么样本方差分母是n-1,到这里应该很清晰了。在求方差时,只有(n-1)个数和均值信息是不相关的(只有n-1个自由度)。而你的第n个数已经可以由前(n-1)个数和均值来唯一确定,实际上没有信息量。
所以在计算方差时,只除以(n-1)。