所谓参数估计也就是用样本统计量取估计总体的参数。例如,用样本均值x估计总体均值u等。
1.1 估计量与估计值
用来估计总体参数的统计量的名称,称为估计量,用符号O表示。
用来估计总体参数时计算出来的估计量的具体数值,称为估计值。
1.2 点估计与区间估计
参数估计方法有点估计和 区间估计两种。
用样本估计量O的值直接作为总体参数O的估计值,称为参数的点估计。
在点估计得基础上,给出总体参数估计的一个范围,称为参数的区间估计。
1.3 置信区间
由于统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给他取名叫置信区间。
如果我们将构造置信区间的步骤重复多次,置信区间中包含总体参数真值得次数所占的比率,称为置信水平,或称为置信系数。
对置信区间的理解,有以下几点需要注意:
如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值, 5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平 为95%的置信区间。同样,其他置信水平的区间也可以用类似的方式进行表 述。但在实际问题中,进行估计时往往只抽取一个样本,所构造的是与该样本相联系的置信水平为95%的置信区间。由于用该样本所构造的区间是一 个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真 值,所以,我们只能是希望这个区间是大量包含总体参数真值的区间中的一 个,但它也可能是少数几个不包含参数真值的区间中的一个。
之所以这样啰嗦地来表述罝信区间,原因是总体参数的真值是固定的、 未知的,而用样本构造的区间则是不固定的。抽取不同的样本,用该方法可 以得到不同的区间,从这个意义上说,罝信区间是一个随机区间,它会因样本 的不同而不同,而且不是所有的区间都包含总体参数的真值。
例如我们用95%的置倍水平得到某班学生考试成绩(单位:分)的置信区 间为60〜80,需要特别注意的是:我们不能说60〜肋这个区间以95%的概 率包含全班学生平均考试成绩的真值,我们只是知道在多次抽样中有95%的 样本得到的区间包含全班学生平均考试成绩的真值4它的真正意义是如果 做了 100次抽祥,大概有95次找到的区间包含真值,有5次找到的区间不包 含真值。假定全班考试成绩平均数的真值70,60〜80这个区间一定包含真 值,如果全班考试成绩平均数的真值为50,那么区间60〜80就绝对不包含真 值,无论你做多少次试验。因此,这个概率不是用来描述某个特定的区间包 含总体参数真值可能性的。—个特定的区间“总是包含”或“绝对不包含”参数 的真值。不存在“可能包含”或“可能不包含”的问題9但是,用概率可以知道 在多次抽样得到的区间中大槪有多少个区间包含了参数的真值。
1.4 评估估计量的标准
无偏性
无偏性是指估计量抽样分布的数学期望等于被估计得总体参数。设总体参数为O,所选择的估计量为O-,如果E(O-)=O,称O为O-的无偏估计量。
有效性
一个无偏的估计量并不意味着他就非常接近被估计得参数,他还必须与总体参数的离散程度比较小。对于同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效。假定有两个用于估计总体参数的无偏估计量,分为用O1h和O2表示,他们的方差分为用D(O1)he和D(O2)表示。在无偏估计的条件下,估计量方差越小估计也就越有效。
一致性
一致性是指随着样本容量的增大,点估计的值越来越接近被估总体的参数。
当我们研究一个总体时,所关心的参数主要有总体均值,总体比例,总体方差等。这一节我们将介绍如何用样本统计量来构造总体参数的置信区间。
2.1 总体均值的区间估计
2.2 总体比例的区间估计
这里我们只讨论大样本的区间估计
2.3 总体方差的区间估计
对于两个总体,我们所关心的参数主要有两个总体的均值之差,两个总体的比例之差,两个总体的方差比等。
3.1 两个总体均值之差的区间估计
3.2 两个总体比例之差的区间估计
3.2 两个总体方差比的区间分布
在进行参数估计之前,首先应该确定一个适当的样本容量,也就是应该抽取一个多大的样本来估计总体参数。在进行估计时,我们总是希望提高估计得可靠程度。通常,样本容量的确定与我们愿意容忍的置信区间的宽度以此区间设置的置信水平有一定关系。因此如何确定适当的样本容量,也是抽样估计的一个要考虑的问题。
4.1 估计总体均值时的样本容量的确定
4.2 估计总体比例时的样本容量估计
4.3 估计两个总体均值之差的样本容量确定
4.4 估计两个总体比例之差的样本容量确定