我们的确可以使用点估计量来估计总体均值、方差或一定比例的精确值,但是我们始终无法确定我们使用的样本一定是无偏样本,因此我们考虑使用置信区间的方法来估计总体统计量,因为它是考虑了不确定性的方法。
糖果公司用一个包含100粒糖球的样本得出口味持续时间均值的点估计量为62.7分钟,于是便在电视节目黄金时段宣布其公司糖球口味的平均持续时间为62.7分钟,但有人自行做了测试,得出了不同的结果,威胁要起诉糖果公司。
此时,我们应该制定的是总体均值的估计值的区间范围,而不是一个精确值,因为这样的话会给予我们更大的误差空间,就不容易被人起诉了。
在问题中,需要为糖球口味持续时间的均值来构建区间,于是需要为总体均值μ\muμ来构建一个置信区间。
为了求出总体均值的抽样分布,我们需要先计算出X‾\overline XX的期望、方差和分布。而这些在上一节中已经计算过了。
此时一个问题是我们现在并不知道总体的方差是多少,但是我们可以借用点估计法μ^\hat{\mu}μ^ 或 s2s^2s2 来近似替代,因为这已经是我们目前所具有的数据中可以得到的最近似的值了。公式进一步推导成如下形式。
对于样本均值的分布,我们可以根据"若X符合正态分布,那么X‾\overline XX也符合正态分布"的定理来得知,其应符合正态分布。在本题中即是X‾∼N(μ,s2n)\overline X \thicksim N(\mu,\frac{s^2}{n})X∼N(μ,ns2)。
置信水平表明你希望自己对于“总体统计量落入置信区间”的这一说法有多大的把握,比如我们希望总体均值的执行水平为95%,这表明总体均值处于置信区间的概率为0.95,当然可以更高如99%,这样糖果公司就可以更有信心在广告宣称“总体均值位于这个置信区间”这一说法。
值得注意的是,置信水平越高,区间越宽,也就是确定的概率越大,范围越广,也越对说法有把握。
为了防止说法几乎毫无意义,我们需要确定一个合适的置信水平,确保范围小而可靠,对此,我们一般采用95%作为常用置信水平。
根据抽样分布和选择好的置信水平来求出置信上下限,从而确定置信区间的范围。
此时我们再将X‾\overline XX进行标准化,从而利用正态分布表来查出其对应的区间值。
此时我们将括号里面的不等式进行展开,即可确定置信区间范围,其中X‾\overline XX可以通过样本x‾\overline xx来计算。
得出最后结果。
糖果公司想求出糖球重量的置信区间,但只抽取了少量的样本,比如抽取了一个具有代表性的样本,共10颗,然后称了每一粒糖球的重量,计算出这个样本的X‾\overline XX=0.5,s2s^2s2=0.09,此时该如何求出其置信区间。
我们需要为糖球重量均值构建一个置信区间,也就是要为总体均值μ\muμ构建置信区间。
当总体符合正态分布,δ2\delta^2δ2未知,且可供支配的样本很小时,X‾\overline XX符合T分布。而当样本数量为n个时,T分布的形式为T∼t(n−1)T\thicksim t(n-1)T∼t(n−1),而T=X‾−us/nT=\frac{\overline X - u}{s/\sqrt{n}}T=s/nX−u,也就是说在这道题中T=X‾−us/n∼t(9)T=\frac{\overline X - u}{s/\sqrt{n}} \thicksim t(9)T=s/nX−u∼t(9)。
一般设置为95%。
再利用T分布概率表可求出P(T>t)=pP(T>t)=pP(T>t)=p中的t值,在这道题中p=0.025。