作者:林筱杏-HA | 来源:互联网 | 2023-07-05 21:42
这里开始就是数理统计的东西了,没有接触过的童鞋可能会觉得有点不能接受,其实接触多了也就熟悉了。个人有这样一种感觉,假设检验和区间估计就是概率的概率,或者说,就是概率论的二次方。先说一下抽样和估计吧。我
这里开始就是数理统计的东西了,没有接触过的童鞋可能会觉得有点不能接受,其实接触多了也就熟悉了。个人有这样一种感觉,假设检验和区间估计就是概率的概率,或者说,就是概率论的二次方。
先说一下抽样和估计吧。我们现在有一个总体,但是,通常总体的一些统计量的获取是很花时间和金钱的,所以呢,我们就想着抽样。所谓抽样,当然就是从整体中抽一些样本出来。这个时候就有一个问题了,我计算了抽样获得的样本的均值、方差,真的能够描述原来总体的均值、方差么?
按照我们高中的数学知识,确实是这样的,我们算好均值,就可以认为是总体的了。这就是点估计。那什么是区间估计呢?我不告诉你一个点,我告诉你一个区间。这样就有一个问题了,区间可以很大呀。比如说我抽样之后告诉你,总体的平均身高在0到3米之间,这个就有点废话了,所以在区间估计的时候,我们会说置信度,也就是说,多大的概率,这个均值落在这个区间里面。
那么这个怎么计算呢?
所以我们要多次抽样,获得很多的均值,这时候,我们获得的均值是一个随机变量了,那么他就有分布,就有均值(这是均值的均值),就会有方差等等。是不是我之前说的概率论的平方啊。
这个时候,我们要提出一个很重要的定律,中心极限定律。他是这么说的:
你不是抽样么,如果你抽样抽的很多,每次抽样的数量大于30,那么,我们认为你得到的均值的分布是一个正态分布,这个正态分布。既然是正态分布,就会有两个参数,期望和方差。期望就是总体的均值。那么方差是什么呢?方差就是总体方差除以n。
现在,会有两个问题,首先说第一个,万一抽样数量没有30个怎么办?这个时候就要分情况考虑了,如果总体是服从正态分布的,那么还是一样满足;如果总体不是正态分布,那么就不能用这个中心极限定律了。
还有一个问题是,你怎么知道总体的方差?这时候就需要t-分布了。如果你不知道总体的方差,那么我们用样本的方差来代替,但是这时候均值的分布就不是正态分布了,而是一个t-分布。总结一下就是下面这张表。之前提过,当t-分布的样本很多的时候,趋近与正态分布,所以,有时候,正态分布和t-分布都可以使用。
有了上面这样的基础,我们就知道如何获取一个给定置信度下的置信区间了。
譬如我们进行一次抽样,抽取100个,然后计算这100样本的均值和方差,然后根据这一方差除以100得到均值分布的方差。进行正态分布归一化后,利用之前的分位数,就可以获得一个区间了。
这就是区间假设。
如果把上面的步骤反过来,就变成了假设检验了。
在假设检验的第一步,就是写出假设,一个叫null假设,一个叫备择假设。null假设通常是用来拒绝的,那怎么叫拒绝呢,就是我么看他有没有落在置信区间里面。很easy的思想。
但是,不同的假设使用的分布式不同的,比如我们假设均值等于4,那么我们看一下,4在不在我们的区间里面,这个区间你是使用正态分布分位数算出来的;如果判断一个方差是不是某个值呢?这时候就用卡方分布;如果是测试两个分布的方差是否一样的,那么就是F-分布。
这就是所谓的假设检验。当然,还有很多的数学细节,但是思想就是这样。