与贝叶斯学派的MCMC相比,Bootstrap是频率学派的大杀器!本文对其做一简单介绍。
我们先看一下统计量的抽样分布:
统计量抽样分布:统计量的分布规律,描述了从同一总体重复抽样时,统计量会有些什么样的值,以及每个值出现的可能性大小。
则有样本均数的抽样分布,很容易计算出来:
但是,并不是所有的情况,都有现成的公式摆在那里让你去套用。
例如:同样上述抽取的简单随机样本,中位数的抽样分布、第25百分位数的抽样分布、方差标准差的抽样分布,公式是什么呢?
于是,Bootstrap法便有了用武之地,不需进行推导,便可获得统计量的抽样分布,进而计算所需的置信区间等一系列指标。
Bootstrap操作流程:
上图中,从左侧原始数据中,反复抽取样本(右侧一列三个表格即为抽取的bootstrap样本)。有放回的抽取,同一个样本允许抽取多次。
对于每一个bootstrap样本,我们都可以计算一个bootstrap样本统计量。
于是有:
众多bootstrap样本统计量的标准差 = (原始样本)统计量抽样分布的标准误。
上图(左):从真实总体中抽样1000次的统计量分布;
上图(中):从某一样本中抽取bootstrap样本1000次的统计量分布;
上图(右):两者分布的比较。
从图中可以看出,bootstrap获得的抽样分布,是真实抽样分布的一个很好的近似。
具体软件实现,见之前分享的一篇文章: