在产品运营中非常常见,为了能够解决大量数据时分析效率急剧下降的窘况,我们就必须能够去分析非常小量样本的特征,再用这些特征去评估海量总体数据的特征,我们叫它样本检验。
样本,是指我们需要“分析或考察的数据”的一部分;而需要“分析或考察的数据”我们叫作总体。说白了就是,用样本的分析情况,来反映总体的情况。抽取一小部分样本数据来快速分析全量用户的特征。
例如我们要分析 DAU 的数据,今天 DAU 是 100万,那么这 100万 用户就是总体,其中的10万 用户便是样本;
例如我们通过渠道投放来吸引用户注册,那么渠道能够覆盖的用户就是总体,该渠道过来的注册用户便是样本。
在产品运营中最常见的场景是估计总体某个指标平均值或某个占比/比例的范围,意思是我分析样本发现指标 A 的平均值是 a,那么用指标 A 的 a 值去估计总体的指标 A,并得出总体指标 A 的一个范围或区间,所以也叫区间估计。
以上是理论部分,接下来用一个实例来具体处理。
打开WPS excel表格,依次选择“公式-》插入函数”,出现如下界面:
分析函数的英文对应关系如下:
分析函数 | 对应英文 |
算术平均值 | AVERAGE |
几何平均值 | GEOMEAN |
方差 | VAR |
标准差 | STDEV |
置信区间 | CONFIDENCE |
置信区间有3个参数:
1、显著水平参数:指置信水平,绝大多数业务场景下我们应当选择 95%。显著水平就是1-95%=5%。
2、标准差:可从第1点得到。
3、标本容量:即样本数。
广告商承诺的指标,真的达到了吗?
你的产品正在寻求广告商合作以进行外部的获客投放。广告商承诺,在投放期间的注册率不会低于 8%。为了验证是否属实,你从过去 30 天的投放中抽取了 30 条注册率数据,发现平均转化率是 8.2%。
其中,样本均值是 8.2%(百分比的平均值用几何平均值,不是算数平均值哈),样本标准差是 0.5%,样本数量是 30,z 值是 1.96。故计算可得 A 为 0.2%,所以区间为 [8.2%-0.2%,8.2%+0.2%],即 [8.0%,8.4%]。
我们发现参数估计出的平均注册率区间在 8.0%~8.4%,可以认定已达到广告商承诺的 8%。