①产品UI:红色 or 紫色?,动态icon or 静态icon?
②文案内容:免费注册 or 注册送大礼包?
③页面布局:登录框 置于导航栏 or 页面左侧?
④产品功能:看似冗余的功能 下掉 or 留着?
⑤算法模型:根据用户的历史记录推荐 or 根据相似用户的行为推荐?
①确定对比指标
②创建变体
③生成假设
④收集数据
⑤运行实验
⑥分析结果
对于比率类的指标:
n
=
2
×
[
Z
α
/
2
+
Z
β
d
]
2
×
P
(
1
−
p
)
n=2\times \left[ \dfrac{Z_{\alpha /2}+Z_{\beta }}{d}\right] ^{2}\times P\left( 1-p\right)
n=2×[dZα/2+Zβ]2×P(1−p)
其中Z为Z系数,有一个固定的Z值表,可以依据
α
\alpha
α和
β
\beta
β指标确定。
工业应用中一般默认
α
=
0.1
(
单
尾
)
\alpha=0.1(单尾)
α=0.1(单尾)和
β
=
0.2
\beta=0.2
β=0.2,因此公式的分子部分
Z
α
/
2
+
Z
β
Z_{\alpha /2}+Z_{\beta }
Zα/2+Zβ可以固定为2.4849.
p为对照指标的历史月均值;
d为p与新方案预期提升率的乘积。
A/B test的本质是假设检验,即进行显著性检验以拒绝或接受原假设。
先对总体参数提出一个假设值,然后利用样本信息判定这一假设是否成立。
原假设(H0假设):一般是统计者想要拒绝的假设,原假设的设置一般为:=、≥、≤
备择假设(H1假设):一般是统计者想要接受的假设,备择假设的设置一般为:≠、>、<
例如,在做新旧版本的A/B test时,假设为:
H
0
:
u
(
旧
版
本
)
≥
u
(
新
版
本
)
H0:u(旧版本)≥u(新版本)
H0:u(旧版本)≥u(新版本)
H
1
:
u
(
旧
版
本
)
<
u
(
新
版
本
)
H1:u(旧版本)<u(新版本)
H1:u(旧版本)<u(新版本)
为什么把想要接受的假设作为原假设?
因为原假设被拒绝如果出错的话,只能犯第Ⅰ类错误(弃真错误),而犯第Ⅰ类错误的概率已经被规定的显著性水平所控制。
第Ⅰ类错误:也叫弃真错误或α错误,指拒绝了正确的原假设,这个错误的概率记为α,该值也是显著性水平,在假设检验前会规定这个概率的大小。
第Ⅱ类错误:也叫取伪错误或β错误,指接受了错误的原假设,错误的概率即为β。
显著性水平指原假设实际正确时,检验统计量落在拒绝域的概率,显著性水平α越小,犯第Ⅰ类错误的概率越小,一般取0.01,0.05,0.1等。
1-α即为置信度。
双侧检验和单侧检验
双侧检验:备择假设没有特定的方向性,形式为≠;
单侧检验:备择假设带有特定的方向性,形式为>、<,>称为右侧检验,<称为左侧检验;
t检验和z检验
场景不同:t检验用于样本量小(n<30),总体标准差未知的正态分布:z检验用于大样本(n>30)的平均值差异性检验。
原理不同:t检验是检验一个样本平均数与总体平均数的差异是否显著:z检验是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。
联系:z检验虽然能够进行均值差异性检验,但是它要求总体标准差已知且样本容量足够大,而这两个条件很难达成:于是可以从正态总体中抽取小规模的样本数据,并计算均值与标准差用来替代总体的均值和标准差。
拒绝域的功能是判断是否拒绝原假设,如果计算的检验统计量值落在拒绝域内,就拒绝原假设,否则接受原假设。
确定显著性水平后,查表即可得到拒绝域的临界值。
使用p值的原因:
根据检验统计量落入的区域做出是否拒绝原假设的方式不够精确,例如,拒绝域的临界值为1.96,显著性水平α为0.05,则统计量t=2.5和t=2.0都落入拒绝域,且拒绝原假设面临的风险都是0.05.
使用方式:
如果p>α 拒绝原假设 —>单边检验
如果p/2>α 拒绝原假设 —>双击检验
计算方式:
P=P{X
P=P{|X|>C} 双侧检验
可以理解为FDR(错误发现率),计算公式:假正数/预测为正的数.α =0.05时,一次假设检验的错误率为5%,那么多次假设时如何评估和控制错误率呢,就是通过q值.
如何控制:找到最大的正整数i,使得p(i)≤(i*q)/m.