作者:猥琐叔装嫩小孩 | 来源:互联网 | 2023-09-16 12:44
阅读之前看这里????:博主是正在进行数据分析师求职的一员,博客记录的是在学习和求职过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。
博客地址:天阑之蓝的博客,学习过程中不免有困难和迷茫,希望大家都能在这学习的过程中肯定自己,超越自己,最终创造自己。
目录
- 1.AB测试的三种应用场景
- 2.AB测试的流程
- 设定目标
- 流量分配:最少样本量
- 流量分配:样本分配质量
- 数据分析:实验天数
- 数据分析:提升是否显著
- 数据结论
关于假设检验的基础和数学统计知识看这里数据分析面试【统计学】-----假设检验知识点归纳 ,本篇文章主要是实际的应用和案例分析。
1.AB测试的三种应用场景
-
UI选取:新增用户进入的时候建议核心功能的按钮换成绿色
-
运营活动:建议对过去30天支付宝未活跃,短期画像是理财的老用户,推送理财优惠券
-
功能添加:建议发布新版本增加短视频功能
在做AB测试的时候这三种场景有什么不同:
-
UI选取: 实验组和对照组一般是流量均衡
-
运营活动:实验组95%流量,对照组5%流量 刺激用户
-
功能添加:实验中5%流量,对照组95%流量 验证功能
2.AB测试的流程
主要流程如下:
![数据分析【实践】——AB测试的应用、案例及关键点 数据分析【实践】——AB测试的应用、案例及关键点](https://img1.php1.cn/3cd4a/24e5b/243/c2db706999626989.png)
关于在整个测试流程中的问题:
- 设定目标
实验组和对照组只有一个变量不一样,其它要一样
最终通过哪些指标来评估效果
- 流量分配
样本量究竟选取多少合适
怎么判断实验组和对照组的无差异性
- 数据分析
测试的时间多久比较合适
怎么判断实验组提升的显著性
- 输出结论
怎么去输出结论
设定目标
类型 |
建议 |
实验组 |
对照组 |
观察指标 |
设计 |
新增用户进入的时候建议核心功能边上增加两个字"点击" |
点击 |
空白 |
点击率、留存率 |
运营 |
建议对过去30天支付宝未活跃,短期画像是理财的老用户,推送理财优惠券 |
推送 |
不推送 |
流失率、触达率、点击率、ROI |
产品 |
建议发布新版本增加短视频功能 |
有短视频功能 |
无短视频功能 |
渗透率、功能留存率、大盘留存率、人均时长、卸载率 |
只有一个变量,观察指标要确定
流量分配:最少样本量
案例:某客户端当前大盘次日留存率45%,最近决定准备上线一个直播功能,预估至少提升0.2%留存率,问最少需要多少样本量。
理论上:样本越多越好,当样本量很少的时候,容易造成试验结果的不稳定。
工作上:样本量越少越好,流量往往都是很有限的,最重要的是试验成本不能太高。
流量太大有问题:试验成本太高
具体的可以通过各方面情况进行评估,还有一个快捷的方式:
通过 https://www.evanmiller.org/ab-testing/sample-size.html 这个网站,确定当前的基准率,以及想要提升的变化率,便可得到预估的实验最少样本量。
如下图所示:
![数据分析【实践】——AB测试的应用、案例及关键点 数据分析【实践】——AB测试的应用、案例及关键点](https://img1.php1.cn/3cd4a/24e5b/243/a3761ca89e2a6ef9.png)
我们经过计算,当前留存率为45%,提升0.2%,最少需要样本量为97.2万左右。
同时需要设定检验效能和显著性水平,具体概念可看之前的文章定义。
![数据分析【实践】——AB测试的应用、案例及关键点 数据分析【实践】——AB测试的应用、案例及关键点](https://img1.php1.cn/3cd4a/24e5b/243/36d9525c54e29266.png)
检验情形 |
原假设成立 |
原假设不成立 |
接受原假设 |
正确 |
第二类错误 β
|
拒绝原假设 |
第一类错误α
|
正确 |
案例:某客户端当前大盘次日留存率45%,最近决定准备上线一个直播功能,预估至少提升0.2%留存率,最终也上线了一周的数据,发现实验组与对照组留存率一直差不多(或者提升太多),怀疑是不是实验组和对照组本身就有差异。
这种情况下:测试之前应该要做一个AA测试
实验组:10w
对照1组:10w
对照2组:10w
通过对比对照1组和对照2组的留存率指标看流量分配是否有问题。
数据分析:实验天数
案例:某客户端当前大盘次日留存率45%,最近决定准备上线一个直播功能,预估至少提升0.2%留存率,每天只有10w的用户量可以做测试,问实验需要多久。
最少样本量为:98w,每天10w,至少需要10天
用户新鲜效应:3天
用户行为周期:周末与平时产品差异很大,需要覆盖一个周末
因此总共实验天数为10+3=13天,也就是测试大约2周
![数据分析【实践】——AB测试的应用、案例及关键点 数据分析【实践】——AB测试的应用、案例及关键点](https://img1.php1.cn/3cd4a/24e5b/243/69130f48110011cf.png)
而且在上线后的实验组前几天数据是不可信的,需要长期观察。
数据分析:提升是否显著
案例:某客户端每天有5万用户进入,最近2级功能UI整改,目的是提升点击率,用户在第一次进入的时候被随机分配到A/B组,并后续持续为该组用户。
统计结果:实验组点击率0.02,对照组0.018
问题:现在业务方无法判断提升是否明显?
可以用z检验进行去计算,一般取95%置信区间,求出对应的z值,求出P值,对比其显著性。
![数据分析【实践】——AB测试的应用、案例及关键点 数据分析【实践】——AB测试的应用、案例及关键点](https://img1.php1.cn/3cd4a/24e5b/243/a6ded80b914d193e.png)
这里1.637小于z值1.645,所以提升不明显。
数据结论
-
即时实验效果不会也要及时同步数据,并及时排查原因
例子:对过去30天薅羊毛特征未活跃用户,实验组通过短信方法发送优惠券,最好和对照组相比数据没有任何提升,排查发现是短信点击率非常低,后改为app弹窗效果明显提升。
-
即时实验组功能指标好于对照组,仍然要评估两组的收入成本指标
例子:某汽车页面实验组增加了一个点击按钮,对照组没有增加,实验组点击率显著优于对照组,但在最终交易额上,对照组更高,因此选择对照组方案。
-
实验组和对照组可以按照用户基础属性来做拆分,看的更加全面
例子:对于新用户往往产品接受度更高,实验组UI改版上转化率明显要提高;而对于老用户产品习惯已经养成,实验组UI改版上转化率反而下降。
—————————————————————————————————————————————————
博主码字不易,大家关注点个赞转发再走呗 ,您的三连是激发我创作的源动力^ - ^
![数据分析【实践】——AB测试的应用、案例及关键点 数据分析【实践】——AB测试的应用、案例及关键点](https://img1.php1.cn/3cd4a/24e5b/243/21822b12b3a4884a.png)