热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

一文搞懂A/Btest与假设检验

ABtest应用场景①产品UI:红色or紫色?,动态iconor静态icon?②文案内容:免费注册or注册送大礼包?③页面布局:登录框置于导航栏or页面左侧?④产品功能:看似冗余的




A/B test

应用场景

①产品UI:红色 or 紫色?,动态icon or 静态icon?
②文案内容:免费注册 or 注册送大礼包?
③页面布局:登录框 置于导航栏 or 页面左侧?
④产品功能:看似冗余的功能 下掉 or 留着?
⑤算法模型:根据用户的历史记录推荐 or 根据相似用户的行为推荐?


流程

①确定对比指标
②创建变体
③生成假设
④收集数据
⑤运行实验
⑥分析结果


样本规模

对于比率类的指标:





n


=


2


×




[





Z



α


/


2




+



Z


β




d



]



2



×


P



(


1





p


)




n=2\times \left[ \dfrac{Z_{\alpha /2}+Z_{\beta }}{d}\right] ^{2}\times P\left( 1-p\right)


n=2×[dZα/2​+Zβ​​]2×P(1−p)
  其中Z为Z系数,有一个固定的Z值表,可以依据




α



\alpha


α和




β



\beta


β指标确定。
  工业应用中一般默认




α


=


0.1















\alpha=0.1(单尾)


α=0.1(单尾)和




β


=


0.2



\beta=0.2


β=0.2,因此公式的分子部分





Z



α


/


2




+



Z


β




Z_{\alpha /2}+Z_{\beta }


Zα/2​+Zβ​可以固定为2.4849.
  p为对照指标的历史月均值;
  d为p与新方案预期提升率的乘积。


测试结果分析

  A/B test的本质是假设检验,即进行显著性检验以拒绝或接受原假设。


假设检验

定义

  先对总体参数提出一个假设值,然后利用样本信息判定这一假设是否成立。


生成假设

  原假设(H0假设):一般是统计者想要拒绝的假设,原假设的设置一般为:=、≥、≤
  备择假设(H1假设):一般是统计者想要接受的假设,备择假设的设置一般为:≠、>、<
例如,在做新旧版本的A/B test时,假设为:
  




H


0





u


(











)





u


(











)



H0:u(旧版本)≥u(新版本)


H0:u(旧版本)≥u(新版本)
  




H


1





u


(











)





u


(











)



H1:u(旧版本)<u(新版本)


H1:u(旧版本)<u(新版本)

为什么把想要接受的假设作为原假设?
  因为原假设被拒绝如果出错的话,只能犯第Ⅰ类错误(弃真错误),而犯第Ⅰ类错误的概率已经被规定的显著性水平所控制。


两类错误

  第Ⅰ类错误:也叫弃真错误或α错误,指拒绝了正确的原假设,这个错误的概率记为α,该值也是显著性水平,在假设检验前会规定这个概率的大小。
  第Ⅱ类错误:也叫取伪错误或β错误,指接受了错误的原假设,错误的概率即为β。


显著性水平α

  显著性水平指原假设实际正确时,检验统计量落在拒绝域的概率,显著性水平α越小,犯第Ⅰ类错误的概率越小,一般取0.01,0.05,0.1等。
  1-α即为置信度。


检验方式

双侧检验和单侧检验
  双侧检验:备择假设没有特定的方向性,形式为≠;
  单侧检验:备择假设带有特定的方向性,形式为>、<,>称为右侧检验,<称为左侧检验;

t检验和z检验
  场景不同:t检验用于样本量小(n<30),总体标准差未知的正态分布:z检验用于大样本(n>30)的平均值差异性检验。
  原理不同:t检验是检验一个样本平均数与总体平均数的差异是否显著:z检验是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。
  联系:z检验虽然能够进行均值差异性检验,但是它要求总体标准差已知且样本容量足够大,而这两个条件很难达成:于是可以从正态总体中抽取小规模的样本数据,并计算均值与标准差用来替代总体的均值和标准差。


拒绝域

  拒绝域的功能是判断是否拒绝原假设,如果计算的检验统计量值落在拒绝域内,就拒绝原假设,否则接受原假设。
  确定显著性水平后,查表即可得到拒绝域的临界值。
在这里插入图片描述


p值

使用p值的原因:
  根据检验统计量落入的区域做出是否拒绝原假设的方式不够精确,例如,拒绝域的临界值为1.96,显著性水平α为0.05,则统计量t=2.5和t=2.0都落入拒绝域,且拒绝原假设面临的风险都是0.05.
使用方式:
  如果p>α 拒绝原假设 —>单边检验
  如果p/2>α 拒绝原假设 —>双击检验
计算方式:
  P=P{X   P=P{X>C} 右侧检验
  P=P{|X|>C} 双侧检验


q值

  可以理解为FDR(错误发现率),计算公式:假正数/预测为正的数.α =0.05时,一次假设检验的错误率为5%,那么多次假设时如何评估和控制错误率呢,就是通过q值.
  如何控制:找到最大的正整数i,使得p(i)≤(i*q)/m.



推荐阅读
  • 提升Python编程效率的十点建议
    本文介绍了提升Python编程效率的十点建议,包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间,提高编程效率。同时,还提供了相关参考链接供读者深入学习。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 近年来,大数据成为互联网世界的新宠儿,被列入阿里巴巴、谷歌等公司的战略规划中,也在政府报告中频繁提及。据《大数据人才报告》显示,目前全国大数据人才仅46万,未来3-5年将出现高达150万的人才缺口。根据领英报告,数据剖析人才供应指数最低,且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示,未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中,60%以上的招聘职位都是针对大数据人才的。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文介绍了C#中生成随机数的三种方法,并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法,但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数,进一步突显了这个问题。文章指出,随机数生成在任何编程语言中都是必备的功能,但Random类生成的随机数并不可靠。最后,提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]
  • qt学习(六)数据库注册用户的实现方法
    本文介绍了在qt学习中实现数据库注册用户的方法,包括登录按钮按下后出现注册页面、账号可用性判断、密码格式判断、邮箱格式判断等步骤。具体实现过程包括UI设计、数据库的创建和各个模块调用数据内容。 ... [详细]
  • “你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间,这是我们最战战兢兢的心情。但是显然,有些人体会不了。这份行业数据,让笔者“柠檬” ... [详细]
  • 生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍
    一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks(论文下载链接arxiv:[h ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 无线认证设置故障排除方法及注意事项
    本文介绍了解决无线认证设置故障的方法和注意事项,包括检查无线路由器工作状态、关闭手机休眠状态下的网络设置、重启路由器、更改认证类型、恢复出厂设置和手机网络设置等。通过这些方法,可以解决无线认证设置可能出现的问题,确保无线网络正常连接和上网。同时,还提供了一些注意事项,以便用户在进行无线认证设置时能够正确操作。 ... [详细]
  • 本文介绍了游戏开发中的人工智能技术,包括定性行为和非定性行为的分类。定性行为是指特定且可预测的行为,而非定性行为则具有一定程度的不确定性。其中,追逐算法是定性行为的具体实例。 ... [详细]
author-avatar
妖姬脸似花甘露_545
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有