热门标签 | HotTags
当前位置:  开发笔记 > 开发工具 > 正文

如何通过少量样本推断整体业务情况

在产品运营中非常常见,为了能够解决大量数据时分析效率急剧下降的窘况,我们就必须能够去分析非常小量样本的特征,再用这些特征去评估海量总体数据

在产品运营中非常常见,为了能够解决大量数据时分析效率急剧下降的窘况,我们就必须能够去分析非常小量样本的特征,再用这些特征去评估海量总体数据的特征,我们叫它样本检验

样本,是指我们需要“分析或考察的数据”的一部分;而需要“分析或考察的数据”我们叫作总体。说白了就是,用样本的分析情况,来反映总体的情况。抽取一小部分样本数据来快速分析全量用户的特征。


  • 例如我们要分析 DAU 的数据,今天 DAU 是 100万,那么这 100万 用户就是总体,其中的10万 用户便是样本;

  • 例如我们通过渠道投放来吸引用户注册,那么渠道能够覆盖的用户就是总体,该渠道过来的注册用户便是样本。

在产品运营中最常见的场景是估计总体某个指标平均值或某个占比/比例的范围,意思是我分析样本发现指标 A 的平均值是 a,那么用指标 A 的 a 值去估计总体的指标 A,并得出总体指标 A 的一个范围或区间,所以也叫区间估计。

以上是理论部分,接下来用一个实例来具体处理。


1、WPS计算数据分析的操作指引:

打开WPS excel表格,依次选择“公式-》插入函数”,出现如下界面:

 分析函数的英文对应关系如下:


分析函数对应英文
算术平均值AVERAGE
几何平均值GEOMEAN
方差VAR 
标准差STDEV 
置信区间CONFIDENCE

2、置信区间的计算:

置信区间有3个参数:

1、显著水平参数:指置信水平,绝大多数业务场景下我们应当选择 95%。显著水平就是1-95%=5%。

2、标准差:可从第1点得到。

3、标本容量:即样本数。


3、具体案例:

广告商承诺的指标,真的达到了吗?

你的产品正在寻求广告商合作以进行外部的获客投放。广告商承诺,在投放期间的注册率不会低于 8%。为了验证是否属实,你从过去 30 天的投放中抽取了 30 条注册率数据,发现平均转化率是 8.2%。

 

其中,样本均值是 8.2%(百分比的平均值用几何平均值,不是算数平均值哈),样本标准差是 0.5%,样本数量是 30,z 值是 1.96。故计算可得 A 为 0.2%,所以区间为 [8.2%-0.2%,8.2%+0.2%],即 [8.0%,8.4%]。

我们发现参数估计出的平均注册率区间在 8.0%~8.4%,可以认定已达到广告商承诺的 8%。


推荐阅读
  • IT项目管理过程中的方法、工具、技术
    工欲善其事,必先利其器。而对于一个软件开发项目,最重要的器就是方法,工具和技术。而这三要素中重要的又是方法论,方法是基础&# ... [详细]
  • 本文介绍如何使用 Python 的 Pandas 库中 Series 对象的 round() 方法,对数值进行四舍五入处理。该方法在数据预处理和分析中非常有用。 ... [详细]
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]
  • 深入解析 HDFS Federation:多命名空间架构详解
    HDFS Federation 是一种扩展 HDFS 架构的方式,通过引入多个独立的 NameNode 来解决单点故障和性能瓶颈问题。本文将详细探讨 HDFS Federation 的工作原理、优势以及潜在挑战。 ... [详细]
  • 本文介绍了如何使用 Spring Boot DevTools 实现应用程序在开发过程中自动重启。这一特性显著提高了开发效率,特别是在集成开发环境(IDE)中工作时,能够提供快速的反馈循环。默认情况下,DevTools 会监控类路径上的文件变化,并根据需要触发应用重启。 ... [详细]
  • 探讨如何高效使用FastJSON进行JSON数据解析,特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]
  • 本文详细介绍了如何在Linux系统上安装和配置Smokeping,以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装,确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 文章目录STDEV.PSTDEV.S展示释义STDEV.P计算总体的标准差(StandardDeviationForPopulation),公式如下:Var(x)∑i1n(xi−E ... [详细]
  • 本文详细介绍了如何使用Python中的xlwt库将数据库中的数据导出至Excel文件,适合初学者和中级开发者参考。 ... [详细]
  • 使用M函数轻松处理Excel中的多分隔符分列问题
    在处理Excel数据时,经常会遇到需要根据不同的分隔符来拆分单元格中的内容。本文介绍了一种利用M函数在Power Query中实现这一需求的方法,即使面对多种分隔符也能轻松应对。 ... [详细]
  • ˂p优秀的马里奥YouprobablywanttomakethecreationoftheformuladynamicsoeachrowofCta ... [详细]
  • MySQL性能测试标准倡议:老叶提出的压测基准
    进行MySQL的压力测试通常是为了评估新旧版本之间的性能差异、验证硬件升级的效果、测试参数调整的影响以及评估新业务的负载承受能力。老叶提出了一个MySQL压力测试基准值倡议,旨在促进行业内的标准化和成果共享。 ... [详细]
  • 利用R语言进行股票价格数据的线性回归分析
    本文介绍了如何使用R语言对Excel中的股票价格数据集执行线性回归分析。通过具体的代码示例,展示了数据的导入、处理及模型构建的过程。 ... [详细]
author-avatar
骁炉
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有