热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

优秀的数据敏感度应该如何培养?

来源:中国统计网大家有没有特别羡慕和害怕过这种人,他能一眼看出你做的PPT里面的数据异常,随时能提出一个数据证明你的小结论有问题ÿ


来源:中国统计网

大家有没有特别羡慕和害怕过这种人,他能一眼看出你做的PPT里面的数据异常,随时能提出一个数据证明你的小结论有问题,然后以一个数据问题迅速推翻你整个报告的结论,结果就是你做了整整一个月的分析,全毁了,从头再来。

这样的人逻辑性极强且对你的汇报有生杀大权,最重要的是他有极强的数据敏感度。

那么,什么是数据敏感度?

所谓的数据敏感度,其实就是在大脑内建立了数字和业务之间的联系,而优秀的数据敏感度,就是能够一眼看出数据的问题和背后可能的原因。

什么叫一眼看出?

  • 如果你是游戏行业的,我告诉你这款MMORPG的次留是20%,你能知道我款产品在行业里处于什么样的水准,游戏前期可能存在什么样的问题等

  • 如果你是O2O行业的,我告诉你外卖订单量相比于昨天下跌了10%,你能很快判断出问题的影响面和造成订单量下跌的可能原因

  • 如果你是电商行业的,我告诉你我这款产品的复购率是40%,你能很快判断出我这款产品大概是什么类型的产品,在行业内是什么样的水准

做到这程度,就叫优秀的数据敏感度。如何提升数据敏感度呢?

秘籍:熟悉业务

数据敏感度练成的基础是一定要对业务非常熟悉,无数次的推测及验证都是有用的宝贵经验。

接下来我会根据分析师数据敏感度高的三个表现来给出提升数据敏感度的方法。

⒈ 如何快速判断数据是高了低了还是错了:熟记关键指标的大数、观察趋势、紧盯异常值

这种快速判断是基于平时对业务数据的熟记与使用的,请相信每个人的记忆力有好坏之分,但是只要下功夫,熟记业务的关键指标,了解他们的基本规律,经过一段时间的积累,你看这些数据的时候肯定会觉得胸有成竹。

记忆数据的技巧也是有的,不需要记全,只需要把关键指标的大数记下来,忽略小数,每天早上养成看报表的习惯,观察趋势,盯紧异常数,多看一些别人是怎么分析异常原因的案例。慢慢地,对各项数据有了基本概念之后,理解数据背后的业务逻辑关系,这样在阅读报表时也能很快发现异常值,及时进行追踪。

但是对于想转行的新人,或者说应届生来说,这个时候还没有接触到具体业务的机会,怎么办?

对于新人或面临转行的人来说,这两种类型的人都缺少对本行业的通识,第一件要做的事就是背数据,记住这个行业的行业平均数据和各项通用指标的定义,这么做是为了对整个行业有个总体的认知。

比如游戏行业,可以查询应用宝、360、硬核等各家平台发布的游戏数据,对市面上的各种游戏类型的留存、付费等数据有一个整体的整理和记忆,比如Arppu、Arpu、次日留存、三日留存、七日留存、月留存、付费率等等。

比如电商行业,流量*转化率*客单价*复购率这个公式则是重中之重等等。

⒉ 知道所有指标是怎么来的,知道它们的意义以及相互的关系,进而判断数据异常的原因

提升敏感度的时刻想着三个问题:

  • 数据怎么来的?

理解业务,分析溯源,同时也要判断数据来源的可靠性

  • 指标维度有哪些?

理解评估标准,不同业务有不同的关键业务指标,利用思维导图积累相关业务的指标体系,多总结多问为什么;指标体系经常用于数据细分找原因,知道数据构成才能更快地拆分数据,找到异常原因。

  • 数据如何说明业务?

指标在业务中的应用,业务数据正常水平是怎么样的,受节假日或者活动营销的影响的数据又是怎么样的,要多对比,结合环比同比明白数据高低的意义等。

⒊ 拿到数据,能够根据分析目标很快理出分析框架,得出结论。

假如你是百度外卖的运营负责人,某天移动端的订单量比前一日下降了5%,你的老板要求你对这一变动做出合理解释,你如何应答?

其次先明确指标变动的异常程度和影响面,订单量比前一日下跌5%,是否大到必须加以重视。

以2015年百度外卖B轮融资计划书展示的数据看,其拥有3000万的注册用户,日订单数量超过110万,客单价可达50元左右。以此数据估算,假设2016年底注册用户数达到6000万,日订单数据量突破200万,客单价基本不变,那么5%的订单量下滑意味着当日损失500万营收。天然的单一突发事件几乎不可能造成这么大的损失,因此足以引起团队的重视(这里只是以融资计划书的付费数据为例,实际上作为运营负责人,这些数据都是内部可直接获取的)。

确定需要引起重视后,就需要寻求数据分析的角度,排查异常原因,我们以游戏行业为例,分析影响数据异常变动的原因可能有哪些,这里的思考模式其实就是金字塔结构思维模式:

① 先考虑全局指标


包括一定时间内新增用户量、总体付费率、总留存率、用户活跃度、各环节总转化率、搜索功能使用率、翻页率、崩溃率等。全局指标用于分析对全体用户产生影响的共性原因,绝大部分问题都会在全局指标上体现出来;

② 再看分渠道指标

可以按不同用户属性(新老用户)、用户来源(下载渠道)、用户自然属性(地域、性别)网络环境(网络运营商、网络接入方式)等维度观察不同渠道数据是否存在异常。

③ 在上述两项指标基础上,再考虑用户行为数据


重点观测用户在不同时间段、不同需求类型下的行为,从而定位到由于某一细分人群的定向变化产生的数据异常;

④ 时间因素

外界环境的影响也可能对产品数据造成影响,因此观测环比和同比数据都很重要。

典型如“月末效应”,即一定规模的用户群体因月底流量耗尽而减少上网行为,造成整体流量的下滑。另外,对于一款外卖产品而言。天气变化也会造成数据波动,通常阴雨天气的订单量会走高。

同样的,“周一效应”“寒暑假效应”也是游戏行业比较常见的效应,游戏dau在周一往往会走低,在寒暑假往往会走高;

⑤ 其他产品线监控

百度集团旗下的其他产品线变动也可能成为造成订单量下滑的原因,例如91应用市场改变了App广告的展示位置,或是搜索引擎的算法调整降低了网民常用关键词的权重等(通过下载来源的分渠道数据可以明显看到哪个下载来源的数据有减少);

⑥ 舆情监控

包括但不限于通过人工或机器方式,从内部反馈渠道如客服系统到论坛、贴吧、微博、朋友圈等处采集大众对产品的实时意见。极有可能因此发现导致产品数据骤然降低或飙升的特殊舆情,如竞争对手有了哪些动作、母公司运作重大纰漏等;

定位到具体的问题和原因后,给出对应的结论和解决方案,比如修复某个bug,针对竞争对手的营销策略做出同等力度的折扣反击等。

分析出问题原因只是第一步,提出解决问题的方案才是最关键的。

 参考资料:

【1】《如何提升数据敏感度》— 李梅花

【2】《当我们说数据敏感度时,我们到底在说什么?》— 姚伟

推荐阅读

往期推荐

Day01| 第四期-北京积分落户数据分析

Day02| 第四期-阿里巴巴股票行情分析(一)

Day03| 第四期-阿里巴巴股票行情分析(二)

Day04| 第四期-谷歌应用商店的App分析

Day05| 第四期-电商数据分析


欢迎关注我的公众号"DataScience"

好文章,我 在看❤


推荐阅读
  • “你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间,这是我们最战战兢兢的心情。但是显然,有些人体会不了。这份行业数据,让笔者“柠檬” ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 近年来,大数据成为互联网世界的新宠儿,被列入阿里巴巴、谷歌等公司的战略规划中,也在政府报告中频繁提及。据《大数据人才报告》显示,目前全国大数据人才仅46万,未来3-5年将出现高达150万的人才缺口。根据领英报告,数据剖析人才供应指数最低,且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示,未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中,60%以上的招聘职位都是针对大数据人才的。 ... [详细]
  • 本文讨论了同事工资打听的话题,包括同工不同酬现象、打探工资的途径、为什么打听别人的工资、职业的本质、商业价值与工资的关系,以及如何面对同事工资比自己高的情况和凸显自己的商业价值。故事中的阿巧发现同事的工资比自己高后感到不满,通过与老公、闺蜜交流和搜索相关关键词来寻求解决办法。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了新款奇骏的两个让人上瘾的功能,分别是智能互联系统和BOSE音响。通过对新款奇骏的配置和功能进行评测,探讨了这两个新增功能的使用体验和优势。此外,还介绍了新款奇骏的其他配置和改进,如增加的座椅和驾驶辅助系统,以及内饰的舒适性提升。对于喜欢音响的消费者来说,BOSE音响的升级也是一个亮点。最后,文章提到了BOSE音响的数字还原能力,以及7座版无法配备BOSE音响的原因。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • JVM 学习总结(三)——对象存活判定算法的两种实现
    本文介绍了垃圾收集器在回收堆内存前确定对象存活的两种算法:引用计数算法和可达性分析算法。引用计数算法通过计数器判定对象是否存活,虽然简单高效,但无法解决循环引用的问题;可达性分析算法通过判断对象是否可达来确定存活对象,是主流的Java虚拟机内存管理算法。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • 合并列值-合并为一列问题需求:createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]
author-avatar
孜雪颖2000
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有