作者:常德锦江-余欢 | 来源:互联网 | 2023-10-11 14:57
1、打开手机的天气预报软件,我们除了能看到明天是晴天还是雨天,还可以看到具体的降雨概率,比如明天10点的降雨概率是60%。随着技术水平的提高,天气预报的准确率越来越高,我们就可以根
1、
打开手机的天气预报软件,我们除了能看到明天是晴天还是雨天,还可以看到具体的降雨概率,比如明天10点的降雨概率是60%。随着技术水平的提高,天气预报的准确率越来越高,我们就可以根据降雨概率的大小来决定明天出门要不要带伞。这只是概率在生活中的一个具体应用,其实在生活中概率无处不在。
概念
概率就是用数值表示某件事情发生的可能性。
这个数值始终介于0和1之间,概率为0 表示这件事不可能发生,概率为1表示这件事必然发生,抛一枚硬币,正面朝上的概率为1/2。
计算公式
事件A的概率=http://students.brown.edu/seeing-theory/basic-probability/index.html里面有一个抛骰子的游戏,可以很直观的理解大数定律和小数定律。因此,对于有志于数据分析工作的我们,一定不能掉落小数定律的陷阱,要充分考虑数据的深度和广度,防止以偏概全。
学习概率最大的收获就是,生活中的每一次决策都应该选择大概率成功的事件,在同样的努力程度下,选择一个资源更丰富的环境,可以提高自己的成功概率。
2、描述统计学
相对于枯燥的数字,人们更喜欢直观的描述,而数据分析师要做的就是在一大堆数字里找出规律,并用简单的几个数据和图标展示给大家,在这背后就会用到统计学的知识。
其中常用的指标有平均值、四分位数、标准差、标准分。
平均值,很好理解,就是一组数据的算术和除以数据个数,但是不要被平均数欺骗了,因为很可能这一组数据中,最小的和最大的数之间差距会很大。比如,当我们的财富被马云平均时,我们瞬间会成为亿万富翁。
四分位数,在计算四分位数之前,先找到中位数。首先将一组数据从小到大排列,如果数据总数n为奇数,则中位数就是位于中间位置的数值;如果n为偶数,则中位数就是中间两个数的平均值。而四分位数就是除去中位数后的前半部分数据的中位数——下四分位数,后半部分数据的中位数——上四分位数。借用课程中的一幅图就能很好理解了。
箱线图可以把一组数据的最小值,最大值,上四分位数,中位数,下四分位数分别反映在一副图中,通过不同数据组的对比,可以很清晰的发现其中的差距。
标准差,反映数据偏离平均值的程度,数值越大,说明数据波动越大,越不稳定。用
课程的学习中,在理解质量管理中6 时有点困难。六西格玛反映百万抽样中只有3.4个不合格,说明产品质量很稳定。根据计算公式,我以为要得到更大的标准分,数据就应该偏离平均数越大,这样反而质量更不好。后来才意识到,分母部分的标准差越小,标准分越大,说明数据波动越小,质量越稳定。
在实际应用时,抓取财经网站的股票数据,理解各种统计指标的含义,并用图示分析股票的走势,跟着课程中的代码在notebook中敲了一遍,感受到了python的强大。在这个过程中被一段读取网站的数据的代码卡住了,一直运行不出想要的结果。后来,寻求社群成员的帮助后,在猴子老师提供的课程资料中找到了解决办法。在以后的学习中,除了认真听课程中的内容,还要经常关注课程资料。
小结
建立概率统计思维可以让繁杂的数据变得有序,能更直观反映出客观事实,有时候需要一大段话才能说明白的事情,只要一个统计指标就可以搞定,这就是数据分析最厉害的地方,一切用数字说话,直达事物的本质。