作者:沙漏虎 | 来源:互联网 | 2023-10-10 13:54
01 写在前面
数据分析师的必备技能栈里,除了熟悉业务、掌握业务分析思维和工具外,还有一个特别重要的知识点,就是统计学,无论在简历的技能描述中还是实际的面试过程中,统计学都是必备的基础知识。
为什么对于数据分析师来说统计学那么重要?其实答案显而易见,数据分析的价值就是通过数据去洞察业务背后的信息,避免之前的“一拍脑袋决定,二拍胸脯保证,三拍屁股走人”的主观误判,一切用数据说话!数据怎么能说话呢,算出一个数据,怎么知道这个数据是好还是坏?有多好有多坏?两组数据呈现在你面前,怎么判断这两组数据是否有明显差异?要回答这些问题,就必须要用到统计学知识,而不是相信自己的眼睛,因为眼睛有时候也会说谎,你看到的“好”不一定是好,你看到的“没有差异”不代表没有差异。
但是很多刚入门的数据分析师在学习统计学知识时都很头疼(也包括我哈哈哈),因为统计学的书籍里都是写晦涩难懂的公式,真不是一般人能看懂的。其实,对于大部分数据分析师来说,我们并不需要掌握的那么全面和深入,我们只需要掌握部分知识点,理论看不懂,但是知道在什么场景下用就行,用起来你才会慢慢地搞懂!
所以为了让大家更容易学习掌握统计学的基础知识,这里整理了数据分析工作中最常见的一些统计学基础知识,尽量用简单白话的形式去解释,这样无论是在面试中还是以后的工作中,都能把统计学的知识用起来!
02 数据分析中的统计学
Q1、如何理解假设检验中的P值和显著性水平α?
讲显著性水平α我们就得提到前面文章中提到的第一类错误和第二类错误,可以翻看系列文章:【数分面试宝典】数据分析必备的统计学知识(一)
我们还是举之前谈恋爱的栗子,面前有一个男生,我们有2个假设:
H0:一个真心爱你的男生
H1:一个不是真心爱你的男生
如果H0实际上成立,而你凭经验拒绝了H0,也就是说,你拒绝了一个你认为不爱你而实际上真心爱你的男生,那么你就犯了第一类“弃真”错误,也称为α风险,错杀了好人;
如果H0实际上不成立,而你接受了H0,同样的道理,你接受了一个你感觉爱你而实际上并不爱你的男生,那么你就犯了第二类“纳伪”错误,也称为β风险,放走了坏人。
第一类错误和第二类错误这两个错误概率互相制约,你大我就会变小,你小我就会变大,基于保护零假设的原则,我们一般把一类错误概率固定住,让第一类错误概率不超过某个阀值(也就是α值),也就是我们常说的“显著性水平α”,即代表好人被冤枉的概率。通常情况下,我们不希望好人被冤枉,所以显著性水平α通常比较小。
显著性水平α是你冤枉好人的可能性,然而,每个人在这一点上是有分歧的,有的人希望α大一点儿,有的人希望α小一点儿(α越大,意味着检验越严格,我们冤枉好人的概率就越大)。
在这种情况下,我们就期望回答一个问题:对于面前的这个男生,我们不会冤枉他的最严格的检验水平,即最大的α是多少呢?得到了这个问题的答案,我们就可以轻松完成在任意严格程度上的检验了,即如果α大于这个值,那么我们就认为该男生不喜欢你,反之亦可。
而这个最大的α,就是我们的P值。只是这2个概念是有明显的区别的。显著性水平α是在每次统计检验之前人为规定的,通常取α=0.05或α=0.01。这表明,当做出拒绝原假设的决定时,其犯错误的可能性为α=0.05或α=0.01,而P值是根据实验结果计算得出的。如果计算出来的概率(P值)小于这个标准(显著性水平α),就说明拒绝原假设错误的可能性很小,那就可以放心地拒绝原假设,认为这个男生确实是不爱你的;反之,大于这个标准则说明拒绝原假设错误的可能性较大,那还是接受原假设,也就是没有充足的证据,认为这个男生还是爱你的。
Q2、如何理解置信度与置信区间?
置信区间是我们所计算出的变量存在的范围,置信水平就是我们对于这个数值存在于我们计算出的这个范围的可信程度。
举例来讲,如果我们有95%的把握,让真正的数值在我们所计算的范围里,那么在这里,95%是置信水平,而计算出的范围,就是置信区间。
如果置信度为95%, 则抽取100个样本来估计总体的均值,由100个样本所构造的100个区间中,约有95个区间包含总体均值。
Q3、如何理解极大似然估计?
利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。“似然”是“像这个样子”的意思。
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
假如有一个黑箱子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我们想知道箱子中白球和黑球的比例,但我们不能把箱子中的球全部拿出来数。现在我们可以每次任意从已经摇匀的箱子中拿一个球出来,记录球的颜色,然后把拿出来的球再放回箱中。这个过程可以重复,我们可以用记录的球的颜色来估计箱中黑白球的比例。假如在前面的一百次重复记录中,有70次是白球,请问箱子中白球所占的比例最有可能是多少?
很多人马上就有答案了:70%。而其后的理论支撑是什么呢?
我们假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜色服从同一独立分布。
这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,70次是白球的,30次为黑球事件的概率是P(样本结果|Model)。
如果第一次抽象的结果记为x1,第二次抽样的结果记为x2…那么样本结果为(x1,x2…,x100)。这样,我们可以得到如下表达式:
P(样本结果|Model)
= P(x1,x2,…,x100|Model)
= P(x1|Model)P(x2|Model)…P(x100|Model)
= p70(1-p)30.
好的,我们已经有了观察样本结果出现的概率表达式了。那么我们要求的模型的参数,也就是求的式中的p。
那么我们怎么来求这个p呢?
不同的p,直接导致P(样本结果|Model)的不同。
好的,我们的p实际上是有无数多种分布的。如下:
图片
那么求出 p70(1-p)30为 7.8 * 10^(-31)
p的分布也可以是如下:
图片
那么也可以求出p70(1-p)30为2.95* 10^(-27)
那么问题来了,既然有无数种分布可以选择,极大似然估计应该按照什么原则去选取这个分布呢?
答:采取的方法是让这个样本结果出现的可能性最大,也就是使得p70(1-p)30值最大,那么我们就可以看成是p的方程,求导即可!
那么既然事情已经发生了,为什么不让这个出现的结果的可能性最大呢?这也就是最大似然估计的核心。
我们想办法让观察样本出现的概率最大,转换为数学问题就是使得:
p70(1-p)30最大,这太简单了,未知数只有一个p,我们令其导数为0,即可求出p为70%,与我们一开始认为的70%是一致的。其中蕴含着我们的数学思想在里面。
Q4、详细介绍一种非参数统计方法,并叙述其优缺点
非参数统计:对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。
机器学习:决策树,随机森林,SVM;
假设检验:符号,符号秩,秩和检验
优点:
非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。
多数非参数统计方法要求的思想与运算比较简单,可以迅速完成计算取得结果。
缺点:
由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。
对于大样本,如不采用适当的近似,计算可能变得十分复杂。
Q5、如何简单理解过拟合?如何防止过拟合?
好比你想找个女朋友。
你可能会先找你表妹问她喜欢什么,表妹说她喜欢阳光干净的男生,还说她喜欢王力宏,喜欢火锅,喜欢日料,七七八八合计一百个爱好。你规规矩矩地按照这个标准学训练自己,终于符合表妹的一切要求,完美零误差,训练完成,超级自信准备出去试试追个妹子。
可是换了个妹子,发现学到的完全没用。第二个妹子只要你阳光干净。剩下的她都不care,她甚至讨厌王力宏,那后面的那些只会增加误差。这就事过拟合了。
怎么防止过拟合呢?应该用cross validation,交叉比对。解释起来就是,你在你表妹那儿学到的东西,在你表姐那儿测试一下对不对。在你表姐那儿学到的,在你女同学那测试一下。来来回回用不同的测试对象和训练对象做交叉比对。这样学到规律就不会过拟合啦。
以上就是【数分面试宝典】系列—统计学基础知识第3篇文章的内容,部分历史文章请回翻公众号:【数据分析星球】,更多数据分析面试笔试的文章持续更新中,敬请期待,如果觉得不错,也欢迎分享、点赞和点在看哈~