热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据分析必备的统计学知识(三)

01写在前面数据分析师的必备技能栈里,除了熟悉业务、掌握业务分析思维和工具外,还有一个特别重要的知识点,就是统计学,无论在

01 写在前面

数据分析师的必备技能栈里,除了熟悉业务、掌握业务分析思维和工具外,还有一个特别重要的知识点,就是统计学,无论在简历的技能描述中还是实际的面试过程中,统计学都是必备的基础知识。

为什么对于数据分析师来说统计学那么重要?其实答案显而易见,数据分析的价值就是通过数据去洞察业务背后的信息,避免之前的“一拍脑袋决定,二拍胸脯保证,三拍屁股走人”的主观误判,一切用数据说话!数据怎么能说话呢,算出一个数据,怎么知道这个数据是好还是坏?有多好有多坏?两组数据呈现在你面前,怎么判断这两组数据是否有明显差异?要回答这些问题,就必须要用到统计学知识,而不是相信自己的眼睛,因为眼睛有时候也会说谎,你看到的“好”不一定是好,你看到的“没有差异”不代表没有差异。

但是很多刚入门的数据分析师在学习统计学知识时都很头疼(也包括我哈哈哈),因为统计学的书籍里都是写晦涩难懂的公式,真不是一般人能看懂的。其实,对于大部分数据分析师来说,我们并不需要掌握的那么全面和深入,我们只需要掌握部分知识点,理论看不懂,但是知道在什么场景下用就行,用起来你才会慢慢地搞懂!

所以为了让大家更容易学习掌握统计学的基础知识,这里整理了数据分析工作中最常见的一些统计学基础知识,尽量用简单白话的形式去解释,这样无论是在面试中还是以后的工作中,都能把统计学的知识用起来!
在这里插入图片描述


02 数据分析中的统计学

Q1、如何理解假设检验中的P值和显著性水平α?
讲显著性水平α我们就得提到前面文章中提到的第一类错误和第二类错误,可以翻看系列文章:【数分面试宝典】数据分析必备的统计学知识(一)
我们还是举之前谈恋爱的栗子,面前有一个男生,我们有2个假设:
H0:一个真心爱你的男生
H1:一个不是真心爱你的男生
如果H0实际上成立,而你凭经验拒绝了H0,也就是说,你拒绝了一个你认为不爱你而实际上真心爱你的男生,那么你就犯了第一类“弃真”错误,也称为α风险,错杀了好人;
如果H0实际上不成立,而你接受了H0,同样的道理,你接受了一个你感觉爱你而实际上并不爱你的男生,那么你就犯了第二类“纳伪”错误,也称为β风险,放走了坏人。
第一类错误和第二类错误这两个错误概率互相制约,你大我就会变小,你小我就会变大,基于保护零假设的原则,我们一般把一类错误概率固定住,让第一类错误概率不超过某个阀值(也就是α值),也就是我们常说的“显著性水平α”,即代表好人被冤枉的概率。通常情况下,我们不希望好人被冤枉,所以显著性水平α通常比较小。

显著性水平α是你冤枉好人的可能性,然而,每个人在这一点上是有分歧的,有的人希望α大一点儿,有的人希望α小一点儿(α越大,意味着检验越严格,我们冤枉好人的概率就越大)。

在这种情况下,我们就期望回答一个问题:对于面前的这个男生,我们不会冤枉他的最严格的检验水平,即最大的α是多少呢?得到了这个问题的答案,我们就可以轻松完成在任意严格程度上的检验了,即如果α大于这个值,那么我们就认为该男生不喜欢你,反之亦可。

而这个最大的α,就是我们的P值。只是这2个概念是有明显的区别的。显著性水平α是在每次统计检验之前人为规定的,通常取α=0.05或α=0.01。这表明,当做出拒绝原假设的决定时,其犯错误的可能性为α=0.05或α=0.01,而P值是根据实验结果计算得出的。如果计算出来的概率(P值)小于这个标准(显著性水平α),就说明拒绝原假设错误的可能性很小,那就可以放心地拒绝原假设,认为这个男生确实是不爱你的;反之,大于这个标准则说明拒绝原假设错误的可能性较大,那还是接受原假设,也就是没有充足的证据,认为这个男生还是爱你的。

Q2、如何理解置信度与置信区间?
置信区间是我们所计算出的变量存在的范围,置信水平就是我们对于这个数值存在于我们计算出的这个范围的可信程度。
举例来讲,如果我们有95%的把握,让真正的数值在我们所计算的范围里,那么在这里,95%是置信水平,而计算出的范围,就是置信区间。
如果置信度为95%, 则抽取100个样本来估计总体的均值,由100个样本所构造的100个区间中,约有95个区间包含总体均值。

Q3、如何理解极大似然估计?
利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。“似然”是“像这个样子”的意思。
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
假如有一个黑箱子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我们想知道箱子中白球和黑球的比例,但我们不能把箱子中的球全部拿出来数。现在我们可以每次任意从已经摇匀的箱子中拿一个球出来,记录球的颜色,然后把拿出来的球再放回箱中。这个过程可以重复,我们可以用记录的球的颜色来估计箱中黑白球的比例。假如在前面的一百次重复记录中,有70次是白球,请问箱子中白球所占的比例最有可能是多少?
很多人马上就有答案了:70%。而其后的理论支撑是什么呢?

我们假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜色服从同一独立分布。

这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,70次是白球的,30次为黑球事件的概率是P(样本结果|Model)。

如果第一次抽象的结果记为x1,第二次抽样的结果记为x2…那么样本结果为(x1,x2…,x100)。这样,我们可以得到如下表达式:
P(样本结果|Model)
  = P(x1,x2,…,x100|Model)
  = P(x1|Model)P(x2|Model)…P(x100|Model)
  = p70(1-p)30.

好的,我们已经有了观察样本结果出现的概率表达式了。那么我们要求的模型的参数,也就是求的式中的p。

那么我们怎么来求这个p呢?
不同的p,直接导致P(样本结果|Model)的不同。
好的,我们的p实际上是有无数多种分布的。如下:
图片
那么求出 p70(1-p)30为 7.8 * 10^(-31)
p的分布也可以是如下:
图片
那么也可以求出p70(1-p)30为2.95* 10^(-27)
那么问题来了,既然有无数种分布可以选择,极大似然估计应该按照什么原则去选取这个分布呢?
答:采取的方法是让这个样本结果出现的可能性最大,也就是使得p70(1-p)30值最大,那么我们就可以看成是p的方程,求导即可!
那么既然事情已经发生了,为什么不让这个出现的结果的可能性最大呢?这也就是最大似然估计的核心。
我们想办法让观察样本出现的概率最大,转换为数学问题就是使得:
p70(1-p)30最大,这太简单了,未知数只有一个p,我们令其导数为0,即可求出p为70%,与我们一开始认为的70%是一致的。其中蕴含着我们的数学思想在里面。

Q4、详细介绍一种非参数统计方法,并叙述其优缺点
非参数统计:对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。
机器学习:决策树,随机森林,SVM;
假设检验:符号,符号秩,秩和检验
优点:
非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。
多数非参数统计方法要求的思想与运算比较简单,可以迅速完成计算取得结果。
缺点:
由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。
对于大样本,如不采用适当的近似,计算可能变得十分复杂。

Q5、如何简单理解过拟合?如何防止过拟合?
好比你想找个女朋友。
你可能会先找你表妹问她喜欢什么,表妹说她喜欢阳光干净的男生,还说她喜欢王力宏,喜欢火锅,喜欢日料,七七八八合计一百个爱好。你规规矩矩地按照这个标准学训练自己,终于符合表妹的一切要求,完美零误差,训练完成,超级自信准备出去试试追个妹子。
可是换了个妹子,发现学到的完全没用。第二个妹子只要你阳光干净。剩下的她都不care,她甚至讨厌王力宏,那后面的那些只会增加误差。这就事过拟合了。
怎么防止过拟合呢?应该用cross validation,交叉比对。解释起来就是,你在你表妹那儿学到的东西,在你表姐那儿测试一下对不对。在你表姐那儿学到的,在你女同学那测试一下。来来回回用不同的测试对象和训练对象做交叉比对。这样学到规律就不会过拟合啦。

以上就是【数分面试宝典】系列—统计学基础知识第3篇文章的内容,部分历史文章请回翻公众号:【数据分析星球】,更多数据分析面试笔试的文章持续更新中,敬请期待,如果觉得不错,也欢迎分享、点赞和点在看哈~


推荐阅读
  • 分隔超平面:将数据集分割开来的直线叫做分隔超平面。超平面:如果数据集是N维的,那么就需要N-1维的某对象来对数据进行分割。该对象叫做超平面,也就是分类的决策边界。间隔:一个点 ... [详细]
  • 如何选择机器学习方法http:scikit-learn.orgstabletutorialmachine_learning_mapindex.html通用学习模式只需要先定义 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 深入浅出解读奇异值分解,助你轻松掌握核心概念 ... [详细]
  • 中国学者实现 CNN 全程可视化,详尽展示每次卷积、ReLU 和池化过程 ... [详细]
  • 如何避免论文被频繁拒稿?检查是否触碰了这些常见误区
    如何避免论文被频繁拒稿?检查是否触碰了这些常见误区 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  •     目标检测是计算机视觉一个非常重要的子任务。目标检测需要发现并准确定位自然图片中的物体。在2012年之前,目标检测主要基于手工设计的特征以及传统分类器。2012年以后,出现了 ... [详细]
  • 概述SVM(支持向量机)是一个二分类的模型,它的主要思想就是间隔最大化,那么问题来了,什么是间隔最大化&#x ... [详细]
  •   作为一种编程语言,Python比C#,Java,C和C++更具吸引力。它被称为“胶水语言”,它也被喜欢它的程序员誉为“美丽”的编程语言。从云计算,客户端到物联网终端,Pytho ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 在《Cocos2d-x学习笔记:基础概念解析与内存管理机制深入探讨》中,详细介绍了Cocos2d-x的基础概念,并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解,例如在处理鱼的运动过程中,可以通过编写自定义函数来动态计算角度变化,利用CallFunc回调机制实现高效的游戏逻辑控制。此外,文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏,为开发者提供了实用的编程技巧和最佳实践。 ... [详细]
author-avatar
沙漏虎
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有