数据分析必备的统计学知识（三）

作者：沙漏虎 | 来源：互联网 | 2023-10-10 13:54

01写在前面数据分析师的必备技能栈里，除了熟悉业务、掌握业务分析思维和工具外，还有一个特别重要的知识点，就是统计学，无论在

01 写在前面

数据分析师的必备技能栈里&＃xff0c;除了熟悉业务、掌握业务分析思维和工具外&＃xff0c;还有一个特别重要的知识点&＃xff0c;就是统计学&＃xff0c;无论在简历的技能描述中还是实际的面试过程中&＃xff0c;统计学都是必备的基础知识。

为什么对于数据分析师来说统计学那么重要&＃xff1f;其实答案显而易见&＃xff0c;数据分析的价值就是通过数据去洞察业务背后的信息&＃xff0c;避免之前的“一拍脑袋决定&＃xff0c;二拍胸脯保证&＃xff0c;三拍屁股走人”的主观误判&＃xff0c;一切用数据说话&＃xff01;数据怎么能说话呢&＃xff0c;算出一个数据&＃xff0c;怎么知道这个数据是好还是坏&＃xff1f;有多好有多坏&＃xff1f;两组数据呈现在你面前&＃xff0c;怎么判断这两组数据是否有明显差异&＃xff1f;要回答这些问题&＃xff0c;就必须要用到统计学知识&＃xff0c;而不是相信自己的眼睛&＃xff0c;因为眼睛有时候也会说谎&＃xff0c;你看到的“好”不一定是好&＃xff0c;你看到的“没有差异”不代表没有差异。

但是很多刚入门的数据分析师在学习统计学知识时都很头疼&＃xff08;也包括我哈哈哈&＃xff09;&＃xff0c;因为统计学的书籍里都是写晦涩难懂的公式&＃xff0c;真不是一般人能看懂的。其实&＃xff0c;对于大部分数据分析师来说&＃xff0c;我们并不需要掌握的那么全面和深入&＃xff0c;我们只需要掌握部分知识点&＃xff0c;理论看不懂&＃xff0c;但是知道在什么场景下用就行&＃xff0c;用起来你才会慢慢地搞懂&＃xff01;

所以为了让大家更容易学习掌握统计学的基础知识&＃xff0c;这里整理了数据分析工作中最常见的一些统计学基础知识&＃xff0c;尽量用简单白话的形式去解释&＃xff0c;这样无论是在面试中还是以后的工作中&＃xff0c;都能把统计学的知识用起来&＃xff01;
在这里插入图片描述

02 数据分析中的统计学

Q1、如何理解假设检验中的P值和显著性水平α?
讲显著性水平α我们就得提到前面文章中提到的第一类错误和第二类错误&＃xff0c;可以翻看系列文章&＃xff1a;【数分面试宝典】数据分析必备的统计学知识&＃xff08;一&＃xff09;
我们还是举之前谈恋爱的栗子&＃xff0c;面前有一个男生&＃xff0c;我们有2个假设:
H0:一个真心爱你的男生
H1:一个不是真心爱你的男生
如果H0实际上成立&＃xff0c;而你凭经验拒绝了H0&＃xff0c;也就是说&＃xff0c;你拒绝了一个你认为不爱你而实际上真心爱你的男生&＃xff0c;那么你就犯了第一类“弃真”错误&＃xff0c;也称为α风险&＃xff0c;错杀了好人&＃xff1b;
如果H0实际上不成立&＃xff0c;而你接受了H0&＃xff0c;同样的道理&＃xff0c;你接受了一个你感觉爱你而实际上并不爱你的男生&＃xff0c;那么你就犯了第二类“纳伪”错误&＃xff0c;也称为β风险&＃xff0c;放走了坏人。
第一类错误和第二类错误这两个错误概率互相制约&＃xff0c;你大我就会变小&＃xff0c;你小我就会变大&＃xff0c;基于保护零假设的原则&＃xff0c;我们一般把一类错误概率固定住&＃xff0c;让第一类错误概率不超过某个阀值&＃xff08;也就是α值&＃xff09;&＃xff0c;也就是我们常说的“显著性水平α”&＃xff0c;即代表好人被冤枉的概率。通常情况下&＃xff0c;我们不希望好人被冤枉&＃xff0c;所以显著性水平α通常比较小。

显著性水平α是你冤枉好人的可能性&＃xff0c;然而&＃xff0c;每个人在这一点上是有分歧的&＃xff0c;有的人希望α大一点儿&＃xff0c;有的人希望α小一点儿&＃xff08;α越大&＃xff0c;意味着检验越严格&＃xff0c;我们冤枉好人的概率就越大&＃xff09;。

在这种情况下&＃xff0c;我们就期望回答一个问题&＃xff1a;对于面前的这个男生&＃xff0c;我们不会冤枉他的最严格的检验水平&＃xff0c;即最大的α是多少呢&＃xff1f;得到了这个问题的答案&＃xff0c;我们就可以轻松完成在任意严格程度上的检验了&＃xff0c;即如果α大于这个值&＃xff0c;那么我们就认为该男生不喜欢你&＃xff0c;反之亦可。

而这个最大的α&＃xff0c;就是我们的P值。只是这2个概念是有明显的区别的。显著性水平α是在每次统计检验之前人为规定的&＃xff0c;通常取α&＃xff1d;0.05或α&＃xff1d;0.01。这表明&＃xff0c;当做出拒绝原假设的决定时&＃xff0c;其犯错误的可能性为α&＃xff1d;0.05或α&＃xff1d;0.01&＃xff0c;而P值是根据实验结果计算得出的。如果计算出来的概率&＃xff08;P值&＃xff09;小于这个标准&＃xff08;显著性水平α&＃xff09;&＃xff0c;就说明拒绝原假设错误的可能性很小&＃xff0c;那就可以放心地拒绝原假设&＃xff0c;认为这个男生确实是不爱你的&＃xff1b;反之&＃xff0c;大于这个标准则说明拒绝原假设错误的可能性较大&＃xff0c;那还是接受原假设&＃xff0c;也就是没有充足的证据&＃xff0c;认为这个男生还是爱你的。

Q2、如何理解置信度与置信区间&＃xff1f;
置信区间是我们所计算出的变量存在的范围&＃xff0c;置信水平就是我们对于这个数值存在于我们计算出的这个范围的可信程度。
举例来讲&＃xff0c;如果我们有95%的把握&＃xff0c;让真正的数值在我们所计算的范围里&＃xff0c;那么在这里&＃xff0c;95%是置信水平&＃xff0c;而计算出的范围&＃xff0c;就是置信区间。
如果置信度为95%&＃xff0c; 则抽取100个样本来估计总体的均值&＃xff0c;由100个样本所构造的100个区间中&＃xff0c;约有95个区间包含总体均值。

Q3、如何理解极大似然估计&＃xff1f;
利用已知的样本结果&＃xff0c;反推最有可能&＃xff08;最大概率&＃xff09;导致这样结果的参数值。“似然”是“像这个样子”的意思。
极大似然估计&＃xff0c;通俗理解来说&＃xff0c;就是利用已知的样本结果信息&＃xff0c;反推最具有可能&＃xff08;最大概率&＃xff09;导致这些样本结果出现的模型参数值&＃xff01;换句话说&＃xff0c;极大似然估计提供了一种给定观察数据来评估模型参数的方法&＃xff0c;即&＃xff1a;“模型已定&＃xff0c;参数未知”。
假如有一个黑箱子&＃xff0c;里面有黑白两种颜色的球&＃xff0c;数目多少不知&＃xff0c;两种颜色的比例也不知。我们想知道箱子中白球和黑球的比例&＃xff0c;但我们不能把箱子中的球全部拿出来数。现在我们可以每次任意从已经摇匀的箱子中拿一个球出来&＃xff0c;记录球的颜色&＃xff0c;然后把拿出来的球再放回箱中。这个过程可以重复&＃xff0c;我们可以用记录的球的颜色来估计箱中黑白球的比例。假如在前面的一百次重复记录中&＃xff0c;有70次是白球&＃xff0c;请问箱子中白球所占的比例最有可能是多少&＃xff1f;
很多人马上就有答案了&＃xff1a;70%。而其后的理论支撑是什么呢&＃xff1f;

我们假设罐中白球的比例是p&＃xff0c;那么黑球的比例就是1-p。因为每抽一个球出来&＃xff0c;在记录颜色之后&＃xff0c;我们把抽出的球放回了罐中并摇匀&＃xff0c;所以每次抽出来的球的颜色服从同一独立分布。

这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中&＃xff0c;70次是白球的,30次为黑球事件的概率是P(样本结果|Model)。

好的&＃xff0c;我们已经有了观察样本结果出现的概率表达式了。那么我们要求的模型的参数&＃xff0c;也就是求的式中的p。

那么我们怎么来求这个p呢&＃xff1f;
不同的p&＃xff0c;直接导致P&＃xff08;样本结果|Model&＃xff09;的不同。
好的&＃xff0c;我们的p实际上是有无数多种分布的。如下&＃xff1a;
图片
那么求出 p^70(1-p)30为 7.8 * 10^(-31)
p的分布也可以是如下&＃xff1a;
图片
那么也可以求出p^70(1-p)30为2.95* 10^(-27)
那么问题来了&＃xff0c;既然有无数种分布可以选择&＃xff0c;极大似然估计应该按照什么原则去选取这个分布呢&＃xff1f;
答&＃xff1a;采取的方法是让这个样本结果出现的可能性最大&＃xff0c;也就是使得p^70(1-p)30值最大&＃xff0c;那么我们就可以看成是p的方程&＃xff0c;求导即可&＃xff01;
那么既然事情已经发生了&＃xff0c;为什么不让这个出现的结果的可能性最大呢&＃xff1f;这也就是最大似然估计的核心。
我们想办法让观察样本出现的概率最大&＃xff0c;转换为数学问题就是使得&＃xff1a;
p^70(1-p)30最大&＃xff0c;这太简单了&＃xff0c;未知数只有一个p&＃xff0c;我们令其导数为0&＃xff0c;即可求出p为70%&＃xff0c;与我们一开始认为的70%是一致的。其中蕴含着我们的数学思想在里面。

Q4、详细介绍一种非参数统计方法&＃xff0c;并叙述其优缺点
非参数统计&＃xff1a;对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。
机器学习&＃xff1a;决策树&＃xff0c;随机森林&＃xff0c;SVM&＃xff1b;
假设检验&＃xff1a;符号&＃xff0c;符号秩&＃xff0c;秩和检验
优点&＃xff1a;
非参数统计方法要求的假定条件比较少&＃xff0c;因而它的适用范围比较广泛。
多数非参数统计方法要求的思想与运算比较简单&＃xff0c;可以迅速完成计算取得结果。
缺点&＃xff1a;
由于方法简单&＃xff0c;用的计量水准较低&＃xff0c;因此&＃xff0c;如果能与参数统计方法同时使用时&＃xff0c;就不如参数统计方法敏感。若为追求简单而使用非参数统计方法&＃xff0c;其检验功效就要差些。这就是说&＃xff0c;在给定的显著性水平下进行检验时&＃xff0c;非参数统计方法与参数统计方法相比&＃xff0c;第Ⅱ类错误的概率β要大些。
对于大样本&＃xff0c;如不采用适当的近似&＃xff0c;计算可能变得十分复杂。

Q5、如何简单理解过拟合&＃xff1f;如何防止过拟合&＃xff1f;
好比你想找个女朋友。
你可能会先找你表妹问她喜欢什么&＃xff0c;表妹说她喜欢阳光干净的男生&＃xff0c;还说她喜欢王力宏&＃xff0c;喜欢火锅&＃xff0c;喜欢日料&＃xff0c;七七八八合计一百个爱好。你规规矩矩地按照这个标准学训练自己&＃xff0c;终于符合表妹的一切要求&＃xff0c;完美零误差&＃xff0c;训练完成&＃xff0c;超级自信准备出去试试追个妹子。
可是换了个妹子&＃xff0c;发现学到的完全没用。第二个妹子只要你阳光干净。剩下的她都不care&＃xff0c;她甚至讨厌王力宏&＃xff0c;那后面的那些只会增加误差。这就事过拟合了。
怎么防止过拟合呢&＃xff1f;应该用cross validation&＃xff0c;交叉比对。解释起来就是&＃xff0c;你在你表妹那儿学到的东西&＃xff0c;在你表姐那儿测试一下对不对。在你表姐那儿学到的&＃xff0c;在你女同学那测试一下。来来回回用不同的测试对象和训练对象做交叉比对。这样学到规律就不会过拟合啦。

以上就是【数分面试宝典】系列—统计学基础知识第3篇文章的内容&＃xff0c;部分历史文章请回翻公众号&＃xff1a;【数据分析星球】&＃xff0c;更多数据分析面试笔试的文章持续更新中&＃xff0c;敬请期待&＃xff0c;如果觉得不错&＃xff0c;也欢迎分享、点赞和点在看哈~

推荐阅读

io
使用 Jupyter Notebook 实现 Markdown 编写与代码运行

Jupyter Notebook 是一个开源的基于网页的应用程序，允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码，并实时查看运行结果。 ... [详细]

蜡笔小新 2024-11-15 14:50:50
io
Python 开发环境最佳实践：Anaconda + Jupyter Notebook 快速上手指南

对于初学者而言，搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]

蜡笔小新 2024-11-21 18:30:23
php
scikitlearn学习之SVM算法

分隔超平面：将数据集分割开来的直线叫做分隔超平面。超平面：如果数据集是N维的，那么就需要N-1维的某对象来对数据进行分割。该对象叫做超平面，也就是分类的决策边界。间隔：一个点 ... [详细]

蜡笔小新 2024-10-14 22:47:51
php
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
php
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
uml
41款高效LISP工具助力数据处理全流程

本文由公众号【数智物语】(ID: decision_engine)发布，关注获取更多干货。文章探讨了从数据收集到清洗、建模及可视化的全过程，介绍了41款实用工具，旨在帮助数据科学家和分析师提升工作效率。 ... [详细]

蜡笔小新 2024-11-24 00:11:50
java
如何高效学习鸿蒙操作系统：开发者指南

本文探讨了开发者如何更有效地学习鸿蒙操作系统，提供了来自行业专家的建议，包括系统化学习方法、职业规划建议以及具体的开发技巧。 ... [详细]

蜡笔小新 2024-11-23 19:22:14
java
计算机学报精选论文概览（2020-2022）

本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文，旨在为即将投稿的研究者提供参考。 ... [详细]

蜡笔小新 2024-11-20 11:08:21
java
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14
php
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
split
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
split
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
split
弱监督目标检测之一最小熵隐变量模型

目标检测是计算机视觉一个非常重要的子任务。目标检测需要发现并准确定位自然图片中的物体。在2012年之前，目标检测主要基于手工设计的特征以及传统分类器。2012年以后，出现了 ... [详细]

蜡笔小新 2024-10-20 17:50:44
split
机器学习十大算法SVM（支持向量机）

概述SVM（支持向量机）是一个二分类的模型，它的主要思想就是间隔最大化，那么问题来了，什么是间隔最大化&#x ... [详细]

蜡笔小新 2024-10-09 12:22:19
shell
Python和AI大解密！

作为一种编程语言，Python比C＃，Java，C和C++更具吸引力。它被称为“胶水语言”，它也被喜欢它的程序员誉为“美丽”的编程语言。从云计算，客户端到物联网终端，Pytho ... [详细]

蜡笔小新 2024-10-08 15:58:59

沙漏虎

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章