热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

一起来复习DataScience:统计学中那些让人容易遗忘的知识点

1描述性统计和预测性统计描述性统计(DescriptiveStatistics)描述性统计是用来描述数据现状的统计量,描述性统计包括以下值

1 描述性统计和预测性统计

描述性统计(Descriptive Statistics)

描述性统计是用来描述数据现状的统计量,描述性统计包括以下值:

  1. 均值(Mean)

  2. 中值(Median)

  3. 范围(range,包括最大值和最小值)

  4. 方差(SD)

  5. 标准差(Var)

预测性统计(Predictive Statistics)

预测性统计是使用历史数据加上数据挖掘、机器学习等方法预测数据的统计方式。

2 突出值(Outlier)和异常值(Anomaly)

这两个词在中文译文中还未正确的区分其不同,Outlier是指偏离数据中心的那些点,而异常值则是可以确认是非正常原因导致的偏离数据中心的那些点。

3 基本概率论

这里不做进一步的延伸,大致解释为一个概率的完整定义包括三个部分的测度空间,$$(\Omega,F,P)$$。Ω代表事件的全集,F代表Ω的某些子集的集合,P则代表一个测度,使得可以将F里的所有子集映射到0~1的区间中。显然,$$P(\Omega) = 1$$, $$P(\emptyset) = 0$$;F必须是是Ω的σ-域。

4 贝叶斯定理

比较好的解说参见飘飘白云的博客,简单陈述如下:

$$P(A|B) = P(B|A) * P(A) / P(B) $$

其实是描述B→A这个事件的过程,其中A事件是后于B事件发生的。而查看历史数据,只能得到A发生时B发生的概率,此时通过贝叶斯定理就可以得到后验概率。

5 随机变量

实际是对应于测度空间$$(\Omega,F,P)$$而言,一个随机变量X实际是指将某个$\Omega$的子集映射到具体取值的函数。

例如:考虑一个筛子,其可能投掷取值为1、2、3、4、5、6,其“事件”集合为:

$$\Omega = {\omega_1 , \omega_2, ... \omega_6}$$

则设随机变量为X,则$$X(\omega_n) = n$$,其中$$n = 1, 2, ..., 6$$。

此外这个例子还可以得到$$F(x) = P(X \le x) $$为x的CDF; $$p(x) = P(X = x)$$为PDF

6 常见分布

正态分布/高斯分布

比较熟悉,在此不做扩展。

泊松分布

泊松分布是及其重要的离散分布。其分布为:

$$P(X = K) = \frac {K ^ \lambda}{K!} e^{\lambda}$$

$\lambda$在其中表示单位时间内发生某事件的概率,而K则表示单位时间内某事件发生次数,则泊松分布实际是描述单位时间内发生某事件次数的概率。

7 偏度(Skewness)

偏度是用来描述分布的不对称程度。

$$Skewness = E[(\frac{X - \mu}{\sigma})^3] = \frac{E[(X - \mu)^3]}{(E[(X - \mu)^2])^{3/2}}$$

8 ANOVA

ANOVA(Analysis of Variance)也称方差检验,是检验多组数据之间是否存在均值差异,这些都是建立在F检验上的。

F分布

F分布是描述两个符合标准正态分布的随机变量之间$$X^2$$之间比例的分布。因此,F检验最常用的应用就是检验两样本之间的方差是否齐性。

ANOVA检验的条件

ANOVA检验必须符合以下三个条件:

  • 组间方差齐性

  • 形态一致(曲线类似)

  • 独立性

ANOVA的原理

ANOVA的原理其实就是比较总体均差和组内均差之间是否一致:如果一致,显然,几组随机变量之间并不存在显著性差异;不一致则表示几组随机变量之间存在显著性差异。

由此概念,我们依旧可以使用F检验,即判断总体均差和组内均差是否符合F-分布。

9 中心极限定理

大数定理

(强)随着随机变量数目趋近于无穷,则其均值趋近于分布均值,其标准差也会趋近于分布标准差。
(弱)趋近于期望。

中心极限定理

中心极限定理说明,大量相互独立的随机变量,其均值的分布以正态分布为极限。

10 蒙特卡罗方法

蒙特卡洛方法其实就是基于随机数计算相关所需的取值,其原理就是运用大数定理。常见的运用有,求积分、圆周率等。

11 假设检验

假设检验实际是基于问题首先提出原假设和备择假设,以此可以得到I类错误(即拒绝了原本正确的例子)和II类错误(通过了原本错误的例子)。以此,可以得到α即可承受的为犯I类错误的概率的上限,而p-value(significance)则是犯I类错误的概率。

12 估计

点估计

在此主要介绍的是两类参数估计方法:矩估计法和最大似然估计法。

矩估计法

矩估计法是运用

$$A_n = \frac{1}{n} \sum X^n$$

来解决参数估计问题,原理是一般分布参数与$$A_n$$之间的关系来求解的。

最大似然估计法

最大似然估计法运用的原理是:概率最大的时事件最容易发生。

因此求解${X_n}$的参数时,其实就是计算$${X_n}$$同时发生时概率的最大值,即求

$$L(X_1, X_2, ..., X_n; \theta) = P(X = X_1)P(X = X_2)...P(X = X_n)$$

的最大值,其中$$L(X_1, X_2, ..., X_n; \theta)$$也叫似然函数

此时只需计算$$L' = 0$$即可。

密度估计

以下介绍常用的核密度估计(KDE),常见的形势如下:

$$\hat{x} = \frac{1}{hn} \sum^n_{i = 1}{K(\frac{(x - x_i)}{h})}$$

其中$K(.)$称为核密度函数,h为带宽,h越大越平滑。

13 协方差(Covariance)、相关系数(Correlation Coefficient)与皮尔森相关系数(Pearson Correlation Coefficient)

协方差(cov)和相关系数(corr)都是用来衡量两变量线性关系,唯一不同的是,协方差是含量纲的,相关系数是标准化后的值(在-1~1之间)。而皮尔森相关系数是最常见的相关系数,常用r表示。

14 因果性和相关性

相关性不代表因果性。这个是统计学中最重要的一条理论,因此,简单的相关系数并不能衡量自变量引起因变量的变化的推理。

A与B相关可能包含以下几种情况:

  • A导致B(直接因果)

  • B导致A(反向因果)

  • C导致A,且C导致B(共同因果)

  • A导致C,C导致B(间接因果)

  • A导致B,同时B也导致A(互为因果,循环因果)

  • 没有任何关系,仅仅是巧合。




推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • 本文介绍了贝叶斯垃圾邮件分类的机器学习代码,代码来源于https://www.cnblogs.com/huangyc/p/10327209.html,并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • Java学习笔记之面向对象编程(OOP)
    本文介绍了Java学习笔记中的面向对象编程(OOP)内容,包括OOP的三大特性(封装、继承、多态)和五大原则(单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则)。通过学习OOP,可以提高代码复用性、拓展性和安全性。 ... [详细]
  • IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]
  • 本文介绍了绕过WAF的XSS检测机制的方法,包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法,该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型(DOM)接收器和源、实施适当的跨域资源共享(CORS)策略和其他安全策略,可以有效阻止XSS漏洞。但是,WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制,构建与正则表达式不匹配的XSS payload。 ... [详细]
  • 从零基础到精通的前台学习路线
    随着互联网的发展,前台开发工程师成为市场上非常抢手的人才。本文介绍了从零基础到精通前台开发的学习路线,包括学习HTML、CSS、JavaScript等基础知识和常用工具的使用。通过循序渐进的学习,可以掌握前台开发的基本技能,并有能力找到一份月薪8000以上的工作。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下,定义扩展函数没有意义,但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法,并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑,并给出了自己的反驳。最后,文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]
  • 本文介绍了Foundation框架中一些常用的结构体和类,包括表示范围作用的NSRange结构体的创建方式,处理几何图形的数据类型NSPoint和NSSize,以及由点和大小复合而成的矩形数据类型NSRect。同时还介绍了创建这些数据类型的方法,以及字符串类NSString的使用方法。 ... [详细]
  • 安装oracle软件1创建用户组、用户和目录bjdb节点下:[rootnode1]#groupadd-g200oinstall[rootnode1]#groupad ... [详细]
author-avatar
牛牛发的
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有