一起来复习DataScience：统计学中那些让人容易遗忘的知识点 - 第一PHP社区

1 描述性统计和预测性统计

描述性统计&＃xff08;Descriptive Statistics&＃xff09;

描述性统计是用来描述数据现状的统计量&＃xff0c;描述性统计包括以下值:

均值&＃xff08;Mean&＃xff09;
中值&＃xff08;Median&＃xff09;
范围&＃xff08;range&＃xff0c;包括最大值和最小值&＃xff09;
方差&＃xff08;SD&＃xff09;
标准差&＃xff08;Var&＃xff09;

预测性统计&＃xff08;Predictive Statistics&＃xff09;

预测性统计是使用历史数据加上数据挖掘、机器学习等方法预测数据的统计方式。

2 突出值&＃xff08;Outlier&＃xff09;和异常值&＃xff08;Anomaly&＃xff09;

这两个词在中文译文中还未正确的区分其不同&＃xff0c;Outlier是指偏离数据中心的那些点&＃xff0c;而异常值则是可以确认是非正常原因导致的偏离数据中心的那些点。

3 基本概率论

这里不做进一步的延伸&＃xff0c;大致解释为一个概率的完整定义包括三个部分的测度空间&＃xff0c;$$(\Omega,F,P)$$。Ω代表事件的全集&＃xff0c;F代表Ω的某些子集的集合&＃xff0c;P则代表一个测度&＃xff0c;使得可以将F里的所有子集映射到0~1的区间中。显然&＃xff0c;$$P(\Omega) &＃61; 1$$, $$P(\emptyset) &＃61; 0$$&＃xff1b;F必须是是Ω的σ-域。

4 贝叶斯定理

比较好的解说参见飘飘白云的博客&＃xff0c;简单陈述如下&＃xff1a;

$$P(A|B) &＃61; P(B|A) * P(A) / P(B) $$

其实是描述B→A这个事件的过程&＃xff0c;其中A事件是后于B事件发生的。而查看历史数据&＃xff0c;只能得到A发生时B发生的概率&＃xff0c;此时通过贝叶斯定理就可以得到后验概率。

5 随机变量

实际是对应于测度空间$$(\Omega,F,P)$$而言&＃xff0c;一个随机变量X实际是指将某个$\Omega$的子集映射到具体取值的函数。

例如&＃xff1a;考虑一个筛子&＃xff0c;其可能投掷取值为1、2、3、4、5、6&＃xff0c;其“事件”集合为&＃xff1a;

$$\Omega &＃61; {\omega_1 , \omega_2, ... \omega_6}$$

则设随机变量为X&＃xff0c;则$$X(\omega_n) &＃61; n$$&＃xff0c;其中$$n &＃61; 1, 2, ..., 6$$。

此外这个例子还可以得到$$F(x) &＃61; P(X \le x) $$为x的CDF; $$p(x) &＃61; P(X &＃61; x)$$为PDF。

6 常见分布

正态分布/高斯分布

比较熟悉&＃xff0c;在此不做扩展。

泊松分布

泊松分布是及其重要的离散分布。其分布为&＃xff1a;

$$P(X &＃61; K) &＃61; \frac {K ^ \lambda}{K!} e^{\lambda}$$

$\lambda$在其中表示单位时间内发生某事件的概率&＃xff0c;而K则表示单位时间内某事件发生次数&＃xff0c;则泊松分布实际是描述单位时间内发生某事件次数的概率。

7 偏度&＃xff08;Skewness&＃xff09;

偏度是用来描述分布的不对称程度。

$$Skewness &＃61; E[(\frac{X - \mu}{\sigma})^3] &＃61; \frac{E[(X - \mu)^3]}{(E[(X - \mu)^2])^{3/2}}$$

8 ANOVA

ANOVA(Analysis of Variance)也称方差检验&＃xff0c;是检验多组数据之间是否存在均值差异&＃xff0c;这些都是建立在F检验上的。

F分布

F分布是描述两个符合标准正态分布的随机变量之间$$X^2$$之间比例的分布。因此&＃xff0c;F检验最常用的应用就是检验两样本之间的方差是否齐性。

ANOVA检验的条件

ANOVA检验必须符合以下三个条件&＃xff1a;

组间方差齐性
形态一致&＃xff08;曲线类似&＃xff09;
独立性

ANOVA的原理

ANOVA的原理其实就是比较总体均差和组内均差之间是否一致&＃xff1a;如果一致&＃xff0c;显然&＃xff0c;几组随机变量之间并不存在显著性差异&＃xff1b;不一致则表示几组随机变量之间存在显著性差异。

由此概念&＃xff0c;我们依旧可以使用F检验&＃xff0c;即判断总体均差和组内均差是否符合F-分布。

9 中心极限定理

大数定理

&＃xff08;强&＃xff09;随着随机变量数目趋近于无穷&＃xff0c;则其均值趋近于分布均值&＃xff0c;其标准差也会趋近于分布标准差。
&＃xff08;弱&＃xff09;趋近于期望。

中心极限定理

中心极限定理说明&＃xff0c;大量相互独立的随机变量&＃xff0c;其均值的分布以正态分布为极限。

10 蒙特卡罗方法

蒙特卡洛方法其实就是基于随机数计算相关所需的取值&＃xff0c;其原理就是运用大数定理。常见的运用有&＃xff0c;求积分、圆周率等。

11 假设检验

假设检验实际是基于问题首先提出原假设和备择假设&＃xff0c;以此可以得到I类错误&＃xff08;即拒绝了原本正确的例子&＃xff09;和II类错误&＃xff08;通过了原本错误的例子&＃xff09;。以此&＃xff0c;可以得到α即可承受的为犯I类错误的概率的上限&＃xff0c;而p-value(significance)则是犯I类错误的概率。

12 估计

点估计

在此主要介绍的是两类参数估计方法&＃xff1a;矩估计法和最大似然估计法。

矩估计法

矩估计法是运用

$$A_n &＃61; \frac{1}{n} \sum X^n$$

来解决参数估计问题&＃xff0c;原理是一般分布参数与$$A_n$$之间的关系来求解的。

最大似然估计法

最大似然估计法运用的原理是&＃xff1a;概率最大的时事件最容易发生。

因此求解${X_n}$的参数时&＃xff0c;其实就是计算$${X_n}$$同时发生时概率的最大值&＃xff0c;即求

$$L(X_1, X_2, ..., X_n; \theta) &＃61; P(X &＃61; X_1)P(X &＃61; X_2)...P(X &＃61; X_n)$$

的最大值&＃xff0c;其中$$L(X_1, X_2, ..., X_n; \theta)$$也叫似然函数。

此时只需计算$$L&＃39; &＃61; 0$$即可。

密度估计

以下介绍常用的核密度估计&＃xff08;KDE&＃xff09;&＃xff0c;常见的形势如下&＃xff1a;

$$\hat{x} &＃61; \frac{1}{hn} \sum^n_{i &＃61; 1}{K(\frac{(x - x_i)}{h})}$$

其中$K(.)$称为核密度函数&＃xff0c;h为带宽&＃xff0c;h越大越平滑。

13 协方差(Covariance)、相关系数(Correlation Coefficient)与皮尔森相关系数&＃xff08;Pearson Correlation Coefficient&＃xff09;

协方差&＃xff08;cov&＃xff09;和相关系数&＃xff08;corr&＃xff09;都是用来衡量两变量线性关系&＃xff0c;唯一不同的是&＃xff0c;协方差是含量纲的&＃xff0c;相关系数是标准化后的值&＃xff08;在-1~1之间&＃xff09;。而皮尔森相关系数是最常见的相关系数&＃xff0c;常用r表示。

14 因果性和相关性

相关性不代表因果性。这个是统计学中最重要的一条理论&＃xff0c;因此&＃xff0c;简单的相关系数并不能衡量自变量引起因变量的变化的推理。

A与B相关可能包含以下几种情况&＃xff1a;

A导致B&＃xff08;直接因果&＃xff09;
B导致A&＃xff08;反向因果&＃xff09;
C导致A&＃xff0c;且C导致B&＃xff08;共同因果&＃xff09;
A导致C&＃xff0c;C导致B&＃xff08;间接因果&＃xff09;
A导致B&＃xff0c;同时B也导致A&＃xff08;互为因果&＃xff0c;循环因果&＃xff09;
没有任何关系&＃xff0c;仅仅是巧合。