机器学习之数学基础(一)
前言统计学是机器学习重要的一门基础性学科。很多机器学习相关的模型都是基于统计学。由此可见统计学对机器学习的重要性。本文将总结统计概率学的相关概念,这对随后的机器学习的理解有很大的帮助。
将随机试验E的所有可能结果组成的集合称为E的样本空间,记为S。样本空间的元素,称为样本点。
随机试验E,其中S为它的样本空间。对于E的每一事件A赋予一个实数,记为P(A),称为事件A的概率。
1) 非负性。对于每一个事件A,有p(A ) >= 0。
2) 对于必然事件S,有P(S)=1;
3) 可列可加性。对于S中两两互不相容的事件(两种事件同时发生的概率为0)的概率可以相加。
P(A U B)= P(A) U P(B)
1)样本空间S包含有限个元素。
2)试验中每个基本事件发生的概率相同。
在事件A发生的条件下,事件B发生的概率记为P(B|A)。如下所示:
可以理解为事件ABC同时发生的情况下应满足以下条件:
首先事件A发生,事件A发生的情况下B发生,事件A和B发生的情况下C发生。
试验E的样本空间为S,A为E的事件,B1..Bn为S的一个个划分,且(Bi)>0(i=1,2,3..n)。如下图所示:
设试验E的样本空间为S。A为E的事件,B1,B2,…Bn为S的一个划分,且P(A)>0 ,P(Bi)>0(i=1,2,3..n),则
称为贝叶斯公式。
全概率公式和贝叶斯公式在n=2时,公式分别如下:
《概率论与数理统计》浙江大学第四版。