贝叶斯公式:
实际上,分母为全概率公式,分子为联合概率。在机器学习中,更常见的形式为
贝叶斯公式的作用在于将P(B|A)的估计转化为估计P(A|B)和P(B)
注:由式(7.7)可知,因为证据因子P(x)只与样本本身有关,与类标记无关,故有maxP(c∣x)等价于maxP(x,c)
于是,估计似然P(c∣x)的问题就转化为如何基于训练数据D来估计先验概率P©和似然P(x∣c)。
对于似然P(x∣c),由于它涉及关于x所有属性的联合概率,故使用频率来估计P(x∣c)是不可行的,因为训练集不能保证其所有的样本能观测到所有属性,而 “未观测到的” 与运用频率估计其 “出现概率为0” 是 不同的。
待补充。。。
参考链接