机器学习之生成模型和判别模型
1、生成模型和判别模型的定义
对于输入数据集X,输出类别Y,生成模型和判别模型可以这样定义
判别模型:由数据集直接学习决策函数y = f(x) 或者条件概率分布P(y|x) 作为预测的模型(决策函数事实上是可以用条件概率表示的,例如在逻辑回归中的决策函数和转换成条件概率),这样的模型称为判别模型。*基本思想就是在有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。*典型的判别模型包括K近邻,感知机,决策树,支持向量机等。
生成模型:**由数据学习联合概率密度分布P(x, y),然后求出条件概率分布P(y|x)作为预测的模型。**即生成模型:P(y|x) = P(x, y)/P(x)。典型的生成模型包括朴素贝叶斯,高斯混合模型,隐马尔科夫模型等。
2、生成模型和判别模型的优缺点
判别模型:判别模型是寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。判别模型不能反映数据本身的特性。但是判别模型简单易懂,而且可以对数据进行各种抽象、定义特征并使用特征,可以简化学习问题。
生成模型:生成模型能反映数据之间的关系,而且可以做增量学习,生成模型的学习收敛速度更快,而且对于存在隐变量的问题,仍可以使用生成模型(如隐马尔科夫,混合高斯模型等)。但是生成模型学习和计算过程更加复杂。