作者:阿INK | 来源:互联网 | 2023-06-09 21:22
1、监督学习
(1)模型
由上图可知通过给定的一个训练集可以学习到一个条件概率分布或者决策函数,也就是学习到输入和输出的映射关系。而在预测过程中,可以通过模型给出相应的输出。因此根据模型的表现形式不同,可以分为概率模型和非概率模型。
(2) 策略
统计学习的目标在于从假设空间中选取最优模型。而损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
损失函数和风险函数
统计学习常见的损失函数:
1》0-1损失函数
2》平方损失函数
3》绝对损失函数
4》对数损失函数或对数似然损失函数
因此损失函数的期望为
其也可以称为风险函数或期望损失。学习目标就是选择期望风险最小的模型。但是联合分布是未知的,一方面根据期望风险最小学习模型要用到联合分布,所以监督学习就成为一个病态问题。
模型f(x)关于训练数据集的平均损失称为经验风险或经验损失,表示为
看到这里,发现有点像概率论里面的期望值估计均值。事实正是如此,根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。因此,可以用经验风险估计期望风险。但是,由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险常常并不理想,要对经验风险进行一定的矫正。
经验风险最小化与结构风险最小化
经验风险最小化(ERM)的策略认为,经验风险最小的模型是最优的模型。因此,按照经验风险最小化求最优模型就是求解最优化问题:
但是,当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生“过拟合”现象。而结构风险最小化(SRM)是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化,结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term),定义如下
其中为模型的复杂度,是定义在假设空间上的泛函。
结构风险最小化的策略认为结构风险最小的模型是最优的模型。所以求最优模型,就是求解最优化问题:
2、模型评估与模型选择
过拟合是指学习时选择的模型所包含的参数过多,以致出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象,可以说模型选择旨在避免过拟合并提高模型的预测能力。
如上图所示,当M选择3时,多项式曲线对训练数据拟合效果足够好,模型也比较简单,是一个较好的选择。
3、正则化与交叉验证
1》正则化
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。其一般形式为:
例如,回归问题中,损失函数是平方损失,正则化项可以是参数向量的L2范数:
正则化符合奥卡姆剃刀原理。从贝叶斯估计的角度来看,正则化项对应于模型的先验概率,可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。
2》交叉验证
简单交叉验证
S折交叉验证
留一交叉验证
4、生成模型与判别模型
模型的一般形式为决策函数:
或者条件概率分布:
1》生成模型
生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:
典型的生成模型有:朴素贝叶斯法和隐马尔科夫模型
特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加时,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。
2》判别模型
判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y。典型的判别模型包括:k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
特点:判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度的抽象、定义特征并使用特征,因此可以简化学习问题。