全部笔记的汇总贴:统计学习方法读书笔记汇总贴
一、统计学习
- 统计学习以计算机及网络为平台,是建立在计算机及网络上的;
- 统计学习以数据为研究对象,是数据驱动的学科;
- 统计学习的目的是对数据进行预测与分析;
- 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
- 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。
二、统计学习的分类
分为监督学习(supervised learning)、无监督学习(unsupervised learning) 和强化学习(reinforcement learning)(以及半监督学习、主动学习)。
- 监督学习是指从标注数据中学习预测模型的机器学习问题;
- 无监督学习则是从无标注数据中学习预测模型的机器学习问题;
- 强化学习是指智能系统在于环境的连续互动中学习最优行为策略的机器学习问题;
- 半监督学习是利用标注数据和未标注数据学习预测模型的机器学习问题;
- 主动学习是机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
还有以下的分类:
- 概率模型VS非概率模型
- 线性模型VS非线性模型
- 参数化模型VS非参数化模型
三、统计学习三要素
模型
由决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型。
策略
损失函数
- 0-1损失函数
- 平方损失函数
- 绝对损失函数
- 对数损失函数
学习的目标就是选择期望风险最小的模型。
经验风险(empirical risk)是指模型f(X)f(X)f(X)关于训练数据集的平均损失,也称经验损失。
经验风险最小化(empirical risk minimization, ERM) 的策略认为,经验风险最小的模型是最优的模型。例如极大似然估计。
结构风险最小化(structural risk minimization, SRM) 是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化(regularization )。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term )。例如贝叶斯估计中的最大后验概率估计。
结构风险最小化的策略认为结构风险最小的模型是最优的模型。
算法
算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。
四、模型评估与模型选择
统计学习的目的是使学到的模型不仅对己知数据而且对未知数据都能有很好的预测能力。不同的学习方法会给出不同的模型。当损失函数给定时,基于损失函数的 模型的训练误差(training error )和模型的测试误差(test error)就自然成为学习方法评估的标准。
训练误差是模型Y=f^(X)Y =\hat f(X)Y=f^(X)关于训练数据集的平均损失;测试误差是模型Y=f^(X)Y =\hat f(X)Y=f^(X)关于测试数据集的平均损失。
如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,这种现象称为过拟合(over-fitting)。过拟合是指学习时选择的模型所包含的参数过多,以至出现这一模型对己知数据预测得很好,但对未知数据预测得很差的现象,可以说模型选择旨在避免过拟合并提高模型的预测能力。
五、正则化与交叉验证
模型选择的典型方法是正则化(regularization)。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正 则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大,正则化符合奥卡姆剃刀(Occam’s razor)原理。
奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释己知数据并且十分简单才是最好的模型,也就是应该选择的模型。
另一种常用的模型选择方法是交叉验证(cross validation),随机地将数据集切分成三部分,分别为训练集(training set)、验证集(validation set)和测试集(test set)。训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估。在学习到的不同复杂度的模型中,选择对验证集有最小预测误差的模型。由于验证集有足够多的数据,用它对模型进行选择也是有效的。但是,在许多实际应用中数据是不充足的。为了选择好的模型,可以采用交叉验证方法。
交叉验证的基本想法是重复地使用数据:把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。
- 简单交叉验证
- S折交叉验证
- 留一交叉验证
六、泛化能力
学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。
如果学到的模型是f^\hat ff^,那么用这个模型对未知数据预测的误差即为泛化误差(generalization error) 。泛化误差反映了学习方法的泛化能力,如果一种方法学习的模型比另一种方法学习的模型具有更小的泛化误差,那么这种方法就更有效。事实上,泛化误差就是所学习到的模型的期望风险。
学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称为泛化误差上界(generalization error bound)。具体来说,就是通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。泛化误差上界通常具有以下性质:它是样本容量的函数,当样本容量增加时,泛化上界趋于0;它是假设空间容量(capacity)的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
七、生成模型与判别模型
{监督{概率模型{判别模型(p(Y∣X)):LR,MEMM,CRF生成模型非概率模型:PLA,SVM,KNN,NN,TreeModel非监督{概率模型:生成模型非概率模型:PCA,LSA,K−means,Auto−encoder\left\{\begin{matrix} 监督\left\{\begin{matrix} 概率模型\left\{\begin{matrix} 判别模型(p(Y|X)):LR,MEMM,CRF\\\\{\color{blue}生成模型} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\ \end{matrix}\right.\\\\非概率模型:PLA,SVM,KNN,NN,Tree\;Model \;\;\;\;\;\;\;\end{matrix}\right.\\\\\;\;\;\;\;\;\;\;\;\;\;\;非监督\left\{\begin{matrix} {\color{blue}概率模型:生成模型}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\\\非概率模型:PCA,LSA,K-means,Auto-encoder\;\;\;\;\;\;\;\;\;\;\;\;\;\ \end{matrix}\right. \end{matrix}\right.⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧监督⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧概率模型⎩⎨⎧判别模型(p(Y∣X)):LR,MEMM,CRF生成模型 非概率模型:PLA,SVM,KNN,NN,TreeModel非监督⎩⎨⎧概率模型:生成模型非概率模型:PCA,LSA,K−means,Auto−encoder
生成模型:
朴素贝叶斯
混合高斯模型
隐马尔科夫模型(HMM)
贝叶斯网络
Sigmoid Belief Networks
马尔科夫随机场(Markov Random Fields)
深度信念网络(DBN)
判别模型:
K近邻(KNN)
线性回归(Linear Regression)
逻辑回归(Logistic Regression)
神经网络(NN)
支持向量机(SVM)
高斯过程(Gaussian Process)
条件随机场(CRF)
CART(Classification and Regression Tree)
八、监督学习的应用
分类问题
分类是监督学习的一个核心问题。在监督学习中,当输出变量YYY取有限个离散值时,预测问题便成为分类问题。这时,输入变量XXX可以是离散的,也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数,成为分类器。分类器对新的输入进行输出的预测,称为分类(classification)。可能的输出称为类别(class)。分类的类别为多个时,称为多类分类问题。
有k近邻法、感知机、朴素贝叶斯法、决策树、决策列表、逻辑斯谛回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、Winnow等。
标注问题
标注( tagging)也是一个监督学习问题。可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测(structure prediction)问题的简单形式。标注问 题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学 习一个模型,使它能够对观测序列给出标记序列作为预测。注意,可能的标记个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级增长的。
有隐马尔可夫模型、条件随机场等。
回归问题
回归(regression)是监督学习的另一个重要问题。回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系 ,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化 。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合己知数据且很好地预测未知数据。
最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法 (least squares)求解。
下一章传送门:统计学习方法读书笔记(二)-感知机