一、交叉验证
训练集S,模型集合M
1、简单交叉验证:70%S训练M,训练出参数,求得假设函数h,在30%S上得到相应的经验错误,选择最小的最为最好的模型
2、k折交叉验证:将交叉验证的测试集/k,每个模型训练k次,测试k次,得到的错误率/k。一般k取10。
3、留一交叉验证:每次只留一个样例作为测试。(用于数据稀疏的情况)
二、特征选择
严格来讲也是模型选择的一种
1、为什么要做特征选择
在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。
2、特征选择的确切含义
将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。
3、特征选取的原则
获取尽可能小的特征子集,不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强等特点(戳)
特征选择常用算法综述
特征工程是什么
1、前向搜索:每次增量的从剩余未选中的特选出一个加入特征集中,待达到阈值或者n的时候,从所有的特征集中选出错诶率最小的。(错误率利用交叉验证来得到)
2、后向搜索:既然有增量增加,那么也会有增量减少,后者就成为后向搜索。
3、过滤特征选择:针对每一个特征 ,i从1到n,计算相对于类别标签y的信息量S(i),得到n个结果,然后将n个S(i)从大到小排名,输出前k个特征。复杂度为O(n)。
(1)求S(i)
1)互信息公式
(注:log后面的三项概率都是由训练集上得到的)
若是离散值,非常适用,若不是离散值,那么用逻辑回归方法将连续值变成离散值。推广到多个也适用。
2)KL距离
由KL距离,MI衡量的是和y的独立性。如果和y独立(),那么KL距离为0,也就是说和y不相关,可以去除。相反,若和y关系密切,那么MI的值会很大。
(2)求k
用交叉验证的方法。
三、贝叶斯统计和规则化
目的:寻找更好的方法来减少过拟合情况的发生。
贝叶斯学派 为随机变量,值未知 最大后验概率估计
频率学派 为未知常量 最大似然估计
注:与ML相比,MAP就是将移进了条件概率中,并且多了一项p()。贝叶斯最大后验概率比最大似然估计更容易克服过拟合问题。原因大概是:过拟合一般是极大化 造成的,因此公式有两项组成,极大化 时,p()有可能比较下,这样就可以缓解过拟合情况。
我是补充的分割线