机器学习的目的是使学得的模型能很好的适用于“新样本”,即 使得模型具有泛化能力。但太好的模型可能因为学习器学习能力过于强大,进而把训练样本本身的特有性质当做所有潜在样本都会具有的一般性质,进而导致泛化能力减小,出现“过拟合”的情况。“欠拟合”是由于学习器没有通过训练样本学习到一般性质。
P问题:在多项式时间内可解的问题;有效的学习算法必须是p问题,即在多项式时间内可以运行完成。np难问题:不知道这个问题是不是存在多项式时间内的算法。
可选学习算法很多,在模型选择时,训练误差由于过拟合的存在不适合作为评价标准,泛化误差无法直接获得。所以“训练数据”的存在就有了必要,通常选择训练误差较小的模型。
数据集分割为训练集和测试集。1)留出法,直接将数据集划分为两个互斥的集合,划分过程尽可能保持数据分布的一致性,2/3-4/5。2)交叉验证法,将数据集划分为k个大小相似的互斥子集,每个子集轮流做测试集,其余做训练集。3)自助法,包含m个样本的数据集D,对D进行随机抽样构建D',然后将抽到的数据对象放回D,D'用作训练集,剩余数据作为测试集。
调参,参数的范围往往是一个范围,现实的做法是选取一个步长,所以选出的参数往往不是最好的,这是综合考虑开销与性能所做的折中的结果。
性能度量:错误率和精度,两者相加为1;均方误差,概率分布函数。
查准率:挑出来的西瓜有多少是好瓜;查全率(召回率):所有好瓜中被挑出来的概率。准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了
代价敏感错误率是基于费均等代价的。二分类代价矩阵:costij表示将第i类样本预测为第j类样本的代价。一般说来,costii=0;若将第0类判别为第1类所造成的损失更大,则cost01> cost10;