归纳偏好:
归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好。
通俗的讲就是“什么模型更好“这么一个问题。””
归纳偏好在二分类里的表现:
在假设空间里已经提及了,训练样本训练过后可能会留下很多种假设,例如最后剩下三个假设。
1. 好的配偶=体型任意+富有+性别任意
2. 好的配偶=体型任意+财富任意+异性
3. 好的配偶=体型任意+富有+异性
(想吐槽我上一篇定义的
“尽可能一般”的情况我们无法在这三者里用训练样本驱除身下的两个,但是我们的算法必须给出一个选择,这时候的对某种类型假设的偏好就叫做归纳偏好。
其实某种程度上,这些“假设”的权重未必都是等效的,这些都是我们在算法里需要仔细考量的。
在回归学习中表现地更为明显,图中的点为训练样本,穿过这些点的曲线都是理论上的满足“条件”的假设模型,但我们直观上更喜欢平滑的蓝色虚线而不是红色的。如果融入到算法就是归纳偏好,我们认为平滑的那条蓝线才是我们认可的“正确”的模型。
-------------------------选择方法-------------
奥卡姆剃刀(Occam’srazor):若有多个假设和观察一致,选择最简单的那个
//一万个人里有一万个奥卡姆剃刀,233,简单这个词儿每个人的理解都不一样
有的时候奥卡姆剃刀也不适用,比如上面的1和2无法判定哪个更“简单”,需要用其他机制来解决这个问题。
然而实情未必绝对,奥卡姆剃刀推崇的原则只能说是一种很好的处理手段,但也不排除测试样本更吻合图里红色曲线的情况,见仁见智,马列毛邓思想说得好,具体问题具体分析,233。
虽然不愿意承认,但本质上红色和蓝色曲线误差的数学期望是相同的 //想骂人。。233
(数学证明过程P8-9)没有免费的午餐定理(NFL),无论学习算法1多聪明,算法2多聪明,两者的期望性能相同。
但是NFL有个前提:所有“问题”出现的机会相同(和具体问题比较脱节)
最后祝大家学习愉快~