全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴
一、简介
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。
二、术语
数据集:对单个样本特征进行描述的记录集合。每条记录时关于一个事件或对象的描述,称为“示例”或“样本”,反映事件或对象在某方面的表现或性质的事项称为“属性”或“特征”。
…(发现这块儿也没啥好说的,这些概念用多了就能明白在说啥,实在不懂就看看书吧)
三、假设空间
归纳(induction)与演绎(deduction)是科学推理的两大基本手段。前者是从特殊到一般的 “ 泛化 ” generalization)过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的 “特化” (specialization)过程,即从基础原理推演出具体状况。
我们可以把学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集 “ 匹配” (fit)的假设,即能够将训练集中判断正确的假设。
四、归纳偏好
对于一个具体的算法,我们需要选择一个模型,这个时候我们选择的算法偏好就会起到关键的作用。任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上 “等效” 的假设所迷惑,而无法产生确定的学习结果。
“奥卡姆剃刀” (Occam’s razor)是一种常用的、 自然科学研究中最基本的原则,即 “若有多个假设与观察一致,则选最简单的那个 ” 。有利于降低过拟合带来的模型在训练集上的效果优于测试集。
五、发展过程、应用现状及阅读材料
- 数据挖掘:发现数据之间的关系
- 计算机视觉:像人一样看懂世界
- 自然语言处理:像人一样看懂文字
- 机器人决策:像人一样具有决策能力
其他的看看课本,扩展阅读一下…
下一章传送门:西瓜书读书笔记(二)-模型评估与选择