第一章 基本术语
1、机器学习的定义:从数据中自动的归纳逻辑或规则,并根据这个归纳的结果与新数据来进行预测的算法。要讨论算法的相对优劣,必须要针对具体的学习问题。
2、目标:使得学得的模型能很好的适用于“新样本”,而不仅仅在训练样本上工作得很好,即便是对聚类这样的无监督学习,也希望学得的聚划分能适用于没在训练集中出现的样本。
3、样本(示例、特征向量): 数据集中的每个记录称之为样本或者示例。
4、属性空间(样本空间、输入空间):样本属性张成的空间称为属性空间(样本空间、输入空间),每个样本对应空间中的一个点,故而一个示例也称为一个“特征向量”。
5、模型:模型也称为学习器,可看作学习算法在给定数据集和参数空间的实例化。
6、学习:从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成。
7、训练集:训练过程中使用的数据称为训练数据,训练样本组成的集合称为训练集。学得的模型对应了关于数据的某种潜在的规律,因此称为“假设”。这种潜在规律自身,则是称为真相或真实,学习过程就是为了找出或逼近真相。训练集通常是样本空间中很小的一个采样。
8、测试:学得模型后,使用其进行预测的过程称为“测试”,被测试的样本称为测试样本。
监督学习与无监督学习:根据训练数据是否拥有标记信息,学习任务可以分为两类,监督学习和无监督学习:分类和回归是前者的代表,聚类是后者的代表(学习过程中使用的训练样本通常不拥有标记信息)。
9、泛化 : 学得模型适用于新样本的能力,称为“泛化”能力,具有强泛化能力的模型能很好地适用整个样本空间。
10、假设:通过学习得到的模型对应了假设空间中的一个假设。
11、学习过程:通常假设样本空间中全体样本服从一个未知分布,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”。一般而言,训练样本越多,我们得到的关于该未知分布的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。
我们可以将学习过程看作是在一个所有的假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的训练样本判断正确的假设。
12、概念学习:概念学习(归纳学习)的目标就是泛化,即是通过对训练集中的训练样本进行学习以获得对测试集进行判断的能力。
13、归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好我们称之为“归纳偏好”,简称“偏好”。
归纳偏好对应了学习算法本身所作出的关于什么样的模型更好的假设,在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
机器学习与数据挖掘、数据库技术的联系:
数据挖掘是从海量知识中发掘知识,这就必然涉及对“海量数据”的管理和分析。数据库领域为数据挖掘提供数据管理技术,机器学习和统计学的研究为数据挖掘提供数据分析的技术。机器学习领域和数据库领域则是数据挖掘的两大支撑。机器学习提供数据分析能力,云计算提供数据处理能力,众包提供数据标记能力。