看到乌云密布,自己推测出要下雨
通过一个苹果的表面和大小,来判断这个苹果是否好吃
我们通过经验来进行判断,这是因为我们积累了许多有用的经验,通过对有用经验的分析,就能对遇到的情况做出相应的对策。
计算机中,经验就是“数据”,判断模型就是“算法”,机器学习就是研究“学习算法”。
举例:当计算机数据库有上千万只猫的照片,并对其特点进行建模分析,你给机器一张照片,它就能进行判断这张照片的动物是不是猫。(有人问:会不会出错?肯定会出错啊!模型如果100%就不会出错,这是依赖于“算法”的好坏和数据库的大小。我们人类的经验也有时候会出错,这其实就是概率的问题)
要进行机器学习, 首先要准备数据。 还是以猫为例:
{猫颜色:黑的、白的、黄的...} 、{猫眼睛:颜色一样的,颜色不一样} 、{猫有的有铃铛,有的没有铃铛} 这些都是“特征”“属性”,每一只猫的属性有很多种,我们可以用一只黑色+眼睛颜色一样+没有铃铛的猫来进行描述。
比如现在有100只猫的照片,那么 这个就 称为“样本空间”
这100只猫的属性集合,分开形成各自的集合,比如上面3个集合,那就称为“属性空间”
抽象:D={x1,x2,x3.....xm}表示有m个示例的数据集。(100只猫的照片形成的数据集)
每个x都有d个属性描述(每只猫可以由:颜色+眼睛色彩+铃铛等属性区分),d是维数
x是样本空间的一个向量
从数据中学习得的模型称为“学习”或者“训练”
每一个样本(每一张猫的照片)称为一个“训练样本”,训练样本的集合 为“训练集”
潜在的规律称为“假设”,也称为“真相”、“真实”,学习过程就是不断 找到真相。
仅仅有前面示例的猫的照片也不够,需要建立联系,就是告诉计算机这是不是猫,(白色,双眼一样,有铃铛;这只是猫)注意分号!这是一个“标记”,拥有了标记,这就成为了一个“样例”这样的集合成为“标记空间”“输出空间”
给你一张照片,判断是不是猫,这个叫做“分类”,预测是连续值,成为“回归”
只涉及两个类别的分类成为“二分类”问题: “正类”+“反类”;多个分类成为:“多分类”
预测的过程称为:“测试”;测试的东西称为:“测试样本”
同时可以对其进行聚类分析:比如把猫分为:橘猫,波斯猫....聚类分析有利于进一步学习,找到潜在规律,这些规律我们事先并不知道。
根据训练数据是否有标记:“监督学习”+“无监督学习”
监督学习代表:分类和回归;无监督学习代表:聚类
训练的目的是解决未知情况,对于“新样本”的认识能力,也就是“泛化”能力
假设样本空间 服从一个未知分布,每个样本 都是独立的,“独立同分布”,一般而言, 训练样本越多,这个未知分布越 明确,越实用, 泛化能力也越强!