某些特征会表现出固定的变化趋势,蕴含着明显的规律性,这种规律性被称为“模式”(pattern)。
机器学习侧重于将预先设定的准确率等指标最大化,模式识别就更注重于潜在模式的提取与解释。
一个具有解析解的问题是完全不需要机器学习的。如流体力学中的问题,即使有一万个未知数的问题也可通过一万个方程的方程组解决,就像“能用钱解决的问题都不是问题“一样,能用纯计算解决的问题也不是(需要先进方法的)问题。
用机器学习解决问题还需要一个条件,就是大量的可用数据(data)。
什么样的问题才能通过机器学习来解决呢?
首先,问题不能是完全随机的,需要具备一定的模式;
其次,问题本身不能通过纯计算的方法解决;
再次,有大量的数据可供使用。
机器学习的过程如上图所示,目标函数不是通常意义上的正确率等指标,而是指问题的模式,也就是机器学习要发现的对象。这里的目标函数并不具备简单的解析式形式,不能精确求解,只能从不同的角度去近似。近似的方式是什么呢?针对训练数据的特点做出各种不同的假设(线性模型、多项式模型 ⋯),再在假设空间(hypothesis space)或者假设集合(hypothesis set)中找到与数据的符合度最高的假设——寻找最佳假设的过程就是学习的过程。机器学习的任务,就是使用数据计算出与目标函数最接近的假设,或者说拟合出最精确的模型 。
以“生男生女”为例,如果真的要依据医学指标进行预测的话,那么输入的特征可能既包括像 hcg 激素水平这样有明确意义的数字指标,也可能是 B 超图像这类需要进一步提取转化的原始资料,甚至还可能包括身份证号和病历编号这类每个人独有的信息。
这三类特征分别被命名为具体特征(concrete feature)、原始特征(raw feature)和抽象特征(abstract feature),在解决实际问题时,具体特征可以直接使用,原始特征通常需要转换成具体特征,抽象特征就需要根据实际情况加以取舍。
小结:
机器学习适用于解决蕴含潜在规律的问题;
纯算数问题无需使用机器学习;
机器学习需要大量数据来发现潜在规律;
从输入空间、输出空间、数据标签、学习策略等角度可以对机器学习进行分类 。