本文为Andrew ng深度学习课程的第三部分,主要总结了机器学习的策略方法。
1 机器学习策略之一
当我们的模型搭建出来之后,策略可以指引我们为了达到目标,如何采取下一步行动。
1.1 正交化
当设计和训练一个监督学习的系统时,我们依赖下面四条正交的假定:
- 使模型在训练集上拟合,否则使用更大的神经网络或使用更好的优化算法。
- 使模型在开发集上拟合,否则使用正则化或使用更大的训练集
- 使模型在测试集上拟合,否则使用最大的开发集
- 使模型在现实中运行良好,否则重新规划开发集/测试集或调整损失函数
1.3 单一优化指标与决定性指标
在评估模型时,有时会有多个不同维度的评价参数。例如从算法角度有精确度,召回率。从应用角度上,算法可能对不同类型的客户或场景有不同的效果。
如果同时采用多个指标,就不能快速有效对比多个不同模型,可能会造成模型选择上的混乱。因此需要将不同标准归一化到单个量化评估指标,以方便比较不同模型。
另外的场景存在硬性指标要满足。比如在模型大小受限或运行时间受限的场景中,模型的大小或运行时间将成为接受模型的决定性因素。不满足这些条件的模型即使软性指标再好也无法接受。
1.4 训练/开发/测试集的分布
训练集/开发集/测试集的设置对大型团队的生产力影响十分巨大。
测试集是我们模型优化要瞄准的目标,因此强调开发集与测试集的数据要来自相同的分布,这样模型日常在开发集上的调优与测试集效果的目标是一致的,否则团队就会在模型优化与最终测试中南辕北辙,极大浪费团队时间。
1.5 改变开发集/测试或损失函数的情况
以一个推荐算法为例,假定有两个算法A,B。算法A以3%的错误率向用户推荐猫的图片,算法B以5%的错误率向用户推荐猫的图片。然而算法A却会向用户推荐黄色图片,而算法B却不会。从社会的层面算B是更合适的。
此种场景,说明损失函数定义是有问题的。需要调整损失函数,需要将损失函数定义为对黄色图片更敏感,通过对不同类图片增加权重以影响损失函数,例如增加黄色图片的权重:
Error:1∑w(i)∑i=1mw(i){ŷ i≠yi}Error:1∑w(i)∑i=1mw(i)L{y^i≠yi}
1.6 人类的表现
下图展示了机器学习的性能随时间的表现,与人类表现以及理论最优表现的关系。
一般的,当机器学习超过人的表现水平后,它就进步地很缓慢了,其中有一个重要的原因是人类的对于一些自然感知问题的表现水平几近于贝叶斯误差(Bayes Error)。
贝叶斯误差被定义为最优的可能误差,换句话说,就是任何从x到精确度y映射的函数都不可能超过这个值。
1.7 可避免偏差
人类的表现可以作为机器表现的基准,让我们得出是需要解决机器学习的结果是偏差大还是要解决方差大的问题。
分类\示例 | 例1 | 例2 |
---|
人类误差 | 1% | 7.5% |
训练集误差 | 8% | 8% |
开发集误差 | 10% | 10% |
结论 | 高偏差 | 高方差 |
1.8 超越人类的表现
在某些领域中,机器学习可以明显的超越人类的表现,如在线广告,商品推荐,反信用欺诈等领域,由于这些领域存在大量的数据,机器算法可以从中发现人类难以发现的规律。而在另一些人类任务的领域,如语音识别,图片识别,自然语言处理等领域,机器学习与人类水平仍有一段距离。
2 机器学习策略二
2.1 误差分析
误差分析的目的是对错误分类的数据进行主成分分析,发现其中占比最大的错误,依次解决一类占比最大的错误。不建议优化占比较低的错误类型,因为其对提高模型的正确率帮助较低。
误差分析的作法是选择一个小数据集,运行模型,然后手工整理每一个错误预测的原因,然后统计出对模型准确率提升最有价值的原因,进行有针对性的解决。
2.2 关于错误标注的数据
通过误差分析,可以评估错误引入的主要原因。若标签错误占比较小,则可以忽略标签错误,否则则需要修复错误的标签。
2.3 快速进行实现与迭代
在收集到必要的数据,设置好开发集和测试集之后,尽量快速的构建一个可运行的简单系统,得到算法运行的结果,通过偏差和方差分析,理解算法的运行结果,对算法欠缺的地方进行针对性的研究。不鼓励一开始就建立复杂的系统。
2.5 不匹配数据的划分
对于获取的数据集,前面一直在强调训练、开发、测试集的来源都应该要是相同的。在无法达成这一要求下,对于不同来源的数据集,就要充分考虑如何将它们进行划分。
例如想要开发一款手机应用,能对用户上传的猫的图片进行识别。假如现在有1万张普通用户上传的猫的图片数据,这些图片的质量都不太好,有一些可能是模糊的,另外从网络上获取了20万张质量较好的猫的图片。
构建机器学习模型时,在开发集和测试集上,一定要反映出将来需要面临的数据。考虑到例子中这个机器学习模型主要将应用在识别用户拍摄的猫的图片上,在划分数据上,就可以将20万张网络获取和图片和5千张用户上传的图片共20.5万张图片作为训练集,剩下的5千张图片一半作开发集,一半作测试集。长远来看,这种分配方法比起随机打乱所有数据样本再进行分配性能要好。
在这种情况下,由于数据集的不匹配,后续如果进行方差/偏差分析,就很难找到问题的根源了,例如对于上面的例子,由于开发集包含的样本比训练集中的样本更加难以准确识别,开发集的错误率往往会大于训练集的错误率。为了解决这个问题,可以再定义一个训练-开发集,训练-开发集和训练集的来源相同,但是这部分并不参与训练。
2.6 分析不匹配的数据
有时候训练集和开发测试集数据的差异性,导致模型方差较大。这个时候需要尽量使得训练数据与真实应用影响更匹配。
对于语音识别问题,如果训练数据缺少背景的噪音,可以通过声音合成的方式,将噪音加入到训练数据中,使其更接近测试数据。
2.7 迁移学习
如果针对某个分类任务你只有一个很小的数据集,但有人公开了大量数据集训练好的类似任务的数据模型,则你可以使用迁移学习的方法。
在迁移学习中,通过冻结他人训练好模型的前面若干层,使用自己的数据只训练模型的最后一层。这样也可以取得较好的效果,因为他人模型中的低层的特征对于你的任务而言是有用的。
2.8 多任务学习
若现在有一个任务,它需要识别出图片中的车辆,行人,交通标识。一种作法是训练三个模型,分别用来识别图片的车辆,行人与交通标识。但这种作法较为耗时。另一种作法是训练单个模型,它可以对图片中的多种目标作出识别。
多任务学习的场景是在一组任务的训练过程中它们能共享低层的特征,且对于每个任务的训练数据有大量的重合数据。
2.9 端到端学习
以自然语言处理为例,非端到端的作法会划分为多步。例如处理文本,人工特征工程,以人工特征作输入进行学习。特征工程这一步常常需要专业的研究人员进行大量的分析工作。在数量集较小时,特征工程的效果还可以接受。
端到端的学习则去除了中间的步骤,直接以文本和标签为输入,训练神经网络在高维空间中学习文本与标签之间的映射关系。如果有大量监督数据集,则端到端的效果会迅速提升,甚至超过人工特征工程的效果。
端到端深度学习完全由数据驱动,不需要人工设计的组件,效率较好。其缺点是需要大量的数据,若数据量不满足则难以取得较好的效果。另外排除了对人工特征利用的可能性。