深入解析监督学习的核心概念与应用

2019独角兽企业重金招聘Python工程师标准>>>

机器学习分为监督学习&＃xff0c;非监督学习&＃xff0c;强化学习和深度学习。

监督学习&＃xff0c;是从标记的训练数据来推断一个功能的机器学习任务。

比如&＃xff0c;在家里教宝宝认识苹果和梨&＃xff0c;你拿出四个苹果和四个梨&＃xff0c;放桌子上教宝宝认识这些水果。这些苹果和梨就是已经标注好的数据。

然后指着苹果对宝宝说&＃xff1a;“来&＃xff0c;宝宝&＃xff0c;往这看&＃xff0c;这是苹果&＃xff0c;来跟我念&＃xff0c;苹——果——。”

“苹——果——。”

“好。”

然后又指着香蕉对宝宝说&＃xff1a;“来&＃xff0c;看这里&＃xff0c;这是梨&＃xff0c;来给我念&＃xff0c;梨——。”

“梨——。”

依次把这些水果都教宝宝认一遍。这就是监督学习的训练过程&＃xff0c;训练完成后还要做一下测试&＃xff0c;看看宝宝是否都学习会了。

监督学习中&＃xff0c;一般把数据分成两部分&＃xff0c;一部分是学习数据&＃xff0c;占总数据集的80%以上&＃xff0c;一部分是测数据&＃xff0c;占总数据集的20%一下。测试时&＃xff0c;你从冰箱里拿出一个苹果和一个梨&＃xff0c;问宝宝&＃xff1a;“宝宝&＃xff0c;这是什么呀&＃xff1f;”。这就是监督学习的测试过程。

在测试中&＃xff0c;宝宝把苹果认错了&＃xff0c;你分析发现&＃xff0c;原来你教宝宝的时候用的是红苹果&＃xff0c;测试时&＃xff0c;用的是青苹果。这说明你对数据划分的不合理&＃xff0c;训练数据中应该包括红苹果和青苹果。

为了避免这个问题&＃xff0c;在训练时&＃xff0c;先把数据随机打乱&＃xff0c;再把数据分成训练数据和测试数据。

其实在真正的监督学习中&＃xff0c;学习过程类型与上面说的类似&＃xff0c;只是在学习时&＃xff0c;使用了一些算法&＃xff0c;数据量级也是上百万&＃xff0c;上千万&＃xff0c;甚至上亿的。

为了训练出更好的机器学习模型&＃xff0c;我们会先选择一个合适的机器学习算法&＃xff0c;再为这个算法准备好不同的参数。

在训练时&＃xff0c;我们把学习算法和参数结合起来&＃xff0c;组合成一个模型。为选出一个最好的模型&＃xff0c;我们会使用一些交叉验证法&＃xff0c;计算出一个得分&＃xff0c;哪个模型得分高就选哪个模型。

交叉验证法有很多种&＃xff0c;我们一般使用K折交叉验证。K折交叉验证是把训练数据分成K份&＃xff0c;然后依次拿出一份做为验证数据&＃xff0c;其剩下他的K-1份数据做为训练数据&＃xff0c;用来训练机器学习模型&＃xff0c;训练完成后&＃xff0c;再拿验证数据&＃xff0c;测试模型得分。这样循环执行K次&＃xff0c;然后再把每次验证得分加一起算平均值&＃xff0c;作为模型的得分&＃xff0c;得分最高的模型&＃xff0c;就是我们选取的模型。

然后再用测试数据测试我们选取的模型&＃xff0c;看看它的正确率怎么样。

有时我们在训练时&＃xff0c;得分很高&＃xff0c;但是在测试时&＃xff0c;正确率却很低。我们把这种现象叫过拟合。过拟合出现的原因是训练条件太苛刻了。比如&＃xff0c;你在教宝宝认苹果的时候&＃xff0c;拿出一个红苹果&＃xff0c;对宝宝说&＃xff1a;“宝宝&＃xff0c;这是苹果&＃xff0c;它的颜色的红的&＃xff0c;上面还有个把。” 然后你再拿出来一个红色没把的苹果&＃xff0c;他就不认识了。因为你教他的时候&＃xff0c;条件太苛刻了&＃xff0c;红色带把的苹果叫苹果。这就叫过拟合。

出现过拟合&＃xff0c;那么我们就需要&＃xff0c;调整参数&＃xff0c;再重新训练。找到最好的模型&＃xff0c;然后测试。直到测试的正确率满意为止。