监督学习,无监督学习和强化学习强调的是机器学习模型不同的学习方式。首先给一个通俗的解释:
例如你要参加一场考试,首先发给了你很多模拟卷子和答案,你做了模拟卷子,对了答案,学习了相关的知识点,然后再考试,这就是监督学习。模拟卷子和答案是监督学习中的样本数据。
如果啥卷子没做你就去考试,肯定是大脑一片空白,此时只能“三长一短选最短,三短一长选最长,两长两短就选B,同长同短就选A,参差不齐就选C”了,这种就是从答案自身的特点进行判断,属于无监督学习。
最后还有一种情况,开始你什么都不知道,然后去考试,考完后,告诉你考试的分数,然后要你重新再考,这时你肯定会分析前面考试时不确定的题目,重新来做,然后考完后,再告诉你考试的分数,再重新考试,通过多次考试的机会,你不断的总结和改进前面答题的问题,就可以越考越好了,这就是强化学习。
由上面的例子可知,监督学习,无监督学习和强化学习都符合人类在某种情况下的学习方式,一般来说,人们在成长过程中往往是多种学习方式的结合,因此机器学习后来又出现了半监督学习,自监督学习等新的流派。
由前面的例子可以知道,在样本数据可获得的前提下,监督学习是比较靠谱的,所以机器学习里监督学习是影响最为广泛的流派。著名的深度学习就是监督学习的典型代表。在监督学习中,需要大量有标记的监督样本(类似于前面所说的模拟卷子和答案),然后根据样本(已知输入和输出的数据)来训练模型,在这一过程中机器学习模型不断的通过训练样本来指导算法不断改进。如果输出的结果不正确,那么这个错误结果与期望正确结果之间的误差将作为纠正信号传回到模型,纠正模型的改进。由于监督学习中,样本的输入和输出都是预先给定的,所以监督学习的准确率很高。然而,在现实世界中,受限于对求解问题的认知和获取样本的成本,往往在很多场景中难以获得大量的样本数据,因此就需要无监督学习或强化学习了。
监督学习
与监督学习不同,无监督学习只有输入数据,没有标记好的输出数据,所以只能够通过探索数据中隐含的模式和分布来进行学习(例如“三长一短选最短,三短一长选最长”),所以难以独立得到高质量的预测结果,一般主要应用在聚类,异常检测等任务当中。
无监督学习
强化学习突破了监督与无监督学习的限制,通过奖励函数(例如考试的得分)的反馈来帮助机器改进自身的行为和算法。强化学习中的智能体(考试的人)通过行为(做题)与环境(考试)相互作用,而环境(考试)通过奖励函数(考试的得分)来帮助智能体调整做出行为决策的策略函数,从而在不断的循环中得到表现优异的行为策略(解题的方法)。它十分适合用于训练控制算法、比赛和游戏等场景。
强化学习
不同学习方法的对比
1. 监督学习 v.s 强化学习
在监督学习中对应的输入输出数据(样本数据)扮演了监督的角色,将其中蕴含的知识通过训练赋予模型,模型通过数据的纠正信号不断学习最终形成能较好理解数据并准确预测的算法。而在强化学习中监督数据并不是必须的(可以不需要样本),主体可以通过与环境相互作用尝试很多方法和表现并调节。我们可以想象围棋的例子,在最终胜负揭晓之前我们需要执行很多次操作,每一次操作都有很多种可能,为这一任务建立监督学习的知识是十分复杂的工作。而强化学习则可以根据与环境相互作用后收到的反馈建立起自己对于棋局的理解。
当开始学习后它便可以不断地充实自己的经验并改善表现。这就是强化学习与监督学习最大的不同了。虽然两种模型都建立了某种输入到输出的映射关系,但强化学习却是通过奖励函数来帮助系统不断改进模型的。这样的好处在于,人工智能模型经过监督学习往往最多能达到样本的水平(也就是标记样本的人的水平),而强化学习则通过探索有一定的概率能够超越人类,成为超级智能体。
2.强化学习 v.s 无监督学习
强化学习和无监督学习均不需要训练数据。强化学习是通过智能体(策略)来对输入和输入进行衔接,但无监督学习则在输入和输出之间没有任何的链接。在无监督学习中,机器的主要任务是对数据中的模式进行识别而不是建立映射关系。如果我们想要建立一个用户美食系统,强化学习可以通过用户的使用反馈不断改进,并建立起用户喜欢的食物偏好实现更精准的菜品设计。而对于无监督学习来说,则只能从用户点过的菜来分析用户的喜好,并不能获得用户的真实反馈。
参考文献:
[1] https://www.toutiao.com/a6540418366522262023/
关注“人工智能教育”公众号,您将获得我们精选的机器学习教材和代码,谢谢!