PS:本文为阅读周志华《机器学习》笔记
介绍-------任务与奖赏
我们如果要种西瓜,那要经过很多步骤后,才有可能种出一田好瓜,当然也有可能种出的瓜很差,或者直接给种死了。那么将种瓜的过程抽象出来,总结出一系列好的操作,归为种瓜策略,那么,这个过程,就是“增强学习”。
这是一个简单的图示,其中:
机器处于环境中,状态空间为X,比如此例,状态空间可以是健康,缺水,凋亡等等,小x为状态空间X中单个状态。
机器所能采取的动作为a,比如:浇水,不浇水;所有动作构成动作集合A。
某个动作a作用在某个状态x上,则潜在的转移函数P将使得环境从当前状态按照某种概率转移到另一个状态。如:缺水状态,选择浇水,则有概率转移到健康状态。
那么,在转移到另一个状态时(另一个状态也可以是原本的状态),环境会根据潜在的“奖赏”函数R反馈给机器一个奖赏,如:健康为+1,缺水为-1,凋亡为-100。
综合起来,增强学习任务对应了一个四元组E=
其中,P:X*A*X->R;指定了状态转移概率。R:X*A*X->指定了奖赏;
思考:X与A之间的叉叉符号是什么关系?
环境中状态的转移、奖赏的返回时不受机器控制的,机器只能通过选择要执行的动作来影响环境,也只能通过观察转移后的状态和返回的奖赏来感知环境。
下图给出一个例子:仔细看在每个状态下,采取的动作a后状态转移的概率p和所获得的奖赏r;
机器要做的就是通过在环境中不断地尝试而学得一个“策略”π,根据这个策略,在状态x下就知道要执行的动作a=π(x),例如:看到缺水状态,就知道要选择浇水动作;
策略有两种表示方法:一是将策略表示为函数π:X->A,确定性策略常用这种表示方法;
另一种是概率表示π:X *A ->概率,随机性策略常用这种表示;
思考:什么是确定性策略,什么是随机性策略?
那么,π(x,a)为在一个状态x下选择某个动作a的概率,必须有;这里的意思是,在缺水状态下,选择浇水这个动作的概率之和为1.概率是指选择动作的概率;
思考:p是表示状态转移概率,为何在状态x下选择某个动作的转移概率之和也为1?巧合还是有关联
学习的目的就是找到使长期积累奖赏最大化的策略,长期积累有多种计算方式,常用的有“T步累积奖赏”和“伽马折扣累积奖赏”。其中rt表示第t步获得的奖赏值,E表示对所有的随机变量求期望;
与监督学习的差别:
“状态”对应监督学习中的“示例”,就是去掉标记特征的样本。
“动作”对应为“标记”
“策略”对应为“分类器”
从这个意义上说,增强学习可以看作具有“延迟标记信息”的监督学习问题。