作者:Dewey | 来源:互联网 | 2023-07-15 16:59
在传统的强化学习任务中,通常通过计算累积奖赏来学习最优策略(policy),这种方式简单直接,而且在可以获得较多训练数据的情况下有较好的表现。然而在多步决策(sequentiald
在传统的强化学习任务中,通常通过计算累积奖赏来学习最优策略(policy),这种方式简单直接,而且在可以获得较多训练数据的情况下有较好的表现。然而在多步决策(sequential decision)中,学习器不能频繁地得到奖励,且这种基于累积奖赏及学习方式存在非常巨大的搜索空间。而模仿学习(Imitation Learning)的方法经过多年的发展,已经能够很好地解决多步决策问题,在机器人、 NLP 等领域也有很多的应用。
模仿学习是指从示教者提供的范例中学习,一般提供人类专家的决策数据
在简单自动驾驶任务中(如下图),状态就是指汽车摄像头所观测到的画面
但是不是我们完成训练后模型就能够有比较好的效果?答案是否定的,这里存在复合误差(compounding errors),训练好的策略模型
数据增广(Data Augmentation)
为了解决误差随时间越来越大的问题,可以采用数据增广(Data Augmentation)方法,如下图,这是一个端对端的自动驾驶解决方案(NVIDIA 2016),汽车装配了左右两侧的摄像头与中央摄像头来获取当前观测的环境,并且能够通过 Back propagation 使其从错误状态中恢复。它在训练模型前人为地调整了环境不好时汽车的运动动作,另外,摄像头图像的识别采用的是卷积神经网络。
如果我们能够获取大量的训练数据形成一个合适的状态概率分布或者说样本空间,从而得到一个很好的策略模型同样能直接地解决这个问题(如图)。但这往往不太现实,因为需要耗费的成本太大。起初大部分研究者也几乎全在研究如何优化策略减少误差,并提出了很多方法,但都不是十分有效。
DAgger (Dataset Aggregation)
该方法则将研究目的从优化策略
案例二使用了前面提到的 DAgger 方法,图中红线的位置是每个状态的标记,第三步即人工拖拽红线到合适的位置。论文见文末参考资料[5]。
结构化预测(Structured prediction)
结构化预测问题由输入空间
除此之外,结构化预测在字幕生成、机器翻译等 NLP 领域也有应用。
下面是结构化预测在强化学习中的定义:
Sequence labelling
x = the monster ate the sandwich
y = Dt Nn Vb Dt Nn