深度强化学习PolicyGradient基本实现

作者：Cockroach小小强 | 来源：互联网 | 2024-09-25 17:01

全文共2543个字，2张图，预计阅读时间15分钟。基于值的强化学习算法的基本思想是根据当前的状态，计算采取每个动作的价值，然

全文共2543个字&＃xff0c;2张图&＃xff0c;预计阅读时间15分钟。

基于值的强化学习算法的基本思想是根据当前的状态&＃xff0c;计算采取每个动作的价值&＃xff0c;然后根据价值贪心的选择动作。如果我们省略中间的步骤&＃xff0c;即直接根据当前的状态来选择动作&＃xff0c;也就引出了强化学习中的另一种很重要的算法&＃xff0c;即策略梯度(Policy Gradient)。这篇文章&＃xff0c;我们就来介绍这种算法的最基础的版本以及其简单的实现。

本篇文章的大部分内容均学习自莫烦老师的强化学习课程&＃xff0c;大家可以在b站上找到相关的视频&＃xff1a;https://www.bilibili.com/video/av16921335/#page&＃61;22

什么是policy gradients

其实在引言部分我们已经介绍了策略梯度的基本思想&＃xff0c;就是直接根据状态输出动作或者动作的概率。那么怎么输出呢&＃xff0c;最简单的就是使用神经网络啦&＃xff01;

我们使用神经网络输入当前的状态&＃xff0c;网络就可以输出我们在这个状态下采取每个动作的概率&＃xff0c;那么网络应该如何训练来实现最终的收敛呢&＃xff1f;

我们之前在训练神经网络时&＃xff0c;使用最多的方法就是反向传播算法&＃xff0c;我们需要一个误差函数&＃xff0c;通过梯度下降来使我们的损失最小。但对于强化学习来说&＃xff0c;我们不知道动作的正确与否&＃xff0c;只能通过奖励值来判断这个动作的相对好坏。基于上面的想法&＃xff0c;我们有个非常简单的想法&＃xff1a;

如果一个动作得到的reward多&＃xff0c;那么我们就使其出现的概率增加&＃xff0c;如果一个动作得到的reward少&＃xff0c;我们就使其出现的概率减小。

根据这个思想&＃xff0c;我们构造如下的损失函数&＃xff1a;loss&＃61; -log(prob)*vt

我们简单用白话介绍一下上面这个损失函数的合理性&＃xff0c;那么至于从数学角度上为什么要使用上面的损失函数&＃xff0c;可以参考&＃xff1a;Why we consider log likelihood instead of Likelihood in Gaussian Distribution。

上式中log(prob)表示在状态 s 对所选动作 a 的吃惊度, 如果概率越小, 反向的log(prob) 反而越大. 而vt代表的是当前状态s下采取动作a所能得到的奖励&＃xff0c;这是当前的奖励和未来奖励的贴现值的求和。也就是说&＃xff0c;我们的策略梯度算法必须要完成一个完整的eposide才可以进行参数更新&＃xff0c;而不是像值方法那样&＃xff0c;每一个(s,a,r,s&＃39;)都可以进行参数更新。如果在prob很小的情况下, 得到了一个大的Reward, 也就是大的vt, 那么-log(prob)*vt就更大, 表示更吃惊, (我选了一个不常选的动作, 却发现原来它能得到了一个好的 reward, 那我就得对我这次的参数进行一个大幅修改)。

这就是 -log(prob)*vt的物理意义啦.Policy Gradient的核心思想是更新参数时有两个考虑&＃xff1a;如果这个回合选择某一动作&＃xff0c;下一回合选择该动作的概率大一些&＃xff0c;然后再看奖惩值&＃xff0c;如果奖惩是正的&＃xff0c;那么会放大这个动作的概率&＃xff0c;如果奖惩是负的&＃xff0c;就会减小该动作的概率。

策略梯度的过程如下图所示&＃xff1a;

640?wx_fmt&＃61;jpeg

我们在介绍代码实战之前&＃xff0c;最后在强调Policy Gradient的一些细节&＃xff1a;

算法输出的是动作的概率&＃xff0c;而不是Q值。
损失函数的形式为&＃xff1a;loss&＃61; -log(prob)*vt
需要一次完整的episode才可以进行参数的更新

policy gradients 算法实现

我们通过Policy Gradient算法来实现让钟摆倒立的过程。

640?wx_fmt&＃61;png

本文的代码地址在&＃xff1a;https://github.com/princewen/tensorflow_practice/tree/master/Basic-Policy-Network

本文的代码思路完全按照policy gradient的过程展开。

定义参数
首先&＃xff0c;我们定义了一些模型的参数&＃xff1a;

self.ep_obs,self.ep_as,self.ep_rs分别存储了当前episode的状态&＃xff0c;动作和奖励。

self.n_actions &＃61; n_actions self.n_features &＃61; n_features self.lr &＃61; learning_rate self.gamma &＃61; reward_decayself.ep_obs,self.ep_as,self.ep_rs &＃61; [],[],[]

定义模型输入
模型的输入包括三部分&＃xff0c;分别是观察值&＃xff0c;动作和奖励值。

with tf.name_scope(&＃39;inputs&＃39;): self.tf_obs &＃61; tf.placeholder(tf.float32,[None,self.n_features],name&＃61;&＃39;observation&＃39;) self.tf_acts &＃61; tf.placeholder(tf.int32,[None,],name&＃61;&＃39;actions_num&＃39;) self.tf_vt &＃61; tf.placeholder(tf.float32,[None,],name&＃61;&＃39;actions_value&＃39;)

构建模型
我们的模型定义了两层的神经网络&＃xff0c;网络的输入是每次的观测值&＃xff0c;而输出是该状态下采取每个动作的概率&＃xff0c;这些概率在最后会经过一个softmax处理

layer &＃61; tf.layers.dense( inputs &＃61; self.tf_obs, units &＃61; 10, activation&＃61; tf.nn.tanh, kernel_initializer&＃61;tf.random_normal_initializer(mean&＃61;0,stddev&＃61;0.3), bias_initializer&＃61; tf.constant_initializer(0.1), name&＃61;&＃39;fc1&＃39;)all_act &＃61; tf.layers.dense( inputs &＃61; layer, units &＃61; self.n_actions, activation &＃61; None, kernel_initializer&＃61;tf.random_normal_initializer(mean&＃61;0,stddev&＃61;0.3), bias_initializer &＃61; tf.constant_initializer(0.1), name&＃61;&＃39;fc2&＃39;)self.all_act_prob &＃61; tf.nn.softmax(all_act,name&＃61;&＃39;act_prob&＃39;)

模型的损失
我们之前介绍过了&＃xff0c;模型的损失函数计算公式为&＃xff1a;loss&＃61; -log(prob)*vt&＃xff0c;我们可以直接使用tf.nn.sparse_softmax_cross_entropy_with_logits 来计算前面一部分&＃xff0c;即-log(prob)&＃xff0c;不过为了更清楚的显示我们的计算过程&＃xff0c;我们使用了如下的方式&＃xff1a;

with tf.name_scope(&＃39;loss&＃39;): #neg_log_prob &＃61; tf.nn.sparse_softmax_cross_entropy_with_logits(logits&＃61;self.all_act_prob,labels &＃61;self.tf_acts)neg_log_prob &＃61; tf.reduce_sum(-tf.log(self.all_act_prob) * tf.one_hot(indices&＃61;self.tf_acts,depth&＃61;self.n_actions),axis&＃61;1) loss &＃61; tf.reduce_mean(neg_log_prob * self.tf_vt)

而我们选择AdamOptimizer优化器进行参数的更新&＃xff1a;

with tf.name_scope(&＃39;train&＃39;): self.train_op &＃61; tf.train.AdamOptimizer(self.lr).minimize(loss)

动作选择
我们这里动作的选择不再根据贪心的策略来选择了&＃xff0c;而是根据输出动作概率的softmax值&＃xff1a;

def choose_action(self,observation): prob_weights &＃61; self.sess.run(self.all_act_prob,feed_dict&＃61;{self.tf_obs:observat ion[np.newaxis,:]}) action &＃61; np.random.choice(range(prob_weights.shape[1]),p&＃61;prob_weights.ravel()) return action

存储经验
之前说过&＃xff0c;policy gradient是在一个完整的episode结束后才开始训练的&＃xff0c;因此&＃xff0c;在一个episode结束前&＃xff0c;我们要存储这个episode所有的经验&＃xff0c;即状态&＃xff0c;动作和奖励。

def store_transition(self,s,a,r): self.ep_obs.append(s) self.ep_as.append(a) self.ep_rs.append(r)

计算奖励的贴现值
我们之前存储的奖励是当前状态s采取动作a获得的即时奖励&＃xff0c;而当前状态s采取动作a所获得的真实奖励应该是即时奖励加上未来直到episode结束的奖励贴现和。

def _discount_and_norm_rewards(self): discounted_ep_rs &＃61; np.zeros_like(self.ep_rs) running_add &＃61; 0 # reserved 返回的是列表的反序&＃xff0c;这样就得到了贴现求和值。 for t in reversed(range(0,len(self.ep_rs))):running_add &＃61; running_add * self.gamma &＃43; self.ep_rs[t]discounted_ep_rs[t] &＃61; running_adddiscounted_ep_rs -&＃61; np.mean(discounted_ep_rs) discounted_ep_rs /&＃61; np.std(discounted_ep_rs) return discounted_ep_rs

模型训练
在定义好上面所有的部件之后&＃xff0c;我们就可以编写模型训练函数了&＃xff0c;这里需要注意的是&＃xff0c;我们喂给模型的并不是我们存储的奖励值&＃xff0c;而是在经过上一步计算的奖励贴现和。另外&＃xff0c;我们需要在每一次训练之后清空我们的经验池。

def learn(self): discounted_ep_rs_norm &＃61; self._discount_and_norm_rewards() self.sess.run(self.train_op,feed_dict&＃61;{ self.tf_obs:np.vstack(self.ep_obs), self.tf_acts:np.array(self.ep_as), self.tf_vt:discounted_ep_rs_norm, }) self.ep_obs,self.ep_as,self.ep_rs &＃61; [],[],[] return discounted_ep_rs_norm

好了&＃xff0c;模型相关的代码我们就介绍完了&＃xff0c;如何调用这个模型的代码相信大家一看便明白&＃xff0c;我们就不再介绍啦。

有关强化学习中policy gradient的更多的改进我也会进一步学习和总结&＃xff0c;希望大家持续关注&＃xff01;

参考资料

1 https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/4-4-gym/

2 https://papers.nips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf

3 https://zhuanlan.zhihu.com/p/21725498

原文链接&＃xff1a;https://mp.weixin.qq.com/s?__biz&＃61;MzI1MzY0MzE4Mg&＃61;&＃61;&mid&＃61;2247483860&idx&＃61;1&sn&＃61;77cfb5401c70b830e01c0c60d0a70c91&chksm&＃61;e9d01115dea79803b130588ebfb06a7fc6e43b07d2e67150b3be0d9b89559f12df3aba79b1d5&scene&＃61;21#wechat_redirect

查阅更为简洁方便的分类文章以及最新的课程、产品信息&＃xff0c;请移步至全新呈现的“LeadAI学院官网”&＃xff1a;
www.leadai.org

请关注人工智能LeadAI公众号&＃xff0c;查看更多专业文章

640?wx_fmt&＃61;jpeg

推荐阅读

input
TensorFlow 2.0 实战：多层感知机（MLP）网络入门

本教程详细介绍了如何使用 TensorFlow 2.0 构建和训练多层感知机（MLP）网络，涵盖回归和分类任务。通过具体示例和代码实现，帮助初学者快速掌握 TensorFlow 的核心概念和操作。 ... [详细]

蜡笔小新 2024-12-22 19:56:15
input
ChatGPT：内容创造者还是非法搬运工？

探讨ChatGPT在法律和版权方面的潜在风险及影响，分析其作为内容创造工具的合法性和合规性。 ... [详细]

蜡笔小新 2024-12-21 10:13:36
utf-8
Logistic Regression 实现与解析

本文详细介绍了使用NumPy和TensorFlow实现的逻辑回归算法。通过具体代码示例，解释了数据加载、模型训练及分类预测的过程。 ... [详细]

蜡笔小新 2024-12-12 14:21:41
io
阿里Java面试全解析：从技术面到HR面的详细攻略

本文作者分享了在阿里巴巴获得实习offer的经历，包括五轮面试的详细内容和经验总结。其中四轮为技术面试，一轮为HR面试，涵盖了大量的Java技术和项目实践经验。 ... [详细]

蜡笔小新 2024-12-23 11:32:02
input
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
range
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
input
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
go
USACO 2014 Jan - Moolympics区间记录优化算法

题目描述：给定n个半开区间[a, b)，要求使用两个互不重叠的记录器，求最多可以记录多少个区间。解决方案采用贪心算法，通过排序和遍历实现最优解。 ... [详细]

蜡笔小新 2024-12-27 18:14:31
python
LeetCode 991：故障计算器的最优解法

探讨一个显示数字的故障计算器，它支持两种操作：将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]

蜡笔小新 2024-12-27 14:34:44
merge
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
input
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
default
Apache Jena 中 Txn.executeWrite 方法详解与代码示例

本文详细介绍了 Apache Jena 库中的 Txn.executeWrite 方法，通过多个实际代码示例展示了其在不同场景下的应用，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-26 17:55:52
go
Weight the Tree（树形dp）

题目Link题目学习link1题目学习link2题目学习link3%%%受益匪浅！－－－－－&# ... [详细]

蜡笔小新 2024-12-26 15:55:56
process
由二叉树到贪心算法

二叉树很重要树是数据结构中的重中之重，尤其以各类二叉树为学习的难点。单就面试而言，在 ... [详细]

蜡笔小新 2024-12-21 13:13:13
input
Keras 实战：自编码器入门指南

本文介绍了使用 Keras 框架实现自编码器的基本方法。自编码器是一种用于无监督学习的神经网络模型，主要功能包括数据降维、特征提取等。通过实际案例，我们将展示如何使用全连接层和卷积层来构建自编码器，并讨论不同维度对重建效果的影响。 ... [详细]

蜡笔小新 2024-12-18 17:30:35

Cockroach小小强

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章