首页技术博客 PHP教程数据库技术前端开发 HTML5 Nginx php论坛

新用户注册 | 会员登录

热门标签 | HotTags

当前位置: 开发笔记 > 编程语言 > 正文

qpython3h教学_强化学习:Qlearning由浅入深：入阶3

作者：多米音乐_34249295 | 来源：互联网 | 2023-05-28 11:55

python-实例将上一章节的实例用python3.x采用两种方法实现：第一种简单方案：算法步骤1.在矩阵R中设置Gamma参数和环境奖励。2.将矩阵Q

python-实例

将上一章节的实例用python3.x采用两种方法实现&＃xff1a;

第一种简单方案&＃xff1a;

算法步骤

1.在矩阵R中设置Gamma参数和环境奖励。

2.将矩阵Q初始化为零。

3.While i<200 do&＃xff1a;

For j in range(6) do

为 j 状态选择所有可能的操作之一。

使用这种可能的操作&＃xff0c;考虑进入下一个状态。

根据所有可能的操作获取下一个状态的最大Q值。

计算&＃xff1a;Q(状态&＃xff0c;动作)&＃61; R(状态&＃xff0c;动作)&＃43; Gamma *最大[ Q(下一个状态&＃xff0c;所有动作)]

End while

End while

python 代码

import numpy as np

import seaborn as sns

import matplotlib.pyplot as plt

#设置Gamma参数和环境奖励R

GAMMA &＃61; 0.8

R&＃61;np.asarray([[-1,-1,-1,-1,0,-1],

[-1,-1,-1,0,-1,100],

[-1,-1,-1,0,-1,-1],

[-1,0, 0, -1,0,-1],

[0,-1,-1,0,-1,100],

[-1,0,-1,-1,0,100]])

#初始化Q

Q &＃61; np.zeros((6,6))

#寻找最大的奖励

def getMaxQ(state):

return max(Q[state, :])

#Q-Learning

def QLearning(state):

curAction &＃61; None

#while

for action in range(6):

if(R[state][action] &＃61;&＃61; -1):

Q[state, action]&＃61;0

else:

curAction &＃61; action

Q[state,action]&＃61;R[state][action]&＃43;GAMMA * getMaxQ(curAction)

#主函数

count&＃61;0

while count<200:

for i in range(6):

QLearning(i)

count&＃43;&＃61;1

sns.set()

f, ax &＃61; plt.subplots(figsize&＃61;(8, 6))

cmap &＃61; sns.diverging_palette(230, 10)

sns.heatmap(Q, cmap &＃61; cmap, annot&＃61;True, fmt&＃61;&＃39;g&＃39;, linewidths&＃61;.5, ax&＃61;ax)

运行结果

第二种简单方案&＃xff1a;

算法步骤

1.在矩阵R中设置Gamma参数和环境奖励。

2.将矩阵Q初始化为零。

3.For i<100&＃xff1a;

随机选择一个初始状态。

For j in range(6)

为当前状态选择所有可能的操作之一。

使用这种可能的操作&＃xff0c;考虑进入下一个状态。

根据所有可能的操作获取下一个状态的最大Q值。

计算&＃xff1a;Q(状态&＃xff0c;动作)&＃61; R(状态&＃xff0c;动作)&＃43; Gamma *最大[ Q(下一个状态&＃xff0c;所有动作)]

将下一个状态设置为当前状态

End For

End while

python代码

import numpy as np

import seaborn as sns

import random

import matplotlib.pyplot as plt

#设置Gamma参数和环境奖励R

GAMMA &＃61; 0.8

R&＃61;np.asarray([[-1,-1,-1,-1,0,-1],

[-1,-1,-1,0,-1,100],

[-1,-1,-1,0,-1,-1],

[-1,0, 0, -1,0,-1],

[0,-1,-1,0,-1,100],

[-1,0,-1,-1,0,100]])

#初始化Q

Q &＃61; np.zeros((6,6))

#寻找最大的奖励

def getMaxQ(state):

return max(Q[state, :])

#Q-Learning

def QLearning(state):

curAction &＃61; None

#while

for action in range(6):

if(R[state][action] &＃61;&＃61; -1):

Q[state, action]&＃61;0

else:

curAction &＃61; action

Q[state,action]&＃61;R[state][action]&＃43;GAMMA * getMaxQ(curAction)

return action

#主函数

count&＃61;0

while count<100:

new &＃61; random.randint(0,5)

for i in range(6):

new&＃61;QLearning(new)

count&＃43;&＃61;1

sns.set()

f, ax &＃61; plt.subplots(figsize&＃61;(8, 6))

cmap &＃61; sns.diverging_palette(230, 10)

sns.heatmap(Q, cmap &＃61; cmap, annot&＃61;True, fmt&＃61;&＃39;g&＃39;, linewidths&＃61;.5, ax&＃61;ax)

运行结果

参考资料&＃xff1a;A Painless Q-Learning Tutorialmnemstudio.org根据A painless Q-Learning教程用python实现blog.csdn.net

推荐阅读

java
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35
web
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
go
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
input
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
list
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
java
Python爬虫技术基础篇面向对象高级编程（中）的多重继承

本文介绍了Python爬虫技术基础篇面向对象高级编程（中）中的多重继承概念。通过继承，子类可以扩展父类的功能。文章以动物类层次的设计为例，讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例，以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]

蜡笔小新 2023-12-12 16:19:02
utf-8
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
java
Java太阳系小游戏分析和源码详解

本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践，作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构，包括工具类、常量、图片加载、面板等。通过这个小游戏的制作，读者可以巩固和应用所学的知识，如类的继承、方法的重载与重写、多态和封装等。 ... [详细]

蜡笔小新 2023-12-14 19:53:34
go
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
command
Linux重启网络命令实例及关机和重启示例教程

本文介绍了Linux系统中重启网络命令的实例，以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法，以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]

蜡笔小新 2023-12-14 15:52:52
java
Java容器中的compareto方法排序原理解析

本文从源码解析Java容器中的compareto方法的排序原理，讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点，回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录，展示了整个讲解过程。 ... [详细]

蜡笔小新 2023-12-14 13:53:31
java
OC学习笔记之@property和@synthesize

本文介绍了OC学习笔记中的@property和@synthesize，包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]

蜡笔小新 2023-12-14 12:05:06
java
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
go
如何更高效地使用IF函数来获取输出列表

本文讨论了如何使用IF函数从基于有限输入列表的有限输出列表中获取输出，并提出了是否有更快/更有效的执行代码的方法。作者希望了解是否有办法缩短代码，并从自我开发的角度来看是否有更好的方法。提供的代码可以按原样工作，但作者想知道是否有更好的方法来执行这样的任务。 ... [详细]

蜡笔小新 2023-12-12 17:32:28
javascript
MooTools和JQuery并排 - MooTools and JQuery Side by Side

IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]

蜡笔小新 2023-12-12 13:43:58

多米音乐_34249295

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |

京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区版权所有