【Seaborn绘图】深度强化学习实验中的paper绘图方法

作者：圣换少爷 | 来源：互联网 | 2023-09-13 17:06

来源：知乎(zhuanlan.zhihu.comp75477750)编辑:DeepRL强化学习实验中的绘图技巧-使用seaborn绘制paper中的图片，

来源&＃xff1a;知乎(zhuanlan.zhihu.com/p/75477750)

编辑: DeepRL

强化学习实验中的绘图技巧-使用seaborn绘制paper中的图片&＃xff0c;使用seaborn绘制折线图时参数数据可以传递ndarray或者pandas,不同的源数据对应的其他参数也略有不同.

1. ndarray

先看一个小例子

def getdata(): basecond &＃61; [[18, 20, 19, 18, 13, 4, 1], [20, 17, 12, 9, 3, 0, 0], [20, 20, 20, 12, 5, 3, 0]]cond1 &＃61; [[18, 19, 18, 19, 20, 15, 14], [19, 20, 18, 16, 20, 15, 9], [19, 20, 20, 20, 17, 10, 0], [20, 20, 20, 20, 7, 9, 1]]cond2 &＃61; [[20, 20, 20, 20, 19, 17, 4], [20, 20, 20, 20, 20, 19, 7], [19, 20, 20, 19, 19, 15, 2]]cond3 &＃61; [[20, 20, 20, 20, 19, 17, 12], [18, 20, 19, 18, 13, 4, 1], [20, 19, 18, 17, 13, 2, 0], [19, 18, 20, 20, 15, 6, 0]]return basecond, cond1, cond2, cond3

数据维度都为(3,7)或(4, 7)

第一个维度表示每个时间点采样不同数目的数据(可认为是每个x对应多个不同y值) 第二个维度表示不同的时间点(可认为是x轴对应的x值)

data &＃61; getdata() fig &＃61; plt.figure() xdata &＃61; np.array([0, 1, 2, 3, 4, 5, 6])/5 linestyle &＃61; [&＃39;-&＃39;, &＃39;--&＃39;, &＃39;:&＃39;, &＃39;-.&＃39;] color &＃61; [&＃39;r&＃39;, &＃39;g&＃39;, &＃39;b&＃39;, &＃39;k&＃39;] label &＃61; [&＃39;algo1&＃39;, &＃39;algo2&＃39;, &＃39;algo3&＃39;, &＃39;algo4&＃39;]for i in range(4): sns.tsplot(time&＃61;xdata, data&＃61;data[i], color&＃61;color[i], linestyle&＃61;linestyle[i], condition&＃61;label[i])

sns.tsplot 用来画时间序列图

time参数表示对应的时间轴(ndarray),即x轴,data即要求绘制的数据,上述例子为(3, 7)或(4, 7),color为每条线的颜色,linestyle为每条线的样式,condition为每条线的标记.

plt.ylabel("Success Rate", fontsize&＃61;25) plt.xlabel("Iteration Number", fontsize&＃61;25) plt.title("Awesome Robot Performance", fontsize&＃61;30) plt.show()

1.2 绘图建议

你的程序代码需要使用一个额外的文件记录结果,例如csv或pkl文件,而不是直接产生最终的绘图结果.这种方式下,你能运行程序代码一次,然后以不同的方式去绘制结果,记录超出您认为严格必要的内容可能是一个好主意&＃xff0c;因为您永远不知道哪些信息对于了解发生的事情最有用.注意文件的大小,但通常最好记录以下内容:每次迭代的平均reward或loss,一些采样的轨迹,有用的辅助指标(如贝尔曼误差和梯度)
你需要有一个单独的脚本去加载一个或多个记录文件来绘制图像,如果你使用不同的超参数或随机种子运行算法多次,一起加载所有的数据(也许来自不同的文件)并画在一起是个好主意,使用自动生成的图例和颜色模式使分辨不同的方法变得容易.
深度强化学习方法,往往在不同的运行中有巨大的变化,因此使用不同的随机种子运行多次是一个好主意,在绘制多次运行的结果时,在一张图上绘制不同运行次的结果,通过使用不同粗细和颜色的线来分辨.在绘制不同的方法时,你将发现将他们总结为均值和方差图是容易的,然而分布并不总是遵循正态曲线,所以至少在初始时有明显的感觉对比不同随机种子的性能.

1.3 实验绘图流程

下面以模仿学习的基础实验为例

means &＃61; [] stds &＃61; [] #使用不同的随机种子表示运行多次实验 for seed in range(SEED_NUM): tf.set_random_seed(seed*10) np.random.seed(seed*10) mean &＃61; [] std &＃61; []#构建神经网络模型model &＃61; tf.keras.Sequential() model.add(layers.Dense(64, activation&＃61;"relu")) model.add(layers.Dense(64, activation&＃61;"relu")) model.add(layers.Dense(act_dim, activation&＃61;"tanh")) model.compile(optimizer&＃61;tf.train.AdamOptimizer(0.0001), loss&＃61;"mse", metrics&＃61;[&＃39;mae&＃39;]) #迭代次数for iter in range(ITERATION): print("iter:", iter) #训练模型model.fit(train, label, batch_size&＃61;BATCH_SIZE, epochs&＃61;EPOCHS)#测试,通过与环境交互n次而成,即n趟轨迹roll_reward &＃61; [] for roll in range(NUM_ROLLOUTS): s &＃61; env.reset() done &＃61; False reward &＃61; 0 step &＃61; 0 #以下循环表示一趟轨迹while not done: a &＃61; model.predict(s[np.newaxis, :]) s, r, done, _ &＃61; env.step(a) reward &＃43;&＃61; r step &＃43;&＃61; 1 if step >&＃61; max_steps: break#记录每一趟的总回报值roll_reward.append(reward) #n趟回报的平均值和方差作为这次迭代的结果记录mean.append(np.mean(roll_reward)) std.append(np.std(roll_reward)) #记录每一次实验,矩阵的一行表示一次实验每次迭代结果means.append(mean) stds.append(std)

接着需要保存数据为pkl文件

d &＃61; {"mean": means, "std": stds} with open(os.path.join("test_data", "behavior_cloning_" &＃43; ENV_NAME&＃43;".pkl"), "wb") as f:pickle.dump(d, f, pickle.HIGHEST_PROTOCOL)

绘图的程序代码比较简单

file &＃61; "behavior_cloning_" &＃43; ENV_NAME&＃43;".pkl"with open(os.path.join("test_data", file), "rb") as f:data &＃61; pickle.load(f)x1 &＃61; data["mean"]file &＃61; "dagger_" &＃43; ENV_NAME&＃43;".pkl"with open(os.path.join("test_data", file), "rb") as f:data &＃61; pickle.load(f)x2 &＃61; data["mean"]time &＃61; range(10)sns.set(style&＃61;"darkgrid", font_scale&＃61;1.5)sns.tsplot(time&＃61;time, data&＃61;x1, color&＃61;"r", condition&＃61;"behavior_cloning")sns.tsplot(time&＃61;time, data&＃61;x2, color&＃61;"b", condition&＃61;"dagger")plt.ylabel("Reward")plt.xlabel("Iteration Number")plt.title("Imitation Learning")plt.show()

有时我们需要对曲线进行平滑

def smooth(data, sm&＃61;1):if sm > 1:smooth_data &＃61; []for d in data:y &＃61; np.ones(sm)*1.0/smd &＃61; np.convolve(y, d, "same")smooth_data.append(d)return smooth_data

sm表示滑动窗口大小,为2*k&＃43;1,

smoothed_y[t] &＃61; average(y[t-k], y[t-k&＃43;1], ..., y[t&＃43;k-1], y[t&＃43;k])

2.pandas

sns.tsplot可以使用pandas源数据作为数据输入,当使用pandas作为数据时,time,value,condition,unit选项将为pandas数据的列名.

其中time选项给出使用该列Series作为x轴数据,value选项表示使用该Series作为y轴数据,用unit来分辨这些数据是哪一次采样(每个x对应多个y),用condition选项表示这些数据来自哪一条曲线.

在openai 的spinning up中,将每次迭代的数据保存到了txt文件中,类似如下:

可以使用pd.read_table读取这个以"\t"分割的文件形成pandas

algo &＃61; ["ddpg_" &＃43; ENV, "td3_" &＃43; ENV, "ppo_" &＃43; ENV, "trpo_" &＃43; ENV, "vpg_" &＃43; ENV, "sac_" &＃43; ENV]data &＃61; []for i in range(len(algo)):for seed in range(SEED_NUM):file &＃61; os.path.join(os.path.join(algo[i], algo[i] &＃43; "_s" &＃43; str(seed*10)), "progress.txt")pd_data &＃61; pd.read_table(file)pd_data.insert(len(pd_data.columns), "Unit", seed)pd_data.insert(len(pd_data.columns), "Condition", algo[i])data.append(pd_data)data &＃61; pd.concat(data, ignore_index&＃61;True)sns.set(style&＃61;"darkgrid", font_scale&＃61;1.5)sns.tsplot(data&＃61;data, time&＃61;"TotalEnvInteracts", value&＃61;"AverageEpRet", condition&＃61;"Condition", unit&＃61;"Unit")#数据大时使用科学计数法xscale &＃61; np.max(data["TotalEnvInteracts"]) > 5e3if xscale:plt.ticklabel_format(style&＃61;&＃39;sci&＃39;, axis&＃61;&＃39;x&＃39;, scilimits&＃61;(0, 0))plt.legend(loc&＃61;&＃39;best&＃39;).set_draggable(True)plt.tight_layout(pad&＃61;0.5)plt.show()

程序参考了spinning up 的代码逻辑github.com/openai/spinn

绘制效果如下:

完整代码&＃xff1a;https://github.com/feidieufo/homework/tree/master/hw1

推荐阅读

算法
深入解析Android自定义View面试题

本文探讨了Android Launcher开发中自定义View的重要性，并通过一道经典的面试题，帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识，还提供了实际操作建议。 ... [详细]

蜡笔小新 2024-12-28 11:15:04
utf-8
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
select
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
select
探索电路与系统的起源与发展

本文回顾了电路与系统的发展历程，从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明，还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]

蜡笔小新 2024-12-24 13:57:05
select
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
select
理解感受野与锚框在目标检测中的应用

本文探讨了卷积神经网络（CNN）中感受野的概念及其与锚框（anchor box）的关系。感受野定义了特征图上每个像素点对应的输入图像区域大小，而锚框则是在每个像素中心生成的多个不同尺寸和宽高比的边界框。两者在目标检测任务中起到关键作用。 ... [详细]

蜡笔小新 2024-12-27 12:03:44
filter
卷积神经网络（CNN）基础理论与架构解析

本文介绍了卷积神经网络（CNN）的基本概念、常见结构及其各层的功能。重点讨论了LeNet-5、AlexNet、ZFNet、VGGNet和ResNet等经典模型，并详细解释了输入层、卷积层、激活层、池化层和全连接层的工作原理及优化方法。 ... [详细]

蜡笔小新 2024-12-24 18:58:11
filter
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
spring
阿里Java面试全解析：从技术面到HR面的详细攻略

本文作者分享了在阿里巴巴获得实习offer的经历，包括五轮面试的详细内容和经验总结。其中四轮为技术面试，一轮为HR面试，涵盖了大量的Java技术和项目实践经验。 ... [详细]

蜡笔小新 2024-12-23 11:32:02
spring
深入理解KMP算法中的next数组：北大OJ 2406题解

本文详细探讨了KMP算法中next数组的构建及其应用，重点分析了未改良和改良后的next数组在字符串匹配中的作用。通过具体实例和代码实现，帮助读者更好地理解KMP算法的核心原理。 ... [详细]

蜡笔小新 2024-12-28 11:30:01
copy
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
buffer
PHP 5.5.0rc1 发布：深入解析 Zend OPcache

2013年5月9日，PHP官方发布了PHP 5.5.0rc1和PHP 5.4.15正式版，这两个版本均支持64位环境。本文将详细介绍Zend OPcache的功能及其在Windows环境下的配置与测试。 ... [详细]

蜡笔小新 2024-12-26 12:56:20
spring
网易严选Java开发面试：MySQL索引深度解析

本文详细记录了网易严选Java开发岗位的面试经验，特别针对MySQL索引相关的技术问题进行了深入探讨。通过本文，读者可以了解面试官常问的索引问题及其背后的原理。 ... [详细]

蜡笔小新 2024-12-24 19:50:16
select
分组获取最大N条记录的优化方案及新年祝福

探讨如何从数据库中按分组获取最大N条记录的方法，并分享新年祝福。本文提供多种解决方案，适用于不同数据库系统，如MySQL、Oracle等。 ... [详细]

蜡笔小新 2024-12-24 12:30:56
select
在Xcode中配置自定义文本样式

本文探讨了如何在iOS开发环境中，特别是在Xcode 6.1中，设置和应用自定义文本样式。我们将详细介绍实现方法，并提供一些实用的技巧。 ... [详细]

蜡笔小新 2024-12-23 14:36:31

圣换少爷

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章