当前位置: 开发笔记 > 后端 > 正文

EfficientDeepReinforcementLearningviaAdaptivePolicyTransfer

作者：Sunflower_琪琪 | 来源：互联网 | 2023-08-01 09:06

发表时间：2020（IJCAI2020）文章要点：这篇文章提出PolicyTransferFramework(PTF)算法来做policytransfer。主要思路就是自动去学什么

发表时间：2020（IJCAI 2020）

文章要点：这篇文章提出Policy Transfer Framework (PTF)算法来做policy transfer。主要思路就是自动去学什么时候用哪一个source policy用来作为target policy的学习目标，以及什么时候terminate这个source policy并换另一个source policy来学习（learns when and which source policy is the best to reuse for the target policy and when to terminate it by modeling multi-policy transfer as the option learning problem. adaptively select a suitable source policy during target task learning and use it as a complementary optimization objective of the target policy）。

具体的，在和环境交互的时候，除了RL的网络之外，还有option-value network以及termination network。先用option-value network选一个option，这个option就是一个source policy \(\pi_o\)，然后用RL里面的policy \(\pi\)去和环境交互，比如作者举的例子就是A3C和PPO，然后termination network会决定什么结束当前的source policy然后换下一个source来学习。学习的方式就是在更新RL的policy的时候，会加一个cross-entropy loss来使得policy和source policy接近

RL部分的更新除了新加的loss，就和普通的RL一样了

这里第一项是PG更新的loss，第二项是entropy，第三项就是policy transfer的loss。此外，这个\(L_H\)权重也是自适应调整的，具体设置方式为

这里的\(f(t)\)相当于是一个衰减系数，会随着时间不断变小，也就是最开始多学学source policy，后期就主要看环境的reward。然后这里的\(\beta\)就是termination network，因为termination network的标准就是option的value越大，terminate的概率就越小。所以后面这项的意思就是说如果当前这个option对应的value越大，那么这个权重就大，反之就越小。

剩下的问题是如何更新option-value network和termination network。option-value network就是通常的Q function，只不过这里是关于option的value，不是action的value，用的时候就用\(\epsilon\)-greedy的方式来选option，更新的时候就和DQN的更新类似，通过reward和bellman方程更新

termination network的更新公式为

这里的A是advantage function，\(\xi\)是一个正则项。这里这个更新的目的就是使得option value里不是最大的所有option的termination probability增加。然后整个算法的更新就完了。整个算法如下

总结：transfer的主要思路就是一边学source policy来加快训练，一边用环境的reward来提高performance，是make sense的。从效果上看是有一定效果的，不过提升就提升一点，没有数量级的提升

疑问：里面和环境交互用的是target policy，而不是source policy，但是最后要算两个policy的cross-entropy loss也必须要得到对应的概率才行吧，也就是说source policy也会输出动作对应的概率？

这个option value network的更新里面的reward是一个option的reward还是一个动作step对应的reward呢，文章看来像是一个step对应的reward，不知道这样更新能不能得到option对应的value。

ci
算法

推荐阅读

ci
最小路径覆盖与强连通分量的应用：国王的问题

本题探讨了在一个有向图中，如何根据特定规则将城市划分为若干个区域，使得每个区域内的城市之间能够相互到达，并且划分的区域数量最少。题目提供了时间限制和内存限制，要求在给定的城市和道路信息下，计算出最少需要划分的区域数量。 ... [详细]

蜡笔小新 2024-12-23 18:42:12
ci
基于结构相似性的HOPC算法：多模态遥感影像配准方法及Matlab实现

本文介绍了一种基于结构相似性的多模态遥感影像配准方法——HOPC算法，该算法通过相位一致性模型构建几何结构特征描述符，能够有效应对多模态影像间的非线性辐射差异。文章详细阐述了HOPC算法的原理、实验结果及其在多种遥感影像中的应用，并提供了相应的Matlab代码。 ... [详细]

蜡笔小新 2024-12-23 12:13:56
ci
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
ci
深入理解HashCode与Equals方法

本文详细解析了Java中hashCode()和equals()方法的实现原理及其在哈希表结构中的应用，探讨了两者之间的关系及其实现时需要注意的问题。 ... [详细]

蜡笔小新 2024-12-23 02:59:15
ci
采用IKE方式建立IPsec安全隧道

一、【组网和实验环境】按如上的接口ip先作配置，再作ipsec的相关配置，配置文本见文章最后本文实验采用的交换机是H3C模拟器，下载地址如 ... [详细]

蜡笔小新 2024-12-22 20:24:15
ci
CodeChef 2014 April Challenge - Chef的最终对决：数据结构与整体二分的应用

本题探讨了在大数据结构背景下，如何通过整体二分和CDQ分治等高级算法优化处理复杂的时间序列问题。题目设定包括节点数量、查询次数和权重限制，并详细分析了解决方案中的关键步骤。 ... [详细]

蜡笔小新 2024-12-22 19:34:39
ci
帕斯卡三角形生成算法

给定行数 numRows，生成帕斯卡三角形的前 numRows 行。例如，当 numRows 为 5 时，返回的结果应为：[[1], [1, 1], [1, 2, 1], [1, 3, 3, 1], [1, 4, 6, 4, 1]]。 ... [详细]

蜡笔小新 2024-12-23 16:05:30
ci
使用Python实现图像对比度调整：模拟Photoshop效果

本文介绍了如何利用Python编程语言实现类似Photoshop的图像对比度调整功能。通过详细的算法解析和代码示例，帮助读者理解和应用这一技术。 ... [详细]

蜡笔小新 2024-12-23 13:30:30
ci
【48】在flask中使用ＳＱＬＡＬｃｈｅｍｙ连接ｓｑｌｉｔｅ数据库

方法：１　配置数据库basediros.path.abspath(os.path.dirname(__file__))　　＃获取当前文件的绝对路径appFlask(__name__ ... [详细]

蜡笔小新 2024-12-23 12:51:39
并发
阿里Java面试全解析：从技术面到HR面的详细攻略

本文作者分享了在阿里巴巴获得实习offer的经历，包括五轮面试的详细内容和经验总结。其中四轮为技术面试，一轮为HR面试，涵盖了大量的Java技术和项目实践经验。 ... [详细]

蜡笔小新 2024-12-23 11:32:02
并发
回溯算法实践总结

本文详细探讨了对回溯算法的理解，分析了其在解决“子集和”问题中的应用，并分享了学习过程中遇到的挑战及合作编程的经验。文章通过具体实例和代码片段，深入解析了回溯法的核心思想及其优化策略。 ... [详细]

蜡笔小新 2024-12-23 08:10:45
并发
丽江客栈选择问题

本文介绍了一道经典的算法题，题目涉及在丽江河边的n家特色客栈中选择住宿方案。两位游客希望住在色调相同的两家客栈，并在晚上选择一家最低消费不超过p元的咖啡店小聚。我们将详细探讨如何计算满足条件的住宿方案总数。 ... [详细]

蜡笔小新 2024-12-22 20:15:25
并发
TensorFlow 2.0 实战：多层感知机（MLP）网络入门

本教程详细介绍了如何使用 TensorFlow 2.0 构建和训练多层感知机（MLP）网络，涵盖回归和分类任务。通过具体示例和代码实现，帮助初学者快速掌握 TensorFlow 的核心概念和操作。 ... [详细]

蜡笔小新 2024-12-22 19:56:15
server
SQL基础入门与数据库体系概述

本文介绍了数据库体系的基础知识，涵盖关系型数据库（如MySQL）和非关系型数据库（如MongoDB）的基本操作及高级功能。通过三个阶段的学习路径——基础、优化和部署，帮助读者全面掌握数据库的使用和管理。 ... [详细]

蜡笔小新 2024-12-22 19:17:15
server
智能车间调度研究进展

本文综述了基于强化学习的智能车间调度策略，探讨了车间调度问题在资源有限条件下的优化方法。通过数学规划、智能算法和强化学习等手段，解决了作业车间、流水车间和加工车间中的静态与动态调度挑战。重点讨论了不同场景下的求解方法及其应用前景。 ... [详细]

蜡笔小新 2024-12-22 19:02:54

Sunflower_琪琪

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章