Distral:Robustmultitaskreinforcementlearning.

作者： | 来源：互联网 | 2023-09-23 11:56

作者：张楚珩链接：https:zhuanlan.zhihu.comp51091244来源：知乎著作权归作者所有。商业转载请联系作者获得授权

作者：张楚珩
链接：https://zhuanlan.zhihu.com/p/51091244
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

中Distral是Distill & transfer learning的缩写。

原文传送门

Teh, Yee, et al. "Distral: Robust multitask reinforcement learning." Advances in Neural Information Processing Systems. 2017.

特色

提出了一种同时在多个任务上训练的强化学习方法，主要的想法是把各个任务上学到的策略进行提纯（distill，本意是蒸馏）得到一个共有的策略，然后再使用这个共有的策略去指导各个特定任务上的策略进行更好的学习。文章称，这种多任务的强化学习方法避免了不同任务产生互斥的梯度，反而干扰学习；同时，也避免了各个任务学习进度不一致，导致某个任务的学习主导了整体的学习。个人感觉，这种各个任务间提纯的方法也说不定能用到多智能体间的相互交互上。

背景

为什么要做多任务学习？需要过多的交互（采样）是目前强化学习的一大重要问题，这阻碍了强化学习应用到模拟环境以外的其他地方。如果能通过进行多任务学习让智能体学习到一些共有的知识，这样在一个新环境下就能通过少量样本学习到好的策略了，这样就相当于从另一个角度降低了学习算法所需要的样本。

过程

大致思想

在各个环境各自学习各自策略的基础上建立一个中间的策略 [公式] ，各个策略进行学习的时候会在中间策略的正则下来学习，而各个不同的策略综合起来由提纯得到这个中间策略。

2. 目标函数

考虑多个任务 [公式] （这里的既表示任务，也表示任务下相应的策略）和由这些策略提纯得到的策略。

设定如下的最大化目标

即主要约束了各个策略 [公式] 不要偏离中心策略太远，同时再加上了entropy项以鼓励探索。

3. 优化方式

文章讨论了两种优化方式，一种是联合优化，一种是交替优化。前一种就是每次都对所有的策略 [公式] 的参数化表示做SGD；后一种就是每次固定一个训练另一个，即固定优化，再固定优化。在后一种情况下，第一步可以使用和已有的soft Q-learning一样的实现，第二步可以使用和已有的一些distillation方法已有的实现，实践上这两者已经是稳定的了。

固定的时候，我们可以定义一个正则化的奖励

这样问题就变成了一个附加entropy项的单任务强化学习问题了，使用Soft Q-learning的框架（不熟悉的可以参考本专栏的文章【强化学习算法 10】SQL）就是学习这样的任务（红色删除线应为 [公式] ，文章打印错误）

它相当于是以 [公式] 为先验来学习的，这是一个比更为鼓励探索的一个先验，的作用后面会再提到。相应的Boltzmann策略是

固定 [公式] 的时候，目标函数里面只有一项与相关

可以使用maximum likelihood estimator或者对目标函数做SGD得到，这就是一个distillation的过程。

4. 策略的表示

一种自然的策略表示方法是都采用Boltzmann策略的表示方法

不过文中还提出了另一种更好的方法，即各个特定的策略 [公式] 表示为与共有的部分和其自己特有部分的加和，这样各个特定策略学习过程中就只需要集中精力学习自己特有的部分了。

左边是文中提到的更好的一种表示方式，右边是各自表示各自的

中心策略 [公式] 使用一个神经网络来表示

特定的策略 [公式] 使用使用中心策略的神经网络和各自的神经网络来表示

注意到这就是一个以 [公式] 为先验的Boltzmann策略，其中advantage使用的是soft advantage

在这种表示方法下就可以自然使用策略梯度方法进行联合优化

其中正则化的奖励为

5. 的选择

下面考虑优化目标里面 [公式] 不同数值带来的不同含义

的时候就等于没有中心策略，即每个任务各学各的；
的时候相当于在最大化cumulated discounted return的同时，还需要最小化一个项；当的时候，项为零，这时候相当于在找一个在这个任务上的greedy策略；
的时候在最小化KL项的同时，还要最小化，这相当于附加了激励各个策略不要局限在中心策略附加，鼓励了相对于中心策略的探索。

实验

根据前面提到的目标的不同（选择不同的 [公式] ）、优化方式的不同（是分别优化还是联合优化）以及结构的不同（的表示是否使用中心策略），文章做了以下的7个实验组。

根据目标、优化方法、参数化策略结构不同产生的7个实验组算法

实验主要在一个简单的世界任务和3D的第一人称迷宫任务上做的。个人感觉有如下几个点

多个任务联合起来学习可以使得单个任务的渐进性能都稍微好一点点，这一点说明中心策略确实还是代表了一些共有的知识。（不然，搞了这么一通不如单独每个任务去训练）
格子世界任务选择了一个具有长长走廊的格子世界，中心策略的主要优势就体现在这个走廊上，实验结果表明，使用了中心策略之后，智能体能够快速地朝一个方向通过这个走廊，以此证明这种算法不会产生相互冲突的中心策略更新；但是个人认为其主要原因是这里的state选择并不仅仅是所处的格子，还包括了上一步的行动，正是这样状态空间的选择导致了不会产生相互冲突的中心策略。
就相对于超参数的稳定性来说，KL+ent 2col算法（即使用和相互耦合的策略表示）具有最好的稳定性。
如果学习相对独立的策略，还是不要使用相互耦合的策略表示（即1col）更好。

作者：王小惟
链接：https://zhuanlan.zhihu.com/p/70127847
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

2017-NIPS-Distral: Robust Multitask Reinforcement Learning

Distral (Distill & transfer learning)。简而言之，之前的multitask或多或少都是希望通过参数共享来加快学习（比如对于图片的特征提取层）。但是在实际中，由于任务之间的梯度方向可能会互相干扰，同时不同任务的reward尺度（observation的数值尺度）会不一样大，这就进一步限制了parameter weight的大小，同样也会出现梯度大小等不同的情况等等。既然共享参数会存在这样一系列的问题，这里采用了另外的一套框架，即在每个任务中学习特定的policy，然后在学习过程中进行knowledge的共享。即：将这些policy都蒸馏到一个中心的policy [公式] 中，同时也利用这个来对特定的任务下的policy做正则化来进行约束（感觉就是knowledge transfer过去）。

在训练特定任务时，policy最大化环境的累积收益，同时加上对于 [公式] 的KL散度来做约束，还有相应的entropy正则来鼓励探索。

在训练中心式的policy，就是对于其他所有特定任务的策略的KL散度的最小化。

更近一步，这边提了一下不同的训练方式，比如一起训练，间隔训练等，具体就去看paper即可。

推荐阅读

rsa
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
rsa
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
replace
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
replace
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
include
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
include
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
include
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
post
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
include
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
include
Mac上安装Jupyter Notebook的详细步骤与技巧

本文将详细介绍如何在Mac上安装Jupyter Notebook，并提供一些常见的问题解决方法。通过这些步骤，您将能够顺利地在Mac上运行Jupyter Notebook。 ... [详细]

蜡笔小新 2024-11-12 00:45:51
export
如何在Linux服务器上配置MySQL和Tomcat的开机自动启动

在Linux服务器上部署Web项目时，通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动，以确保服务的稳定性和可靠性。通过合理的配置，可以有效避免因服务未启动而导致的项目故障。 ... [详细]

蜡笔小新 2024-11-11 19:41:03
export
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
future
如何在Nginx服务器上轻松配置CertBot以实现SSL证书自动化管理

为了确保iOS应用能够安全地访问网站数据，本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程，可以确保应用始终使用HTTPS协议，从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法，帮助读者快速上手并成功部署SSL证书。 ... [详细]

蜡笔小新 2024-11-10 08:42:08
future
中国学者实现 CNN 全程可视化，详尽展示每次卷积、ReLU 和池化过程

中国学者实现 CNN 全程可视化，详尽展示每次卷积、ReLU 和池化过程 ... [详细]

蜡笔小新 2024-11-03 13:52:28
future
射频领域博士学位：信号处理算法在射频技术中的职业前景如何？

射频领域的博士学位在信号处理算法方面具有广阔的职业前景，尤其是在射频技术的应用中。例如，加入华为的射频基站部门，从事数字预失真等关键技术的研发工作。在此过程中，需要注意持续跟踪最新的学术和技术进展，保持对行业动态的敏感性，并不断提升自身的实践能力和创新能力。此外，除了技术层面，还应关注行业的整体发展趋势，以便更好地规划职业生涯。 ... [详细]

蜡笔小新 2024-11-02 18:41:10

Tags | 热门标签

RankList | 热门文章