LearningtoPaintwithModel-basedDeepReinforcementLearning

作者：拍友2502911223 | 来源：互联网 | 2023-12-11 10:27

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。

Learning to Paint with Model-based Deep Reinforcement Learning

Abstract
Introduction
Related work
Painting Agent
- Overview
- The Model
- Learning
- - Model-based DDPG
  - - 原始的DDPG
    - 基于模型的DDPG
- Action Bundle
- WGAN Reward
- Network Architectures
Stroked-based Renderer
- Neural Renderer
- Stroke Design
Training
Ablation Studies&＃xff08;对比实验的结果&＃xff09;
- Model-based vs. Model-free DDPG
- Rewards
- Stroke Number and Action Bundle
Conclusion
论文地址

Abstract

通过结合神经渲染器和基于模型的深度强化学习&＃xff08;DRL&＃xff09;&＃xff0c;教机器像人类画家一样画画。agent可以产生笔画的坐标点、半径、透明度、颜色值等。

Introduction

本文定义了人工智能绘画&＃xff0c;agent可以按顺序在画布上绘制笔画&＃xff0c;以生成类似于给定目标图像的绘画。

agent绘制纹理丰富的图像存在三个挑战&＃xff1a;

首先&＃xff0c;要像人一样绘画&＃xff0c;需要agent具有将给定目标图像在空间上分解为笔画&＃xff0c;然后以正确顺序将它们画在画布上的能力。agent需要可视地解析目标图像&＃xff0c;了解画布的当前状态&＃xff0c;并制定有关未来笔画的预见计划。为了解决此问题&＃xff0c;一种常见的方法是在每个步骤中为笔画分解提供有监督的损失。这种方法在计算上是消耗非常大的。同样&＃xff0c;纹理丰富的图像绘画通常需要数百次笔画才能生成与目标图像相似的绘画&＃xff0c;这比涂鸦&＃xff0c;素描或字符书写要高数十倍。为了处理这样的长期计划任务&＃xff0c;强化学习&＃xff08;RL&＃xff09;是一个不错的选择&＃xff0c;因为RL的目的是使整个绘画过程的累积奖励最大化&＃xff0c;而不是使每个步骤的监督损失最小化。这使agent具有远见卓识&＃xff0c;计划笔画分解和大量步骤的绘画。此外&＃xff0c;本文采用对抗训练策略来训练绘画agent。该策略已成功用于像素级图像生成任务&＃xff0c;并且还可以帮助agent进行绘制&＃xff1b;
第二&＃xff0c;细微的笔画参数空间&＃xff08;包括笔画位置和颜色&＃xff09;对于绘画至关重要。先前的工作将笔画参数空间设计为离散的&＃xff0c;并且每个参数只有有限的选择数量&＃xff0c;这不再适用于纹理丰富的绘画。由于大多数RL算法处理细粒度参数空间的能力较弱&＃xff08;例如深度Q网络&＃xff08;DQN&＃xff09;和策略梯度&＃xff08;PG&＃xff09;&＃xff09;&＃xff0c;因此在连续空间上定义笔画参数提出了巨大挑战。相反&＃xff0c;深度确定性策略梯度&＃xff08;DDPG&＃xff09;设计用于处理连续的动作空间&＃xff0c;使用DDPG训练的agent已经显示出微妙的控制性能。本文在方法中采用DDPG&＃xff0c;以使agent具有绘画能力&＃xff1b;
第三&＃xff0c;高效的绘画模拟器对于agent的性能至关重要&＃xff0c;尤其是在画布上绘画数百个笔划的情况下。大多数工作通过与模拟的绘画环境进行交互来绘画。这种方法既费时又不灵活。取而代之的是&＃xff0c;本文使用神经网络&＃xff08;NN&＃xff09;训练端到端渲染器&＃xff0c;该渲染器将笔画参数直接映射到笔画。渲染器可以实现各种笔画设计。而且&＃xff0c;渲染器是可以与DDPG巧妙地组合在一起的差分模型&＃xff0c;是一种基于模型的DRL算法&＃xff0c;极大地提高了原始DDPG的性能。

强化学习&＃xff08;RL&＃xff09;旨在最大化整个绘画过程的累积回报&＃xff0c;而不是最小化每一步的监督损失&＃xff0c;这使得agent有先见之明计划笔画分解和大规模步骤绘画。此外&＃xff0c;本文采取对抗训练策略来训练绘画agent。这种策略成功地用于像素级图像生成任务&＃xff0c;也有助于agent绘制。
使用神经网络&＃xff08;NN&＃xff09;来训练端到端渲染器&＃xff0c;该渲染器直接将笔画参数映射到笔画。渲染器可以实现各种笔画设计。此外&＃xff0c;渲染器是差分&＃xff0c;可以与DDPG巧妙地结合作为一种基于模型的DRL算法&＃xff0c;这极大地提高了原始DDPG的性能。

总而言之&＃xff0c;本文的贡献如下&＃xff1a;

本文使用基于模型的DRL算法解决绘画任务&＃xff0c;允许agent按顺序将目标图像分解为数百个笔触&＃xff0c;以生成类似于目标图像的绘画&＃xff1b;
神经渲染器用于高效绘画&＃xff0c;并且还与各种笔划设计兼容。此外&＃xff0c;神经渲染器有助于本文提出的基于模型的DDPG&＃xff1b;
本文所提出的绘画agent可以很好地处理多种类型的目标图像&＃xff0c;包括数字&＃xff0c;门牌号&＃xff0c;肖像和自然场景图像。

Related work

基于笔画的渲染&＃xff08;SBR&＃xff09;是一种通过放置离散元素&＃xff08;例如笔画或点画&＃xff09;来创建非真实感图像的自动方法&＃xff0c;这与本文提出的任务类似。大多数基于笔划的渲染算法会贪婪地专注于每个步骤或需要用户交互。

与本文的agent类似&＃xff0c;SPIRAL是经过对抗训练的RL agent&＃xff0c;能重建图像的高级结构。StrokeNet结合了可区分的渲染器和递归神经网络&＃xff08;RNN&＃xff09;来训练agent进行绘画&＃xff0c;但是无法在彩色图像上进行泛化。这些方法不足以处理这项复杂的任务&＃xff0c;并且需要大量的计算资源。Doodle-SDQ训练agent以DQN模拟人类涂鸦。先前&＃xff0c;Sketch-RNN使用顺序数据集在草图中获得良好的结果。Artist Agent探索使用RL自动生成单个笔画。

这些算法是无模型的&＃xff0c;这意味着agent仅需要根据来自环境的样本来最大化期望的回报。对于某些任务&＃xff0c;agent可以通过做出预测来更好地了解环境。另一种有效的方法是建立一个生成神经网络模型。 Gu等人探索使用基于模型的方法来加速DQN。

Painting Agent

Overview

绘画agent的目标是首先用笔画表示分解给定的目标图像&＃xff0c;然后在画布上绘制笔画以形成绘画。为了模仿人类的绘画过程&＃xff0c;agent被设计成基于观察画布的当前状态和目标图像来预测下一个笔画。更重要的是&＃xff0c;为了使agent获得一次预测一个合适的笔画的能力&＃xff0c;即笔画与先前的笔画和未来的笔画很好地兼容&＃xff0c;它需要精心设计反馈机制。本文假设反馈应该是完成一笔绘画后获得的奖励&＃xff0c;并且agent在完成所有笔画之后追求最大化累积奖励。本文给出了图2中整体架构的图表。

在这里插入图片描述
&＃xff08;a&＃xff09;在每一步&＃xff0c;the policy (aka actor)都会根据画布和目标图像给出一组笔画参数。渲染器跟据这一组笔画参数在画布上渲染笔画。&＃xff08;b&＃xff09;在学习期间&＃xff0c;the evaluator (aka critic)根据目标图像和渲染的画布评估动作。在本文的实现中&＃xff0c;policy&＃xff0c;evaluator和渲染器都是使用神经网络实现。

The Model

在这里插入图片描述

State and Transition Function&＃xff1a;状态空间由agent可以观察到的环境中的所有可能的信息构成。我们将状态定义为三个部分&＃xff1a;画布&＃xff0c;目标图像和步骤编号。

转移函数 $s_{t &＃43; 1} &＃61; trans&＃xff08;st; at&＃xff09;$ 给出状态之间的转移过程&＃xff0c;该过程通过在当前画布上绘制笔画来实现。
Action&＃xff1a;动作空间是agent可以执行的一组操作。一个动作 $a_{t}$ 是一组参数&＃xff0c;用于控制在步骤 $t$ 绘制的笔画的位置&＃xff0c;形状&＃xff0c;颜色和透明度。We define the behavior of an agent as a policy function $Π$ that maps states to deterministic actions

agent观察状态 $s_{t}$ 然后给出下一个笔画的笔画参数 $a_{t}$ 。The state evolutes based on the transition function
Reward&＃xff1a;奖励功能用于评估policy做出的动作。选择合适的度量来测量画布和目标图像之间的差异对于训练绘画agent至关重要。奖励的设计如下&＃xff1a;

为了确保最终画布类似于目标图像&＃xff0c;应该最大化上述累积奖励&＃xff0c;因为要保证损失越来越小。即最大化累计奖励Reward&＃xff1a;

Learning

在本节中&＃xff0c;将介绍如何使用精心设计的基于模型的DDPG训练agent。
在这里插入图片描述
在原始的DDPG中&＃xff0c;Critic需要学习隐式建模环境。在基于模型的DDPG中&＃xff0c;通过神经渲染器对环境进行了显式建模&＃xff0c;这有助于训练高效的代理。

Model-based DDPG

本文首先描述原始的DDPG&＃xff0c;然后引入基于模型的DDPG来有效地训练agent。按照定义&＃xff0c;绘画任务中的动作空间是连续的&＃xff0c;具有高维度。将动作空间离散化以适应某些DRL方法&＃xff08;例如DQN和PG&＃xff09;&＃xff0c;将失去笔画表示的精度&＃xff0c;并且需要手动结构设计中的大量工作来应对离散空间中参数组合的爆炸式增长。DPG被提出使用确定性策略来解决由高维连续动作空间引起的困难。此外&＃xff0c;提出了将DPG与NN相结合的DDPG&＃xff0c;以增强其在许多控制任务中的性能。

原始的DDPG

在原始DDPG中&＃xff0c;有两个网络&＃xff1a;the actor $Π (s)$ and critic $Q (s; a)$ 。
在这里插入图片描述
我们无法使用原始DDPG来训练一名表现出色的绘画agent&＃xff0c;因为该agent很难在学习过程中很好地建模由任何类型的真实世界图像组成的复杂环境。&＃xff08;为什么不能&＃xff1f;因为实验结果不好吗&＃xff1f;文章中这里解释得不是很清楚&＃xff09;

基于模型的DDPG

本文将DDPG与可以基于环境访问渐变的actor称为基于模型的DDPG。使用基于模型的DDPG进行agent的优化与使用原始DDPG进行的优化不同。

在这里插入图片描述
Critic仍然预测该状态的预期奖励&＃xff0c;但不再包括当前动作引起的奖励。

Action Bundle

跳帧是许多RL任务的强大参数。该agent只能观察环境&＃xff0c;并且每k帧执行一次操作&＃xff0c;而不是一帧。该技巧使agent具有更好的能力来学习在时间上更远的状态和动作之间的关联。受此技巧的启发&＃xff0c;我们使actor每一步输出了k个笔画的参数。渲染器将同时渲染k个笔画&＃xff0c;以大大加快绘画过程。实验发现每次增加五个笔画效果最好。值得注意的是&＃xff0c;为了保持一致性&＃xff0c;我们将奖励折扣系数从 $γ$ 修改为 $γ^k$ 。

WGAN Reward

GAN已被广泛用作迁移学习&＃xff0c;文本模型和图像恢复中的特定损失函数&＃xff0c;因为它具有测量生成数据和目标数据之间分布距离的强大能力。Wasserstein 生成对抗损失函数 (WGAN Loss)。我们需要度量画布和目标图的相似度以给出奖励函数&＃xff0c;我们发现 WGAN Loss 是一种比欧几里得距离更好的度量&＃xff0c;使得最后画出来的图细节更丰富。

Network Architectures

由于现实世界图像的高度可变性和高度复杂性&＃xff0c;我们使用类似于ResNet-18的残差结构作为actor和critic中的特征提取器。actor与批处理归一化&＃xff08;BN&＃xff09;配合良好&＃xff0c;但BN不能显着加快critic训练的速度。本文对critic使用WN和Translated ReLU&＃xff08;TReLU&＃xff09;来稳定训练。另外&＃xff0c;本文使用CoordConv作为actor和critic的第一层。对于判别器&＃xff0c;本文使用与PatchGAN类似的网络结构。本文在判别器中也使用了WN和Translated ReLU&＃xff08;TReLU&＃xff09;。在原始DDPG论文之后&＃xff0c;本文使用了软目标网络&＃xff0c;这意味着为actor和critic创建一个副本&＃xff0c;并通过让他们缓慢地跟踪学习的网络来更新其参数。即分online network和target network。下图是网络结构图&＃xff1a;
在这里插入图片描述

Stroked-based Renderer

Neural Renderer

使用神经网络生成笔画有两个优点&＃xff1a;

首先&＃xff0c;神经渲染器可以灵活地生成任何类型的笔画&＃xff0c;并且比手工制作笔画模拟器更有效。
其次&＃xff0c;神经渲染器是可微分的&＃xff0c;可以很好地为原始DDPG建模环境&＃xff0c;从而提高agent的性能。

具体地&＃xff0c;向神经渲染器馈送一组笔画参数&＃xff0c;然后输出渲染的笔画图像S。使用图形渲染器程序随机生成训练样本。神经渲染器可以通过监督学习快速训练并在GPU上运行。因此&＃xff0c;本文获得了一个可区分且快速运行的环境。一些简单的几何渲染可以在没有神经网络的情况下完成&＃xff0c;也可以给出渐变。但神经网络可以帮助本文省略繁琐的公式计算。神经渲染器网络由几个完全连接的层和卷积层组成。采用Sub-pixel来增加网络中笔画的分辨率。

Stroke Design

在这里插入图片描述

Training

在这里插入图片描述

Ablation Studies&＃xff08;对比实验的结果&＃xff09;

在本节中&＃xff0c;主要研究组件或技巧&＃xff08;包括基于模型的DDPG&＃xff0c;Action Bundle和WGAN奖励&＃xff09;如何影响agent的性能。为简单起见&＃xff0c;本部分仅在CelebA上进行实验。

Model-based vs. Model-free DDPG

本文探索了与原始DDPG相比&＃xff0c;基于模型的DDPG有多少优势。众所周知&＃xff0c;原始的DDPG只能以隐式方式对环境进行建模&＃xff0c;并具有对环境的观察和回报。此外&＃xff0c;高维动作空间还限制了无模型方法在绘画任务中使用。为了进一步探索无模型方法的功能&＃xff0c;我们采用了受PatchGAN启发的方法来改进原始DDPG。本文先将图像分成小块&＃xff0c;然后再将这些小块放入critic中&＃xff0c;然后使用小块级别的奖励来优化critic。本文将此方法称为PatchQ。通过在训练中提供更多的监督信号&＃xff0c;PatchQ可以提高采样效率并提高agent的性能。

本文在图7&＃xff08;a&＃xff09;中显示了使用不同算法训练的agent的性能。基于模型的DDPG优于原始DDPG和带有PatchQ的DDPG。尽管与基于模型的DDPG相比性能不佳&＃xff0c;但具有PatchQ的DDPG却在性能上大大优于原始DDPG。
在这里插入图片描述

Rewards

在这里插入图片描述

Stroke Number and Action Bundle

绘画的笔画数对于最终的绘画效果至关重要&＃xff0c;特别是对于纹理丰富的图像而言。本文训练可以绘制100、200、400和1000笔画的agent&＃xff0c;损失曲线如图7&＃xff08;c&＃xff09;所示。据观察&＃xff0c;更大的笔画数有助于更好的绘画效果。因为更多的笔画有助于重建画中的细节。

Action Bundle是加快绘画过程的技巧。除此之外&＃xff0c;我们还将探讨Action Bundle如何影响agent的性能。本文在图7&＃xff08;b&＃xff09;中显示了Action Bundle的几种设置的损耗曲线。根据损失曲线&＃xff0c;每次增加5个笔画的可以获得最佳的效果。

Conclusion

在这里插入图片描述

论文地址

Learning to Paint with Model-based Deep Reinforcement Learning

推荐阅读

format
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40
js
中央电视台电影频道节目预告及优化分析

本文详细介绍了中央电视台电影频道的节目预告，并通过专业工具分析了其加载方式，确保用户能够获取最准确的电视节目信息。 ... [详细]

蜡笔小新 2024-12-25 21:01:14
client
GWT PopupPanel onKeyDownPreview 方法详解与实例

本文详细介绍了 GWT 中 PopupPanel 类的 onKeyDownPreview 方法，提供了多个代码示例及应用场景，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:07:27
bit
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
include
使用Objective-C和dispatch库实现并发素数计算

本文介绍如何使用Objective-C结合dispatch库进行并发编程，以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码，展示dispatch库的强大功能。 ... [详细]

蜡笔小新 2024-12-28 08:44:35
include
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
include
Android 渐变圆环加载控件实现

本文介绍了如何在 Android 中创建一个自定义的渐变圆环加载控件，该控件已在多个知名应用中使用。我们将详细探讨其工作原理和实现方法。 ... [详细]

蜡笔小新 2024-12-27 13:34:19
include
高效提取PDF页面的实用技巧

在学习和工作中，我们经常需要与他人共享PDF格式的资料。然而，有时只需要分享部分内容，而不仅仅是整个文档。本文将介绍如何使用福昕阅读器领鲜版高效地提取PDF页面，以提高文件传输效率和查阅便捷性。 ... [详细]

蜡笔小新 2024-12-27 00:19:50
js
RecyclerView初步学习(一)

RecyclerView初步学习(一)ReCyclerView提供了一种插件式的编程模式，除了提供ViewHolder缓存模式，还可以自定义动画，分割符，布局样式，相比于传统的ListVi ... [详细]

蜡笔小新 2024-12-26 20:24:01
数组
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
copy
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
copy
深入解析 SimpleDraweeView 的 setScaleType 方法及其实现

本文详细介绍了 com.facebook.drawee.view.SimpleDraweeView 中的 setScaleType 方法，提供了多个实际代码示例，并解释了其在不同场景下的应用。 ... [详细]

蜡笔小新 2024-12-26 12:15:47
copy
深入解析C++对象模型中的细节问题

本文深入探讨了C++对象模型中的一些细节问题，特别是虚拟继承和析构函数的处理。通过具体代码示例和详细分析，揭示了书中某些观点的不足之处，并提供了更合理的解释。 ... [详细]

蜡笔小新 2024-12-25 19:29:03
bit
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
数组
堆排序与数据结构中的堆

堆是一种常见的数据结构，广泛应用于计算机科学领域。它通常表示为一棵完全二叉树，并可通过数组实现。堆的主要特性是每个节点的值与其父节点的值之间存在特定的关系，这使得堆在优先队列和排序算法中非常有用。 ... [详细]

蜡笔小新 2024-12-24 15:41:01

拍友2502911223

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章