当前位置: 开发笔记 > 后端 > 正文

DavidSilver强化学习课程笔记（三）

作者：_流星_123 | 来源：互联网 | 2023-06-21 16:23

第三课：动态规划课程标题本来是“PlanningbyDynamicProgramming”，应该翻译为”利用动态规划方法进行规划“，但是感

第三课&＃xff1a;动态规划
课程标题本来是“Planning by Dynamic Programming”&＃xff0c;应该翻译为”利用动态规划方法进行规划“&＃xff0c;但是感觉有点长&＃xff0c;所以就使用”动态规划“作为标题&＃xff0c;大家理解就好......
先说下这节课讲的主要内容&＃xff0c;主要有&＃xff1a;策略估计、策略迭代、值迭代、动态规划扩展、收缩映射定理。其中策略估计主要介绍如何利用迭代方法对策略的值函数进行估计&＃xff0c;也即我们在第一课中讨论的问题&＃xff1b;策略迭代与值迭代则是在策略估计的基础上&＃xff0c;引入策略改进&＃xff0c;从而达到控制的目的&＃xff0c;二者的主要区别是策略迭代基于贝尔曼期望方程和贪婪法&＃xff0c;而值迭代则是基于贝尔曼最优方程&＃xff1b;动态规划扩展介绍了几种改进方法&＃xff1b;最后的收缩映射证明了策略迭代与值迭代都将收敛到最优策略。

1.动态规划简介

什么是动态规划&＃xff08;DP&＃xff09;&＃xff1f;课程中给出了这样的释义&＃xff1a;Dynamic means the sequential or temporal component to the problem; Programming means optimising a "program", i.e. a policy。就是说”动态“指的是该问题的时间序贯部分&＃xff0c;”规划“指的是去优化一个计划&＃xff0c;换句话说&＃xff0c;优化一个策略。

动态规划通常分为三步&＃xff1a;a&＃xff09;将问题分解为子问题&＃xff1b;b&＃xff09;求解子问题&＃xff1b;c&＃xff09;合并子问题的解。

是不是所有问题都能用动态规划求解呢&＃xff1f;不是的&＃xff0c;动态规划方法需要我们的问题包含以下两个性质&＃xff1a;

a&＃xff09;最优子结构&＃xff1a;保证问题能够使用最优性准则&＃xff0c;从而问题的最优解可以分解为子问题最优解&＃xff1b;

b&＃xff09;重叠子问题&＃xff1a;子问题重复出现多次&＃xff0c;因而我们可以缓存并重用子问题的解。

恰巧&＃xff0c;MDP满足上面两个性质&＃xff0c;贝尔曼方程给出了问题的迭代分解&＃xff0c;值函数保存和重用问题的解。因此&＃xff0c;我们可以利用动态规划方法来求解MDP规划问题&＃xff0c;此时假定MDP的模型是已知的&＃xff0c;DP方法既可用于预测&＃xff0c;也可用于控制&＃xff1a;

推荐阅读

python
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
正则
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
jvm
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
分布式
深入探讨JSP技术的优缺点

本文详细分析了JSP（JavaServer Pages）技术的主要优点和缺点，帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术，广泛应用于Web开发中。 ... [详细]

蜡笔小新 2024-12-28 11:00:33
php
PHP 5.5.0rc1 发布：深入解析 Zend OPcache

2013年5月9日，PHP官方发布了PHP 5.5.0rc1和PHP 5.4.15正式版，这两个版本均支持64位环境。本文将详细介绍Zend OPcache的功能及其在Windows环境下的配置与测试。 ... [详细]

蜡笔小新 2024-12-26 12:56:20
dns
百度服务再次遭遇技术问题，疑似DNS解析故障

近日晚间，百度多项在线服务出现加载异常，包括移动端搜索在内的多个功能受到影响。初步迹象表明，问题可能与DNS服务器解析有关。 ... [详细]

蜡笔小新 2024-12-26 12:52:25
spring
深入解析：阿里实战 SpringCloud 微服务架构与应用

本文将详细介绍 SpringCloud 在微服务架构中的应用，涵盖入门、实战和案例分析。通过丰富的代码示例和实际项目经验，帮助读者全面掌握 SpringCloud 的核心技术和最佳实践。 ... [详细]

蜡笔小新 2024-12-26 03:50:43
thinkphp
ThinkPHP框架中处理JS和CSS缓存问题的解决方案

本文探讨了在ThinkPHP框架中，当启用调试模式（APP_DEBUG）时，删除public文件夹中的CSS和JS文件后页面仍然显示旧样式的问题，并提供了一种有效的解决方法。 ... [详细]

蜡笔小新 2024-12-25 20:55:44
jvm
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57
缓存
优化Windows系统以提升DAW性能

配置Windows操作系统以确保DAW（数字音频工作站）硬件和软件的高效运行可能是一个复杂且令人沮丧的过程。本文提供了一系列专业建议，帮助你优化Windows系统，确保录音和音频处理的流畅性。 ... [详细]

蜡笔小新 2024-12-25 09:41:14
python
GIMP 2.99.2 发布：UI 采用 GTK3 实现、原生支持高分屏和 Wayland

开源项目评选最后一周，手里的5票再不用就没用了https:www.oschina.netprojecttop_cn_2020GIMP2.99.2已发布，同时这也标志着GIMP3.0的到来，其中最显著的变化是从GTK2过渡到GTK3工具包。基于 ... [详细]

蜡笔小新 2024-12-25 00:45:27
缓存
Redis 持久化机制详解：RDB与AOF的原理、优缺点及选择策略

本文深入探讨了 Redis 的两种持久化方式——RDB 快照和 AOF 日志。详细介绍了它们的工作原理、配置方法以及各自的优缺点，帮助读者根据具体需求选择合适的持久化方案。 ... [详细]

蜡笔小新 2024-12-24 18:03:44
spring
技术变现之道：从日常工作中挖掘潜力

本文探讨了如何在日常工作中通过优化效率和深入研究核心技术，将技术和知识转化为实际收益。文章结合个人经验，分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法，帮助读者更好地实现技术变现。 ... [详细]

蜡笔小新 2024-12-24 15:21:23
缓存
企业级项目中 Webpack 配置优化指南

本文详细介绍了在企业级项目中如何优化 Webpack 配置，特别是在 React 移动端项目中的最佳实践。涵盖资源压缩、代码分割、构建范围缩小、缓存机制以及性能优化等多个方面。 ... [详细]

蜡笔小新 2024-12-24 14:41:48
分布式
深入理解一致性哈希算法及其应用

本文详细介绍了分布式系统中的一致性哈希算法，探讨其原理、优势及应用场景，帮助读者全面掌握这一关键技术。 ... [详细]

蜡笔小新 2024-12-24 14:08:10

_流星_123

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章