马尔可夫决策过程MarkovDecisionProcess,MDPKintoki

作者：wjw0000 | 来源：互联网 | 2023-10-17 08:36

Originalurl:http:www.tuicool.comarticlesb6BjAva1.马尔可夫模型的几类子模型我想大家一定听说过马尔科夫链(MarkovChain)&

Original url:

http://www.tuicool.com/articles/b6BjAva

1. 马尔可夫模型的几类子模型

我想大家一定听说过马尔科夫链(Markov Chain)&＃xff0c; 搞机器学习的也都知道隐马尔可夫模型(Hidden Markov Model&＃xff0c;HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)&＃xff0c;也就是指系统的下个状态只与当前状态信息有关&＃xff0c;而与更早之前的状态无关。

马尔可夫决策过程(MDP)也具有马尔可夫性&＃xff0c;与上面不同的是MDP考虑了动作&＃xff0c;即系统下个状态不仅和当前的状态有关&＃xff0c;也和当前采取的动作有关。还是举下棋的例子&＃xff0c;当我们在某个局面&＃xff08;状态s&＃xff09;走了一步(动作a)&＃xff0c;这时对手的选择&＃xff08;导致下个状态s’&＃xff09;我们是不能确定的&＃xff0c;但是他的选择只和s和a有关&＃xff0c;而不用考虑更早之前的状态和动作&＃xff0c;即s’是根据s和a随机生成的。

我们用一个二维表格表示一下&＃xff0c;各种马尔可夫子模型的关系就很清楚了&＃xff1a;

不考虑动作	考虑动作
状态完全可见	马尔科夫链(MC)	马尔可夫决策过程(MDP)
状态不完全可见	隐马尔可夫模型(HMM)	不完全可观察马尔可夫决策过程(POMDP)

2. 马尔可夫决策过程

一个马尔可夫决策过程由一个四元组构成(S, A, P sa , R) [ 注]

S: 表示状态集&＃xff08;states&＃xff09;
A:表示一组动作&＃xff08;actions&＃xff09;
P sa : 表示状态转移概率。P sa 表示的是在当前s ∈ S状态下&＃xff0c;经过a ∈ A作用后&＃xff0c;会转移到的其他状态的概率分布情况。比如&＃xff0c;在状态s下执行动作a&＃xff0c;转移到s’的概率可以表示为p(s’|s,a)
R: S×A→ℝ&＃xff0c;R是回报函数&＃xff08;reward function&＃xff09;&＃xff0c;回报函数有时也写作状态S的函数&＃xff08;只与S有关&＃xff09;&＃xff0c;这样的话&＃xff0c;R可以简化为R: S→ℝ。

MDP 的动态过程如下&＃xff1a;某个智能体(agent)的初始状态为s 0 &＃xff0c;然后从 A 中挑选一个动作a 0 执行&＃xff0c;执行后&＃xff0c;agent 按P sa 概率随机转移到了下一个s 1 状态&＃xff0c;s 1 ∈ P s 0a 0。然后再执行一个动作a 1 &＃xff0c;就转移到了s 2 &＃xff0c;接下来再执行a 2 …&＃xff0c;我们可以用下面的图表示状态转移的过程。

如果回报r是根据状态s和动作a得到的&＃xff0c;则MDP还可以表示成下图&＃xff1a;

3. 值函数(value function)与贝尔曼方程(Bellman equation)

上篇我们提到增强学习学到的是一个从环境状态到动作的映射&＃xff08;即行为策略&＃xff09;&＃xff0c;记为策略π: S→A。而增强学习往往又具有延迟回报的特点: 如果在第n步输掉了棋&＃xff0c;那么只有状态s n 和动作a n 获得了立即回报r(s n ,a n )&＃61;-1&＃xff0c;前面的所有状态立即回报均为0。所以对于之前的任意状态s和动作a&＃xff0c;立即回报函数r(s,a)无法说明策略的好坏。因而需要定义值函数(value function&＃xff0c;又叫效用函数)来表明当前状态下策略π的长期影响。

常见的值函数有以下三种&＃xff1a;

其中

a)是采用策略π的情况下未来有限h步的期望立即回报总和&＃xff1b;

b)是采用策略π的情况下期望的平均回报&＃xff1b;

c)是值函数最常见的形式&＃xff0c;式中γ∈[0,1]称为折合因子&＃xff0c;表明了未来的回报相对于当前回报的重要程度。特别的&＃xff0c;γ&＃61;0时&＃xff0c;相当于只考虑立即不考虑长期回报&＃xff0c;γ&＃61;1时&＃xff0c;将长期回报和立即回报看得同等重要。接下来我们主要讨论的是第三种形式

定义状态值函数&＃xff08;值函数&＃xff09;如下&＃xff1a;

定义动作值函数&＃xff08;Q函数&＃xff09;如下&＃xff1a;

根据动态规划相关理论&＃xff0c;给定MDP模型M&＃61;(S, A, P, γ, R)和策略π:S→A&＃xff0c;则状态值函数V π 和动作值函数Q π 满足以下的贝尔曼方程&＃xff1a;

而最优策略可以由下式表示&＃xff1a;

即我们寻找的是在任意初始条件s下&＃xff0c;能够最大化值函数的策略π*。

与最优策略π*对应的状态值函数V*与动作值函数Q*之间存在如下关系&＃xff1a;

4. 立即回报&＃xff0c;&＃xff08;状态&＃xff09;值函数&＃xff0c;Q函数的例子

上面的概念可能描述得不太清晰&＃xff0c;接下来举例说明&＃xff0c;如图所示是一个格子世界&＃xff0c;我们假设agent从左下角的start点出发&＃xff0c;右上角为目标位置&＃xff0c;称为吸收状态(Absorbing state)&＃xff0c;对于进入吸收态的动作&＃xff0c;我们给予立即回报100&＃xff0c;对其他动作则给予0回报&＃xff0c;折合因子γ的值我们选择0.9。

1.立即回报r(s,a)如下所示&＃xff0c;每个格子代表一个状态s&＃xff0c;箭头则代表动作a&＃xff0c;旁边的数字代表立即回报&＃xff0c;可以看到只有进入目标位置的动作获得了回报100&＃xff0c;其他动作都获得了0回报。

2. Q(s,a)值如下所示

3. 值函数V(s)如下所示&＃xff0c;对比上图可以看到

至此我们了解了马尔可夫决策过程的基本概念&＃xff0c;知道了增强学习的目标&＃xff08;获得最佳策略π*&＃xff09;&＃xff0c;下一篇开始介绍求解最优策略的方法。

发现写东西还是蛮辛苦的&＃xff0c;希望对大家有用。另外自己也比较菜&＃xff0c;没写对的地方欢迎指出哈~~

[注]采用折合因子作为值函数的MDP也可以定义为五元组M&＃61;(S, A, P, γ, R)。也有的书上把值函数作为一个因子定义五元组。还有定义为三元组的&＃xff0c;不过MDP的基本组成元素是不变的。

参考资料&＃xff1a;

[1] R.Sutton et al. Reinforcement learning: An introduction , 1998

[2] T.Mitchell. 《机器学习》&＃xff0c;2003

[3] 金卓军&＃xff0c;逆向增强学习和示教学习算法研究及其在智能机器人中的应用[D]&＃xff0c;2011

[4] Oliver Sigaud et al&＃xff0c;Markov Decision Process in Artificial Intelligence[M], 2010

推荐阅读

go
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
function
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
get
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
get
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
get
高效解决应用崩溃问题！友盟新版错误分析工具全面升级

友盟推出的最新版错误分析工具，专为移动开发者设计，提供强大的Crash收集与分析功能。该工具能够实时监控App运行状态，快速发现并修复错误，显著提升应用的稳定性和用户体验。 ... [详细]

蜡笔小新 2024-12-26 14:11:47
get
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51
usb
优化Windows系统以提升DAW性能

配置Windows操作系统以确保DAW（数字音频工作站）硬件和软件的高效运行可能是一个复杂且令人沮丧的过程。本文提供了一系列专业建议，帮助你优化Windows系统，确保录音和音频处理的流畅性。 ... [详细]

蜡笔小新 2024-12-25 09:41:14
function
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
function
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
function
Linux 自动化安装脚本详解

本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建，还处理了系统服务的配置和启动，确保在多种 Linux 发行版上都能顺利运行。 ... [详细]

蜡笔小新 2024-12-27 16:33:32
spring
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
spring
2023年全球运营商网络设备市场预计突破202亿美元

尽管某些细分市场如WAN优化表现不佳，但全球运营商路由器和交换机市场持续增长。根据最新研究，该市场预计在2023年达到202亿美元的规模。 ... [详细]

蜡笔小新 2024-12-27 12:44:44
spring
Spring Boot 服务的最大并发处理能力

本文探讨了 Spring Boot 应用程序在不同配置下支持的最大并发连接数，重点分析了内置服务器（如 Tomcat、Jetty 和 Undertow）的默认设置及其对性能的影响。 ... [详细]

蜡笔小新 2024-12-25 16:45:57
spring
实体映射最强工具类：MapStruct真香

实体映射最强工具类：MapStruct真香 ... [详细]

蜡笔小新 2024-12-25 16:22:17
spring
深入解析 Spring Security 用户认证机制

本文将详细介绍 Spring Security 中用户登录认证的核心流程，重点分析 AbstractAuthenticationProcessingFilter 和 AuthenticationManager 的工作原理。通过理解这些组件的实现，读者可以更好地掌握 Spring Security 的认证机制。 ... [详细]

蜡笔小新 2024-12-25 16:00:21

wjw0000

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章