当前位置: 开发笔记 > 人工智能 > 正文

增强学习----介绍

作者：愛妳yi輩zi | 来源：互联网 | 2023-05-22 18:20

PS：本文为阅读周志华《机器学习》笔记介绍-------任务与奖赏我们如果要种西瓜，那要经过很多步骤后，才有可能种出一田好瓜，当然也有可能种出的瓜很差，或者直接给种死了。那么将种瓜的过程抽象出来，

PS：本文为阅读周志华《机器学习》笔记

介绍-------任务与奖赏

我们如果要种西瓜，那要经过很多步骤后，才有可能种出一田好瓜，当然也有可能种出的瓜很差，或者直接给种死了。那么将种瓜的过程抽象出来，总结出一系列好的操作，归为种瓜策略，那么，这个过程，就是“增强学习”。

这是一个简单的图示，其中：

机器处于环境中，状态空间为X，比如此例，状态空间可以是健康，缺水，凋亡等等，小x为状态空间X中单个状态。

机器所能采取的动作为a，比如：浇水，不浇水；所有动作构成动作集合A。

某个动作a作用在某个状态x上，则潜在的转移函数P将使得环境从当前状态按照某种概率转移到另一个状态。如：缺水状态，选择浇水，则有概率转移到健康状态。

那么，在转移到另一个状态时（另一个状态也可以是原本的状态），环境会根据潜在的“奖赏”函数R反馈给机器一个奖赏，如：健康为+1，缺水为-1，凋亡为-100。

综合起来，增强学习任务对应了一个四元组E=，

其中，P:X*A*X->R;指定了状态转移概率。R：X*A*X->指定了奖赏；

思考：X与A之间的叉叉符号是什么关系？

环境中状态的转移、奖赏的返回时不受机器控制的，机器只能通过选择要执行的动作来影响环境，也只能通过观察转移后的状态和返回的奖赏来感知环境。

下图给出一个例子：仔细看在每个状态下，采取的动作a后状态转移的概率p和所获得的奖赏r；

机器要做的就是通过在环境中不断地尝试而学得一个“策略”π，根据这个策略，在状态x下就知道要执行的动作a=π(x),例如:看到缺水状态，就知道要选择浇水动作；

策略有两种表示方法：一是将策略表示为函数π：X->A,确定性策略常用这种表示方法；

另一种是概率表示π：X *A ->概率，随机性策略常用这种表示；

思考：什么是确定性策略，什么是随机性策略？

那么，π(x,a)为在一个状态x下选择某个动作a的概率，必须有；这里的意思是，在缺水状态下，选择浇水这个动作的概率之和为1.概率是指选择动作的概率；

思考：p是表示状态转移概率，为何在状态x下选择某个动作的转移概率之和也为1？巧合还是有关联

学习的目的就是找到使长期积累奖赏最大化的策略，长期积累有多种计算方式，常用的有“T步累积奖赏”和“伽马折扣累积奖赏”。其中rt表示第t步获得的奖赏值，E表示对所有的随机变量求期望；

与监督学习的差别：

“状态”对应监督学习中的“示例”，就是去掉标记特征的样本。
“动作”对应为“标记”
“策略”对应为“分类器”

从这个意义上说，增强学习可以看作具有“延迟标记信息”的监督学习问题。

机器学习

推荐阅读

机器学习
广义线性模型（Generalized Linear Models, GLM）

　　上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系，到底是什么关系呢？我们就来探讨一下吧。（这一篇数学推导占了大多数，可能看起来会略有枯燥，但这本身就是一个把之前算法 ... [详细]

蜡笔小新 2024-12-24 19:32:12
机器学习
利用公共数据启动数据驱动型项目

探索如何使用公共数据集为您的编程项目提供动力。无论您是编程新手还是有经验的开发者，本文将为您提供实用建议和资源，帮助您启动并运行一个创新的数据驱动型项目。 ... [详细]

蜡笔小新 2024-12-24 13:08:35
svm
Python中HOG图像特征提取与应用

本文介绍如何在Python中使用HOG（Histogram of Oriented Gradients）算法进行图像特征提取，探讨其在目标检测中的应用，并详细解释实现步骤。 ... [详细]

蜡笔小新 2024-12-21 15:32:13
机器学习
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
机器学习
基于决策树的性别分类分析

本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念，结合具体的数据集，详细介绍了决策树的构建过程，并展示了其在实际应用中的效果。 ... [详细]

蜡笔小新 2024-12-20 11:57:25
tensorflow
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
深度学习
解决PyCharm中安装PyTorch深度学习d2l包的问题

本文详细介绍了如何在PyCharm中成功安装用于PyTorch深度学习的d2l包，包括环境配置、安装步骤及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-12-19 14:19:22
机器学习
2017苹果全球开发者大会前瞻：iOS革新、Siri智能音箱与AI技术引领未来

2017年苹果全球开发者大会即将开幕，预计iOS将迎来重大更新，同时Siri智能音箱有望首次亮相，AI技术成为大会焦点。 ... [详细]

蜡笔小新 2024-12-18 18:02:27
机器学习
LambdaMART算法详解

本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程，包括其前身RankNet和LambdaRank，然后深入探讨了LambdaMART如何结合梯度提升决策树（GBDT）和LambdaRank来优化排序问题。 ... [详细]

蜡笔小新 2024-12-18 12:30:35
机器学习
SHAP图表中负号显示问题及其解决方案

本文探讨了在使用SHAP进行机器学习模型解释时遇到的一个常见问题——负号无法正确显示，并提供了一种有效的解决方法。 ... [详细]

蜡笔小新 2024-12-18 10:55:51
机器学习
美团推荐系统：机器学习优化重排序模型

在互联网信息爆炸的时代，当用户需求模糊或难以通过精确查询表达时，推荐系统成为解决信息过载的有效手段。美团作为国内领先的O2O平台，通过深入分析用户行为，运用先进的机器学习技术优化推荐算法，提升用户体验。 ... [详细]

蜡笔小新 2024-12-17 17:56:15
机器学习
机器学习公开课备忘录（三）机器学习算法的应用与大数据集

机器学习公开课备忘录（三）机器学习算法的应用与大数据集对应机器学习公开课第六周和第10周机器学习算法模型的选择与评价1、对于一个data，可以将data划分为trainingset、t ... [详细]

蜡笔小新 2024-12-17 15:54:47
svm
支持向量机（SVM）方法的扩展与优化

支持向量机（SVM）是一种基于统计学习理论的模型，主要在VC维和结构风险最小化的理论基础上发展而来。本文将探讨几种不同的SVM方法及其优化策略，旨在提高模型的效率和适用性。 ... [详细]

蜡笔小新 2024-12-17 14:27:48
机器学习
全能终端工具推荐：高效、免费、易用

介绍一款备受好评的全能型终端工具——MobaXterm，它不仅功能强大，而且完全免费，适合各类用户使用。 ... [详细]

蜡笔小新 2024-12-16 21:02:15
自动驾驶
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16

愛妳yi輩zi

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章