当前位置: 开发笔记 > 后端 > 正文

李宏毅强化学习笔记【4.SparseReward】

作者：13888102467波光_1984 | 来源：互联网 | 2023-07-29 20:58

没有reward，训练很难。因为一开始机器什么都不知道，就靠随机。如果随机一个概率特别小的才有reward，reward非常稀疏

没有reward，训练很难。

因为一开始机器什么都不知道，就靠随机。如果随机一个概率特别小的才有reward，reward非常稀疏，就非常难学习，因为做什么动作都一样糟糕。

1.reward shaping

环境有一个固定的reward。我们还可以设计一些reward，这些不是真正的reward，但是可以引导机器去做一些你想要他做的事情。

增加好奇心：

鼓励冒险，真实的s与network1（另外训练出来的）预测的s越不同，reward越大。这样可以探索更多的未知。

问题：有些state很难预测，但是并不重要。

所以再学一个特征提取，把一些没有意义的东西过滤掉。

学习network2，让预测的a和真实采取的动作a越像越好。这样排除无关特征的影响。

2. curriculum learning

为机器的学习做规划，从简单到难。帮机器规划一下课程。

学习目标的state，找附近的state学习，去掉过难或者过简单的state。找到难度适中的state，再在其附近找相似的state。

3. Hierarchical Reinforcement Learning

有很多agent，有的负责定目标，把它分配给其他的agent完成。

如果低层agent做不到，上层agent就会收到惩罚。

如果agent做到了一个错误的目标，把上层的目标给改成这个错误的。（这样动作不会被浪费。）

推荐阅读

ci
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
mvc
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
static
C#中获取进程主窗口句柄的实现方法

本文介绍了如何在C#中启动一个应用程序，并通过枚举窗口来获取其主窗口句柄。当使用Process类启动程序时，我们通常只能获得进程的句柄，而主窗口句柄可能为0。因此，我们需要使用API函数和回调机制来准确获取主窗口句柄。 ... [详细]

蜡笔小新 2024-12-27 03:39:09
python
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
python
ServiceStack与Swagger的无缝集成指南

本文详细介绍了如何在ServiceStack项目中集成Swagger，以实现API文档的自动生成和在线测试。通过本指南，您将了解从配置到部署的完整流程，并掌握如何优化API接口的开发和维护。 ... [详细]

蜡笔小新 2024-12-26 19:52:39
python
优化Kafka流状态存储查询的最佳实践

本文探讨了如何优化和正确配置Kafka Streams应用程序以确保准确的状态存储查询。通过调整配置参数和代码逻辑，可以有效解决数据不一致的问题。 ... [详细]

蜡笔小新 2024-12-26 18:17:14
x86
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
jvm
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
ci
Google Clips智能相机悄然上市：自动捕捉生活中的珍贵瞬间

Google最新推出的嵌入AI技术的便携式相机Clips现已上架，旨在通过人工智能技术自动捕捉用户生活中值得纪念的时刻，帮助人们减少照片数量过多的问题。 ... [详细]

蜡笔小新 2024-12-26 17:26:09
static
Java中访问器与修改器的深入解析

本文详细介绍了Java中的访问器（getter）和修改器（setter），探讨了它们在保护数据完整性、增强代码可维护性方面的重要作用。通过具体示例，展示了如何正确使用这些方法来控制类属性的访问和更新。 ... [详细]

蜡笔小新 2024-12-26 17:25:24
static
PHP 实现微信素材上传

本文介绍了如何使用PHP代码实现微信平台的媒体素材上传功能，详细解释了API接口的使用方法和注意事项，确保文件路径正确以避免常见的错误。 ... [详细]

蜡笔小新 2024-12-26 16:54:06
static
MySQL 索引与锁机制详解

本文详细介绍了 MySQL 的查询处理流程，包括从客户端连接到服务器、查询缓存检查、语句解析、查询优化及执行等步骤。同时，深入探讨了 MySQL 中的乐观锁机制及其在并发控制中的应用。 ... [详细]

蜡笔小新 2024-12-26 16:17:48
static
深入解析 MUI 开发中 plusReady 和 init 的区别

在使用 MUI 框架进行应用开发时，开发者常常会遇到 mui.init() 和 mui.plusReady() 这两个方法。本文将详细解释它们的区别及其在不同开发环境下的应用。 ... [详细]

蜡笔小新 2024-12-26 15:57:00
static
深入理解 ExtJS 类的别名机制

在 ExtJS 中，类的别名（alias）是开发过程中非常有用的一个特性。通过别名，开发者可以使用简短且易于记忆的名称来引用复杂的类名。本文将详细探讨如何在 ExtJS API 中使用和定义别名，并提供实例说明。 ... [详细]

蜡笔小新 2024-12-26 15:19:42
static
Ralph的Kubernetes进阶之旅：集群架构与对象解析

本文深入探讨了Kubernetes集群的架构和核心对象，详细介绍了Pod、Service、Volume等基本组件，以及更高层次的抽象如Deployment、StatefulSet等，帮助读者全面理解Kubernetes的工作原理。 ... [详细]

蜡笔小新 2024-12-26 14:15:32

13888102467波光_1984

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章