热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

李宏毅强化学习笔记【4.SparseReward】

没有reward,训练很难。因为一开始机器什么都不知道,就靠随机。如果随机一个概率特别小的才有reward,reward非常稀疏

没有reward,训练很难。

因为一开始机器什么都不知道,就靠随机。如果随机一个概率特别小的才有reward,reward非常稀疏,就非常难学习,因为做什么动作都一样糟糕。

 

1.reward shaping

环境有一个固定的reward。我们还可以设计一些reward,这些不是真正的reward,但是可以引导机器去做一些你想要他做的事情。

 

增加好奇心:

鼓励冒险,真实的s与network1(另外训练出来的)预测的s越不同,reward越大。这样可以探索更多的未知。

问题:有些state很难预测,但是并不重要。

 

所以再学一个特征提取,把一些没有意义的东西过滤掉。

学习network2,让预测的a和真实采取的动作a越像越好。这样排除无关特征的影响。

 

2. curriculum learning

为机器的学习做规划,从简单到难。 帮机器规划一下课程。

学习目标的state,找附近的state学习,去掉过难或者过简单的state。找到难度适中的state,再在其附近找相似的state。

 

3. Hierarchical Reinforcement Learning

有很多agent,有的负责定目标,把它分配给其他的agent完成。

如果低层agent做不到,上层agent就会收到惩罚。

如果agent做到了一个错误的目标,把上层的目标给改成这个错误的。(这样动作不会被浪费。)

 

 


推荐阅读
  • 本文介绍了一个项目中如何在Windows平台上实现多声道音频数据的采集,特别是针对DANTE音频接口的8路立体声音频通道。文章详细描述了使用Windows底层音频API进行音频采集的方法,并提供了一个具体的实现示例。 ... [详细]
  • Spring Cloud因其强大的功能和灵活性,被誉为开发分布式系统的‘一站式’解决方案。它不仅简化了分布式系统中的常见模式实现,还被广泛应用于企业级生产环境中。本书内容详实,覆盖了从微服务基础到Spring Cloud的高级应用,适合各层次的开发者。 ... [详细]
  • Java EE CDI:解决依赖关系冲突的实例
    在本教程中,我们将探讨如何在Java EE的CDI(上下文和依赖注入)框架中有效解决依赖关系的冲突问题。通过学习如何使用限定符,您将能够为应用程序的不同客户端提供多种接口实现,并确保每个客户端都能正确调用其所需的实现。 ... [详细]
  • Android中解析XML文件的实践指南
    本文详细介绍了在Android应用开发中解析XML文件的方法,包括从本地文件和网络资源获取XML文件的不同途径,以及使用DOM、SAX和PULL三种解析方式的具体实现。 ... [详细]
  • 地球坐标、火星坐标及百度坐标间的转换算法 C# 实现
    本文介绍了WGS84坐标系统及其精度改进历程,探讨了火星坐标系统的安全性和应用背景,并详细解析了火星坐标与百度坐标之间的转换算法,提供了C#语言的实现代码。 ... [详细]
  • ServletContext接口在Java Web开发中扮演着重要角色,它提供了一种方式来获取关于整个Web应用程序的信息。通过ServletContext,开发者可以访问初始化参数、共享数据以及应用资源。 ... [详细]
  • 本文介绍了两种在Android设备上获取MAC地址的有效方法,包括通过Wi-Fi连接和使用移动数据流量的情况。第一种方法依赖于Wi-Fi连接来获取MAC地址,而第二种方法则无需Wi-Fi,直接通过网络接口获取。 ... [详细]
  • 随着EOS主网的成功启动,众多开发者和投资者对其给予了高度关注。本文旨在介绍如何构建EOS开发环境,包括所需的基本硬件配置、软件安装步骤以及常见问题的解决方案。 ... [详细]
  • PySpark实战:高效使用DataFrame超越RDD
    本文深入探讨了PySpark中DataFrame的使用方法及其相对于传统RDD的优势,旨在帮助开发者更好地理解和利用这一强大工具。 ... [详细]
  • Flowable 6.6.0 表单引擎在Web应用中的集成与使用
    本文档提供了Flowable 6.6.0版本中表单引擎在Web应用程序中的配置和使用指南,包括表单引擎的初始化、配置以及在Web环境下的具体实现方法。 ... [详细]
  • 本文通过探讨React中Context的使用,解决了在多层级组件间传递状态的难题。我们将详细介绍Context的工作原理,并通过实际案例演示其在项目中的具体应用。 ... [详细]
  • 本文将详细介绍NSRunLoop的工作原理,包括其基本概念、消息类型(事件源)、运行模式、生命周期管理以及嵌套运行等关键知识点,帮助开发者更好地理解和应用这一重要技术。 ... [详细]
  • 在开发项目时,遇到了使用jQuery评论插件时出现的错误问题。本文详细介绍了遇到的错误及其解决方案。 ... [详细]
  • 微信小程序koa获取微信accesstoken ... [详细]
  • 本文将探讨从ASP.NET 1.1到2.0期间编译系统的重要变革。通过对比两个版本的即时编译模型,我们将揭示2.0版本中引入的新特性和改进之处。 ... [详细]
author-avatar
13888102467波光_1984
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有