热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

actorcritic方法的改写如下:演员批评者方法

1.减小方差方差很高时,随机变量的取值可能会远远偏离均值。策略梯度方法的思想:增加良好动作的执行概率,并减少不良动作的执行概率。为了提高

1.减小方差

方差很高时,随机变量的取值可能会远远偏离均值。
策略梯度方法的思想:增加良好动作的执行概率,并减少不良动作的执行概率。
为了提高Reinforce的稳定性,从梯度量表中减去了平均奖励。为什么这么做?
假设有一个非常简单的场景,在该场景中我们对梯度进行一次优化,有三个动作,它们的总折扣奖励值不同,分别为Q1、Q2和Q3Q_1、Q_2和Q_3Q1Q2Q3.令Q1Q_1Q1Q2Q_2Q2都等于某个小的正数,而Q3Q_3Q3是某个大的负数。由这三个步骤得到的综合梯度将试图使策略原理第三步的动作,而稍微向第一步和第三步靠拢。
但若奖励永远是正的,只有价值不同。那么策略将会向第三步稍微靠拢。减去平均值使得策略梯度标准化。避免了策略梯度的偏移。


2 actor-critic

减小方差的下一步是使基线与状态有关 ,因为不同的状态可能具有非常不同的基线。总奖励本身可以表示为状态的价值加上动作的优势值:Q(s,a)=V(s)+A(s,a)Q(s,a) = V(s) + A(s,a)Q(s,a)=V(s)+A(s,a),和dueling DQN一样。
所以可以用V(s)来作为基线,梯度缩放因子将只是优势值A(s,a)A(s,a)A(s,a)
现在只需要知道V(s)V(s)V(s)是多少即可,我们可以使用另一种神经网络,为每个观察近似V(s)V(s)V(s)。要训练它,可以采用在DQN方法中使用过的相同的训练过程:执行Bellman步骤,然后最小化均方误差以改进V(s)V(s)V(s)的近似值。
这种方法被称为Advantage Actor-Critic方法,简称A2C。
训练步骤:
请添加图片描述
请添加图片描述


3 A3C:Asynchronous Advantage Actor-Critic


3.1 相关性和采样效率

强化学习的样本之间的相关性打破了随机梯度下降的优化至关重要的独立同分布的假设。带来的负面效果为梯度的方差很大,这意味着训练批包含非常相似的样本,所有这些样本都将我们的网络推向了相同的方向。从全局来看,这些样本可能将网络推向了完全错误的方向。
最常用的解决方案就是使用多个并行环境来收集状态转移,所有这些环境均使用当前的策略。我们现在训练的是从不同环境中获得的不同的片段数据,这打破了同一个片段中样本的相关性。但这样采样效率低下,因为使用一次就抛弃了。


3.2 A3C并行化

请添加图片描述


推荐阅读
  • 资源推荐 | TensorFlow官方中文教程助力英语非母语者学习
    来源:机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南,帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]
  • 本文探讨了卷积神经网络(CNN)中感受野的概念及其与锚框(anchor box)的关系。感受野定义了特征图上每个像素点对应的输入图像区域大小,而锚框则是在每个像素中心生成的多个不同尺寸和宽高比的边界框。两者在目标检测任务中起到关键作用。 ... [详细]
  • 智能车间调度研究进展
    本文综述了基于强化学习的智能车间调度策略,探讨了车间调度问题在资源有限条件下的优化方法。通过数学规划、智能算法和强化学习等手段,解决了作业车间、流水车间和加工车间中的静态与动态调度挑战。重点讨论了不同场景下的求解方法及其应用前景。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 机器学习核心概念与技术
    本文系统梳理了机器学习的关键知识点,涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容,并深入探讨了各算法的原理和应用场景。 ... [详细]
  • 本文介绍了如何利用TensorFlow框架构建一个简单的非线性回归模型。通过生成200个随机数据点进行训练,模型能够学习并预测这些数据点的非线性关系。 ... [详细]
  • 深入浅出TensorFlow数据读写机制
    本文详细介绍TensorFlow中的数据读写操作,包括TFRecord文件的创建与读取,以及数据集(dataset)的相关概念和使用方法。 ... [详细]
  • 山东高校教师职称改革:12位教师因绩效不佳被降级
    近期,《学知报》发表了一篇关于威海职业学院教育改革进展的文章。文章指出,尽管一些改革措施仍在试验阶段,但该学院决心通过深化改革提升教学质量。 ... [详细]
  • TWEN-ASR 语音识别入门:运行首个程序
    本文详细介绍了如何使用TWEN-ASR ONE开发板运行第一个语音识别程序,包括开发环境搭建、代码编写、下载和调试等步骤。 ... [详细]
  • 2017年人工智能领域的十大里程碑事件回顾
    随着2018年的临近,我们一同回顾过去一年中人工智能领域的重要进展。这一年,无论是政策层面的支持,还是技术上的突破,都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]
  • 本文档旨在帮助开发者回顾游戏开发中的人工智能技术,涵盖移动算法、群聚行为、路径规划、脚本AI、有限状态机、模糊逻辑、规则式AI、概率论与贝叶斯技术、神经网络及遗传算法等内容。 ... [详细]
  • 本文深入探讨了《Crossing the Line: Crowd Counting by Integer Programming with Local Features》论文的核心技术与应用,包括ROI(感兴趣区域)和LOI(感兴趣线)的概念,以及HOG特征的详细解析。 ... [详细]
  • 本文探讨了亚马逊Go如何通过技术创新推动零售业的发展,以及面临的市场和隐私挑战。同时,介绍了亚马逊最新的‘刷手支付’技术及其潜在影响。 ... [详细]
  • 基于2-channelnetwork的图片相似度判别一、相关理论本篇博文主要讲解2015年CVPR的一篇关于图像相似度计算的文章:《LearningtoCompar ... [详细]
  • 在上一篇文章中,我们初步探讨了神经网络的基础概念,并通过一个简单的例子——将摄氏度转换为华氏度——介绍了单个神经元的工作原理。本文将继续探索神经网络的应用,特别是如何构建一个基本的分类器。 ... [详细]
author-avatar
手机用户2602931615
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有