热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

增强学习----介绍

PS:本文为阅读周志华《机器学习》笔记介绍-------任务与奖赏我们如果要种西瓜,那要经过很多步骤后,才有可能种出一田好瓜,当然也有可能种出的瓜很差,或者直接给种死了。那么将种瓜的过程抽象出来,

PS:本文为阅读周志华《机器学习》笔记

介绍-------任务与奖赏

我们如果要种西瓜,那要经过很多步骤后,才有可能种出一田好瓜,当然也有可能种出的瓜很差,或者直接给种死了。那么将种瓜的过程抽象出来,总结出一系列好的操作,归为种瓜策略,那么,这个过程,就是“增强学习”。

这是一个简单的图示,其中:

机器处于环境中,状态空间为X,比如此例,状态空间可以是健康,缺水,凋亡等等,小x为状态空间X中单个状态。

机器所能采取的动作为a,比如:浇水,不浇水;所有动作构成动作集合A。

某个动作a作用在某个状态x上,则潜在的转移函数P将使得环境从当前状态按照某种概率转移到另一个状态。如:缺水状态,选择浇水,则有概率转移到健康状态。

那么,在转移到另一个状态时(另一个状态也可以是原本的状态),环境会根据潜在的“奖赏”函数R反馈给机器一个奖赏,如:健康为+1,缺水为-1,凋亡为-100。

综合起来,增强学习任务对应了一个四元组E=

其中,P:X*A*X->R;指定了状态转移概率。R:X*A*X->指定了奖赏;

思考:X与A之间的叉叉符号是什么关系?

环境中状态的转移、奖赏的返回时不受机器控制的,机器只能通过选择要执行的动作来影响环境,也只能通过观察转移后的状态和返回的奖赏来感知环境。

下图给出一个例子:仔细看在每个状态下,采取的动作a后状态转移的概率p和所获得的奖赏r;

机器要做的就是通过在环境中不断地尝试而学得一个“策略”π,根据这个策略,在状态x下就知道要执行的动作a=π(x),例如:看到缺水状态,就知道要选择浇水动作;

策略有两种表示方法:一是将策略表示为函数π:X->A,确定性策略常用这种表示方法;

另一种是概率表示π:X *A ->概率,随机性策略常用这种表示;

思考:什么是确定性策略,什么是随机性策略?

那么,π(x,a)为在一个状态x下选择某个动作a的概率,必须有;这里的意思是,在缺水状态下,选择浇水这个动作的概率之和为1.概率是指选择动作的概率;

思考:p是表示状态转移概率,为何在状态x下选择某个动作的转移概率之和也为1?巧合还是有关联

学习的目的就是找到使长期积累奖赏最大化的策略,长期积累有多种计算方式,常用的有“T步累积奖赏”和“伽马折扣累积奖赏”。其中rt表示第t步获得的奖赏值,E表示对所有的随机变量求期望;

与监督学习的差别:

“状态”对应监督学习中的“示例”,就是去掉标记特征的样本。
“动作”对应为“标记”
“策略”对应为“分类器”

从这个意义上说,增强学习可以看作具有“延迟标记信息”的监督学习问题。


推荐阅读
  • 探讨 TabNine Pro 许可证是否支持多台设备使用及用户体验。 ... [详细]
  • 分享两个GitHub链接,今天看到的,超赞超赞不能更赞了,答应我一定要去看好吗~~~~不论是笔记还是github中分享的其它资源ÿ ... [详细]
  • Vision Transformer (ViT) 和 DETR 深度解析
    本文详细介绍了 Vision Transformer (ViT) 和 DETR 的工作原理,并提供了相关的代码实现和参考资料。通过观看教学视频和阅读博客,对 ViT 的全流程进行了详细的笔记整理,包括代码详解和关键概念的解释。 ... [详细]
  • 如何撰写数据分析师(包括转行者)的面试简历?
    CDA数据分析师团队出品,作者:徐杨老师,编辑:Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历,特别是对于转行者。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 在2019中国国际智能产业博览会上,百度董事长兼CEO李彦宏强调,人工智能应务实推进其在各行业的应用。随后,在“ABC SUMMIT 2019百度云智峰会”上,百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]
  • 非线性门控感知器算法的实现与应用分析 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • R语言中向量(Vector)数据类型的元素索引与访问:利用中括号[]和赋值操作符在向量末尾追加数据以扩展其长度
    在R语言中,向量(Vector)数据类型的元素可以通过中括号 `[]` 进行索引和访问。此外,利用中括号和赋值操作符,可以在向量的末尾追加新数据,从而动态地扩展向量的长度。这种方法不仅简洁高效,还能灵活地管理向量中的数据。 ... [详细]
  • 深入解析监督学习的核心概念与应用
    本文深入探讨了监督学习的基本原理及其广泛应用。监督学习作为机器学习的重要分支,通过利用带有标签的训练数据,能够有效构建预测模型。文章详细解析了监督学习的关键概念,如特征选择、模型评估和过拟合问题,并介绍了其在图像识别、自然语言处理等领域的实际应用。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 《统计学习方法》第一章:基础概念与理论框架综述
    第一章介绍了统计学习方法的基础概念与理论框架。1.2节详细讨论了两种模型类型:一种直接输出具体的数值结果,另一种则输出概率分布。条件概率分布描述了在给定输入 \( x \) 的情况下,多个可能输出 \( y \) 的概率分布情况,而直接输出数值的模型则为每个输入 \( x \) 提供一个确定的输出值。这一部分还探讨了这些模型在实际应用中的重要性和应用场景。 ... [详细]
  • 2021年Java开发实战:当前时间戳转换方法详解与实用网址推荐
    在当前的就业市场中,金九银十过后,金三银四也即将到来。本文将分享一些实用的面试技巧和题目,特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验,并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法,并推荐了一些实用的在线资源,帮助读者更好地应对技术面试。 ... [详细]
  • 布民于2015年加入阿里巴巴,目前担任阿里云高级专家和技术委员会成员,负责大规模流计算与图计算平台。他在微软亚洲研究院期间担任主管研究员,专注于大规模分布式计算的研究。本文将详细介绍阿里巴巴在大规模流式增量计算中的应用与实践,分享其在实时数据处理和分析方面的最新进展和技术挑战。 ... [详细]
  • 提升 Kubernetes 集群管理效率的七大专业工具
    Kubernetes 在云原生环境中的应用日益广泛,然而集群管理的复杂性也随之增加。为了提高管理效率,本文推荐了七款专业工具,这些工具不仅能够简化日常操作,还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查,这些工具覆盖了集群管理的各个方面,帮助管理员更好地应对挑战。 ... [详细]
author-avatar
愛妳yi輩zi
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有