热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

增强学习----介绍

PS:本文为阅读周志华《机器学习》笔记介绍-------任务与奖赏我们如果要种西瓜,那要经过很多步骤后,才有可能种出一田好瓜,当然也有可能种出的瓜很差,或者直接给种死了。那么将种瓜的过程抽象出来,

PS:本文为阅读周志华《机器学习》笔记

介绍-------任务与奖赏

我们如果要种西瓜,那要经过很多步骤后,才有可能种出一田好瓜,当然也有可能种出的瓜很差,或者直接给种死了。那么将种瓜的过程抽象出来,总结出一系列好的操作,归为种瓜策略,那么,这个过程,就是“增强学习”。

这是一个简单的图示,其中:

机器处于环境中,状态空间为X,比如此例,状态空间可以是健康,缺水,凋亡等等,小x为状态空间X中单个状态。

机器所能采取的动作为a,比如:浇水,不浇水;所有动作构成动作集合A。

某个动作a作用在某个状态x上,则潜在的转移函数P将使得环境从当前状态按照某种概率转移到另一个状态。如:缺水状态,选择浇水,则有概率转移到健康状态。

那么,在转移到另一个状态时(另一个状态也可以是原本的状态),环境会根据潜在的“奖赏”函数R反馈给机器一个奖赏,如:健康为+1,缺水为-1,凋亡为-100。

综合起来,增强学习任务对应了一个四元组E=

其中,P:X*A*X->R;指定了状态转移概率。R:X*A*X->指定了奖赏;

思考:X与A之间的叉叉符号是什么关系?

环境中状态的转移、奖赏的返回时不受机器控制的,机器只能通过选择要执行的动作来影响环境,也只能通过观察转移后的状态和返回的奖赏来感知环境。

下图给出一个例子:仔细看在每个状态下,采取的动作a后状态转移的概率p和所获得的奖赏r;

机器要做的就是通过在环境中不断地尝试而学得一个“策略”π,根据这个策略,在状态x下就知道要执行的动作a=π(x),例如:看到缺水状态,就知道要选择浇水动作;

策略有两种表示方法:一是将策略表示为函数π:X->A,确定性策略常用这种表示方法;

另一种是概率表示π:X *A ->概率,随机性策略常用这种表示;

思考:什么是确定性策略,什么是随机性策略?

那么,π(x,a)为在一个状态x下选择某个动作a的概率,必须有;这里的意思是,在缺水状态下,选择浇水这个动作的概率之和为1.概率是指选择动作的概率;

思考:p是表示状态转移概率,为何在状态x下选择某个动作的转移概率之和也为1?巧合还是有关联

学习的目的就是找到使长期积累奖赏最大化的策略,长期积累有多种计算方式,常用的有“T步累积奖赏”和“伽马折扣累积奖赏”。其中rt表示第t步获得的奖赏值,E表示对所有的随机变量求期望;

与监督学习的差别:

“状态”对应监督学习中的“示例”,就是去掉标记特征的样本。
“动作”对应为“标记”
“策略”对应为“分类器”

从这个意义上说,增强学习可以看作具有“延迟标记信息”的监督学习问题。


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 近年来,大数据成为互联网世界的新宠儿,被列入阿里巴巴、谷歌等公司的战略规划中,也在政府报告中频繁提及。据《大数据人才报告》显示,目前全国大数据人才仅46万,未来3-5年将出现高达150万的人才缺口。根据领英报告,数据剖析人才供应指数最低,且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示,未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中,60%以上的招聘职位都是针对大数据人才的。 ... [详细]
  • 词袋模型的通俗介绍
    词,袋, ... [详细]
  • 本文介绍了绕过WAF的XSS检测机制的方法,包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法,该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型(DOM)接收器和源、实施适当的跨域资源共享(CORS)策略和其他安全策略,可以有效阻止XSS漏洞。但是,WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制,构建与正则表达式不匹配的XSS payload。 ... [详细]
  • 如何使用代理服务器进行网页抓取?
    本文介绍了如何使用代理服务器进行网页抓取,并探讨了数据驱动对竞争优势的重要性。通过网页抓取,企业可以快速获取并分析大量与需求相关的数据,从而制定营销战略。同时,网页抓取还可以帮助电子商务公司在竞争对手的网站上下载数百页的有用数据,提高销售增长和毛利率。 ... [详细]
  • 本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法,以及参数和返回值的说明,并提供了一个示例代码。 ... [详细]
  • 本文详细介绍了商汤科技面试中涉及的CV算法面经内容,包括CornerNet的介绍与CornerPooling的解决方案、Mimic知识蒸馏的实现方式、MobileNet的特点、普通卷积和DW PW卷积的计算量推导、Residual结构的来源等。同时还讨论了在人脸关键点和检测中的mimic实现方式、pose对人脸关键点的提升作用、目标检测中可能遇到的问题以及处理检测类别冲突的方法。此外,还涉及了对机器学习的了解程度和相似度分析的问题。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文介绍了贝叶斯垃圾邮件分类的机器学习代码,代码来源于https://www.cnblogs.com/huangyc/p/10327209.html,并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • 数据结构与算法的重要性及基本概念、存储结构和算法分析
    数据结构与算法在编程领域中的重要性不可忽视,无论从事何种岗位,都需要掌握数据结构和算法。本文介绍了数据结构与算法的基本概念、存储结构和算法分析。其中包括线性结构、树结构、图结构、栈、队列、串、查找、排序等内容。此外,还介绍了图论算法、贪婪算法、分治算法、动态规划、随机化算法和回溯算法等高级数据结构和算法。掌握这些知识对于提高编程能力、解决问题具有重要意义。 ... [详细]
  • 前言:拿到一个案例,去分析:它该是做分类还是做回归,哪部分该做分类,哪部分该做回归,哪部分该做优化,它们的目标值分别是什么。再挑影响因素,哪些和分类有关的影响因素,哪些和回归有关的 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
  • 在本教程中,我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后,我们将看到使用Flask创建AP ... [详细]
author-avatar
愛妳yi輩zi
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有