热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:利用AI强化学习算法,训练50级比卡超,单挑70级超梦!

篇首语:本文由编程笔记#小编为大家整理,主要介绍了利用AI强化学习算法,训练50级比卡超,单挑70级超梦!相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了利用 AI 强化学习算法,训练50级比卡超,单挑70级超梦!相关的知识,希望对你有一定的参考价值。








作者 | Michael Ip


责编 | 寇雪芹


出品 | CSDN博客


强化学习(Reinforcement Learning, RL),是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。



CSDN付费下载自东方 IC


OpenAI Gym是一款用于研发和比较强化学习算法的工具包,它支持训练智能体(agent)做任何事——从行走到玩Pong或围棋之类的游戏都在范围中。这次我会仿照Gym的游戏模式,再根据pokemon官网给出的战斗数据,创建一个pokemon的对战系统, 再利用强化学习训练50级比卡超单挑70级超梦。如果之前有玩开gym的CartPole, MonuntainCar…的同学, 可以直接用你们的算法套入这个环境。


先看下效果:




环境:


python3.6


window10


tensorflow-2.4.1


需要的文件:


https://github.com/MichaelYipInGitHub/pokemon_pk/


搭建对战系统:


本来想用天池杯宝可梦分析赛里面的数据,但考虑到我要训练的是50级的比卡超和70级超梦,属性更高,所以官网上搜索比卡超和超梦的对应属性。


首先看看相克图



从相克图看出超能力对电,或是电对超能力都是1比1。这里可以放心不考虑他们的相克属性和特殊属性。


看看相关属性:



比卡超属性:



这里比卡超有四招:‘电击’, ‘打雷’, ‘抛摔’, ‘十万伏特’




超梦也有四招, 都是攻击为主:‘念力’, ‘精神利刃’, ‘精神强念’, ‘精神击破’



招式伤害计算公式:



攻击与防御 分别是攻击方的攻击或者特攻(取决于是物理招式、特殊招式或特殊情况),和防守方的防御或特防(取决于招式是物理招式、特殊招式或特殊情况)。这里简单点,because超能力对电都是1:1, 这里不考虑加成。下面是计算伤害的函数:


def get_hurt(self, level, my_attack, enemy_defend, power):
      hurt = ((2 * level + 10) / 250) * (my_attack / enemy_defend) * power + 2
     return hurt

利用tkinter创建画布:



这里的奖励机制是:


我伤害对方的血量 - 对方伤害我的血量


我赢了加1200分


我输了减1200分


这里的观测值有7个,分别是:


1.自己的血量


2.敌人的血量


3.招式一可使用次数


4.招式二可使用次数


5.招式三可使用次数


6.招式四可使用次数


7.补血可使用次数


可以选择action有5个,分别是:


1.招式一


2.招式二


3.招式三


4.招式四


5.补血


环境全部代码(pokemon_env.py):https://github.com/MichaelYipInGitHub/pokemon_pk/tree/main/com.michaelip.pokemon/pokemon_env.py


这里为什么将招式可用次数也归为观察值?因为当招式用完后如何处理,他是不能再出招了。


我一开始想法是, 一个招式(比如打雷)的次数用完后,直接从神经网络输出的神经元抽掉一个,其他权重和偏差保持不变。但后来发现操作很复杂, 如果算法不是神经网络, 是一个table的话, 可能容易操作一下, 但涉及神经元后就比较麻烦, 如果有哪位同学知道如何抽掉输出神经元而又保持其他权重和偏差不变的可以私信我讨论下。


这里我这样处理,如果招式用完后算法还是选中这个action的话,我会让这回合的奖励为0,没有奖励,让算法继续选一个action。同时招式的剩余数量也纳入观察值,意思是给机器知道,这招等于0了,后面再怎么使用这个action,reward都是0。


本来也写了一个对方出招的function,就是判断所有招式用完后会自己输掉, 但后面发现一个漏洞,就是比卡超一直用补血,在第六十多回合超梦就会用完所有招式而输掉,我初衷不是这样,所以这里让超梦可以无限出招,而我给出的补血药也是够用的,让算法自己找出一条最优策略。


搭建算法系统:


一开始我是考虑用DQN,或者policy gradient,或者是PPO



因为DQN是基于价值选择行为,policy gradient 和PPO都是基于策略选择对应的action。


这里我觉得DQN就够用,且对于这游戏policy gradient 可能很难收敛。


算法模型全部代码如下(RL_brain_DQN.py):


https://github.com/MichaelYipInGitHub/pokemon_pk/tree/main/com.michaelip.pokemon/RL_brain_DQN.py


这里建立两个神经网络,target_net 和 evaluate_net,两个网络结构相同,只是target网络的参数在一段时间后会被eval网络更新。


两层全连接,隐藏层神经元个数都是343个,最后先更新target_net ,用target_net - evaluate_net, 意思就是选这个action后,这个action得到的reward和之前猜测的值有何不同,用来求误差。


每200步替换一次两个网络的参数,eval网络的参数实时更新,并用于训练 target网络的用于求loss,每200步将eval的参数赋给target实现更新。


运行文件(run_this.py)全部代码:


https://github.com/MichaelYipInGitHub/pokemon_pk/tree/main/com.michaelip.pokemon/run_this.py


一开始验证环境和模型是否正确, 我们将超梦的等级调到40级, 所有招式的威力一样, 比卡超一一样, 只留一招打雷, 看最后训练出来的结果是不是每招都使用打雷。




结果:





So far so good~训练结果还是让人满意, 到后面比卡超只会用打雷,损失值也慢慢减少,基本上后面都是赢。ok, 我们恢复正常参数,让真实的50级比卡超PK 70级超梦!



对战开始:





到此为止, 50级的比卡超总算是能战胜超梦~但如果想提高胜率, 还需要增加一些优化。


Epsilon 优化:


因为我们每选一个action我都要随机判断, 随机值大于epsilon (初始设置为0.9),用随机的action, which mean百分之十的记录是在探索新路, 但随着我训练的增加,epsilon 也相应地增加, 每次增加0.0001, 也就说我的探索也逐渐减少。



# increasing epsilon
self.epsilon &#61; self.epsilon &#43; self.epsilon_increment if self.epsilon < self.epsilon_max 

奖励优化&#xff1a;


从数据上看&#xff0c; 训练模型已经可以让比卡超P赢超梦&#xff0c; 算是比较理想。但胜率还是不高&#xff0c;只有百分之十到二十&#xff0c; 所以我想继续优化&#xff0c; 于是在奖励机制上加了点逻辑&#xff0c; 就是血量低过63%左右&#xff0c; 使用补血是有奖励的&#xff0c; 血量高过63% &#xff0c;使用招式才有奖励。因为血量低过63%很容易被超梦的大招一招毙命&#xff0c;所以以补血为主。所以尝试这样人为干预再看看结果。


more_reward &#61; 0
if action &#61;&#61; 4 and self.hp_up_current_num > 0 and (self.my_current_hp / self.my_hp) < 0.63:
    more_reward &#61; 800
elif (self.my_current_hp / self.my_hp) >&#61; 0.63 and action in (0, 1, 2, 3):
    more_reward &#61; 800
reward &#61; 1 * (self._my_current_hp - self.my_current_hp) - 1 * (self._enemy_current_hp - self.enemy_current_hp) \\
         &#43; more_reward


由上图所示&#xff0c; 左边是没加奖励干预的&#xff0c; 右边是加了奖励干预&#xff0c; 加了干预的xue微收敛得快一点&#xff08;虽然不是很明显/苦笑&#xff09;。


但实际胜率还是挺高的&#xff0c; 可以去到百分之九十&#xff01;甚至百分之百&#xff01;



后续


这里我只训练了400步&#xff0c;可以成功打赢70级超梦&#xff0c;胜率可以达到90%&#xff0c;但如果我疯狂训练&#xff0c;跑10万次&#xff1a;



但貌似跑到最后连赢都赢不了&#xff0c;误差还慢慢增大&#xff0c;我试过换成double DQN 去减少过拟合&#xff0c; 但效果也不太理想&#xff0c;训练十万步还不如几百步的训练量好&#xff0c; 莫非机器也闹情绪&#xff1f;


我也在尝试其他算法&#xff0c; 就像PPO&#xff0c; 就如我之前所料&#xff0c; 很难收敛&#xff0c; 但偏差得太厉害&#xff0c;有可能我参数试得不够&#xff0c;后续再试一试&#xff01;


感谢阅读&#xff01;


参考链接:


  • https://mofanpy.com/

  • https://wiki.52poke.com/wiki/%E4%B8%BB%E9%A1%B5


原文链接&#xff1a;


  • https://blog.csdn.net/u013261578/article/details/116971552


作者简介&#xff1a;



Michael Ip 华南理工大学硕士&#xff0c;现任汇丰科技有限公司高级软件工程师




☞零信任风口来了&#xff0c;新一代企业安全架构革新势在必行☞android 12 重磅亮相&#xff01;阔别 2 年的 Google I/O 开发者大会回来了☞为什么程序员都不写文档&#xff1f;




推荐阅读
  • 本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节,作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识,为后续的机器学习应用打下坚实的基础。 ... [详细]
  • 机器学习算法:SVM(支持向量机)
    SVM算法(SupportVectorMachine,支持向量机)的核心思想有2点:1、如果数据线性可分,那么基于最大间隔的方式来确定超平面,以确保全局最优, ... [详细]
  • 非线性门控感知器算法的实现与应用分析 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • LeetCode 实战:寻找三数之和为零的组合
    给定一个包含 n 个整数的数组,判断该数组中是否存在三个元素 a、b、c,使得 a + b + c = 0。找出所有满足条件且不重复的三元组。 ... [详细]
  • 非计算机专业的朋友如何拿下多个Offer
    大家好,我是归辰。秋招结束后,我已顺利入职,并应公子龙的邀请,分享一些秋招面试的心得体会,希望能帮助到学弟学妹们,让他们在未来的面试中更加顺利。 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用,包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]
  • 2023年最新指南:如何在PHP中屏蔽警告和错误
    本文详细介绍了如何在PHP中屏蔽警告和错误,包括多种方法和最佳实践,帮助开发者提升代码质量和安全性。 ... [详细]
  • C语言编写线程池的简单实现方法
    2019独角兽企业重金招聘Python工程师标准好文章,一起分享——有时我们会需要大量线程来处理一些相互独立的任务,为了避免频繁的申请释放线程所带 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 如何撰写数据分析师(包括转行者)的面试简历?
    CDA数据分析师团队出品,作者:徐杨老师,编辑:Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历,特别是对于转行者。 ... [详细]
  • 本地存储组件实现对IE低版本浏览器的兼容性支持 ... [详细]
  • 开发日志:高效图片压缩与上传技术解析 ... [详细]
  • 本文提出了一种基于栈结构的高效四则运算表达式求值方法。该方法能够处理包含加、减、乘、除运算符以及十进制整数和小括号的算术表达式。通过定义和实现栈的基本操作,如入栈、出栈和判空等,算法能够准确地解析并计算输入的表达式,最终输出其计算结果。此方法不仅提高了计算效率,还增强了对复杂表达式的处理能力。 ... [详细]
author-avatar
手机用户2502930623
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有