Dota2团战实力蔑视人类，解剖5只“AI英雄”

作者：wsl伊人 | 来源：互联网 | 2023-05-17 19:02

去年，OpenAI在DOTA的1v1比赛中战胜了职业玩家Dendi，而在距离进阶版OpenAIFive系统战胜人类业余玩家不过一个月的时间，今天凌晨，它又以2:1的战绩再次完成对

去年，OpenAI 在 DOTA 的 1v1 比赛中战胜了职业玩家 Dendi，而在距离进阶版 OpenAI Five 系统战胜人类业余玩家不过一个月的时间，今天凌晨，它又以 2:1 的战绩再次完成对人类高级玩家的“屠杀”，GG（人类赢的最后一局纯属耍赖）。

相比之下，人类这次输给的是怎样的进阶版“AI 英雄”？

此次，OpenAI Five 对阵 5 个高级玩家（解说员+前职业玩家）——Blitz, Cap, Fogged, Merlini 和 Moonmeander，他们的平均天梯分 7000 左右。反观 OpenAI Five，根据公开资料，它的实力相当于人类玩了 180 年的游戏，而且每天都与自己进行对抗学习，学习过程非常复杂，需要在 256 个 GPU 和 128,000 个 CPU 上运行扩展版本的近端策略优化（PPO）进行训练。

这里写图片描述

它对每个英雄使用了单独的 LSTM（长短期记忆递归神经网络），并且没有人类数据，它会学习可识别的策略，这表明强化学习可以产生可实现规模的长期规划。

此外，就应用环境而言，不同于棋牌游戏的固定规则，像 DOTA2 这样的复杂视频游戏是 5v5 对决的战略游戏，况且，DOTA 游戏已经不断开发了十几年，游戏逻辑中有数十万行代码，且每两周更新一次，游戏语义在不断产生变化。

因此，AI 玩 DOTA 的难度可想而知，它首先需要解决以下四大问题：长时视野；局部观察状态；高维、连续的动作空间；高维、连续的观察空间。

▌模型架构

OpenAI Five 的每个网络都包含一个单层的、1024-unit 的 LSTM，它可以查看当前的游戏状态（从 Valve 的 Bot API 中抓取），并通过几个可能的 action heads 发出动作。每个 head 都具有语义含义，例如延迟动作的刻度数，选择哪一个动作，该动作在单元周围网格中的 X 或 Y 坐标等。Action heads 是独立计算的。

OpenAI Five 使用观察空间（observation space）和动作空间（action space）进行交互式演示。OpenAI Five 将世界视为 20000 个数字的列表，并通过发出一个包含 8 个枚举值（enumeration values）的列表来执行操作。通过选择不同的行动和目标，我们可以了解 OpenAI Five 如何编码每个动作，以及如何观察世界。下图是人类会看到的场景。

这里写图片描述

OpenAI Five 可以对与它所看到的相关的丢失状态片段做出反应。例如，直到最近，OpenAI Five 的观察区域才包括狙击手的技能范围（子弹落在敌人身上的区域）。然而，我们观察到 OpenAI Five 可以学习走出（虽然不能避免进入）狙击手的技能范围，因为当进入这个区域时，它可以看到自己的血量是在减少的。

▌探索

就算有学习算法能够处理较长的视野，我们仍然需要对环境进行探索。因为即使我们设定了各种限制，仍然有数百种道具、几十种建筑、法术、单元类型、长尾游戏机制，以及因此产生的各种组合，想要有效地探索这个巨大的空间其实并不容易。

OpenAI Five 可以从随机权重开始，从自我博弈中学习。为了避免“策略崩溃”，智能体在训练的时候，80％的游戏都是自我对抗，另外 20％则是与过去的自己进行对抗。在自我对抗时，英雄首先会漫无目的绕着地图游走。经过几个小时的训练后，智能体开始有了一些概念，例如建造、中路对线等。几天之后，他们始终采用基本的人类策略：试图从对手那里偷走 Bountyrunes等。通过进一步的训练，它们可以熟练掌握 5 个英雄集中推塔的高级策略。

OpenAI Five 使用了 1v1 机器人里的随机化的方法。它还使用了一个新的路线分配（lane assignment）策略。在每个训练游戏开始时，他们随机地将每个英雄“分配”到一些 lane 的子集，在到随机选择的时间之前，如果英雄偏离这些路线，就会受到惩罚。

当然，也有奖励来帮助智能体探索环境，主要包括净值（net worth）、杀敌数（kills）、死亡数（deaths）、助攻（assists）、最后一击（last hits）等指标。他们通过减少其他团队的平均奖励，来对每个智能体的奖励进行后续处理，以防止智能体找到正和博弈（positive-sum）的情况。

他们也对道具和技能构建进行了硬编码，同时，也通过脚本基线（ scripted baseline）引入了信使管理（ Courier management）。

▌Rapid

这里写图片描述

这个系统的实现使用了被称为“Rapid”的通用 RL 训练系统，它适用于任何多人模式环境。

这里写图片描述

训练系统分为 rollout workers，运行游戏副本，智能体（agent），用来收集经验，优化器节点（optimizer nodes）执行跨 GPU 组的同步梯度下降。每次训练还包括分别对训练机器人以及样本机器人进行评估的组件，以及监视软件，比如 TensorBoard，Sentry 以及 Grafana。

这里写图片描述

在同步梯度下降运算过程中，每一个 GPU 组件都会运算自己负责的批处理部分的梯度计算，随后整体梯度再进行平均计算。他们原本使用消息传递借口的规约算法进行平均计算，现在则使用英伟达的多卡通型框架 NCCL2 的封装函数来实行 GPU 并行计算以及网络间数据传输。同步 58MB 大小数据（用于 OpenAI Five 的参数）的延迟显示在表格之中，延迟时间足够低能满足大部分数据被进行并行运算的 GPU 标记。

▌与人类的不同

OpenAI Five 获取的信息和人类完全一致，但是系统能马上反应到类似位置、生命值以及物品更新情况等等人类玩家需要定时观察的信息。OpenAI Five 的平均 APM 在 150-170 之间(理论上最快可以达到 450 考虑到每四帧一动)，平均反应时间为 80 毫秒，比人类平均速度要快很多。

很多职业选手在去年 TI 结束后都使用 bot 进行训练。根据 Blitz 的说法 solo bot已经改变了人们对 solo 赛节奏的看法，bot 偏向于快节奏风格，现在大多数选手也已经使用快节奏风格来和 bot 抗衡。

这里写图片描述

AI 在 Dota2 中的节奏和执行力非常强了，这是不是意味着它没有优化空间了？当然不是，此次的 OpenAI Five 还是有诸多限制，比如系统在进行最后一击时较弱，其客观优先级与一个共同的专业策略相匹配，获得战略地图控制等长期奖励往往需要牺牲短期奖励。

Open AI 方面称，在今年后续的 TI 表演赛上，还会有职业玩家继续挑战 AI，但结果想来也是实力“嘲讽”人类。或许，更让人期待的是，在 Dota2 这样的复杂游戏中，是否会出现“AI vs AI”的神仙打架比赛？

▌推荐

腾讯云年中最大活动，注册即领500减350卷！云服务器最低2折，最低325元/年！戳此直达活动现场！

阿里云推行全民云计算计划，注册即领1000元代金卷，云服务器低至2折，最低293元/年！戳此直达活动！

原文https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/81454459

推荐阅读

process
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
process
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
import
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
search
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
bit
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
select
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
select
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
select
JavaScript设计模式之策略模式（Strategy Pattern）的优势及应用

本文介绍了JavaScript设计模式之策略模式（Strategy Pattern）的定义和优势，策略模式可以避免代码中的多重判断条件，体现了开放-封闭原则。同时，策略模式的应用可以使系统的算法重复利用，避免复制粘贴。然而，策略模式也会增加策略类的数量，违反最少知识原则，需要了解各种策略类才能更好地应用于业务中。本文还以员工年终奖的计算为例，说明了策略模式的应用场景和实现方式。 ... [详细]

蜡笔小新 2023-12-14 09:31:45
copy
PhysioNet生理信号处理（三）WFDB Toolbox for Matlab的安装和使用方法

本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容，即可完成安装。该工具箱提供了一系列函数，可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-13 20:46:48
copy
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
数组
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
数组
开发笔记:计网局域网：NAT 是如何工作的？

篇首语：本文由编程笔记#小编为大家整理，主要介绍了计网-局域网：NAT是如何工作的？相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-13 13:04:08
数组
Java中闭包的争论以及闭包的定义和特性

闭包一直是Java社区中争论不断的话题，很多语言都支持闭包这个语言特性，闭包定义了一个依赖于外部环境的自由变量的函数，这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例，介绍了闭包的定义和特性。 ... [详细]

蜡笔小新 2023-12-13 10:46:54
数组
Linux如何安装Mongodb的详细步骤和注意事项

本文介绍了Linux如何安装Mongodb的详细步骤和注意事项，同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库，适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作，能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]

蜡笔小新 2023-12-12 21:54:15
数组
单点登录原理及实现方案详解

本文详细介绍了单点登录的原理及实现方案，其中包括共享Session的方式，以及基于Redis的Session共享方案。同时，还分享了作者在应用环境中所遇到的问题和经验，希望对读者有所帮助。 ... [详细]

蜡笔小新 2023-12-12 19:23:28

wsl伊人

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章