微软麻将AISuphx或引入“凤凰房”，与其他AI对打

作者：U友60759920 | 来源：互联网 | 2023-09-17 16:20

作者|夕颜出品|AI科技大本营（ID:rgznai100）【导读】在刚刚结束的上海2019世界人工智能大会上，微软宣布了其在人工智能领域的

640?wx_fmt&＃61;jpeg

作者 | 夕颜

出品 | AI科技大本营&＃xff08;ID:rgznai100&＃xff09;

【导读】在刚刚结束的上海2019世界人工智能大会上&＃xff0c;微软宣布了其在人工智能领域的最新研究突破——由微软亚洲研究院研发的麻将 AI 系统 Suphx 在国际知名的专业麻将平台“天凤”上荣升十段&＃xff0c;创造了目前 AI 系统在麻将领域取得的最好成绩&＃xff0c;实力媲美顶级人类选手。为进一步了解 Suphx&＃xff0c;AI 科技大本营对微软亚洲研究院副院长刘铁岩和天凤平台开发公司 C-EGG CEO 角田真吾进行了采访。

微软AI研究新突破&＃xff1a;麻将AI 系统实力媲美顶级人类选手

由微软亚洲研究院开发的麻将 AI 系统 Suphx&＃xff08;超级凤凰&＃xff09;成为首个在国际知名的专业麻将平台“天凤”上荣升十段的 AI 系统。

这个“十段”究竟是什么水平呢&＃xff1f;

我们先来了解一下什么是天凤麻将。

640?wx_fmt&＃61;png

天凤麻将是由日本游戏公司 C-EGG(シー·エッグ)开发的网络对战日本麻将游戏。该游戏属于竞技类游戏&＃xff0c;游戏采用段级位制&＃xff0c;用户在大厅内通过与他人的对战&＃xff0c;可以提高或降低自己的游戏等级&＃xff0c;当用户达到一定级别之后就可以到更高级别的阶段与他人对战。同时&＃xff0c;用户也可以创建自己的个室或大会室&＃xff0c;与认识的同好一起进行游戏。天凤麻将分为大厅、个室和大会室三个场所。

在大厅中&＃xff0c;玩家可与其他玩家进行对战&＃xff0c;在对战过程中获得或失去 pt 和 Rate 两种点数。大厅细分为一般、上级、特上、凤凰四个级别&＃xff0c;必须满足该级别的条件才能在该级别内与其他玩家对战。

Suphx 在天凤的公开房间“特上房”与人类选手进行了超过 5000 场对战&＃xff0c;获得“特上房”最高段位十段。

640?wx_fmt&＃61;png

“天凤”平台因其完善的规则、专业的段位升级系统&＃xff0c;吸引了全球近 33 万名麻将玩家&＃xff0c;其中汇集了大量专业选手。Suphx 的风格自成一派&＃xff0c;其稳定段位领先另外两个知名麻将 AI 系统 2 个段位以上&＃xff0c;并且超越顶尖人类选手在该房间的平均水平 1 个段位以上。

为什么选择麻将游戏&＃xff1f;

那么&＃xff0c;在棋牌游戏 AI 盛行的今天&＃xff0c;为什么微软会选择传统的麻将游戏作为研发重点呢&＃xff1f;

对此&＃xff0c;微软称&＃xff0c;麻将起源于中国&＃xff0c;而今这一蕴含东方哲学和智慧的古老博弈游戏正风靡全世界。与象棋、围棋等棋类相比&＃xff0c;麻将在游戏对弈的过程中存在大量隐藏信息&＃xff0c;具有高度的不确定性。与其他棋牌类游戏相比&＃xff0c;刘铁岩将麻将形容为比其他棋牌类游戏更“AI”&＃xff0c; 因为麻将本身并没有像其它类游戏那样通过控制键盘来决定出招快慢&＃xff0c;它更多关注的是策略&＃xff0c;把不必要的、人和机器的差别抹掉&＃xff0c;体现的是智慧智能的作用。因此&＃xff0c;麻将的复杂度远高于其他棋类&＃xff0c;对 AI 技术存在着特殊挑战。

刘铁岩笑称&＃xff0c;对于麻将&＃xff0c;Suphx 的研发团队其实大部分人都不算麻将高手&＃xff0c;最会打麻将的研究员都打不到一段。但就是这样一支团队&＃xff0c;打造出了可以与人类专业选手相媲美的麻将 AI 系统。他们是怎么做到的&＃xff1f;

背后的关键技术

加上今年 3 月份入驻“天凤”到 6 月拿下“十段”&＃xff0c;微软在 Suphx 项目上的投入时间将近一年半。这段时间内&＃xff0c;Suphx 在微软的系统训练下段位不断提升&＃xff0c;背后依赖几项关键技术&＃xff0c;如自适应决策、先知教练、全盘预测等都是对深度强化学习进行加强的新型人工智能技术&＃xff0c;这些技术可以有效处理麻将的高度不确定性&＃xff0c;在游戏中表现出类人的直觉、预测、推理、模糊决策能力&＃xff0c;和大局观意识。

Suphx 的关键技术包括一项被称为先知教练的技术&＃xff0c;它可以使用完美信息加速训练的过程&＃xff0c;但是实际操作环境更多的还是非完美环境&＃xff0c;这其中的 gap 如何过渡&＃xff1f;

对此&＃xff0c;刘铁岩给出了他的解释&＃xff1a;“用完全信息指导训练是一个用来抵抗大量未知信息的手段&＃xff0c;但是中间确实存在 gap&＃xff0c;训练时我们可以有这样的先知教练&＃xff0c;但在真正对打时是没有这样的信息的。这个先知教练起到了什么作用呢&＃xff1f;当有大量隐藏状态存在时&＃xff0c;深度强化学习非常不稳定&＃xff0c;训练过程会受到干扰的影响&＃xff0c;而且有多条不同的通路可以往前走&＃xff0c;一些噪声就会出现漂移。我们经常讲强化学习的方差很大&＃xff0c;这导致可能有时会做出一些失控的操作。先知教练的存在是规范麻将 AI 在学习过程中的路径&＃xff0c;我们虽然不能保证控制住这个 gap&＃xff0c;比如它能够看到不该看到的东西&＃xff0c;事实上它是永远看不到的&＃xff0c;这个信息的 gap 我们无法跨越&＃xff0c;但是先知教练可以引导麻将 AI 不走偏走远&＃xff0c;并沿着预想的大方向走&＃xff0c;保证训练过程的平稳性&＃xff0c;这对深度强化学习非常重要。”

但是关于 Suphx 训练系统、模型和算法等具体的细节&＃xff0c;刘铁岩表示暂时不便透露&＃xff0c;但总的来讲&＃xff0c;他们仍然使用深度强化学习的大框架&＃xff0c;在这个框架下与其他绝大部分的游戏 AI 走的是同一个技术路线&＃xff0c;但是在大的技术路线中进行很多创新&＃xff0c;以适应更难、更新的游戏&＃xff0c;比如先知教练、自适应决策等手段都是弥补传统的技术框架和麻将 AI 等新游戏之间的技术鸿沟。

拓展到开放环境真的现实吗&＃xff1f;

当然&＃xff0c;和其他游戏 AI 一样&＃xff0c;大家不免对 Suphx 也有一些拓展应用上的疑问&＃xff0c;因为麻将毕竟是一个 4 人参与&＃xff0c;牌数有限的游戏&＃xff0c;它如何能拓展到金融交易、智慧交通等开放性的环境中呢&＃xff1f;

对此&＃xff0c;刘铁岩解释道&＃xff0c;做基础研究时&＃xff0c;研究人员在相对可控的环境里淬炼技术&＃xff1b;当掌握技术之后&＃xff0c;落地一定会有最后一公里的创新。虽然微软现在从 Suphx 中学到的技术还没有全部使用到实际应用中&＃xff0c;但是有一部份应用已经在现实环境中进行了尝试&＃xff0c;比如微软亚洲研究院在金融投资上&＃xff0c;与华夏基金、太平资产等进行了大胆的实盘投资实验&＃xff0c;取得了非常好的效果&＃xff0c;在此过程中就使用了很多自适应决策技术。因为经济走势、成分和国家监管等均有所不同&＃xff0c;离线训练的 AI 模式、在历史交易数据中训练的 AI 模型真正应用到市场上是不一样的&＃xff0c;所以需要动态地适应场景并做出改变&＃xff0c;这与 Suphx 里的自适应决策一脉相承。

Suphx或引入“凤凰房”&＃xff0c;并与其他AI对打

目前为止&＃xff0c;Suphx 在“天凤”中只是在与人类选手对打&＃xff0c;角田真吾在交流会上表示&＃xff0c;未来会考虑将 Suphx 引入更高阶的“凤凰房”中。但是出于“凤凰房”中对战的人数有限&＃xff0c;引入 AI 将产生的影响还不确定&＃xff0c;因此会慎重考虑这一做法会带来的影响&＃xff0c;比如引入有大量 AI 进入&＃xff0c;“凤凰房”可能就不是原来的“凤凰房”了。

至于是否会安排 Suphx 与其他 AI 对打&＃xff0c;角田真吾表示他们其实已经有这样的想法&＃xff0c;AI 科技大本营将继续对此保持关注。

未来改进方向

为了让 Suphx 更加成熟&＃xff0c;微软将从哪些维度进一步推进呢&＃xff1f;刘铁岩表示&＃xff0c;麻将 AI 还有很多值得继续研究的方向&＃xff0c;比如由于麻将游戏有大量的隐藏信息&＃xff0c;所以传统的树搜索的方式很难应用&＃xff0c;微软现在是以预测为主而不是搜索为主&＃xff0c;这是 Suphx 团队的一个方向性认识。

从更大的维度来看&＃xff0c;搜索算法和预测算法结合也是一个值得研究的技术焦点&＃xff0c;这对解决很多实际问题都有帮助。

另外一个维度是微软关心的 AI 的可解释性&＃xff0c;Suphx 现在打比赛有着自己独特的风格&＃xff0c;但究竟是什么样的风格微软自身并不清楚&＃xff0c;刘铁岩表示这一方面是因为麻将 AI项目的研究员的麻将“修为”比较浅&＃xff0c;无法像专业选手一样可以看懂Suphx的风格&＃xff0c;另一方面也是因为这个技术路线本身含有大量参数&＃xff0c;需要通过很复杂的训练产生&＃xff0c;如何让 Suphx 的模型有自解释的能力&＃xff0c;是微软下一步的重点。

最后&＃xff0c;刘铁岩还提到 Suphx 最主要的训练收益是通过线下&＃xff08;将近 2000 万场&＃xff09;的自我博弈&＃xff0c;数量远远超出线上数量&＃xff08;5000 场&＃xff09;。其中&＃xff0c;线下自我博弈学到的信号数量很多&＃xff0c;但是学到更多的是如何自我提升&＃xff0c;但是 5000 场线上对弈中&＃xff0c;系统可以学到别人的打法、风格和实战中解决问题的能力。这两类信号的作用各有千秋&＃xff0c;而微软正在考虑如何将二者结合。这也是最近一段时间人工智能领域的新的研究热点&＃xff0c;即从人类或有经验的玩家的行为中进行抽象与海量的自我博弈结合。

正如微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文所说&＃xff1a;“游戏一直是人工智能研究的最佳试验田&＃xff0c;训练游戏 AI 的过程可以不断提升人工智能的算法和人工智能处理复杂问题的能力。麻将 AI 系统 Suphx 的技术突破&＃xff0c;对于探索及扩展人工智能算法的边界是非常有益的尝试。同时&＃xff0c;麻将这类游戏中的推理、决策过程与人类真实且复杂的生活更贴近&＃xff0c;我们希望通过对麻将 AI 系统的研究&＃xff0c;提升人工智能在现实环境中解决复杂问题的能力&＃xff0c;推动人工智能技术的发展。”

(*本文为AI科技大本营原创文章&＃xff0c;转载请联系微信 1092722531)

◆

福利时刻

◆

入群参与每周抽奖~

扫码添加小助手&＃xff0c;回复&＃xff1a;大会&＃xff0c;加入福利群&＃xff0c;参与抽奖送礼&＃xff01;

640?wx_fmt&＃61;jpeg

距离大会参与通道关闭还有 3 天&＃xff0c;扫描下方二维码或点击阅读原文&＃xff0c;马上参与&＃xff01;&＃xff08;学生票特享 598 元&＃xff0c;团购票每人立减优惠&＃xff0c;倒计时 3 天&＃xff01;&＃xff09;

640?wx_fmt&＃61;png

推荐阅读

Dropout、梯度消失/爆炸、Adam优化算法&＃xff0c;神经网络优化算法看这一篇就够
AI换脸软件ZAO刷屏&＃xff0c;可我却不敢用了
只给测试集不给训练集&＃xff0c;要怎么做自己的物体检测器&＃xff1f;
还在抱怨pandas运行速度慢&＃xff1f;这几个方法会颠覆你的看法
没有光芯片&＃xff0c;何谈 5G 与 AI &＃xff01;
30 岁的程序员&＃xff0c;我没有活成理想的模样&＃xff0c;失败吗&＃xff1f;
看懂“大数据”&＃xff0c;这一篇就够了&＃xff01;
别让分析公司卖了你&＃xff1a;一文读懂比特币的私密性及隐私保护

640?wx_fmt&＃61;png

你点的每个“在看”&＃xff0c;我都认真当成了喜欢

推荐阅读

facebook
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
facebook
智能车间调度研究进展

本文综述了基于强化学习的智能车间调度策略，探讨了车间调度问题在资源有限条件下的优化方法。通过数学规划、智能算法和强化学习等手段，解决了作业车间、流水车间和加工车间中的静态与动态调度挑战。重点讨论了不同场景下的求解方法及其应用前景。 ... [详细]

蜡笔小新 2024-12-22 19:02:54
百度
智慧城市建设现状及未来趋势

随着新基建政策的推进及‘十四五’规划的实施，我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型，促进数字政府建设，新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计，以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]

蜡笔小新 2024-12-16 16:43:21
百度
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
百度
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
百度
现代人幸福感缺失的原因探究

随着生活节奏的加快和压力的增加，越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素，并提供了一些改善建议。 ... [详细]

蜡笔小新 2024-12-21 16:09:25
百度
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
百度
由二叉树到贪心算法

二叉树很重要树是数据结构中的重中之重，尤其以各类二叉树为学习的难点。单就面试而言，在 ... [详细]

蜡笔小新 2024-12-21 13:13:13
百度
如何使用 CleanMyMac X 2023 激活码解锁完整功能

本文详细介绍了如何使用 CleanMyMac X 2023 激活码解锁软件的全部功能，并提供了一些优化和清理 Mac 系统的专业建议。 ... [详细]

蜡笔小新 2024-12-21 03:29:03
微信
程序员如何优雅应对35岁职业转型？这里有深度解析

本文探讨了程序员在职业生涯中如何通过不断学习和技能提升，优雅地应对35岁左右的职业转型挑战。我们将深入分析当前热门技术趋势，并提供实用的学习路径。 ... [详细]

蜡笔小新 2024-12-20 18:26:03
微信
智能投顾机器人：创业者如何应对新挑战？

随着智能投顾技术在二级市场的兴起，针对一级市场的智能投顾也逐渐崭露头角。近日，一款名为阿尔妮塔的人工智能创投机器人正式发布，它将如何改变投资人的工作方式和创业者的融资策略？ ... [详细]

蜡笔小新 2024-12-20 16:46:18
微信
江苏启动鲲鹏生态产业园首批应用孵化项目

2019年9月19日，在华为全联接大会上，江苏鲲鹏生态产业园正式启动了首批鲲鹏应用孵化项目。南京市委常委、江北新区党工委专职副书记罗群等多位嘉宾出席并见证了这一重要时刻。 ... [详细]

蜡笔小新 2024-12-19 21:22:14
微信
java程序员_Java程序员最新职业规划，逆袭面经分享

java程序员_Java程序员最新职业规划，逆袭面经分享 ... [详细]

蜡笔小新 2024-12-16 14:36:24
微信
深入解析Java虚拟机（JVM）架构与原理

本文旨在为读者提供对Java虚拟机（JVM）的全面理解，涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制，帮助开发者更好地掌握Java编程的核心技术。 ... [详细]

蜡笔小新 2024-12-21 23:50:40
微信
Jenkins 官方最新动态发布

Jenkins 是持续集成和持续交付（CI/CD）领域中的领先平台，在全球范围内拥有广泛的用户基础。本文将介绍 Jenkins 在中国市场的最新举措，以及为促进中文用户社区发展所采取的具体行动。 ... [详细]

蜡笔小新 2024-12-19 17:08:07