不以人类为师的阿尔法狗，为人与AI对话提供“窗口”

2019独角兽企业重金招聘Python工程师标准>>>

1997年国际象棋神话卡斯帕罗夫输给计算机后&＃xff0c;围棋成为人类的最后尊严。在大多数人看来&＃xff0c;计算机想要在围棋领域打败人类&＃xff0c;至少需要十年&＃xff0c;甚至更长的时间。然而&＃xff0c;AlphaGo的出现&＃xff0c;直接击碎了这一想法。

　　2016年&＃xff0c;谷歌旗下的DeepMind团队发布AlphaGo&＃xff0c;并在以4:1的成绩击败了世界围棋冠军、韩国棋手李世石&＃xff0c;震撼全球。战胜李世石的这版AlphaGo&＃xff0c;参考学习了大量的人类专业棋手的棋谱。此后&＃xff0c;AlphaGo又进化出了AlphaGo Master版本&＃xff0c;并以3&＃xff1a;0战胜了当今世界围棋第一人、中国棋手柯洁。“功成名就”后&＃xff0c;Deepmind公司宣布AlphaGo退役&＃xff0c;不再与人类下棋。不过&＃xff0c;故事并未结束。退出人类棋坛、无敌寂寞的AlphaGo开始了闭关学习&＃xff0c;进行“左右手互博”&＃xff0c;从而实现“挑战自我”、“战胜自我”。2017年10月18日&＃xff0c;神秘面纱揭开&＃xff1a;DeepMind推出了最新版本&＃xff0c;也是迄今为止最强版本——AlphaGo Zero。

　　在DeepMind的最新论文中&＃xff0c;AlphaGo Zero利用了强化学习的方法&＃xff0c;在没有人类指导的情况下&＃xff0c;只用3天时间进行学习&＃xff0c;就打败了战胜过李世石的那版AlphaGo&＃xff0c;比分是100&＃xff1a;0。

在《自然》杂志上为DeepMind论文撰写的评论中&＃xff0c;密歇根大学计算机科学和工程学院教授Satinder Singh写道&＃xff0c;这是强化学习转化为应用领域里取得的最大进步之一。

　　那么AlphaGo Zero是如何实现这种飞跃的&＃xff1f;前文提到&＃xff0c;AlphaGo Zero采用的是人工神经网络。这种网络可以计算出下一步走棋的可能性&＃xff0c;估算出下棋选手赢的概率。随后根据计算&＃xff0c;AlphaGo Zero会选择最大概率赢的一步去下。整个训练过程中&＃xff0c;并没有人类参与&＃xff0c;全程是AlphaGo Zero自我学习&＃xff0c;自我对弈。

　　在训练过程中&＃xff0c;AlphaGo Zero每下一步需要思考的时间是0.4秒。但正是通过对围棋游戏的模拟和训练&＃xff0c;神经网络变得越来越好。值得一提的是&＃xff0c;AlphaGo Zero相比之前的版本&＃xff0c;仅使用了单一的神经网络。

　　新版本的AlphaGo究竟有多厉害&＃xff1f;打败李世石的AlphaGo用了3000万盘比赛作为训练数据&＃xff0c;AlphaGo Zero用了490万盘比赛数据。经过3天的训练&＃xff0c;AlphaGo Zero就以100&＃xff1a;0的比分赢下了李世石版AlphaGo&＃xff0c;并且只用了1台机器和4个TPU&＃xff08;谷歌专为加速深层神经网络运算能力而研发的芯片&＃xff09;。而李世石版AlphaGo则用了48个TPU。

　　这一切的意义在哪里&＃xff1f;AlphaGo的诞生惊艳了世人&＃xff0c;现在AlphaGo Zero又将机器能做到的极限往后推了几个量级。Satinder Singh认为&＃xff0c;AlphaGo和AlphaGo Zero在一年多时间里取得的进步已经证明&＃xff0c;基于强化学习的人工智能比基于人类知识经验的智能表现地更好。实际上&＃xff0c;AlphaGo Zero将来很有可能会帮助人类棋手提高棋艺&＃xff0c;并启发他们对围棋的理解。还有一点也是毋庸置疑的&＃xff0c;那就是AlphaGo的成功带来了全球媒体对于人工智能的关注&＃xff0c;也让围棋变成流行与美并存的游戏。

　　美国围棋协会的Andy Okun和Andrew Jackson也为此次的论文在《自然》杂志上撰写了评论&＃xff0c;他们认为&＃xff0c;围棋人工智能的出现&＃xff0c;重启了我们究竟对围棋这项游戏了解多少这个问题。通常一个世纪才会出现一位传奇的围棋棋手&＃xff0c;他能改变人类对围棋的理解。而当AlphaGo打败李世石&＃xff0c;Master以60&＃xff1a;0的成绩横扫各国顶尖棋手&＃xff0c;并以3:0赢下柯洁后&＃xff0c;关于人工智能给围棋带来的启示一直不绝于耳。

　　这一次&＃xff0c;AlphaGo Zero带来的进步肯定也是围棋棋手日后学习的宝库。要知道&＃xff0c;AlphaGo Zero是独立学习训练的&＃xff0c;但它使用的招数却超越了许多人类棋手的下棋顺序和招法。也就说&＃xff0c;人工智能丰富了我们下围棋的选择。或许它在下棋过程中有些下法是人类无法理解的&＃xff0c;甚至认为是错误的&＃xff0c;但在机器的理解看来确实万分正确的。从这些经验中&＃xff0c;人类棋手看到了与以往不同的围棋世界。

　　“之前&＃xff0c;人类与人工智能对话总是显得非常遥远&＃xff0c;甚至像科学小说。但现在对于围棋选手来说&＃xff0c;对话已经发生了&＃xff0c;就在这里。” Andy Okun和Andrew Jackson说。

(更多点击&＃xff1a;产权交易)&＃xff08;链接&＃xff1a;http://www.jstec.com.cn&＃xff09;