DeepMind的AlphaZero击败了最先进的国际象棋和棋牌游

差不多一年前,由谷歌母公司Alphabet所拥有的英国人工智能(AI)部门DeepMind成为头条新闻的预制研究(“通过自我发挥掌握国际象棋和Shogi以及通用强化学习算法”)描述了一个系统 - AlphaZero--它可以教自己如何掌握国际象棋游戏,日本国际象棋棋子shogi,以及中国棋盘游戏Go。在每种情况下,它都击败了世界冠军,展示了学习具有完美信息的双人游戏的最先进技巧 - 也就是说,任何决定都被告知之前发生的所有事件的游戏。

DeepMind的AlphaZero击败了最先进的国际象棋和棋牌游戏引擎

DeepMind的说法令人印象深刻,但他们没有经过同行评审。那改变了。DeepMind今天宣布,经过数月的反复修订,其在AlphaZero上的工作已经被“ 科学 ”杂志所接受,并成为首页。

“几年前,我们的计划AlphaGo以四场比赛的比分击败了18次世界冠军围棋冠军李赛德。但对于我们来说,这实际上是构建一个通用学习系统的开始,这个系统可以学习自己,以超人的方式玩许多不同的游戏,“AlphaZero的首席研究员David Silver告诉在会议室聚集的记者在蒙特利尔的NeurIPS 2018。“AphaZero是这一历程的下一步。它从头开始学习击败Gi,Chess和Shogi的世界冠军计划,从游戏规则以外的任何知识开始。“

Silver解释说,这些游戏的选择既考虑了它们的复杂性,也考虑了之前针对它们进行AI研究的丰富历史。

“国际象棋......代表了人工智能被推到绝对极限时可以通过传统方法实现的目标,因此我们希望看看我们是否能够推翻传统方法,即使用完全原则性的自学习手段进行大量手工制作接近,“他说。“我们选择Shogi的原因在于,就难度来说,它是除了Go之外的少数棋盘游戏之一,即使是专门的程序和计算机程序,也是非常非常具有挑战性的。只有......在过去一两年里,有任何计算机程序能够与人类世界冠军竞争。“

为此,本周发表的论文描述了DeepMind如何通过利用深度神经网络 - 模仿人类大脑中神经元行为的分层数学函数,优于象棋和骗子游戏算法,如Stockfish,Elmo和IBM的Deep Blue。 - 而不是手工制作的规则。其动态的游戏模式产生了创造性和非传统的策略,激发了两届英国国际象棋冠军和大师马修·萨德勒以及女性国际大师娜塔莎·里根(Natasha Regan)的即将出版的书籍,他精心评论了AlphaZero的近1000款国际象棋比赛。

“传统引擎非常强大并且几乎没有明显的错误,但是当面对没有具体和可计算解决方案的位置时可能会漂移......令人印象深刻的是,[AlphaZero]设法将其比赛风格强加于各种各样的位置和开口,”萨德勒说过。“正是在这样的位置,AlphaZero才能实现”感觉“,”洞察力“或”直觉“。AlphaZero像人类一样着火。这是一种非常漂亮的风格。“

例如,在国际象棋中,AlphaZero发现了诸如开口(国际象棋游戏的初始动作),国王安全(保护王牌的方式)和棋子结构(棋盘上的棋子的配置)等图案。它倾向于围绕对手的国王聚集,并最大限度地提高其棋子的移动性,同时最大限度地减少敌人的棋子。与人类不同,它愿意为追求长期目标而牺牲一些东西。

教授AlphaZero如何玩这三个游戏中的每个游戏都需要在强化学习过程中模拟数百万个匹配对象,其中奖励和惩罚系统驱动AI代理实现特定目标。AlphaZero最初随机播放,但最终通过调整参数以支持某种游戏风格来避免损失。

DeepMind AlphaZero

训练AlphaZero所花费的总时间因游戏而异。在具有5,000个第一代张量处理单元(TPU)和16个第二代TPU的系统上,至少有700,000个培训步骤(每个步骤代表4,096个板位) - Google针对机器学习优化的专用集成电路(ASIC) - 花了9个小时来制作和玩国际象棋游戏,分别为shogi和Go花了大约12小时13天。

经过训练的AlphaZero使用蒙特卡罗树搜索(MCTS) - 一种用于决策过程的启发式搜索算法 - 来选择每个移动。它能够非常迅速地完成搜索,DeepMind的首席执行官兼联合创始人Demis Hassabis告诉记者 - 国际象棋每秒约有60,000个位置,而Stockfish大约有6000万个。

“这不如人类大师那么高效,他可能只看了大约100个位置。决定,“哈萨比斯说,”但就蛮力计算而言,我们的效率是手工发动机的千倍。“

为了测试经过全面训练的AlphaZero,DeepMind的研究人员除了其前身AlphaGo Zero之外,还对上述的Stockfish和Elmo游戏引擎进行了测试。在具有44个处理器内核和4个谷歌第一代TPU的单台机器上运行 - 硬件具有与具有多个Nvidia Titan V图形处理单元(GPU)的工作站大致相同的推理能力 - AlphaZero轻松赢得了三个中的大多数游戏 - 每场比赛的限制条件。

DeepMind AlphaZero

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://qipaiapply.com/a/jingyan/148.html