DeepMind的AlphaStar在星际争霸2中达到大师级水平
早在一月份,谷歌的DeepMind团队宣布其AI明星AlphaStar在星际争霸战中击败了两位顶尖的人类职业选手。但是,正如我们当时所争论的那样,这并不是一场公平的战斗。现在,AlphaStar使用与人类玩家相同的界面,已经在性能上进行了充分改进,以达到StarCraft II中的Grandmaster地位。该团队在《自然》杂志的一篇新论文中描述了其工作。
DeepMind的合著者Oriol Vinyals说:“这是一个梦想成真。”他20年前是狂热的星际争霸玩家。“ AlphaStar仅通过神经网络和通用学习算法就达到了Grandmaster的水平,这在十年前我使用基于规则的系统研究StarCraftAI时是无法想象的。”
去年下半年,我们报道了DeepMind的AlphaGo的直接后代AlphaZero的最新成就,该游戏在2016年击败了统治世界的人类人类冠军Lee Sedol成为全球头条新闻。去年,AlphaGo进行了重大升级,无需人工干预就可以自学制胜战略。通过一遍又一遍的玩法,AlphaZero训练了自己在短短三天内从零开始玩围棋的过程,并彻底击败了最初的AlphaGo 100游戏至0。它收到的唯一输入就是游戏的基本规则。然后AlphaZero教自己在短短三天内就可以玩三种不同的棋盘游戏(国际象棋,围棋和将棋,一种日本象棋),而无需人工干预。
秘密成分:“强化学习”,通过自己玩几百万场游戏,程序可以从经验中学习。之所以行之有效,是因为AlphaZero因其最有用的行动(例如,设计获胜策略)而获得奖励。人工智能通过考虑最有可能的下一步行动并计算每个步骤获胜的概率来做到这一点。最新版本将深度强化学习(神经网络的许多层)与通用的蒙特卡洛树搜索方法结合在一起。正如国际象棋大师加里·卡斯帕罗夫(Gary Kasparov)去年在《科学》杂志的社论中写道:“与以前的所有国际象棋机器一样,AlphaZero并非以极快的速度处理人类的指令和知识,而是产生了自己的知识。”
随着AlphaZero的成功,DeepMind的关注点转移到了新的AI前沿:部分(不完整)信息游戏(如扑克)和多人视频游戏(如Starcraft II)。《星际争霸2》也是一个信息不完整的游戏,没有一个最佳的策略,就像玩剪刀石头布一样。它需要大型行动空间中的远程计划能力和实时决策能力。不仅游戏玩法地图对玩家隐藏,而且他们还必须同时控制数百个单位(可以构建为影响游戏的移动游戏部件)和建筑物(用于创建单位或增强这些单位的技术)。正如Ars的Tim Lee(狂热的星际争霸玩家)在一月份写道:
“《星际争霸》要求玩家收集资源,建立数十个军事单位并使用它们来消灭对手。对于AI来说,《星际争霸》尤其具有挑战性,因为玩家必须在几分钟的游戏过程中制定长期计划,并在游戏中进行调整。 DeepMind说,在做出自己的努力之前,没有人能像最好的人类玩家那样设计出一个StarCraftAI。
AlphaStar的早期版本还依赖于深度强化学习来教授该程序来模仿人类策略。到那时,人工智能已经足够熟练地击败精英级别的玩家,大约有95%的时间。然后,DeepMind团队创建了该AI的变体,每个变体采用不同的游戏风格,并将其放入虚拟的星际争霸联赛。这使代理可以从错误中吸取教训并相应地制定策略。然后,DeepMind选择了五个最强的经纪人,并将他们与两个人类职业选手对决:Dario“ TLO” Wunsch和Grzegorz“ MaNa” Komincz。AI在所有十场比赛中都击败了人类挑战者。
也就是说,这不是一场公平的战斗。李在1月份写道:“平整竞争环境的最终方法是使AlphaStar使用与人类玩家完全相同的用户界面。”“当然可以对界面进行虚拟化,但是游戏应该获得与人类玩家相同的原始像素输入,并且应该要求使用一系列鼠标移动和击键来输入指令,而输入的速度仅限于人类可以达到的速度这是完全确保AlphaStar不会给其软件带来不公平优势的唯一方法。”
像人一样玩
最新版本的AlphaStar在解决这些问题上有很长的路要走,将深度强化学习与多智能体学习和模仿学习直接结合起来,直接从游戏数据中获得,并通过虚拟联盟再次磨练。根据Vinyals和DeepMind的合著者Wojciech Czarnecki的博客文章,经过改进的新版AlphaStar受到人类游戏的相同限制,并且在Battle.net上“使用与人类玩家相同的地图和条件”进行游戏。
Vinyals和Czarnecki在谈到AlphaStar的最新化身时说到:“联盟的主要见解是打赢并不足够。”“相反,我们既需要目标是与所有人抗衡的主要特工,也需要'为团队争取一个'的剥削者特工。专注于通过揭露自己的缺陷而不是最大化自己的获胜率来帮助主要特工变得更强大。当前联盟使用这种训练方法以端到端的方式学习其所有复杂的《星际争霸II》策略,这与早期的是我们工作的化身,将通过各种方法和算法生成的代理缝合在一起。”
AI现在也可以与《星际争霸2》中的三大种族对抗或对抗:神族,人族和虫族。(早期版本只玩了Protoss vs. Protoss。)DeepMind在一系列在线游戏中与人类玩家对决AlphaStar。在所有《星际争霸II》的三场比赛中,AI均被评为大师级,并且在官方排名的人类玩家中占99.8%以上。这是第一款在不使用简化版游戏的情况下,在流行的专业电子竞技中达到这一地位的AI。这有力地表明,这些类型的通用机器学习算法可用于解决复杂的现实世界中的问题,例如个人助理,自动驾驶汽车或机器人技术,所有这些都需要基于以下方面的实时决策:信息不完善。
“在DeepMind,我们有兴趣了解的电位和限制,开放式的学习,这使我们能够开发强大和灵活的代理可以与复杂的现实世界域应对,” Vinyals和Czarnecki谈到写道。“像《星际争霸》这样的游戏是推进这些方法的绝佳训练场,因为玩家必须使用有限的信息来做出动态且困难的决定,从而在多个层次和时间尺度上产生分歧。”
这次,这似乎是一场公平的战斗。“我发现AlphaStar的游戏玩法令人印象深刻,” Wunsch在谈到最近的化身时说道。“该系统是在评估其战略地位非常熟练,并且知道什么时候参与或与它的对手脱离。虽然AlphaStar具有优良的和精确的控制,它不觉得超人,肯定不是一个级别的人couldn”总的来说,感觉很公平,就像玩《星际争霸》的“真实”游戏一样。”
免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。