智东西1月25日消息,今日凌晨,AI界网红DeepMind与暴雪进行联合直播,在直播中,谷歌最新AI程序AlphaStar首度亮相,与《星际争霸II》职业选手TLO和MaNa进行激烈厮杀,并以10-1的辉煌战绩,将人类高手杀到片甲不留。《星际争霸II》是一款极为复杂的策略游戏,要求玩家在任何特定时刻都要考虑数百种选择,以及在信息不完全的快速变化的环境中进行操作。据说AlphaStar的训练量,相当于打了200年实时对抗的星际II。TLO在推特上写道:“那些认为Mana打得不好的人,相信我很难对抗像AlphaStar这样的对手,这种对手与人类完全不同,而且你毫无经验。AlphaStar在游戏AI方面令人印象深刻且前所未有。”星际争霸更是在推特上激动地写道:“这是女士们,先生们!有史以来第一次,专业人士承认人工智能!”这是里程碑式的人机之战。继AlphaGo后,AlphaStar很可能将成为DeepMind的新招牌,在游戏界开始大杀四方。10比1鏖战!AlphaStar吊打人类职业玩家本次人机大战在YouTube和Twitch上直播,在超过两小时的比赛期间,大约有34000名现场观众,有评论员、DeepMind团队负责,以及玩家讨论进展。来自DeepMind的全场比赛(https://deepmind.com/research/alphastar-resources/)现在可供玩家分析。虽说是直播,但其中10场比赛都是在去年12月完成。此次直播本质上是回顾。游戏比赛使用的版本是去年10月的4.6.2,双方都使用神族(星灵),在Catalyst(汇龙岛)地图上进行。官方表示,这一地图“能创造出许多有意思的进攻路径和防守阵形”。首场比赛发生在去年12月12日,由AlphaStar对阵TLO。TLO是一位德国职业星际2选手,1990年7月13日出生,有随机天王的称号,在2018 WCS Circuit排名44,现在效力于职业游戏战队Liquid。由于目前AlphaStar的训练只针对神族,所以它选择的是虫族,而擅长虫族的TLO只能选择神族。尽管TLO一开局就率先发难,但AlphaStar的稳步应对,逐渐扭转局势取得胜利。经过前三局相似打法后,从第四局开始,AlphaStar风格大变。TLO表示,第四局就像换了个AI一样,打法近似神族。最后,五场比赛,AlphaStar完胜。在比赛胜利后,DeepMind团队乘胜追击,在去年12月19日让AlphaStar对抗Protoss专家——两届《星际争霸II》锦标赛冠军MaNa。MaNa是一位波兰职业星际2选手,1993年12月14日出生,目前也效力于Liquid,在2018 WCS Circuit排名13,他还是神族最强十人之一。在比赛前,AlphaStar又训练了一周,学习包括TLO在内的职业玩家所获得的知识和经验。经过激烈的博弈,AlphaStar再次赢得所有五场比赛,以10:0结束前十场战斗。MaNa则表示,AlphaStar的微操太厉害了,令人难以置信。播放完录制的比赛后,DeepMind推出了新版AlphaStar,与MaNa进行现场较量。由于玩现场游戏的Agency视角受到限制,并在没有经过测试的前提下和Mana比赛,MaNa抓住了AlphaStar代理的一些漏洞,终于战胜AlphaStar,为人类扳回一城。当时,AlphaStar几乎调动所有部队攻打MaNa的基地,MaNa将几个战斗单元传送到AlphaStar的基地后方。每次传送后,AlphaStar都派遣军队回头营救,致使MaNa有足够时间来扩张部队,反击AlphaStar。最终这场备受瞩目的人机大战,以10比1AI大胜的结果收尾。坐拥200年大战经验,AlphaStar靠什么虐杀人类高玩?在对抗TLO时,比赛预先为AlphaStar设定了一些优势。首先,这场比赛使用了Protoss级别的单位,神族不是TLO在游戏中的首选种族,TLO更擅长玩虫族。TLO在完全落败后表示,如果我多练练神族,我能轻易打败这些AI。此外,AlphaStar以与普通玩家不同的方式看待游戏。虽然它仍然受到战争迷雾的限制,但它基本上看到地图完全缩小了,可以立刻看到整个地图。这意味着它可以处理有关可见敌方单位及其自身基础的一些信息,而不必像人类玩家一样将时间分配到地图的不同部分。虽然TLO和MaNa在理论上限制了他们每分钟能够以AI的方式实际执行的点击次数,但AlphaStar实际上每分钟执行的动作明显少于普通职业玩家使用的次数。虽然有时AI系统利用了计算机的自然优势——更快的反应时间和动作频率,但DeepMind团队试图在某种程度上减轻这种影响。AlphaStar的反应时间大约350毫秒的反应时间,比大多数专业人士要慢,并且每分钟采取的动作更少比专业人士。虽然AI花费了时间,但通过做出更聪明,更有效的决策,展示了对隐形和游戏侦察方面的理解,赢得了最终的胜利。神乎其神的AlphaStar,其实就是DeepMind用大量《星际争霸II》职业玩家的录像训练的深度神经网络。在学习人类玩家的游戏实况重播后,在2018年初,DeepMind着手“扩大并加速”其星际争霸项目。DeepMind让AlphaStar模仿人类的操作,并为AlphaStar代理创造了一个竞技场——连续联赛(Continuous League)。为了训练AlphaStar,持续两周时间,DeepMind用谷歌第三代TPU(Tensor Processing Units)搭建了一个高度可扩展的分布式训练环境。在每次迭代中,DeepMind从AlphaStar代理上不断产生新的分支,冻结原始竞争者,创造更多选手加入比赛,并且可以调整确定每个代理的学习目标的匹配概率和超参数,从而在保持多样性的同时增加难度。AlphaStar代理们通过从竞争对手的游戏结果中加强学习来更新代理的参数,学会了如何相互击败并迅速提升,最终的代理从联盟的纳什分布中抽样选择。在发现新策略的过程中,DeepMind称AlphaStar大约接受了相当于连打游戏200年的训练。职业玩家只是第一步,AlphaStar剑指世界冠军《星际争霸Ⅱ》一直是DeepMind正在推进的研究中最受关注的项目。早在2017年8月,DeepMind就放出豪言,宣布开始训练AI玩暴雪公司旗下的《星际争霸 II》游戏。当时其顾问预言,计划让AI在五年后战胜《星际争霸Ⅱ》世界冠军。《星际争霸》是一款极其复杂的战略游戏,需要玩家高度集中的精神力、超强的灵敏度和战略决策智慧。这款游戏可以充分考验AI的即时战略和人机对抗协作能力。它要求AI学习在资源有限的情况下平衡发展,学会如何发展高科技、出兵种对抗以及如何调兵遣将来保证利益最大化。这些涵盖了AI亟待解决的三大问题:一是在有限视野和不完全信息的情况下做决策,二是平衡短期、中期和长期的发展策略,三是处理多智能体间的合作和博弈。为此,暴雪创建了星际争霸II学习环境(SC2LE),为研究人员和开发人员提供了特殊的工具。对于必须在实时同时平衡的多个任务,AI代理如何成功,视频游戏是一个“巨大的挑战”。获胜所需的技能包括博弈论,不完全信息,长期规划,实时和大型行动空间。例如,虽然游戏的目标是击败对手,但玩家还必须执行和平衡多个子目标,例如收集资源或建筑结构。此外,游戏可能需要几分钟到一个小时才能完成,这意味着在游戏早期采取的行动可能无法在很长一段时间内获得回报。最后,只能部分地观察地图,这意味着代理必须使用记忆和计划的组合才能成功。去年11月,DeepMind展示了其在Blizzcon的进展,但今天的演示展示了AlphaStar与两名职业选手竞争和胜利,我们看到了AI在它攻下《星际争霸Ⅱ》的征途中喜迎开门红。离DeepMind立下的AI击败星际II世界冠军的小目标,还有不到4年。结语:人机大战背后的技术价值虽然AlphaStar的直接专业水平和无与伦比的学习速度,对于任何一个星际争霸玩家来说,都不算一个好消息。但游戏玩家可能亦可能从AI的打法中学到一些有效的策略。感兴趣者不妨到DeepMind的网站上找到所有AlphaStar与TLO和MaNa的比赛的全套回放(https://deepmind.com/research/alphastar-resources/)。AlphaStar大胜人类职业玩家,不仅是震惊游戏界的大新闻,它展示了AI技术潜藏的实力,在需要大量知识和经验的领域,正以惊人的方式超越人类玩家。纽芬兰纪念大学(Memorial University)的计算机科学教授大卫•丘吉尔(David Churchill)认为,《星际争霸》是如此复杂,能解决《星际争霸》的AI将能解决任何其他问题。尽管目前AlphaStar玩星际还有很多限制,对手也不是人类最强玩家,但其背后的技术拥有难以估量的价值,在医疗健康、天气预测等与人类生活息息相关领域都可能发挥巨大的作用。AlphaGo之父哈萨比斯透露,DeepMind将在期刊上发表经过同行评审的论文,详细描述AlphaStar的技术细节。谷歌DeepMind开发的算法已经在围棋上击败人类,如今又在《星际争霸2》取得初步胜利,下一步,AlphaStar将会有怎样新的进步?DeepMind又将进攻哪个新的堡垒?我们拭目以待。
本文出自快速备案,转载时请注明出处及相应链接。