阿尔法狗“弟弟”出道：人类1:10惨败 5分钟崩盘

日期：01-25

阿尔法狗崩盘人工智能

原标题：阿尔法狗的“弟弟”出道：人类1：10惨败，5分钟崩盘！

来源：每日经济新闻

图片来源：DeepMind博客

继围棋之后，强大的人工智能（AI）在北京时间25日凌晨再次震撼世界：

仅仅5分钟，谷歌旗下的人工智能公司DeepMind开发的全新AI程序AlphaStar就让《星际争霸2》（以下简称星际2）职业选手MaNa投降。

DeepMind当天公布的录像显示，去年12月，AlphaStar分别以5-0战胜星际2的两位职业选手TLO和MaNa，成为第一个打败电竞职业选手的人工智能。在比赛之前，AlphaStar的训练量，相当于打了200年的星际2。

但在之后的现场比赛中，MaNa因为发现了AI操作上的缺陷，才成功为人类扳回一局。这同样也创造了历史——AlphaStar首次成为职业选手的手下败将。

每日经济新闻（微信号：nbdnews）记者注意到，尽管10战连败，人类职业高手仍然对AlphaStar不吝称赞。

“AlphaStar在每局游戏中采用的操作和不同策略令人印象十分深刻，近乎人类选手般的游戏策略出乎我的意料，”MaNa说，“我这才意识到，自己之前的策略过分依赖对手失误和人类的反应力，因此这场比赛让我对游戏有了全新的认识。我们很期待未来的无限可能。”

而TLO的说法跟李世石输给AlphaGo后很像。他说：相信我，和AlphaStar比赛很难。不像和人在打，有种手足无措的感觉。他还说，每局比赛都是完全不一样的套路。

赛后，DeepMind在其官方博客上表示，实现最高水平的星际2对弈代表了人工智能在有史以来最复杂电子游戏中取得的重大突破。AlphaStar背后的技术可以用来解决其他的问题，比如天气预报、气候建模、语言理解等。

让AI玩星际争霸有多难？

暴雪出品的星际2近年来已被公认为AI研究的“大挑战（grand challenge）”。与下围棋相比，星际2可难得多——在围棋世界，动作空间只有361种，而星际2大约是10的26次方。

DeepMind也在其官方博客上解释了人工智能玩星际2的难点：

游戏理论：星际2是个游戏，就想剪刀石头布一样，没有单一最佳战略。因此人工智能训练过程中需不断探索和扩展最战略知识前沿。

瑕疵信息：不同于国际象棋或围棋那种一览无余的状态，星际玩家无法直接观察到重要信息，必须积极探索“探路”。

长期规划：和许多现实世界中的问题并非是从“因”立即生“果”一样，游戏是可以从任何一个地方开始，需要1个小时时间出结果，这意味着在游戏开始时的行动可能在很长一段时间不会有收效。

即时性：不像传统桌面游戏，玩家轮流行动，星际玩家必须在游戏时间内持续排兵布阵。

庞大的行动空间：要同时控制上百个单位及建筑，这就导致了大量的可能性，行动是分级别的，可以被修改和扩张。我们将游戏参数化后，每个时间步骤平均约有10到26个合理行为。

AlphaStar是如何做到跟星际2职业选手对战的呢？

DeepMind表示，对决时，AlphaStar借助原始界面与星际2游戏引擎交流，也就是说，它可以直接观察地图上的我方单位和敌方可见单位，不需要移动摄像头。如果是人类玩家，注意力有限，必须调整摄像头，让它瞄准应该关注的地方。分析AlphaStar游戏能发现，它有一个隐藏的注意力焦点。平均来说，游戏代理每分钟会切换环境约30次，和MaNa、TLO的频率差不多。

AlphaStar玩星际2的过程（图片来源：DeepMind博客）

事实证明，AlphaStar与MaNa和TLO对决时之所以占据上风，主要是因为它的宏观战略、微观战略决策能力更强，靠的并不是超级点击率、超快响应时间。

AlphaStar在APM和延迟方面与人类玩家的比较（图片来源：DeepMind博客）

DeepMind还表示，团队的一些训练方法或可有助于研究开发安全稳定的人工智能。人工智能的一大挑战是，系统出错的方式各种各样。先前，星际2的职业玩家可以通过各种新颖方式诱导代理失误，轻易击败AI系统。AlphaStar采用的基于league模式的创新训练方式，可以找到最可靠、最不容易出错的方式。这一创新方式对改进整体AI系统（尤其是在诸如能源等安全至上、且解决复杂边缘案例十分关键的领域）的安全性和稳定性的前景亦值得期待。

DeepMind去年亏损27亿元

DeepMind取得的成绩，是大把大把的钞票“烧”出来的。

2018年10月，DeepMind在英国“工商局”CompaniesHouse上公布的财务报告显示，DeepMind在上一个财年（2017年）亏损了3.02亿英镑，相当于人民币27亿元，相比去年同期9395万英镑的亏损额，增长了221%。

DeepMind的赚钱能力并未同步增加。财报显示，DeepMind 2017年的营业收入仅为5442万英镑，相比2016年的4028万英镑，只增长了35%。

据Business Insider透露，DeepMind的收入全部来自于其为母公司谷歌旗下部门所提供的服务，而非外部客户，比如用人工智能帮谷歌其它部门提高效率等，DeepMind和英国NHS合作的医疗业务还没赚钱。

DeepMind之所以遭受巨额亏损，除了营收不振之外，主要是因为员工成本和相关支出（staff costs and other related costs）这个名目，仅这一项支出就高达2.01亿英镑，占到全年总亏损的三分之二。

据英国招聘网站e Financial Careers估算，已知DeepMind一共700名员工，其中400个博士，可以大致折算出DeepMind员工平均年收入：约为28万英镑，折合人民币超过250万元。

对于大规模亏损可能带来的质疑，DeepMind也在报告中透露，其母公司谷歌会在未来12个月内，继续向他们提供充足的资金，去招募人工智能人才。

烧了这么多钱的DeepMind对谷歌有何意义？

每日经济新闻（微信号：nbdnews）记者注意到，《经济学人》曾写过一篇文章讨论此事：

首先就是品牌，DeepMind一直走在人工智能的最前沿，围棋事件更被认为是新一轮人工智能发展的里程碑。这一品牌效应帮助谷歌吸引到了最顶级的AI人才，同时也让投资方对谷歌AI的研究实力有了更多的信心。

其次是技术合作和应用。谷歌可以直接将DeepMind的技术加入到旗下产品中，并快速向全球消费者输出。最新的案例是，DeepMind的语音合成系统WaveNet的升级版本正被用于在各个平台上生成谷歌语音助手（Google Assistant）的声音。

此外，DeepMind此前也宣布，通过使用其最新的算法，为谷歌数据中心节能了15%——这相当于节省了数百万美元的开销。

而Deepmind可以称得上是英美合作案例，结合了英国的研究实力和美国的资本与市场；也可以说是英国人烧美国人的钱做研究，最后共享成果。

记者|谢陶

责任编辑：张义凌