DeepMind官方解密新版 AlphaGo 棋艺制胜奇招:价值网络把控通盘局面

新智元 2018-03-12 16:01:27

   新智元报道   

编译报道:文强 刘小芹 零夏


【新智元导读】4月10日,中国棋院与谷歌在北京宣布,今年5月在“中国乌镇·围棋峰会”上AlphaGo升级版将与最顶尖的人类棋手进行对弈,世界冠军柯洁将出战。 随后,DeepMind CEO Demis Hassabis 在官方博客上撰文介绍了这一比赛和全新版的 AlphaGo,并强调 AlphaGo 不仅会下棋,在节约能源、医疗、翻译等方面也得到了应用。其团队详细也解读了AlphaGo 在围棋上的最新技术进步,包括策略和战略上的创新。



今天,中国围棋协会和浙江省体育局携手Google共同宣布,三方将联合主办“中国乌镇·围棋峰会”,届时AlphaGo将再度与最顶尖的人类棋手进行对弈。这场为期5天,有关围棋与人工智能的赛事将于5月23日至27日在中国最负盛名的水乡古镇、世界互联网大会永久会址——浙江桐乡乌镇举行。

 

在去年与围棋世界冠军李世石的对弈中,AlphaGo以出其不意的招法,给世人留下了深刻的印象,也给围棋这项延续千年的智慧游戏带来了全新的想象力,同时也表明围棋的奥妙仍有足够的空间在等待我们去探索。

 

DeepMind CEO Demis Hassabis 在官方博客撰文文写道:不像有些人担心人工智能减弱了围棋游戏的乐趣那样,相反,人工智能实际上使人类玩家变得更强大,更多创新。围棋作为可能是历史上被研究和思考得最多的游戏,不管是专业棋士还是业余围棋爱好者,在仔细研究 AlphaGo 创新的每一步棋时,实际上已经学到了新的知识和策略。


“AlphaGo 的下棋方式使我们感到自由,让我们觉得没有任何走棋是不可能的。现在人人都在尝试从前没有尝试过的风格。” ——周瑞阳,九段棋士


显然,最好的人类围棋棋士和最具创新的围棋 AI 对手之间的伙伴关系还有待更多认识。这就是为什么我们很高兴地宣布 AlphaGo 下一步的计划:在围棋的发源地中国,参与为期五天的的围棋峰会。




时隔一年,AlphaGo将与柯洁为代表的中国顶尖棋手一道,进一步追求围棋的真谛。柯洁表示能和AlphaGo对战是他的荣幸,面对大家对最终输赢的疑虑和关心,他表示自己一定要赢。整个活动柯洁多次表达自己拼劲全力求胜的决心,在微博也对AlphaGo说“来啊”,给自己打气。



媒体会中也有观点认为,这个赛事重要的意义不在于输赢,更在于为人类更好地研究、开发和使用人工智能做出有益的尝试。这个赛事是现代科技与中国传统文化的美妙结合额,透过日新月异发展的人工智能,传承了千年历史的围棋必将进一步闪耀出其智慧的光芒。


图:凭借精湛的洞察力和毫不动摇的信心,柯洁以平稳的风格著称,总是了解何时可大胆落子何时该谨慎行事。上图中,Google 首席执行官 Sundar Pichai 访问聂卫平在北京的围棋道场时,柯洁(右一)与聂卫平(柯洁旁边),樊麾(站着)和古力(左一)一起,凭借记忆复现 AlphaGo 与李世乭的一盘棋的开头几手,并向 Pichai 解释这些落子之美。

 

根据大会安排,本次围棋峰会内容丰富。其中AlphaGo与世界排名第一的柯洁的三番棋对弈无疑是众人最关注的焦点。另外峰会还将举办配对赛和团队赛两场形式各异的交流比赛,配对赛中,两位棋手将分别与AlphaGo组队,挑战棋手如何去理解AlphaGo的独特风格并与之合作;在团队赛中,将由五位中国顶尖棋手合作,建立棋手“神经网络”,降低心理因素的影响,从而做出更加客观的判断。


Demis Hassabis 还介绍说,目前,已经有一些 AlphaGo 背后的机器学习方法被用于解决一些重要问题,例如减少能源使用。机器学习技术也已经被用于一系列令人兴奋的医学研究项目中。而且在 Google 的许多产品中,机器学习突然使得许多不可能变为可能——让 Google Photos 的用户能够立即地在如山的照片中找到一张雪地上的狗的照片,比过去十年的改进加在一起还要多地一次性提高了 Google Translate 的翻译质量,等等。


我们很期待这次的围棋对弈和讨论将带来哪些见解,以及这些见解将如何帮助我们解决共同的挑战——无论是围棋上的挑战还是其他挑战。


AlphaGo 的创新在职业围棋界中显示出巨大的影响潜力,我们希望在即将到来的“中国乌镇·围棋峰会”上达成更多的合作研究机会。我们非常期待 AlphaGo 和人类专业棋士共同探索围棋的真正本质!


4月10日,在中国棋院举行的发布会上,Demis 以视频的方式发表讲话。


AlphaGo 棋艺革新:三三定式(3-3 invasion)和妖刀定式



另一篇博客《Innovation of  AlphaGo》上,DeepMind的软件工程师与围棋专业棋手樊麾共同讲解了自去年以来AlphaGo在围棋策略和战术上的进步。


Alphago 强大之处并不在于单独的一手或一连几手,而是它为每一局对弈带来的独一无二的新视角。虽然围棋的风格很难以一言以蔽之,但 AlphaGo 的策略象征了一种灵活和开放的精神:没有先入为主的观念,因此可以找到最有效的对弈策略。


正如以下两局对弈所显示的,这种思想经常使 AlphaGo 得出有悖直觉但十分强大的行动。


尽管围棋是“围地吃子”的游戏,但是大多数决策类的战斗都讲究双方的力量平衡。AlphaGo 在维持平衡方面可谓一绝。具体说,AlphaGo 在运用“势”方面能力精湛,也就是利用已经下定的棋子影响周围的形势。虽然这种“势”无法量化,但 AlphaGo 的价值网络使其能够一次考虑到通盘的局面,从而做出细微且精确的判断。这些能力让 AlphaGo 将局部的“势”扩展为全局的优势。



在这局棋里(Dia.1),黑子(AlphaGo)安全领域(secure territory)很少,而白子占据了三个角。但是,黑子的“势”辐射到整个盘面。尤其是标记出的落子,虽然巩固了白棋,但同时也增强了黑棋的可能性。围棋选手通常会避免这样的出招,因为这样必定会付出代价,而回报却不一定。但 AlphaGo 结合它对风险和奖励强劲的判断,最终下出了这一步棋。



但是,这些“势”的价值全部取决于具体的场景。当这些“势”能够有效转移时,AlphaGo 都自由地消去这些“势”。在 Dia.2 中,AlphaGo 下出了惊人的 6 子连线(三角标记)。围棋选手评价称,在第四行(圆圈标记)有“势”,在第三行有地(territory),但在第二行只有败局。AlphaGo 的走法最初看起来是符合这些评价的,这些落子给了白棋力量和“势”。大多数围棋选手都不会下出这样的6子连在一起的棋。但是,AlphaGo 判断这样有助于将白棋分散开来,在接下来的过招中,慢慢地侵蚀白棋的优势,从上方和下方同时确保了领先的优势。


新的招式,新的模式


AlphaGo 在最近的几句对弈中,还下出了一些开局的新招式。最引人注目的是开局的3-3入侵和“Magic Sword”的新变种。每个都违反了常规理论,但在更深入的反思中,却证明是符合道理的。


初盘的三三定式(3-3 invasion)



围棋占据角落最常见的方法是3-3 point invasion,如Dia.3 所示。



这样落子立马就确保了角落的安全。但是,像 Dia.4 显示的教科书式的接下来的开盘布局,很早就被抛弃了,因为“势”太多(it gives too much influence)。



AlphaGo 的创新之处在于,它省略了标记出的过招,让角落处在 Dia.5 显示的不确定(unsettled)的状态。


尽管不那么安全,黑子仍然保有从左边逃出,或者在右边落子占据角落的选择,这样就在仅仅减弱些微 influence 的情况下,占据了更多的领地(territory)。这个策略在职业棋手之间激起了热烈的讨论,而且至少已经有一个人在实际对弈中应用了这一招。


The New Magic Sord


AlphaGo 最初是使用人类的数据进行训练的,因此它知道当代落子占角的下法,也通常按照这样的顺序落子。但是,在“Magic Sword”,也即被称为“村正妖刀”的围棋定式中,AlphaGo 却出现了偏离。


Dia. 7

Dia. 8 


从 Dia.7 显示的局面开始,常规的落子过招会出现 Dia. 8 的情况。



然而,AlphaGo 往往更喜欢放弃外围,赢取领地上的优势(Dia. 9所示)。


大多数围棋选手都不会考虑下这种棋,因为这样黑棋虽然有很强的城墙(wall),但白棋的后手跟进让黑棋的“势”并没有看上去那么大。如果黑棋不继续巩固这面城墙,还会遭到攻击。韩国顶尖棋手金志锡(Kim Jiseok)最近在一场比赛中用了这一系列落子(Dia. 10所示),他最终赢得了那场比赛。



AlphaGo 和柯洁对弈比赛规则



围棋在各地的规则并不完全相同,中国大陆围棋规则是数子法,日本围棋规则和韩国围棋规则是数目法,另外还有计点制度。一盘棋用三种规则计算出来的结果一般是相同的。本次乌镇比赛采用中国规则。本次比赛详细介绍如下:

 

1. 柯洁对战AlphaGo:三番棋,无论输赢都要下完三番,每方3小时,5次1分钟读秒;如果柯洁获胜,将获得150万美元奖金;

2. 配对赛:两位棋手分别与AlphaGo组队,每方1小时,1次1分钟读秒,将由连笑、古力将出战;

3. 团队赛:五位中国顶尖棋手合作,每方2小时30分,保留3次1分钟读秒,柯洁、周睿羊、时越、唐韦星、陈耀烨出战


AlphaGo是第一个击败人类职业围棋选手、第一个战胜世界冠军的程序,是围棋史上最具实力的选手之一。2016年3月,在全世界超过一亿观众的关注下,AlphaGo经过5局对弈,最终以4比1的总比分战胜了围棋世界冠军李世石。此后,AlphaGo凭借其“充满创意而又机智”的下法,跻身围棋界最高职业称号——职业九段行列,成为历史上首个获得这一荣誉的非人类棋手。

 

近期,AlphaGo的升级版本以“Master/Magister”的称谓与世界顶级的围棋选手进行了60场线上快棋赛,并取得59胜1和棋。

 

一直以为,围棋就被认为是传统游戏中对人工智能而言最具挑战性的项目。这不仅仅是因为围棋包含了庞大的搜索空间,更是因为对于落子位置的评估难度已远远超过了简单的启发式算法。

 

为了应对围棋的巨大复杂性,AlphaGo结合了监督学习和强化学习的优势。通过训练形成了一个策略网络,将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络对自我对弈进行预测,以-1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索,实现了它的真正优势。最后,新版的AlphaGo产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。


在获取棋局信息后,AlphaGo会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为AlphaGo的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,AlphaGo的搜索算法就能在其计算能力智商加入近似人类的直觉判断。


 



3月27日,新智元开源·生态AI技术峰会暨新智元2017创业大赛颁奖盛典隆重召开,包括“BAT”在内的中国主流 AI 公司、600多名行业精英齐聚,共同为2017中国人工智能的发展画上了浓墨重彩的一笔。


点击阅读原文,查阅文字版大会实录


访问以下链接,回顾大会盛况:


  • 阿里云栖社区:http://yq.aliyun.com/webinar/play/199

  • 爱奇艺:http://www.iqiyi.com/l_19rrfgal1z.html

  • http://v.qq.com/live/p/topic/26417/preview.html