柯潔第二局投子認(rèn)負(fù)，獨(dú)家專(zhuān)訪(fǎng)AlphaGo開(kāi)發(fā)者導(dǎo)師Martin Müller

SZTsmz 2017-05-25

展開(kāi)全文

機(jī)器之心原創(chuàng)

參與：李澤南,、杜夏德

今天下午 13:37,，「中國(guó)烏鎮(zhèn)·圍棋峰會(huì)」人機(jī)大戰(zhàn)的第二場(chǎng)比賽落下帷幕。在耗時(shí) 3 小時(shí) 7 分鐘的比賽后,，柯潔投子認(rèn)負(fù),，AlphaGo 取得了勝利。

在 23 日的首輪比賽中，AlphaGo 以四分之一子的優(yōu)勢(shì),，擊敗了世界第一人類(lèi)圍棋手柯潔,。贏(yíng)得比賽后，這場(chǎng)人機(jī)大戰(zhàn)引起了人們廣泛的關(guān)注和討論,。DeepMind 也在賽后分析解讀了 AlphaGo 背后的技術(shù),，表示當(dāng)前版本 AlphaGo Master 的棋力，較與李世乭對(duì)弈的 AlphaGo 版本有三子提升,，就連柯潔本人也在微博上表達(dá)了自己的「震驚」：

經(jīng)過(guò)了一天的休整,，今天上午 10:30 第二輪 AlphaGo 與柯潔的比賽正式開(kāi)始，機(jī)器之心記者再次來(lái)到比賽現(xiàn)場(chǎng)見(jiàn)證這場(chǎng)「世紀(jì)之戰(zhàn)」,。和第一局比賽一樣,，在現(xiàn)場(chǎng)報(bào)道之外，機(jī)器之心還邀請(qǐng)到阿爾伯塔大學(xué)教授,、計(jì)算機(jī)圍棋頂級(jí)專(zhuān)家 Martin Müller 以及《深度強(qiáng)化學(xué)習(xí)綜述》論文作者李玉喜博士,，共同觀(guān)看了比賽直播。

在觀(guān)戰(zhàn)的同時(shí),，機(jī)器之心就第一天比賽后讀者關(guān)心的一些問(wèn)題向 Martin Müller 教授進(jìn)行了采訪(fǎng),，更為細(xì)致地解讀這場(chǎng)人機(jī)大戰(zhàn)。

Martin Müller 教授（中）所帶領(lǐng)的團(tuán)隊(duì),，在博弈樹(shù)搜索和規(guī)劃的蒙特卡洛方法,、大規(guī)模并行搜索和組合博弈論方面頗有建樹(shù)，David Silver 與黃士杰（Aja Huang）都曾師從于他,。李玉喜博士（右）是加拿大阿爾伯塔大學(xué)計(jì)算機(jī)系博士,、博士后，致力于深度學(xué)習(xí),、強(qiáng)化學(xué)習(xí),、機(jī)器學(xué)習(xí)等前沿技術(shù)及其應(yīng)用。

5 月25 日上午 10:30,，第二局比賽開(kāi)始,，中國(guó)棋院院長(zhǎng)華以剛主裁，由古力搭檔張璇,、周睿羊（阿爾法羊）搭檔劉菁講解，圍棋大師聶衛(wèi)平也來(lái)到了比賽現(xiàn)場(chǎng),。

黃士杰博士代 AlphaGo 執(zhí)黑棋在右下角先落一子,，柯潔執(zhí)白點(diǎn)了三三，隨后 AlphaGo 走了左下三三,。AlphaGo 的大局感依舊,，虛招上很難猜測(cè)。在前幾步布局之后,，兩方很快在局部展開(kāi)爭(zhēng)斗,，局面變得極為復(fù)雜,。

在左下角出現(xiàn)打劫情形后，Hassabis 表示,，此時(shí)在 AlphaGo 的計(jì)算中,，柯潔的表現(xiàn)是完美的。

隨后 AlphaGo 和柯潔圍繞打劫展開(kāi)了博弈,，但在 AlphaGo 下出第 133 手后,，局面開(kāi)始逐漸向計(jì)算機(jī)傾斜。之后柯潔的一步失誤進(jìn)一步加大了 AlphaGo 的優(yōu)勢(shì),，并將優(yōu)勢(shì)轉(zhuǎn)換為勝勢(shì),，為這個(gè)優(yōu)勢(shì)一直延續(xù)到比賽結(jié)束，確定了 AlphaGo 的最終勝利,。行至 154 步,，柯潔投子認(rèn)負(fù)。

AlphaGo 的獲勝已經(jīng)毫不令人意外了,，甚至我們已經(jīng)可以預(yù)料到后天（即 GMIS 2017 大會(huì)的第一天）最后一場(chǎng)比賽的結(jié)局了,。明天，除了古力 AlphaGo 對(duì)戰(zhàn)連笑 AlphaGo 的人機(jī)配對(duì)賽外,，AlphaGo 還將和人類(lèi)棋手展開(kāi)配對(duì)賽和單挑五位職業(yè)棋手聯(lián)盟,。AlphaGo 在與人類(lèi)合作以及對(duì)抗人類(lèi)集體智慧上還將有什么出人意料的表現(xiàn)和結(jié)果，讓我們拭目以待,。

在第一天直播過(guò)程中和比賽結(jié)束之后,，機(jī)器之心就觀(guān)眾們關(guān)心的幾個(gè)問(wèn)題對(duì) Martin Müller 進(jìn)行了采訪(fǎng)，整理如下：

關(guān)于第一局比賽

機(jī)器之心：柯潔和 AlphaGo 的差距是否只有 1/4 子那么??？

Martin Müller：大多數(shù)職業(yè)棋手認(rèn)為 AlphaGo 在第一盤(pán)棋的中期已經(jīng)獲得了很大的領(lǐng)先優(yōu)勢(shì)，于是它在后期選擇了保守策略,，并保持住了領(lǐng)先,，所以人和電腦的棋藝差距并不能用 1/4 子來(lái)衡量。但是我們無(wú)法知道 AlphaGo 在想什么,，無(wú)法知曉它的真正策略是否在最后選擇了「保守」,。

機(jī)器之心：AlphaGo 已經(jīng)是讓人類(lèi)九段 3 子的水平？

Martin Müller：昨天,，DeepMind 隨后在補(bǔ)充說(shuō)明中表示,，讓 3 子的水平是 AlphaGo 與舊版 AlphaGo 對(duì)弈的估算結(jié)果，并不能代表真實(shí)水平,。因?yàn)橥?lèi)型系統(tǒng)自我對(duì)弈可能無(wú)法發(fā)現(xiàn)一些潛在的問(wèn)題,。如果是與其他計(jì)算機(jī)系統(tǒng)，或者棋手下棋，AlphaGo 會(huì)面臨其他棋風(fēng),，它的對(duì)手們可能會(huì)發(fā)現(xiàn)一些系統(tǒng)的盲點(diǎn),，從而取得優(yōu)勢(shì)。所以我們不能認(rèn)為 AlphaGo 的水平已經(jīng)達(dá)到讓全人類(lèi) 3 子了,。

機(jī)器之心：DeepMind 在昨天的發(fā)布會(huì)上表示新一代 AlphaGo 是單機(jī)版,，只需要 4 個(gè)第一代 TPU，效率提升了 10 倍,。你認(rèn)為它是如何做到的,？是否會(huì)為了效率犧牲了準(zhǔn)確度？

Martin Müller：AlphaGo 的確是在去年有了很大的提升,，在與李世乭比賽結(jié)束后,，DeepMind 中的一個(gè)我的學(xué)生告訴我，他們當(dāng)時(shí)還有很多的改進(jìn)方法因?yàn)闆](méi)有足夠時(shí)間無(wú)法實(shí)施,，現(xiàn)在經(jīng)過(guò)了一年時(shí)間,，他們有足夠的時(shí)間來(lái)改進(jìn)這個(gè)系統(tǒng)，10 倍效率的提升果然不同凡響,。

AlphaGo 背后的技術(shù)

機(jī)器之心：如何更好地描述 AlphaGo 機(jī)器學(xué)習(xí)算法和蒙特卡洛樹(shù)搜索之間的關(guān)系,？

Martin Müller：AlphaGo 的學(xué)習(xí)過(guò)程是線(xiàn)下的。它通常是先發(fā)展出若干神經(jīng)網(wǎng)絡(luò),，留在比賽中使用,。蒙特卡洛樹(shù)搜索（MCTS）是其主要的決策算法，用于決定一局比賽中每一步棋,。MCTS 結(jié)合了博弈樹(shù)搜索,、機(jī)器學(xué)習(xí)到的知識(shí)和模擬的全局游戲來(lái)決定每一步。這些知識(shí)中最重要的部分是上面提到的深度神經(jīng)網(wǎng)絡(luò),。其中有一個(gè)網(wǎng)絡(luò)（策略網(wǎng)絡(luò)）選擇搜索中最有希望的走子,，另一個(gè)網(wǎng)絡(luò)（價(jià)值網(wǎng)絡(luò)）可以評(píng)估其在搜索中遇到的數(shù)千乃至數(shù)百萬(wàn)個(gè)棋盤(pán)局面。

機(jī)器之心：從與李世乭的比賽到現(xiàn)在,，AlphaGo 有何改進(jìn),？

Martin Müller：我不知道細(xì)節(jié)，而且也正急切期待 DeepMind 發(fā)布相關(guān)信息,。但我聽(tīng)說(shuō)最重要的改進(jìn)是使用機(jī)器學(xué)習(xí)創(chuàng)建博弈訓(xùn)練的過(guò)程,。在之前的版本中，這些訓(xùn)練博弈是通過(guò)一個(gè)強(qiáng)大的策略網(wǎng)絡(luò)創(chuàng)建的,，沒(méi)有任何搜索,。在這個(gè)新版本中，這些博弈是完全使用 AlphaGo 引擎創(chuàng)建的,。這會(huì)慢很多，因?yàn)槠涿恳徊蕉忌婕暗揭淮螛?shù)搜索，但其可以產(chǎn)出質(zhì)量高得多的博弈,，從而可以基于此學(xué)習(xí)到下個(gè)版本的 AlphaGo,。然后再重復(fù)這個(gè)過(guò)程。

機(jī)器之心：人工智能科學(xué)家能夠把 AlphaGo 的機(jī)器學(xué)習(xí)算法用到其他研究或應(yīng)用中嗎,？

Martin Müller：是的,。深度卷積神經(jīng)網(wǎng)絡(luò)的思想實(shí)際上來(lái)自于圖像處理，而由于其視覺(jué)的本質(zhì),，其已經(jīng)在圍棋中得到了應(yīng)用,。AlphaGo 中所使用的另一種強(qiáng)大的學(xué)習(xí)方法是強(qiáng)化學(xué)習(xí)，這是目前最熱門(mén)的主題之一,。更一般而言,，結(jié)合了機(jī)器學(xué)習(xí)到的知識(shí)和深度搜索與模擬技術(shù)的現(xiàn)代啟發(fā)式搜索方法在許多決策問(wèn)題上都有很大的潛力。

機(jī)器之心：Hassabis 昨天說(shuō)要把相關(guān)技術(shù)開(kāi)源,，這是否會(huì)催生出新的技術(shù)進(jìn)步,？

Martin Müller：DeepMind 提到會(huì)在下個(gè)月

未來(lái)及其它

機(jī)器之心：在柯潔與 AlphaGo 的比賽結(jié)束后，你有何期望,？

Martin Müller：柯潔已經(jīng)聲明說(shuō)這將是他與人工智能最后的比賽,。我希望他會(huì)改變他的想法。

我希望 DeepMind 將會(huì)將 AlphaGo 的權(quán)限提供給每一個(gè)人,，比如,，通過(guò)谷歌云。

這個(gè)團(tuán)隊(duì)承諾會(huì)發(fā)布有關(guān)當(dāng)前版本背后的科學(xué)的文章,，人工智能研究者都很期待,。

其它圍棋程序開(kāi)發(fā)者將非常想跟上 AlphaGo 的腳步。尤其是,，騰訊有一個(gè)強(qiáng)大的人工智能團(tuán)隊(duì),，他們已經(jīng)開(kāi)發(fā)出了當(dāng)前世界第二的程序絕藝（FineArt）。我認(rèn)為在 DeepMind 引領(lǐng)的進(jìn)步的帶動(dòng)下,，我們將很快就會(huì)有多個(gè)超人水平的程序,。我希望它們其中一些將會(huì)開(kāi)源，而且我期待看到未來(lái)它們之間的精彩比賽,。

機(jī)器之心：對(duì)明天史無(wú)前例的團(tuán)體賽的展望,？

Martin Müller：我覺(jué)得團(tuán)體賽有點(diǎn)像婚姻（笑），能否成功取決于隊(duì)友之間的配合程度,，如果之前五名棋手有過(guò)針對(duì)性的訓(xùn)練,，結(jié)果應(yīng)該會(huì)比一個(gè)人要好。

而與 AlphaGo 配合共同進(jìn)行比賽會(huì)非常地有趣,。在國(guó)際象棋運(yùn)動(dòng)中,，也有過(guò)人類(lèi)與計(jì)算機(jī)配合共同下棋的經(jīng)歷,，事實(shí)證明與計(jì)算機(jī)配合可以減少兩方的錯(cuò)誤，提高總體水平,。但對(duì)于圍棋而言,，對(duì)弈雙方面臨著更復(fù)雜的局面，所以這種組合是否能夠?qū)逅教嵘揭粋€(gè)新的高度還是未知的,。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀(guān)點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： SZTsmz > 《技術(shù)》

舉報(bào)/認(rèn)領(lǐng)