AlphaGo強到無懸念,？柯潔第二戰(zhàn)中主動投子認輸

方珺逸 2017-05-26

展開全文

但毫無疑問,，這盤棋不論是在精彩程度還是技術(shù)水準上都代表了圍棋這項運動的最高峰，非常精彩,，甚至在比賽結(jié)束前 20 分鐘都還有專業(yè)人士認為柯潔有獲勝的可能性,。所以，盡管在結(jié)果上沒有變化,，但柯潔和 AlphaGo 已經(jīng)攜手為我們展示了圍棋這項運動的美,，不負巔峰對決之稱。 20170525-kejie-alphago-2 比賽結(jié)果

這也基本意味著,，這場三番棋大戰(zhàn)以柯潔的認輸而告終,，不過27號將是柯潔有機會翻盤的最后一戰(zhàn),。

在這次比賽中，圍棋國手古力,、張璇（曾獲得過中國冠軍）,、劉菁、周睿羊擔當開局時段的解說員,。古力認為,，在特別難判斷的盤面上，AlphaGo比我們要思考地更加準確,，也就是說從一步看未來幾十步的“本事”,。

從開局來看，柯潔想把時間多用在對布局的策略方面,，而且在前十手時打的一直非常不錯,，盤面很穩(wěn)，而且被預(yù)測贏面很大,?？聺嵣踔令A(yù)料到AlphaGo多步棋的下子位置。

而反觀AlphaGo,，古力認為其開局表現(xiàn)跟人類無異,，每一步下的都很平常，甚至很多步都被他預(yù)測到,。

但是我們需要清楚,，在前天進行的第一場比賽時，柯潔的勝率其實也是非常高的,，但越往后,，AlphaGo的勝率就逐漸慢慢提高了。

比較有意思的是,，從一開局柯潔二手點了三三后,，AlphaGo又在左下角下了“三三”。這個位置很令人驚訝,，因為一般都會下在左上角,。而哈克比斯在賽后這樣解釋：

“對于AlphaGo來說，它根本分不清什么是左上角和右下角,，在它眼里這些都一樣,。”

一開始比賽的賽時沒有被拉開,，對弈雙方的時間差也一直維持在十幾分鐘左右,。但隨著戰(zhàn)局的推進，柯潔扯頭發(fā)的次數(shù)越來越多（頭發(fā)越來越亂），面部的表情也越來越焦慮,。

最終,，讓所有人都沒有想到的是，開局2個多小時后,，局面出現(xiàn)反轉(zhuǎn),，柯潔變得力不從心，然后突然在下午1點37分主動投子認輸,，AlohaGo在中盤執(zhí)黑子贏得勝利,！隨后進行了復(fù)盤。

在整個比賽過程中,，古力曾著重分析了AlphaGo的厲害之處：

在判斷大局的方面真的非常厲害,，也就是在所謂的“虛著”（類似于聲東擊西，在圍棋中很多時候都需要聲東擊西才能擺脫困境或者是翻盤）上更勝一籌,。你看那些稀疏的地方我可能真的判斷不好,。

通俗來講，就是在棋子比較密布的某一區(qū)塊上面,，我們誰能猜到AlphaGo的落子結(jié)果,；但在盤面比較虛的地方，例如棋子稀疏的下方（如圖）,，我們根本無法猜到,。而AlphaGo就是在這種情況下，不知不覺地積累優(yōu)勢,。 20170525-kejie-alphago-4 右上角是密集處,。而在下方稀疏的地方，虛著的盤面很難判斷

其實,，早在AlphaGo與柯潔未開賽前,，我們曾經(jīng)提出一個腦洞大開的問題：AlphaGo會不會故意輸給柯潔？

這個命題可以設(shè)定為存在兩種情況：

· 根據(jù)柯潔的現(xiàn)場表現(xiàn),，譬如AlphaGo是否真的可以通過識別他的手速,、手部動作、面部表情甚至情緒來決定是否輸給柯潔,。

· AlphaGo的運算能力已經(jīng)強大到不僅單純追求“贏”,，而是控制勝率的差距,。譬如以微弱的優(yōu)勢打敗柯潔,，或者以半目之差輸給柯潔。

第一個猜測被DeepMind創(chuàng)始人Demis以一個玩笑否認了：

這個建議太好了,，看來我們以后也應(yīng)該為AlphaGo安裝一些傳感器與攝像頭,。你要知道，AlphaGo一定是會有弱點的,。而柯潔據(jù)說也通過分析AlphaGo掌握了一些它的套路,，兩位選手是勢均力敵的,。

而第二個猜測，的確是DeepMind持續(xù)提升AlphaGo能力的一個方向,，但從目前來說,，AlphaGo還做不到。

在在昨天的人工智能閉門大會上,，DeepMind首席科學(xué)家Davis Silver已經(jīng)非常清晰地解釋了這個新一代AlphaGo的過人之處：

第2代“深度強化學(xué)習系統(tǒng)”AlphaGo Fan（共4代）共有12層卷積神經(jīng)網(wǎng)絡(luò),，而第4代AlphaGo（也就是與柯潔比賽的這一代）通過進行“自我學(xué)習”（監(jiān)督學(xué)習與強化學(xué)習）已經(jīng)訓(xùn)練出了40層神經(jīng)網(wǎng)絡(luò)（由策略網(wǎng)絡(luò)與神經(jīng)網(wǎng)絡(luò)組成）。

在整個學(xué)習過程中,，系統(tǒng)要對棋局進行圖像掃描,，分成無數(shù)個小塊依次進行處理，最終構(gòu)成整個全局觀,。具體來說,，它可以近乎準確地判斷棋盤上現(xiàn)有的棋子能給周圍區(qū)域帶來多大的影響力。

這個“全局觀”,，就是AlphaGo與人類最不一樣的地方,，也是古力在解說時特意強調(diào)的AlphaGo具備的一個能力：

策略網(wǎng)絡(luò)，就是讓AlphaGo先自己跟自己比,，下個幾萬場,，目的就是要“走對子”，選擇最好的一步走,，判斷哪個策略最有效,。

而在這個步驟結(jié)束后，繼而形成價值網(wǎng)絡(luò),，用來負責估算勝率,。“策略網(wǎng)絡(luò)”能夠?qū)λ新渥游恢眠M行概率分布,，然后再將這些估算出的信息投入到蒙特卡羅搜索樹中,，推算出勝率最高的一些算法。

換句話說,，就是每走出一步,，價值網(wǎng)絡(luò)就是通過這樣的函數(shù)來預(yù)測未來的輸贏，而不是靜態(tài)地去考慮這步棋,。

兩者一前一后,，就形成了AlphaGo的殺手锏——**“在最后結(jié)果為‘贏’的前提下，去選擇每一步最可行的路徑”**,。

這也能解釋為何AlphaGo在去年與李世石三番棋的第二局比賽中,，狗的第37子被稱為“牽一發(fā)而動全身”的一步棋。在賽后復(fù)盤后，人類棋手才發(fā)現(xiàn)這步棋完全決定了后面50步棋的下法,。

照這樣來看,，層數(shù)越來越多的神經(jīng)網(wǎng)絡(luò)決定了AlphaGo學(xué)習的深度正在越來越大，這就相當于AlphaGo不管是在思考每一步策略,，還是在判斷勝率的精準度上都有了很大的提高,。

如果要故意輸給柯潔，不僅需要AlphaGo的自我學(xué)習能力,，還需要獲得柯潔這位棋手足夠多的數(shù)據(jù),，因為獲得固定的勝率需要他去“揣摩”柯潔的直覺。

從理論上來說,，如果AlphaGo能通過自我學(xué)習來掌握柯潔足夠多的數(shù)據(jù),，是有可能控制勝率的（幾率會更高）。 20170525-kejie-alphago-3 現(xiàn)場

在賽后的發(fā)布會上,，DeepMind聯(lián)合創(chuàng)始人兼CEO哈克比斯先生給了柯潔的開局表現(xiàn)一個極高的評價,。他認為柯潔與AlphaGo的前15手，甚至在前100手的對弈中幾乎是勢均力敵的：

在第一盤到達“官子”的時候,，AlphaGo讓自己獲勝的概率達到最大化,，因此它要放棄一些點，其主要目的就是贏得比賽,。但在這一場中,，特別是在前100手，兩者的差距非常小,。因此,，前半段雙方贏得比賽的機會都非常大。

而且,，這是AlphaGo打了這么多比賽以來,，我覺得最勢均力敵的一場比賽，柯潔的前半段表現(xiàn)真的十分完美,。我發(fā)的Twtter也是這個意思,，非常敬佩柯潔先生，他真的非常了不起”

柯潔賽后的心情雖然看起來還不錯,，他認為自己的對決很棒,，甚至一度以為自己接近了勝利，能戰(zhàn)勝Alphago：

在中途時我以為自己離勝利很接近了,，我難道快接近勝利了嗎,？因此我才有了按心的動作。因為太緊張,，后面又下了一些不好的棋,。這一點我覺得有點遺憾。

但我認為自己發(fā)揮的挺好,，我不認為我布局有什么差的地方,。前半段很精彩，只是后半段有一個地方就突然松弛了下來,。

我不喜歡安樂死,，之后也會好好下，但這場真的很緊張,。

柯潔也在最后幽默了一把,，他覺得坐在對面的黃博士沒什么人類感，就是一個AI機器人：

黃博士在我對面,，就像一個AI一樣,。我想黃博士是看著AlphaGo從小長大的，因為他可能更了解AlphaGo,。你們知道我比賽喜歡亂動,，撓頭發(fā)什么的。但黃博士卻一動不動,，甚至不喝水,，不吃東西，真的像個機器人……我還是挺適應(yīng)黃博士坐在對面的,。

而DeepMind首席科學(xué)家David則又披露了更多關(guān)于新一代AlphaGo版本的技術(shù)細節(jié)：

“Master版本已經(jīng)完全脫離了人類的訓(xùn)練,，是完全靠自我對弈來實現(xiàn)訓(xùn)練的，它可以進行自我對弈,，也彌補了去年與李世石對弈的第4局第67手時犯下的錯誤（弱點）他會在不斷不斷的自我學(xué)習中尋找弱點,，然后再自動修復(fù)這些弱點，因此你才看到了AlphaGo更加優(yōu)秀的表現(xiàn),?！?/p>

對于我們來說，在阿爾法狗又再次猝不及防戰(zhàn)勝柯潔后,，最關(guān)注的還是AlphaGo什么時候能夠還能被披露更多細節(jié),，哈克比斯透露，隨后會有更多關(guān)于狗的算法,、技術(shù)架構(gòu)通過論文向公眾發(fā)布,。

“我在最后要再次對柯潔表達敬意。而關(guān)于alphago的更多技術(shù)點,，你會在我們此后的論文上看到,，現(xiàn)在請讓我們?yōu)榭聺嵉倪@場比賽鼓掌?！?/p>

原文鏈接：http://36kr.com/p/5077223.html

關(guān)注最前沿的電子設(shè)計資訊,，請關(guān)注“電子工程專輯微信公眾號”,。