但毫無疑問,,這盤棋不論是在精彩程度還是技術(shù)水準上都代表了圍棋這項運動的最高峰,非常精彩,,甚至在比賽結(jié)束前 20 分鐘都還有專業(yè)人士認為柯潔有獲勝的可能性,。所以,盡管在結(jié)果上沒有變化,,但柯潔和 AlphaGo 已經(jīng)攜手為我們展示了圍棋這項運動的美,,不負巔峰對決之稱。 比賽結(jié)果 這也基本意味著,,這場三番棋大戰(zhàn)以柯潔的認輸而告終,,不過27號將是柯潔有機會翻盤的最后一戰(zhàn),。 在這次比賽中,圍棋國手古力,、張璇(曾獲得過中國冠軍),、劉菁、周睿羊擔當開局時段的解說員,。古力認為,,在特別難判斷的盤面上,AlphaGo比我們要思考地更加準確,,也就是說從一步看未來幾十步的“本事”,。 從開局來看,柯潔想把時間多用在對布局的策略方面,,而且在前十手時打的一直非常不錯,,盤面很穩(wěn),而且被預(yù)測贏面很大,??聺嵣踔令A(yù)料到AlphaGo多步棋的下子位置。 而反觀AlphaGo,,古力認為其開局表現(xiàn)跟人類無異,,每一步下的都很平常,甚至很多步都被他預(yù)測到,。 但是我們需要清楚,,在前天進行的第一場比賽時,柯潔的勝率其實也是非常高的,,但越往后,,AlphaGo的勝率就逐漸慢慢提高了。 比較有意思的是,,從一開局柯潔二手點了三三后,,AlphaGo又在左下角下了“三三”。這個位置很令人驚訝,,因為一般都會下在左上角,。而哈克比斯在賽后這樣解釋:
一開始比賽的賽時沒有被拉開,,對弈雙方的時間差也一直維持在十幾分鐘左右,。但隨著戰(zhàn)局的推進,柯潔扯頭發(fā)的次數(shù)越來越多(頭發(fā)越來越亂),面部的表情也越來越焦慮,。 最終,,讓所有人都沒有想到的是,開局2個多小時后,,局面出現(xiàn)反轉(zhuǎn),,柯潔變得力不從心,然后突然在下午1點37分主動投子認輸,,AlohaGo在中盤執(zhí)黑子贏得勝利,!隨后進行了復(fù)盤。 在整個比賽過程中,,古力曾著重分析了AlphaGo的厲害之處:
通俗來講,就是在棋子比較密布的某一區(qū)塊上面,,我們誰能猜到AlphaGo的落子結(jié)果,;但在盤面比較虛的地方,例如棋子稀疏的下方(如圖),,我們根本無法猜到,。而AlphaGo就是在這種情況下,不知不覺地積累優(yōu)勢,。 右上角是密集處,。而在下方稀疏的地方,虛著的盤面很難判斷 其實,,早在AlphaGo與柯潔未開賽前,,我們曾經(jīng)提出一個腦洞大開的問題:AlphaGo會不會故意輸給柯潔? 這個命題可以設(shè)定為存在兩種情況: · 根據(jù)柯潔的現(xiàn)場表現(xiàn),,譬如AlphaGo是否真的可以通過識別他的手速,、手部動作、面部表情甚至情緒來決定是否輸給柯潔,。 · AlphaGo的運算能力已經(jīng)強大到不僅單純追求“贏”,,而是控制勝率的差距,。譬如以微弱的優(yōu)勢打敗柯潔,,或者以半目之差輸給柯潔。 第一個猜測被DeepMind創(chuàng)始人Demis以一個玩笑否認了:
而第二個猜測,的確是DeepMind持續(xù)提升AlphaGo能力的一個方向,,但從目前來說,,AlphaGo還做不到。 在在昨天的人工智能閉門大會上,,DeepMind首席科學(xué)家Davis Silver已經(jīng)非常清晰地解釋了這個新一代AlphaGo的過人之處: 第2代“深度強化學(xué)習系統(tǒng)”AlphaGo Fan(共4代)共有12層卷積神經(jīng)網(wǎng)絡(luò),,而第4代AlphaGo(也就是與柯潔比賽的這一代)通過進行“自我學(xué)習”(監(jiān)督學(xué)習與強化學(xué)習)已經(jīng)訓(xùn)練出了40層神經(jīng)網(wǎng)絡(luò)(由策略網(wǎng)絡(luò)與神經(jīng)網(wǎng)絡(luò)組成)。 在整個學(xué)習過程中,,系統(tǒng)要對棋局進行圖像掃描,,分成無數(shù)個小塊依次進行處理,最終構(gòu)成整個全局觀,。具體來說,,它可以近乎準確地判斷棋盤上現(xiàn)有的棋子能給周圍區(qū)域帶來多大的影響力。 這個“全局觀”,,就是AlphaGo與人類最不一樣的地方,,也是古力在解說時特意強調(diào)的AlphaGo具備的一個能力: 策略網(wǎng)絡(luò),就是讓AlphaGo先自己跟自己比,,下個幾萬場,,目的就是要“走對子”,選擇最好的一步走,,判斷哪個策略最有效,。 而在這個步驟結(jié)束后,繼而形成價值網(wǎng)絡(luò),,用來負責估算勝率,。“策略網(wǎng)絡(luò)”能夠?qū)λ新渥游恢眠M行概率分布,,然后再將這些估算出的信息投入到蒙特卡羅搜索樹中,,推算出勝率最高的一些算法。 換句話說,,就是每走出一步,,價值網(wǎng)絡(luò)就是通過這樣的函數(shù)來預(yù)測未來的輸贏,而不是靜態(tài)地去考慮這步棋,。 兩者一前一后,,就形成了AlphaGo的殺手锏——**“在最后結(jié)果為‘贏’的前提下,去選擇每一步最可行的路徑”**,。 這也能解釋為何AlphaGo在去年與李世石三番棋的第二局比賽中,,狗的第37子被稱為“牽一發(fā)而動全身”的一步棋。在賽后復(fù)盤后,人類棋手才發(fā)現(xiàn)這步棋完全決定了后面50步棋的下法,。 照這樣來看,,層數(shù)越來越多的神經(jīng)網(wǎng)絡(luò)決定了AlphaGo學(xué)習的深度正在越來越大,這就相當于AlphaGo不管是在思考每一步策略,,還是在判斷勝率的精準度上都有了很大的提高,。 如果要故意輸給柯潔,不僅需要AlphaGo的自我學(xué)習能力,,還需要獲得柯潔這位棋手足夠多的數(shù)據(jù),,因為獲得固定的勝率需要他去“揣摩”柯潔的直覺。 從理論上來說,,如果AlphaGo能通過自我學(xué)習來掌握柯潔足夠多的數(shù)據(jù),,是有可能控制勝率的(幾率會更高)。 現(xiàn)場 在賽后的發(fā)布會上,,DeepMind聯(lián)合創(chuàng)始人兼CEO哈克比斯先生給了柯潔的開局表現(xiàn)一個極高的評價,。他認為柯潔與AlphaGo的前15手,甚至在前100手的對弈中幾乎是勢均力敵的: 在第一盤到達“官子”的時候,,AlphaGo讓自己獲勝的概率達到最大化,,因此它要放棄一些點,其主要目的就是贏得比賽,。但在這一場中,,特別是在前100手,兩者的差距非常小,。因此,,前半段雙方贏得比賽的機會都非常大。 而且,,這是AlphaGo打了這么多比賽以來,,我覺得最勢均力敵的一場比賽,柯潔的前半段表現(xiàn)真的十分完美,。我發(fā)的Twtter也是這個意思,,非常敬佩柯潔先生,他真的非常了不起” 柯潔賽后的心情雖然看起來還不錯,,他認為自己的對決很棒,,甚至一度以為自己接近了勝利,能戰(zhàn)勝Alphago:
柯潔也在最后幽默了一把,,他覺得坐在對面的黃博士沒什么人類感,就是一個AI機器人:
而DeepMind首席科學(xué)家David則又披露了更多關(guān)于新一代AlphaGo版本的技術(shù)細節(jié): “Master版本已經(jīng)完全脫離了人類的訓(xùn)練,,是完全靠自我對弈來實現(xiàn)訓(xùn)練的,它可以進行自我對弈,,也彌補了去年與李世石對弈的第4局第67手時犯下的錯誤(弱點) 他會在不斷不斷的自我學(xué)習中尋找弱點,,然后再自動修復(fù)這些弱點,因此你才看到了AlphaGo更加優(yōu)秀的表現(xiàn),?!?/p> 對于我們來說,在阿爾法狗又再次猝不及防戰(zhàn)勝柯潔后,,最關(guān)注的還是AlphaGo什么時候能夠還能被披露更多細節(jié),,哈克比斯透露,隨后會有更多關(guān)于狗的算法,、技術(shù)架構(gòu)通過論文向公眾發(fā)布,。 “我在最后要再次對柯潔表達敬意。而關(guān)于alphago的更多技術(shù)點,,你會在我們此后的論文上看到,,現(xiàn)在請讓我們?yōu)榭聺嵉倪@場比賽鼓掌?!?/p> 原文鏈接:http://36kr.com/p/5077223.html 關(guān)注最前沿的電子設(shè)計資訊,,請關(guān)注“電子工程專輯微信公眾號”,。
|
|