谷歌旗下的人工智能“阿爾法圍棋”在幾次世界矚目的人機大戰(zhàn)后站在了圍棋之巔——2016年,,谷歌旗下的DeepMind團隊發(fā)布AlphaGo,,并以4:1的戰(zhàn)績擊敗了世界圍棋冠軍、韓國棋手李世石,,震撼世界,。此后,AlphaGo又進化出了AlphaGo Master版本,,并以3:0戰(zhàn)勝了當今世界圍棋第一人,、中國棋手柯潔,。功成名就后,DeepMind團隊宣布AlphaGo退役,。 現(xiàn)在它又以一種新的方式超越了自己:閉關一年后,,DeepMind推出了最新版本的AlphaGo Zero,它在沒有任何人類指導的情況下,,“從零開始”學習圍棋,,僅用3天時間自學和訓練,就擊敗了此前的AlphaGo,,比分是100比0,。值得注意的是,之前的版本都參考學習了大量人類專業(yè)棋手的圍棋經驗,,而新版的AlphaGo Zero則是自我對弈,,即通過跟不同版本的自己下棋來學習。 英國“深度思維”公司開發(fā)出了“阿爾法圍棋”,,該公司團隊在新一期英國《自然》雜志上發(fā)表論文,,介紹了最新版的“阿爾法圍棋-零”。 該公司之前開發(fā)的電腦在開始學習圍棋時,,舊版Alpha Go需要先學習數(shù)百萬份人類棋譜,,還要經過幾個月的密集訓練,,從而進行自我訓練,,實現(xiàn)超越。 第四個版本,,即最新的“阿爾法圍棋-零”擺脫了這個限制,,完全“從零開始”,自己與自己對弈,,通過更為優(yōu)秀的算法,,取得飛速進步。 Zero的學習原理是這樣的:研究團隊事先沒有給Zero學習任何人類棋譜,,只告訴它圍棋的規(guī)則,,就讓它自己在棋盤上下棋,與自己進行對弈,,從一次次試驗和失敗中吸取經驗教訓,,摸索規(guī)律,在實戰(zhàn)中提高棋藝,。 除了學習原理外,,另一點與“舊狗”不同的是,Zero使用了單一的神經網(wǎng)絡,。 此前版本的AlphaGo都是用了兩種神經網(wǎng)絡,,一種用來預測下一步棋最好的走法,,另一種用來計算,根據(jù)這些走法,,誰更有可能獲勝,。 而Zero把這兩種網(wǎng)絡合二為一,只讓神經網(wǎng)絡預測獲勝者,,從而能夠得到更高效的訓練和評估,,就好像讓一個圍棋高手來預測比賽結果一樣。 此外,,Zero也不再使用快速而隨機的走子方法?!芭f狗”會通過快速走子來預測哪個棋手會從當前局面中獲勝,,而Zero則通過高質量的神經網(wǎng)絡來評估棋局。 如此看來,,“舊狗”像是走一步看三步,、步步為營的棋手,而Zero更像是縱觀全局,、成竹在胸的圍棋大師,。 開始學習圍棋3天后,“阿爾法圍棋-零”就以100比0的成績戰(zhàn)勝了“阿爾法圍棋-李”,;40天后,,它又戰(zhàn)勝了在所有人類高手看來已不可企及的“阿爾法圍棋-大師”。研究人員認為,,這一進步標志著人工智能的巨大突破,,意味著人工智能可以更好地進入對它來說本是一片空白的領域。 根據(jù)DeepMind團隊發(fā)表在《Nature》上的論文,,最新版的AlphaGo Zero最大的突破在于實現(xiàn)了“白板理論”,。白板理論認為,嬰兒是一塊白板,,可以通過后天學習和訓練來提高智力,。人工智能(AI)的先驅圖靈認為,只要能用機器制造一個類似于小孩的AI,,然后加以訓練,,就能得到一個近似成人智力,甚至超越人類智力的AI,。而自學成才的AlphaGo Zero正是實現(xiàn)了這一理論,。 Zero更厲害的一點在于,隨著訓練的深入,,它不僅棋藝獲得極大提升,,而且不再受到人類認知的局限,能夠發(fā)現(xiàn)新知識,,獨立發(fā)現(xiàn)游戲規(guī)則,,并且發(fā)展新策略,而這些具有創(chuàng)造性的圍棋招式,,模仿并完全超越了AlphaGo在與李世石和柯潔對弈時所使用的新技巧,。 “深度思維”公司首席執(zhí)行官哈薩比斯表示,希望人工智能的這種進步能夠被用于分析蛋白質結構,、設計新材料等領域,,為人們的生活帶來積極有益的影響。 根據(jù)英國《衛(wèi)報》報道,,AlphaGo的首席研究員大衛(wèi)·席爾瓦(David Silver)稱:“它比以前的算法更強大,,因為它不使用任何人類數(shù)據(jù)或人類經驗,我們已經消除了人類知識的限制,,它可以自己創(chuàng)造知識,。” |
|
來自: mrjiangkai > 《我的圖書館》