點擊標題下「大數(shù)據(jù)文摘」可快捷關注 點擊文末閱讀原文,,看程序如何玩游戲! Google DeepMind團隊在《自然》雜志發(fā)表論文,,公布玩游戲比人厲害的AI是如何做出來的,。 電腦會玩游戲已經(jīng)不算稀奇,比方說,,一般人玩棋類游戲已經(jīng)玩不過計算機了。但如果事先不告訴計算機應該怎么玩,,而只是給它提供這三樣東西:控制器,、顯示器、游戲得分,,讓它看著顯示器的顯示控制控制器,,然后要求它盡可能得高分,,那基本上大部分的 AI 就一籌莫展了。 所以,,當 2013 年 12 月 DeepMind 的團隊首次展現(xiàn)他們靠不斷試錯學習最后成為擊敗人類專業(yè)玩家的游戲高手AI時,,許多在場的 AI 專家都感到有些震驚。這些 AI 靠著對游戲視頻的觀察來尋找出模式,,然后操作控制器,,并獲得得分的反饋結(jié)果(高分獎勵)。 在反饋中不斷調(diào)整自己的控制,,最后 AI 完全靠自學而不是編碼學會了玩 49 種 Atari 視頻游戲,,其中 43 種游戲玩得比之前的 AI 都要好;并在 23 種游戲中擊敗了人類的職業(yè)玩家,。這些游戲當中,,簡單的彈球和拳擊游戲 AI 玩得最好,但是像經(jīng)典的消磚塊 Breakout 游戲也能玩得很好,,甚至還學會了打開一條通道讓球跑到后面去消掉磚塊(參見下面視頻,,注意觀察 AI 如何在游戲中改進自己的策略),這種技巧往往只有老練的玩家才會,。許多研究人員 1 年后對他們?nèi)绾巫龅饺愿械嚼Щ蟛灰?。不過現(xiàn)在他們不用困惑了,因為 DeepMind 團隊現(xiàn)在已經(jīng)在《自然》雜志上公布了自己的研究成果:Human-level control through deep reinforcement learning—通過深度強化學習實現(xiàn)人類水平的控制,。 總的說來,,DeepMind 的 AI 的設計核心是如何讓計算機自行發(fā)現(xiàn)數(shù)據(jù)中存在的模式。其解決方案是深度神經(jīng)網(wǎng)絡與強化學習等方法的的結(jié)合,。AI 并并不知道游戲規(guī)則,,而是用深度神經(jīng)網(wǎng)絡來了解游戲的狀態(tài),找出哪一種行為能導致得分最高,。盡管利用模擬神經(jīng)網(wǎng)絡來教電腦玩游戲(如軍棋游戲)的方法已經(jīng)使用了幾十年,,但是從未有人能像 DeepMind 團隊那樣以如此有用的方式結(jié)合到一起,智能系統(tǒng)普朗克學院的Bernhard Sch?lkopf主任稱,,其方案展現(xiàn)出了令人印象深刻的可適應性,。 這一方面是得益于現(xiàn)在計算能力的提高使得 AI 可處理規(guī)模要大得多的數(shù)據(jù)集,要知道,,觀察 Atari 游戲相當于每秒處理 200 萬像素的數(shù)據(jù),。另一方面則是得益于 DeepMind 結(jié)合了強化學習來訓練 AI,而且是在高維度感覺輸入中采用的端到端強化學習,。相對于以往計算機會玩的游戲,,如國際象棋等,這次計算機玩的游戲更接近現(xiàn)實世界的混沌狀態(tài),。Google的智能設計師Demis Hassabis稱,,這是第一種能在一系列復雜任務當中與人類表現(xiàn)相當?shù)乃惴ā?/p> 那么 Google 會不會用這種 AI 來分析自己的大規(guī)模數(shù)據(jù)集呢,?Hassabis 并沒有給出任何肯定的說法,但稱該系統(tǒng)對任何連續(xù)性決策任務都有用,。如果我們把 Google 收集的用戶數(shù)據(jù)比作像素,,把廣告收入比作得分的話,DeepMind 的 AI 系統(tǒng)一樣也可以用在 Google 的核心廣告業(yè)務,。讓 AI 去置放的廣告,,點擊率越高就給它更高的分數(shù),這樣 AI 能夠不斷演進優(yōu)化廣告的投放算法,。而倫敦大學金斯密斯學院的 Michael Cook 甚至給出了確切的數(shù)字,,稱 Google 已經(jīng)在 7 款產(chǎn)品中采用了 DeepMind 的技術。其中會不會包括 Google 研發(fā)的自動汽車呢,?也許用不了多久我們就能感受到有了那顆 DeepMind 支撐的產(chǎn)品的表現(xiàn)差異了,。 摘自:36氪 大數(shù)據(jù)文摘精彩文章: 回復安全 關于泄密、黑客,、攻防的新鮮案例 回復算法 既漲知識又有趣的人和事 回復谷歌 看其在大數(shù)據(jù)領域的舉措 回復院士 看眾多院士如何講大數(shù)據(jù) 回復色情 這個,你懂的,可是你真的懂嗎,? 回復隱私 看看在大數(shù)據(jù)時代還有多少隱私 回復醫(yī)療 查看醫(yī)療領域文章6篇 回復征信 大數(shù)據(jù)征信專題四篇 回復大國 "大數(shù)據(jù)國家檔案"之美國等12國 回復體育 大數(shù)據(jù)在網(wǎng)球、NBA等應用案例 回復平安 中國平安相關大數(shù)據(jù)案例,、新聞 回復志愿者 了解大數(shù)據(jù)文摘及如何加入 |
|