測量智慧 著名深度學(xué)習(xí)研究員、谷歌大腦研究員,、Keras 庫作者(以及 Twitter 活躍分子)Fran?ois Chollet 近期在 arXiv 上公開了一篇論文《The Measure of Intelligence》(arxiv.org/abs/1911.01547),。正如標(biāo)題,這篇論文討論的是人類應(yīng)該如何理解以及正確地測量生命體/智能體的智慧,。Fran?ois Chollet 對機(jī)器學(xué)習(xí)領(lǐng)域里「大肆炒作模型在單個(gè)任務(wù)中的表現(xiàn)」的慣例非常不滿,,他認(rèn)為這并不能體現(xiàn)「智慧」。比如 CNN 家族在 ImageNet 圖像分類中超越人類,、AlphaGo 在圍棋中擊敗人類,、OpenAI Five 在 DOTA2 中擊敗人類、AlphaStar 在星際 2 中擊敗人類,,諸如此類的學(xué)術(shù)研究進(jìn)展,,即便確實(shí)是在非常復(fù)雜的任務(wù)中取得了比人類更好的表現(xiàn),我們也無法認(rèn)可這些模型就擁有了「智慧」,。相比之下,,烏鴉、海豚之類的動物更被人類認(rèn)為是「有智慧」的。所以,,AI 系統(tǒng)是否擁有「智慧」的標(biāo)準(zhǔn)可能是什么樣的,,我們又應(yīng)該用什么樣的方法測量 AI 系統(tǒng),這就是 Fran?ois Chollet 在這篇論文中著重討論的,。AI 研究員 Emil Wallner 對這篇論文的內(nèi)容做了簡單的解讀——核心觀點(diǎn):我們不應(yīng)該測量某個(gè)具體能力,,然后把它作為 AI 系統(tǒng)的適應(yīng)能力和靈活性的測量手段,。只要有無限多的數(shù)據(jù),,模型就可以記憶如何做決策。如果想要發(fā)展通用人工智能(AGI)的話,,我們需要想辦法量化,、測量「學(xué)習(xí)新能力的效率」。1970 年代的時(shí)候,,許多人都認(rèn)為棋類游戲可以代表人類理性思維的至高水準(zhǔn),,如果人類能用計(jì)算機(jī)解決棋類問題,就表明人類在認(rèn)知,、理解方面又達(dá)到了一個(gè)新的里程碑,。但 IBM 的「深藍(lán)」出現(xiàn)并擊敗卡斯帕洛夫之后,大家發(fā)現(xiàn)整個(gè)研發(fā)過程并沒能幫助我們更好地理解人類思維,。深藍(lán)當(dāng)然是談不上「智慧」的,,但我們會認(rèn)為人類的棋類高手有很高的智慧。這其實(shí)是因?yàn)槲覀儼严缕宓乃胶鸵活悺冈寄堋孤?lián)系到了一起:我們認(rèn)為棋下得好表示這個(gè)人有很強(qiáng)的邏輯思維能力,,他除了下棋之外,,在數(shù)學(xué)和推理方面也會很厲害。所以我們擬人化地理解 AI 的時(shí)候也會不由自主地走同樣的路線,,認(rèn)為能很好地掌握某種技能,,也就掌握了其它一些相關(guān)的技能和思維,也就成了通用人工智能,。Fran?ois Chollet 在論文中指出,,DeepMind 的 AlphaZero 這種棋類游戲智能體其實(shí)就既不靈活也不通用,他把它比做一個(gè)哈希表查找器,,只不過在做一些局部敏感度的哈希函數(shù)計(jì)算而已,。只要有了無限多的模擬計(jì)算結(jié)果,就完全可以直接在棋盤上的落子情況和理想的動作之間找到對應(yīng)關(guān)系,。Chollet 認(rèn)為,,現(xiàn)階段 AI 研究的「以任務(wù)表現(xiàn)為中心」的研究思路其實(shí)才是我們走向通用人工智能的瓶頸。他認(rèn)為我們其實(shí)應(yīng)該走另一條路線,,Hernandez-Orallo 路線:「AI 是這樣一門科學(xué)和工程學(xué),,它造出的機(jī)器能完成從來沒有見過、從來沒有提前準(zhǔn)備過的任務(wù)」。在論文的 II.2 節(jié),,Chollet 正式提出了他的核心想法:要了解一個(gè)系統(tǒng)的智慧水平,,應(yīng)當(dāng)測量它在一系列不同任務(wù)中表現(xiàn)出的獲得新能力的效率;這和先驗(yàn),、經(jīng)驗(yàn),、泛化難度都相關(guān)。為了避免只有局部泛化能力的系統(tǒng)在某些特定任務(wù)中可以用訓(xùn)練「換來」好的表現(xiàn),,Chollet 把先驗(yàn)的條件限制為「發(fā)展科學(xué)理論」(developmental science theory)中允許的「核心知識」,,比如基礎(chǔ)物理學(xué)、算數(shù),、幾何學(xué)知識,,以及對意圖的基本理解。根據(jù)他勾畫出的理想做法,,Chollet 創(chuàng)建了一個(gè) ARC 數(shù)據(jù)集,,「Abstraction and Reasoning Corpus」,意為「抽象和推理語料庫」 ,。這個(gè)數(shù)據(jù)集的設(shè)計(jì)方法借鑒了人類的 IQ 測試中的抽象和推理部分 (反映流體智力 fluid intelligence),,內(nèi)容比如ARC 數(shù)據(jù)集中包含 400 個(gè)訓(xùn)練任務(wù)以及 600 個(gè)評價(jià)任務(wù)。這個(gè)數(shù)據(jù)集的核心特點(diǎn)包括:- 評價(jià)任務(wù)集中的任務(wù)都是全新的(和訓(xùn)練任務(wù)沒有重疊)
- 固定的&有限的訓(xùn)練數(shù)據(jù)
- 對進(jìn)行測試的 AI 系統(tǒng)的先驗(yàn)有一組明確的指定
《The Measure of Intelligence》這篇論文是對近幾年流行的「大數(shù)據(jù),、高計(jì)算量解決一切問題」的做法的旗幟鮮明的反對,,而且 Chollet 也在論文中介紹了許多歷史背景,這讓這篇論文對不熟悉相關(guān)話題的讀者來說也不那么難懂,。Fran?ois Chollet 自己在發(fā)布論文的同時(shí),,也在推特上從介紹了自己如何寫出這篇文章——我剛剛公開的這篇稍微有點(diǎn)長的論文是關(guān)于「智慧」的定義和測量的,論文里還介紹了一個(gè)新的 AI 評價(jià)數(shù)據(jù)集 ARC(抽象和推理語料庫),。在過去的兩年里我自己一直在斷斷續(xù)續(xù)地研究它,。- 直到目前我們?nèi)绾味x AI、如何評價(jià) AI 的歷史和討論
- 提出一種「智慧」新的定義,,以及提出針對理想的通用 AI 的評價(jià)方式的大綱
- 介紹了 ARC 數(shù)據(jù)集的目標(biāo)以及它的邏輯
在過去的十年中我經(jīng)常在演講里,、聊天里或者推特上談到有關(guān)「智慧」的話題,這篇論文就是我嘗試給它做出一個(gè)正式的定義的結(jié)果,,讓它有幫助,、可實(shí)施。ARC 數(shù)據(jù)集本身也讓我開啟了一個(gè)很有趣的研究方向,,我希望你們也會覺得它有用,。 我需要強(qiáng)調(diào)一下,我在這篇論文里給出了智慧的定義,,但并不意味著它就是智慧的真正的,、唯一的定義,;這也不是這些討論的重點(diǎn)所在。智慧是一件很復(fù)雜的事情,,在不同的語境下可以有不同的體現(xiàn),。對智慧,以及對于 AI,,可能有很多種定義方式都是可行的,。最近我在算法開發(fā)方面也有一些進(jìn)展,有一個(gè)算法已經(jīng)起碼能夠解決 ARC 數(shù)據(jù)的一小部分,;它是基于認(rèn)知理論的(自動抽象),,我在這個(gè)課題上已經(jīng)花了很多時(shí)間精力了。我希望在不久的將來就可以和大家分享這些想法和代碼,。我從 2009 年開始就有了這個(gè)理論的大概想法,,它從 ONEIROS 項(xiàng)目 (Open-ended Neuro-Electronic Intelligent Robot Operating System) 中借鑒了很多重要的元素,,ONEIROS 是一個(gè)我在 2009 年到 2012 年之間參與開發(fā)過的一個(gè)通用 AI 架構(gòu)(后來我在 2014 年也做過一段時(shí)間,,然后就基本廢棄了)。它的基礎(chǔ)是一個(gè)經(jīng)典的強(qiáng)化學(xué)習(xí)的思維模式,,主要關(guān)注的是,,1,學(xué)習(xí)時(shí)空特征的模塊化,、層級化的映射關(guān)系(通過 PMI 矩陣分解,,而不是梯度下降);2,,通過一種注意力機(jī)制實(shí)現(xiàn)上下文轉(zhuǎn)換,;3,固有動機(jī)(也就是好奇心)它的宣傳語是「認(rèn)識是一種動態(tài)的,、模塊層次化的感知&運(yùn)動信息空間的映射」,。我把這個(gè)稱作「映射理論」 —— 應(yīng)該有那么兩三個(gè)人能記得我在 2010 到 2012 年之間提到過這個(gè),。我覺得 ONEIROS 在好幾個(gè)方面都做對了(尤其考慮到在那個(gè)時(shí)候就已經(jīng)有這樣的思維高度),,但可惜的是它最終還是沒能解決真正核心的問題:「抽象」的本質(zhì)。這就是我現(xiàn)在在嘗試解決的,,也是我設(shè)計(jì) ARC 所針對的問題,。大概可以這么說,,我們(研究人員以及普通大眾)對 AI 技術(shù)的認(rèn)知里的所有錯(cuò)誤的部分,都可以把原因歸結(jié)為過度的擬人化,。但 AI 很狡猾,,人類設(shè)計(jì) AI 、訓(xùn)練 AI 想讓它模仿哪一兩個(gè)人類技能,,它就會完完全全地只模仿這一兩個(gè)技能,,而完全學(xué)不到其它的(即便看起來很相關(guān))的技能。在這個(gè)過程里,AI 還會嘗試走所有有可能的捷徑,、發(fā)掘各種能帶來提升的小竅門甚至環(huán)境中的 bug,,而不會主動遵循人類本來規(guī)劃的「正道」,最終得到的系統(tǒng)也就和人類的思維沒有任何共通之處,。可以把 AI 比做一部認(rèn)知動畫——表面上看起來它能動,,但其實(shí)只不過是在紙上畫出的一系列近似的、模仿人類情感和動作的圖形而已,。Sophia 這樣的機(jī)器人都可以算是當(dāng)代 AI 的典范,。AI 相比于認(rèn)知抽象能力,就像動畫人物相比于人類情感一樣,。最關(guān)鍵的是,,即便當(dāng)前的 AI 系統(tǒng)中體現(xiàn)出了不少數(shù)據(jù)抽象后的編碼、可操作化特征,,但這基本上也和真正的智慧中的「自動抽象」沒什么關(guān)系,;就像創(chuàng)造新的動畫角色和創(chuàng)造新的生命形式?jīng)]什么關(guān)系一樣。
|