來源:AI科技評論 概要:這篇論文中,,Deepmind通過對主管人類長期記憶行為的“海馬體”(hippocampus)神經(jīng)元活動的研究,,進一步提出了可以轉化為神經(jīng)網(wǎng)絡架構的“預測圖”理論。 對人類神經(jīng)網(wǎng)絡的理解越來越在左右人工智能的未來研究,,連Deepmind也不例外,。 2017年10月2日,,《NATURE NEUROSCIENCE》發(fā)表了Deepmind的一篇《The hippocampus as a predictive map》的論文。這篇論文中,,Deepmind通過對主管人類長期記憶行為的“海馬體”(hippocampus)神經(jīng)元活動的研究,,進一步提出了可以轉化為神經(jīng)網(wǎng)絡架構的“預測圖”理論。 在博客中,,Deepmind這樣寫到: “傳統(tǒng)觀點認為海馬體只表示動物的現(xiàn)狀,,尤其在執(zhí)行走迷宮之類的空間任務中。這種觀點在發(fā)現(xiàn)嚙齒動物的海馬體中的“位置細胞”后被廣泛傳播,,當動物處于特定位置時,,它們會選擇性地放電。雖然這個理論解釋了許多神經(jīng)生理學發(fā)現(xiàn),,但并不完全解釋為什么海馬體也參與其他功能,包括記憶,,關系推理和決策等,。 我們認為,海馬體用它們預測到的未來狀態(tài)來展示代表每一種情況,。例如,,如果你要下班回家(你當前的狀態(tài)),你的海馬體可能會預測你很可能很快會通勤回家,,到學校接孩子,,或者更長遠一點——到家了。海馬體預測這些后期狀態(tài)來表現(xiàn)出當前的狀態(tài),,從而傳達了對未來事件的摘要表達,,也就是我們正式說的“后續(xù)表征”(Sucessor Representation)。我們認為,,這種具體形式的預測圖可以讓大腦在獎勵不斷變化的環(huán)境中快速適應,,而無需運行代價昂貴的未來模擬。 這一理論啟發(fā)我們在新算法中結合了基于模型的算法的靈活性和無模型算法中的高效性,,由于計算只是簡單的加權相加,,因此該算法的計算效率與無模型算法相當,同時,,通過分離獎勵期望與期望狀態(tài)(預測地圖),,該算法可以通過簡單的更新獎勵期望值并保持狀態(tài)期望值不變,從而快速適應獎勵變化,?!?/span> (老鼠在探索方形房間時記錄下來的海馬體每個位置細胞的活動及放電率的變化) 這并不是Deepmind的第一篇神經(jīng)科學用于人工智能的論文,在此之前Deepmind就表過至少兩篇創(chuàng)始人Hassabis為作者的神經(jīng)科學論文(參見AI科技評論之前文章:《DeepMind眼中的神經(jīng)科學研究:人工智能進步的另一個重要支點》),,這篇文章作者中雖然不包括Hassabis,,但相對于前兩篇論文更加具體,,對未來的研究也更具有指導意義。 神經(jīng)網(wǎng)絡發(fā)展史人工智能的發(fā)展與神經(jīng)系統(tǒng)有著千絲萬縷的聯(lián)系,。在1943年,,Warren McCulloch和Walter Pitts的《 神經(jīng)活動內在想法的邏輯演算 》第一次提出了如何讓人造神經(jīng)元網(wǎng)絡實現(xiàn)邏輯功能,這也奠定了神經(jīng)網(wǎng)絡最早的數(shù)學基礎和開啟了人們模擬人腦神經(jīng)系統(tǒng)開發(fā)人工智能(雖然當時還沒有這個詞)的早期嘗試,。 模仿人類神經(jīng)系統(tǒng)的問題是:人類大腦神經(jīng)系統(tǒng)實在太復雜了,。在人類大腦神經(jīng)系統(tǒng)中包含10^11(10的11次方)的神經(jīng)元,即便現(xiàn)在也難以模擬,。在1958年,,F(xiàn)rank Rosenblatt通過解剖大鼠的大腦發(fā)布了一個模仿神經(jīng)元的感知機,當時有研究者認為,,只要神經(jīng)元足夠多,、網(wǎng)絡連接足夠復雜,感知機就至少可以模擬部分人類智力,,但在1969年,,Marvin Minsky和Seymour Papert證明了感知機只能解決線性問題,還揭露了關于多層感知器的缺陷,,這使得人工神經(jīng)網(wǎng)絡研究在人工智能領域很快就陷入了低谷,,被基于規(guī)則和邏輯推理的專家系統(tǒng)所取代。 1974年,,一位叫Geffory Hinton的年輕研究者發(fā)現(xiàn),,把多個感知機連接成一個分層的網(wǎng)絡,即可以解決Minsky的問題,。這帶動了80年代連接主義的興起,,這個階段的連接理論最初被稱為分布式并行處理PDP (parallel distributed processing),他們以人工神經(jīng)網(wǎng)絡為工具方法,,引領著神經(jīng)科學和人工智能領域的發(fā)展,,與行為學派和符號學派三足鼎立。 隨之而來的問題是,,如果要模擬人類大腦數(shù)量如此龐大的神經(jīng)元,,可能需要對幾百甚至上千個參數(shù)進行調節(jié),如何對這樣復雜的網(wǎng)絡進行訓練呢,?Hinton等人的發(fā)現(xiàn)是,,通過反向傳播算法可以解決多層網(wǎng)絡的訓練問題。這一算法是用來訓練人工神經(jīng)網(wǎng)絡的常見方法,,該方法計算對網(wǎng)絡中所有權重計算損失函數(shù)的梯度,。這個梯度會反饋給最優(yōu)化方法,用來更新權值以最小化損失函數(shù),。 神經(jīng)網(wǎng)絡的現(xiàn)代分類器的各個方面也受到了我們所了解的大腦的視覺系統(tǒng)的啟發(fā),。這方面研究的先驅包括Geoffrey Hinton,、Yann LeCun、Yoshua Bengio等人,,1998年,,Yann LeCun提出了卷積神經(jīng)網(wǎng)絡(CNN),2006年,,Hinton提出了深度學習的概念并在其經(jīng)典論文《A fast learning alforithm for deep belief nets》中提出了深度信念網(wǎng)絡,,帶來了深度學習直到今天的黃金時代;2009年,,Yoshua Bengio提出了深度學習的常用模型堆疊自動編碼器(Stacked Auto-Encoder,SAE),,基于神經(jīng)網(wǎng)絡的研究得到進一步發(fā)揚光大。 然而人工智能專家基于神經(jīng)系統(tǒng)的研究和思考并沒有停止,。如腦科學的研究結果表明,,大腦中神經(jīng)元的信號處理機制和連接學習方式是不同的,尤其是大腦的無意識感知和自我意識功能并不需要有監(jiān)督的學習,,在大腦神經(jīng)系統(tǒng)中,,非監(jiān)督學習和自主學習同樣占有重要的地位,相應地,,對于無監(jiān)督學習和遷移學習的研究也成為人工智能的熱點之一。 而隨著深度學習和神經(jīng)科學的發(fā)展,,之前對深度學習的一些基礎理論也在面臨著更新,。例如在深度學習領域,神經(jīng)元是最底層的單元,;而在神經(jīng)科學領域,,神經(jīng)元并不是最底層的單位。目前的深度神經(jīng)網(wǎng)絡主要是三種結構,,即 DNN(全連接的),、CNN(卷積)和 RNN(循環(huán)),而目前的研究表明,,人類神經(jīng)網(wǎng)絡可能比較類似上述三種結構的組合,,層內更像DNN, 層間和CNN 很類似,,在時間上展開就是RNN,。這種結構上的差異也導致了深度學習研究的復雜性。 |
|
來自: taotao_2016 > 《計算機》