DeepMind：AI元強(qiáng)化學(xué)習(xí)的關(guān)鍵因素同樣存在于人類大腦

山峰云繞 2018-05-15

展開全文

(多巴胺因作為大腦中的快樂信號能增強(qiáng)前額葉系統(tǒng)中的突觸連接負(fù)責(zé)編碼傳遞抽象任務(wù)與規(guī)則結(jié)構(gòu)的重要信息)

https://www.toutiao.com/i6555753251843605005/

上周,，《Nature》刊登了 DeepMind 用 AI 算法模擬人類大腦導(dǎo)航功能的論文,，而就在今天,，DeepMind 又發(fā)布了一項新的突破——利用元強(qiáng)化學(xué)習(xí)來解釋人類大腦的快速學(xué)習(xí)原理，探索多巴胺（dopamine）在人腦學(xué)習(xí)中的地位,，并據(jù)此提出了強(qiáng)化學(xué)習(xí)模型未來的發(fā)展思路,。

DeepMind：AI“元強(qiáng)化學(xué)習(xí)”的關(guān)鍵因素同樣存在于人類大腦

以下為 DeepMind 官方博客對此次突破的解讀：

前額葉皮質(zhì)——人腦中的“元強(qiáng)化學(xué)習(xí)系統(tǒng)”

近年來，人工智能逐漸系統(tǒng)掌握了視頻游戲的訣竅,，比如雅達(dá)利經(jīng)典游戲的《Breakout》和《Pong》,。但是，盡管這些人工智能的表現(xiàn)已稱得上相當(dāng)出色,，它們依然需要上千小時的游戲?qū)W習(xí)才能趕超人類玩家水平,；而另一方面，人類卻能在幾分鐘之內(nèi)就能掌握陌生游戲的基本技巧,。

由于人腦往往輕而易舉便能學(xué)會更加錯綜復(fù)雜的事物,，人們提出了“元學(xué)習(xí)”理論（theory of meta-learning），換句話說,，就是“學(xué)習(xí)如何學(xué)習(xí)”,。一般認(rèn)為，我們的學(xué)習(xí)可以分為兩個時間尺度：短期學(xué)習(xí)中,，我們往往更專注于事實的學(xué)習(xí),；而長期學(xué)習(xí)中，我們更偏重任務(wù)中抽象的技巧與規(guī)則,。正是這樣長期,、短期學(xué)習(xí)的結(jié)合幫助我們有效學(xué)習(xí)，并得以在新任務(wù)中快速而靈活地應(yīng)用新知識,。而在人工智能系統(tǒng)中,，這種“元學(xué)習(xí)”結(jié)構(gòu)的再創(chuàng)造被稱為“元強(qiáng)化學(xué)習(xí)”（meta-reinforcement learning），在進(jìn)行快速,、單次的學(xué)習(xí)任務(wù)中極富有成效,。然而，要從神經(jīng)科學(xué)角度解釋人腦中相應(yīng)的機(jī)制則困難得多,。

我們最新發(fā)表在期刊《Nature Neuroscience》上的文章中運(yùn)用了人工智能研究中“元強(qiáng)化學(xué)習(xí)”的框架，以探索多巴胺（dopamine）在人腦學(xué)習(xí)中的地位,。多巴胺因作為大腦中的“快樂信號”被大家熟知,，目前被認(rèn)為是一種“獎勵預(yù)測誤差”（reward prediction error，RPE）信號,，類似于人工智能中的強(qiáng)化學(xué)習(xí)算法,。我們在文中提出，多巴胺的功能并不只是從過往事件中估測獎勵值,。事實上,，多巴胺尤其在前額葉皮質(zhì)區(qū)中扮演著且重要的整體性角色,，使我們在新任務(wù)中高效、迅速,、靈活地學(xué)習(xí),。

為了證明該理論，我們從神經(jīng)科學(xué)領(lǐng)域?qū)嶒炛懈脑炝?6 項元學(xué)習(xí)實驗,，實驗均需要受試完成一定的任務(wù),，雖然 6 項任務(wù)的基本原理或所需技巧相同，在不同方面卻各有側(cè)重,。我們訓(xùn)練了一個循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network,，RNN）以代表前額葉皮質(zhì)，用標(biāo)準(zhǔn)深度強(qiáng)化學(xué)習(xí)技術(shù)代表人腦中的多巴胺功能,，然后將循環(huán)網(wǎng)絡(luò)的動態(tài)活動與過去神經(jīng)科學(xué)實驗中的實際數(shù)據(jù)相比較,。事實證明，循環(huán)網(wǎng)絡(luò)非常擅長元學(xué)習(xí),，因為它們能將歷史的行動與觀察結(jié)果內(nèi)化,，然后運(yùn)用到多項受訓(xùn)任務(wù)里。

實驗中的一項 Harlow 實驗是 19 世紀(jì) 40 年代的著名心理學(xué)實驗,，用于摸索元學(xué)習(xí)概念,。在原始實驗中，研究者讓一組受試猴從兩個陌生物體中選擇,，只有其中一個才能讓猴得到食物獎勵,。兩個物體出現(xiàn) 6 次，每次的左右擺放位置都是隨機(jī)的,，因此實驗猴必須學(xué)習(xí)究竟選擇哪一個物體才能獲得食物獎勵,。之后又換上兩個新的陌生物體，同樣也只有其中一個與食物獎勵相關(guān)聯(lián),。在這一訓(xùn)練階段中,，猴子們學(xué)會了選中正確物體的策略：首先在第一次物體出現(xiàn)時先隨機(jī)選擇一個，之后再根據(jù)獎勵與否的結(jié)果反饋選擇特定物體,，而不是左右位置,。這一實驗表明，這些猴能夠內(nèi)化實驗任務(wù)的原理,，并習(xí)得抽象的規(guī)則結(jié)構(gòu)——也就是“學(xué)習(xí)如何學(xué)習(xí)”,。

當(dāng)我們在計算機(jī)中進(jìn)行類似的模擬實驗時，我們發(fā)現(xiàn),，即使提供全新的圖片,，這些受試的“元強(qiáng)化學(xué)習(xí)”網(wǎng)絡(luò)依舊表現(xiàn)出了和 Harlow 實驗中動物類似的學(xué)習(xí)行為。

事實上,，這些元強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)迅速地適應(yīng)了一系列不同規(guī)則和結(jié)構(gòu)的實驗任務(wù),；也正是因為它們已經(jīng)了解了如何適應(yīng)各種任務(wù),，它們還學(xué)會了高效學(xué)習(xí)的一些普適性原則。

重要的一點是,，我們觀察到的大多數(shù)學(xué)習(xí)都發(fā)生在循環(huán)網(wǎng)絡(luò)中,，這就支持了我們的觀點——多巴胺在元學(xué)習(xí)過程中有著更為整體性的作用。傳統(tǒng)觀點認(rèn)為,，多巴胺能增強(qiáng)前額葉系統(tǒng)中的突觸連接,，強(qiáng)化某些特定行為。在人工智能系統(tǒng)學(xué)習(xí)解決一項任務(wù)時,，類似多巴胺的獎勵信號負(fù)責(zé)調(diào)整神經(jīng)網(wǎng)絡(luò)中人工突觸的權(quán)重,。然而，在我們的實驗中,，神經(jīng)網(wǎng)絡(luò)的突觸權(quán)重是固定的,，無法在學(xué)習(xí)過程中進(jìn)行調(diào)整，而元強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)仍然解決并適應(yīng)了任務(wù),。這就說明類似多巴胺的獎勵信號不僅僅是對權(quán)重進(jìn)行調(diào)整,，它還負(fù)責(zé)編碼、傳遞抽象任務(wù)與規(guī)則結(jié)構(gòu)的重要信息,，從而使快速任務(wù)適應(yīng)成為可能,。

一直以來，神經(jīng)科學(xué)家們在前額葉皮質(zhì)中觀察到了不少類似的神經(jīng)活動模式,，然而關(guān)于這些適應(yīng)及時且具有靈活性的模式,，他們始終沒能找到合理的解釋。對于神經(jīng)模式的多變性,，有一種較為合理的觀點：前額葉皮質(zhì)并不依賴于突觸權(quán)重隨著規(guī)則結(jié)構(gòu)學(xué)習(xí)的緩慢改變,，而是基于直接編碼于多巴胺的抽象模型信息。

我們的研究證明了,，人工智能中元強(qiáng)化學(xué)習(xí)的關(guān)鍵因素同樣存在于大腦中,，而提出的理論不僅結(jié)合了對多巴胺和前額葉皮質(zhì)的現(xiàn)有認(rèn)知，還解釋了神經(jīng)科學(xué)與心理學(xué)的許多未知現(xiàn)象,。

這進(jìn)而引發(fā)一些對其他問題的思考：基于結(jié)構(gòu)和模型的學(xué)習(xí)是如何發(fā)生在腦中的,？為什么多巴胺本身就編碼模型信息？前額葉皮質(zhì)的神經(jīng)元是如何調(diào)節(jié)學(xué)習(xí)信號的,？此外,，從人工智能得到的結(jié)果能應(yīng)用到神經(jīng)科學(xué)、心理學(xué)等其他學(xué)科的發(fā)現(xiàn)上,，這就進(jìn)一步強(qiáng)調(diào)了不同學(xué)科領(lǐng)域間的互惠價值。未來我們期待這一研究成果能夠反向,，從大腦神經(jīng)環(huán)路的組織結(jié)構(gòu)中獲得啟發(fā),，從而設(shè)計出更新,、更好的強(qiáng)化學(xué)習(xí)模型。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：山峰云繞 > 《生物物理腦神經(jīng)科學(xué)腦掃描》

舉報/認(rèn)領(lǐng)