(多巴胺因作為大腦中的快樂信號能增強(qiáng)前額葉系統(tǒng)中的突觸連接負(fù)責(zé)編碼傳遞抽象任務(wù)與規(guī)則結(jié)構(gòu)的重要信息) https://www.toutiao.com/i6555753251843605005/ 上周,,《Nature》刊登了 DeepMind 用 AI 算法模擬人類大腦導(dǎo)航功能的論文,,而就在今天,,DeepMind 又發(fā)布了一項新的突破——利用元強(qiáng)化學(xué)習(xí)來解釋人類大腦的快速學(xué)習(xí)原理,探索多巴胺(dopamine)在人腦學(xué)習(xí)中的地位,,并據(jù)此提出了強(qiáng)化學(xué)習(xí)模型未來的發(fā)展思路,。 以下為 DeepMind 官方博客對此次突破的解讀: 前額葉皮質(zhì)——人腦中的“元強(qiáng)化學(xué)習(xí)系統(tǒng)”近年來,人工智能逐漸系統(tǒng)掌握了視頻游戲的訣竅,,比如雅達(dá)利經(jīng)典游戲的《Breakout》和《Pong》,。但是,盡管這些人工智能的表現(xiàn)已稱得上相當(dāng)出色,,它們依然需要上千小時的游戲?qū)W習(xí)才能趕超人類玩家水平,;而另一方面,人類卻能在幾分鐘之內(nèi)就能掌握陌生游戲的基本技巧,。 由于人腦往往輕而易舉便能學(xué)會更加錯綜復(fù)雜的事物,,人們提出了“元學(xué)習(xí)”理論(theory of meta-learning),換句話說,,就是“學(xué)習(xí)如何學(xué)習(xí)”,。一般認(rèn)為,我們的學(xué)習(xí)可以分為兩個時間尺度:短期學(xué)習(xí)中,,我們往往更專注于事實的學(xué)習(xí),;而長期學(xué)習(xí)中,我們更偏重任務(wù)中抽象的技巧與規(guī)則,。正是這樣長期,、短期學(xué)習(xí)的結(jié)合幫助我們有效學(xué)習(xí),并得以在新任務(wù)中快速而靈活地應(yīng)用新知識,。而在人工智能系統(tǒng)中,,這種“元學(xué)習(xí)”結(jié)構(gòu)的再創(chuàng)造被稱為“元強(qiáng)化學(xué)習(xí)”(meta-reinforcement learning),在進(jìn)行快速,、單次的學(xué)習(xí)任務(wù)中極富有成效,。然而,要從神經(jīng)科學(xué)角度解釋人腦中相應(yīng)的機(jī)制則困難得多,。 我們最新發(fā)表在期刊《Nature Neuroscience》上的文章中運(yùn)用了人工智能研究中“元強(qiáng)化學(xué)習(xí)”的框架,以探索多巴胺(dopamine)在人腦學(xué)習(xí)中的地位,。多巴胺因作為大腦中的“快樂信號”被大家熟知,,目前被認(rèn)為是一種“獎勵預(yù)測誤差”(reward prediction error,RPE)信號,,類似于人工智能中的強(qiáng)化學(xué)習(xí)算法,。我們在文中提出,多巴胺的功能并不只是從過往事件中估測獎勵值,。事實上,,多巴胺尤其在前額葉皮質(zhì)區(qū)中扮演著且重要的整體性角色,,使我們在新任務(wù)中高效、迅速,、靈活地學(xué)習(xí),。 為了證明該理論,我們從神經(jīng)科學(xué)領(lǐng)域?qū)嶒炛懈脑炝?6 項元學(xué)習(xí)實驗,,實驗均需要受試完成一定的任務(wù),,雖然 6 項任務(wù)的基本原理或所需技巧相同,在不同方面卻各有側(cè)重,。我們訓(xùn)練了一個循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,,RNN)以代表前額葉皮質(zhì),用標(biāo)準(zhǔn)深度強(qiáng)化學(xué)習(xí)技術(shù)代表人腦中的多巴胺功能,,然后將循環(huán)網(wǎng)絡(luò)的動態(tài)活動與過去神經(jīng)科學(xué)實驗中的實際數(shù)據(jù)相比較,。事實證明,循環(huán)網(wǎng)絡(luò)非常擅長元學(xué)習(xí),,因為它們能將歷史的行動與觀察結(jié)果內(nèi)化,,然后運(yùn)用到多項受訓(xùn)任務(wù)里。 實驗中的一項 Harlow 實驗是 19 世紀(jì) 40 年代的著名心理學(xué)實驗,,用于摸索元學(xué)習(xí)概念,。在原始實驗中,研究者讓一組受試猴從兩個陌生物體中選擇,,只有其中一個才能讓猴得到食物獎勵,。兩個物體出現(xiàn) 6 次,每次的左右擺放位置都是隨機(jī)的,,因此實驗猴必須學(xué)習(xí)究竟選擇哪一個物體才能獲得食物獎勵,。之后又換上兩個新的陌生物體,同樣也只有其中一個與食物獎勵相關(guān)聯(lián),。在這一訓(xùn)練階段中,,猴子們學(xué)會了選中正確物體的策略:首先在第一次物體出現(xiàn)時先隨機(jī)選擇一個,之后再根據(jù)獎勵與否的結(jié)果反饋選擇特定物體,,而不是左右位置,。這一實驗表明,這些猴能夠內(nèi)化實驗任務(wù)的原理,,并習(xí)得抽象的規(guī)則結(jié)構(gòu)——也就是“學(xué)習(xí)如何學(xué)習(xí)”,。 當(dāng)我們在計算機(jī)中進(jìn)行類似的模擬實驗時,我們發(fā)現(xiàn),,即使提供全新的圖片,,這些受試的“元強(qiáng)化學(xué)習(xí)”網(wǎng)絡(luò)依舊表現(xiàn)出了和 Harlow 實驗中動物類似的學(xué)習(xí)行為。 事實上,,這些元強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)迅速地適應(yīng)了一系列不同規(guī)則和結(jié)構(gòu)的實驗任務(wù),;也正是因為它們已經(jīng)了解了如何適應(yīng)各種任務(wù),,它們還學(xué)會了高效學(xué)習(xí)的一些普適性原則。 重要的一點是,,我們觀察到的大多數(shù)學(xué)習(xí)都發(fā)生在循環(huán)網(wǎng)絡(luò)中,,這就支持了我們的觀點——多巴胺在元學(xué)習(xí)過程中有著更為整體性的作用。傳統(tǒng)觀點認(rèn)為,,多巴胺能增強(qiáng)前額葉系統(tǒng)中的突觸連接,,強(qiáng)化某些特定行為。在人工智能系統(tǒng)學(xué)習(xí)解決一項任務(wù)時,,類似多巴胺的獎勵信號負(fù)責(zé)調(diào)整神經(jīng)網(wǎng)絡(luò)中人工突觸的權(quán)重,。然而,在我們的實驗中,,神經(jīng)網(wǎng)絡(luò)的突觸權(quán)重是固定的,,無法在學(xué)習(xí)過程中進(jìn)行調(diào)整,而元強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)仍然解決并適應(yīng)了任務(wù),。這就說明類似多巴胺的獎勵信號不僅僅是對權(quán)重進(jìn)行調(diào)整,,它還負(fù)責(zé)編碼、傳遞抽象任務(wù)與規(guī)則結(jié)構(gòu)的重要信息,,從而使快速任務(wù)適應(yīng)成為可能,。 一直以來,神經(jīng)科學(xué)家們在前額葉皮質(zhì)中觀察到了不少類似的神經(jīng)活動模式,,然而關(guān)于這些適應(yīng)及時且具有靈活性的模式,,他們始終沒能找到合理的解釋。對于神經(jīng)模式的多變性,,有一種較為合理的觀點:前額葉皮質(zhì)并不依賴于突觸權(quán)重隨著規(guī)則結(jié)構(gòu)學(xué)習(xí)的緩慢改變,,而是基于直接編碼于多巴胺的抽象模型信息。 我們的研究證明了,,人工智能中元強(qiáng)化學(xué)習(xí)的關(guān)鍵因素同樣存在于大腦中,,而提出的理論不僅結(jié)合了對多巴胺和前額葉皮質(zhì)的現(xiàn)有認(rèn)知,還解釋了神經(jīng)科學(xué)與心理學(xué)的許多未知現(xiàn)象,。 這進(jìn)而引發(fā)一些對其他問題的思考:基于結(jié)構(gòu)和模型的學(xué)習(xí)是如何發(fā)生在腦中的,?為什么多巴胺本身就編碼模型信息?前額葉皮質(zhì)的神經(jīng)元是如何調(diào)節(jié)學(xué)習(xí)信號的,?此外,,從人工智能得到的結(jié)果能應(yīng)用到神經(jīng)科學(xué)、心理學(xué)等其他學(xué)科的發(fā)現(xiàn)上,,這就進(jìn)一步強(qiáng)調(diào)了不同學(xué)科領(lǐng)域間的互惠價值。未來我們期待這一研究成果能夠反向,,從大腦神經(jīng)環(huán)路的組織結(jié)構(gòu)中獲得啟發(fā),,從而設(shè)計出更新,、更好的強(qiáng)化學(xué)習(xí)模型。 |
|