機(jī)器之心報(bào)道 魔王、Jamin,、杜偉 反向傳播可以解釋大腦學(xué)習(xí)嗎,?近日 Hinton 等人的研究認(rèn)為,盡管大腦可能未實(shí)現(xiàn)字面形式的反向傳播,,但是反向傳播的部分特征與理解大腦中的學(xué)習(xí)具備很強(qiáng)的關(guān)聯(lián)性,。該研究將之前的相關(guān)研究置于「NGRAD」框架下,NGRAD 算法利用活動(dòng)狀態(tài)的差異驅(qū)動(dòng)突觸更新,,這與反向傳播類似,。 加拿大 CIFAR 人工智能主席、麥吉爾大學(xué)生物工程系教授 Danilo Bzdok 轉(zhuǎn)發(fā)了該研究,。在學(xué)習(xí)過程中,,大腦會(huì)調(diào)整突觸以優(yōu)化行為。在皮層中,,突觸嵌入在多層網(wǎng)絡(luò)中,,這導(dǎo)致我們難以確定單個(gè)突觸的調(diào)整對(duì)整個(gè)系統(tǒng)行為的影響。而反向傳播算法在深度神經(jīng)網(wǎng)絡(luò)中解決了上述問題,,不過長(zhǎng)期以來人們一直認(rèn)為反向傳播在生物層面上存在問題,。盡管如此,神經(jīng)科學(xué)的最新發(fā)展和神經(jīng)網(wǎng)絡(luò)的成功激活了人們對(duì)反向傳播能否幫助進(jìn)一步了解皮層學(xué)習(xí)的興趣,。反向傳播算法使用反向連接(feedback connection)傳遞誤差信號(hào),,來計(jì)算突觸更新,從而實(shí)現(xiàn)快速學(xué)習(xí),。盡管反向連接在皮層中無處不在,,但我們很難觀察到它們是如何傳遞反向傳播所需誤差信號(hào)的。近日,來自 DeepMind,、牛津大學(xué)和谷歌大腦的 Timothy P. Lillicrap,、Adam Santoro、Geoffrey Hinton 等人在 Nature 子刊《Nature Reviews Neuroscience》發(fā)表文章,。該研究以過去和近期的研究發(fā)展為基礎(chǔ),,認(rèn)為反向連接可能會(huì)引發(fā)神經(jīng)活動(dòng),而其中的差異可用于局部逼近誤差信號(hào),,從而促進(jìn)大腦深層網(wǎng)絡(luò)中的有效學(xué)習(xí),。論文地址:https://www./articles/s41583-020-0277-3大腦通過調(diào)整神經(jīng)元之間的突觸連接來進(jìn)行學(xué)習(xí),。盡管突觸生理學(xué)可以幫助解釋單個(gè)突觸調(diào)整背后的規(guī)則和過程,,但這并不能解釋突觸調(diào)整是如何協(xié)調(diào)進(jìn)而實(shí)現(xiàn)網(wǎng)絡(luò)目標(biāo)的,。學(xué)習(xí)不能只是對(duì)局部突觸特定事件的盲目累積,,也不能不考慮下游行為后果,。因此,,想要了解大腦中的學(xué)習(xí)過程,,就必須揭示在整個(gè)網(wǎng)絡(luò)中協(xié)調(diào)可塑性的原則,。在機(jī)器學(xué)習(xí)領(lǐng)域中,,研究人員探索協(xié)調(diào)突觸更新的方法,以提高神經(jīng)網(wǎng)絡(luò)的性能,,同時(shí)不受生物現(xiàn)實(shí)情況的限制,。他們首先定義了神經(jīng)網(wǎng)絡(luò)的整體架構(gòu),包括大量神經(jīng)元及其連接方式,。例如,,研究人員經(jīng)常使用包含多層神經(jīng)元的深層網(wǎng)絡(luò),因?yàn)檠芯孔C明這些架構(gòu)對(duì)于多項(xiàng)任務(wù)都非常有效,。接下來,,定義一個(gè)誤差函數(shù),用于量化當(dāng)前網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)的程度,,進(jìn)而搜索學(xué)習(xí)算法來計(jì)算那些可以減少誤差的突觸變化(如下圖 1),。 圖 1:多種學(xué)習(xí)算法圖示。a)從左到右:神經(jīng)網(wǎng)絡(luò)通過一系列簡(jiǎn)單的計(jì)算單元來計(jì)算輸出,。b)在規(guī)定突觸變化特異性的譜系中,,反向傳播和擾動(dòng)算法的位置。c)該譜系上的算法以不同的速度進(jìn)行學(xué)習(xí),。在機(jī)器學(xué)習(xí)中,,誤差反向傳播(backprop)是深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中最常用的算法,也是這些神經(jīng)網(wǎng)絡(luò)中最成功的學(xué)習(xí)步驟,。反向傳播算法的核心是對(duì)整個(gè)網(wǎng)絡(luò)所有可能的路徑重復(fù)使用鏈?zhǔn)椒▌t,。反向傳播算法真正強(qiáng)大的地方在于它是動(dòng)態(tài)規(guī)劃的,,我們可以重復(fù)使用中間結(jié)果計(jì)算梯度下降。因?yàn)樗峭ㄟ^神經(jīng)網(wǎng)絡(luò)由后向前傳播誤差,,并優(yōu)化每一個(gè)神經(jīng)節(jié)點(diǎn)之間的權(quán)重,,所以這種算法就稱之為反向傳播算法(backpropagation algorithm)。經(jīng)過反向傳播訓(xùn)練的網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)近期成功案例的核心,,包括最領(lǐng)先的語音識(shí)別,、圖像識(shí)別以及語言翻譯。反向傳播還支撐了無監(jiān)督學(xué)習(xí)方面的最新進(jìn)展,,例如圖像和語音生成,、語言建模和其他相關(guān)的預(yù)測(cè)任務(wù)。此外,,反向傳播和強(qiáng)化學(xué)習(xí)的組合在解決控制問題方面也取得了重大進(jìn)展,,例如玩轉(zhuǎn) Atari 游戲,在圍棋和撲克游戲中擊敗人類頂尖的專業(yè)選手,。反向傳播通過反向連接發(fā)送的誤差信號(hào)來調(diào)整突觸,該經(jīng)典方法已在監(jiān)督學(xué)習(xí)設(shè)置中有詳細(xì)描述,。然而,,大腦似乎將反向連接用于不同目的,而且主要以無監(jiān)督的方式進(jìn)行學(xué)習(xí),,為原始感官輸入中的隱式表征構(gòu)建顯式結(jié)構(gòu)從而建立表征,。那么,我們很自然地就會(huì)想到這個(gè)問題:反向傳播算法是否可以幫助我們了解更多有關(guān)大腦學(xué)習(xí)的信息,?該研究認(rèn)為,,盡管存在明顯的差異,但大腦仍有能力實(shí)現(xiàn)反向傳播的核心原則,。其主要思想是,,大腦可以通過使用反向連接來引發(fā)神經(jīng)元活動(dòng)從而計(jì)算有效的突觸更新,而這些神經(jīng)元活動(dòng)將局部計(jì)算出的差異編碼成類似于反向傳播的誤差信號(hào),。該研究將一組看似完全不同的學(xué)習(xí)算法放入該框架中——neural gradient representation by activity differences(NGRAD),。NGRAD 框架表明,在避開反向傳播許多有問題的實(shí)現(xiàn)要求后,,反向傳播核心原則的實(shí)現(xiàn)是可能的,。這些考慮因素可能與任何同時(shí)包含前向和反向連接的腦回路有關(guān)。盡管如此,,該研究團(tuán)隊(duì)仍然關(guān)注大腦皮層,,皮層是由其多層結(jié)構(gòu)和分層組織所定義的,因此長(zhǎng)期以來被視為具與深度網(wǎng)絡(luò)具備很多相關(guān)的架構(gòu)特征,。目前沒有直接證據(jù)表明,,大腦使用類似反向傳播的算法進(jìn)行學(xué)習(xí)。但是,,之前的研究表明,,使用反向傳播訓(xùn)練的模型可以解釋觀測(cè)到的神經(jīng)響應(yīng),如后頂葉皮層和初級(jí)運(yùn)動(dòng)皮層中的神經(jīng)元響應(yīng),。此外,,神經(jīng)科學(xué)領(lǐng)域?qū)σ曈X皮層進(jìn)行建模的研究提供了新的證據(jù)。該研究表明,,相比匹配靈長(zhǎng)目動(dòng)物視覺皮層腹側(cè)流中表征的其他模型,,使用反向傳播訓(xùn)練得到的多層分類模型性能更好(參見下圖 2)。未使用反向傳播訓(xùn)練的模型(如使用 Gabor filter 的生物啟發(fā)模型,,或使用非反向傳播優(yōu)化的網(wǎng)絡(luò))的性能不如使用反向傳播進(jìn)行優(yōu)化的網(wǎng)絡(luò),。與使用反向傳播訓(xùn)練的模型所發(fā)現(xiàn)的表征相比,未使用反向傳播模型的表征無法很好地匹配下顳葉皮層中的表征,。圖 2:使用反向傳播訓(xùn)練的網(wǎng)絡(luò)與利用視覺皮層腹側(cè)流中神經(jīng)響應(yīng)的模型的對(duì)比,。a)Cadieu 等人的研究 [58] 表明使用反向傳播訓(xùn)練的模型(藍(lán)色)比其他模型(灰色)更好地解釋下顳葉皮層(IT)中的多單元響應(yīng);b)Khaligh-Razavi 和 Kriegeskorte 的研究 [70] 表明,,具備更好分類性能的模型與 IT 表征的近似度越高,。使用反向傳播訓(xùn)練的深層網(wǎng)絡(luò)除了能夠更好地匹配大腦中的表征以外,它還可以幫助解釋感知學(xué)習(xí)中感受野變化的規(guī)模和時(shí)間,,以及在動(dòng)物和人類的某種學(xué)習(xí)過程中觀察到的階段變換,。盡管越多越多的證據(jù)表明使用反向傳播訓(xùn)練的多層網(wǎng)絡(luò)有助于解釋神經(jīng)數(shù)據(jù),但關(guān)于如何在皮層中實(shí)現(xiàn)類反向傳播的學(xué)習(xí)還有很多難題,。下列公式 1 表示反向傳播中的突觸更新:基于該公式,,該研究指出了在生物回路中實(shí)現(xiàn)反向傳播的三個(gè)主要難題。反向傳播要求前向和后向路徑具備突觸對(duì)稱性反向傳播的樸素實(shí)現(xiàn)要求通過反向連接傳播誤差信號(hào),,而反向連接的強(qiáng)度必須與前向連接一致,。從上文公式 1 中可以看到,誤差 δ_l+1 沿著后向權(quán)重 W^?_l+1 移動(dòng),,該后向權(quán)重與前向權(quán)重是對(duì)稱的,。在計(jì)算機(jī)上,反向傳播算法利用一組與前向傳播所用活動(dòng)變量完全不同的 error derivative 變量,,向后傳播誤差信息,。而將反向傳播引入大腦中后,大腦中的誤差信息可以通過不同的「誤差傳播網(wǎng)絡(luò)」(error delivery network)進(jìn)行傳播,,該反向網(wǎng)絡(luò)的每一個(gè)神經(jīng)元均攜帶前向網(wǎng)絡(luò)中對(duì)應(yīng)神經(jīng)元的更新信息,。反向傳播中的誤差信號(hào)可能出現(xiàn)極值情況在反向傳播中,通過網(wǎng)絡(luò)向后傳播用于告知更新的信息通常以 signed 誤差信號(hào) δ 的形式進(jìn)行傳輸,。在訓(xùn)練過程中,,誤差信號(hào)常常發(fā)生多個(gè)數(shù)量級(jí)的變化,,即梯度爆炸和梯度消失問題。盡管有證據(jù)表明單層結(jié)構(gòu)(如小腦)中存在 signed 誤差傳播,,但深層網(wǎng)絡(luò)(如大腦皮層)中 signed 誤差的反饋存在很多問題,。大腦中的反向連接改變了神經(jīng)活動(dòng)在誤差反向傳播中,反向連接發(fā)送的誤差信號(hào)不會(huì)影響前向傳播生成神經(jīng)元的活動(dòng)狀態(tài),。但是通過 δ 傳播的信息僅對(duì)突觸更新造成影響,。因此,大腦中反向連接的作用發(fā)生本質(zhì)變化,。例如在皮層中,,反向連接影響前向傳播生成的神經(jīng)活動(dòng),而這些活動(dòng)用于執(zhí)行多個(gè)功能,。又例如,,通過反向連接執(zhí)行自上而下的控制與增益控制(gain control)有一定關(guān)聯(lián),即神經(jīng)響應(yīng)的增強(qiáng)或抑制取決于對(duì)視場(chǎng)中特定特征的關(guān)注,。有趣的是,,大腦皮層中的反向連接還可以驅(qū)動(dòng)活動(dòng),而不只是調(diào)整或激活活動(dòng),。利用神經(jīng)活動(dòng)差異來編碼誤差研究者將利用活動(dòng)狀態(tài)差異來驅(qū)動(dòng)突觸變化的學(xué)習(xí)機(jī)制稱為 NGRAD,,而皮層利用 NGRAD 機(jī)制來執(zhí)行對(duì)梯度下降近似的想法被稱為 NGRAD 假設(shè)。該假設(shè)的主要魅力在于,,它不再需要傳播兩種類型截然不同的參數(shù):活動(dòng)和 error derivative。相反,,NGRAD 機(jī)制基于這樣一種 idea,,即來自一個(gè)目標(biāo)、另一種形態(tài)或更大空間或時(shí)間背景的較高級(jí)活動(dòng),,可以推動(dòng)較低級(jí)活動(dòng)得到與較高級(jí)活動(dòng)或期望輸出更一致的值,。然后,較低級(jí)活動(dòng)中出現(xiàn)的變化可以僅使用局部可用信號(hào)來計(jì)算反向傳播的權(quán)重更新,。因此,,其核心理念是自上而下驅(qū)動(dòng)(top-down-driven)的活動(dòng)可以在層間不出現(xiàn)明顯誤差信息的情況下驅(qū)動(dòng)學(xué)習(xí)。目標(biāo)傳播是深度學(xué)習(xí)中使用一系列自編碼器的基礎(chǔ)理念,,下圖 3a 展示了目標(biāo)傳播的流程圖:圖 3:目標(biāo)傳播算法,。a)在每一層使用完美反函數(shù) g_l=f_l^-1(.) 的目標(biāo)傳播原理圖;b)差異目標(biāo)傳播有助于糾正反向連接或許無法實(shí)現(xiàn)完美反函數(shù)的事實(shí),;c)單層差異目標(biāo)傳播原理圖,。前向突觸權(quán)重的更新旨在促使 forward-pass 隱藏活動(dòng)更接近修正后的隱藏目標(biāo)。上文中描述的目標(biāo)傳播使用完美的自編碼器將目標(biāo)傳達(dá)至較早出現(xiàn)的層,。這個(gè)約束是不切實(shí)際的,,但可以通過訓(xùn)練后向權(quán)重來修復(fù),。在前向傳遞過程中,研究者力圖基于后續(xù)層中的活動(dòng)來重建神經(jīng)活動(dòng):? h= g_l+1(h_l+1)(如圖 3b 中淺紫色箭頭所示)此學(xué)習(xí)過程稱為差異目標(biāo)傳播(difference target propagation,,DTP),,并在圖 3b 和 c 中與逐層權(quán)重更新一起顯示。大腦如何近似反向傳播,,現(xiàn)有的 NGRAD 或許能提供高級(jí)見解,,但是關(guān)于如何在神經(jīng)組織中實(shí)現(xiàn)這種算法仍有許多疑問。為了在神經(jīng)回路中發(fā)揮作用,,NGRAD 必須具備以下能力:協(xié)調(diào)前向和反向路徑之間的交互,、計(jì)算神經(jīng)活動(dòng)模式之間的差異以及利用這一差異進(jìn)行適當(dāng)?shù)耐挥|更新。當(dāng)前,,尚不清楚生物回路如何支持這些操作,,但最近的實(shí)證研究提出了針對(duì)這些實(shí)現(xiàn)所需的一組潛在解決方案(下圖 4)。圖 4:大腦如何近似反向傳播算法,,近期的實(shí)證研究提供了新思路,。
|