用反向傳播算法解釋大腦學(xué)習(xí)過程,？Hinton 等人新研究登上 Nature 子刊

taotao_2016 2020-04-19

展開全文

機(jī)器之心報(bào)道

魔王、Jamin,、杜偉

反向傳播可以解釋大腦學(xué)習(xí)嗎,？近日 Hinton 等人的研究認(rèn)為，盡管大腦可能未實(shí)現(xiàn)字面形式的反向傳播,，但是反向傳播的部分特征與理解大腦中的學(xué)習(xí)具備很強(qiáng)的關(guān)聯(lián)性,。該研究將之前的相關(guān)研究置于「NGRAD」框架下，NGRAD 算法利用活動(dòng)狀態(tài)的差異驅(qū)動(dòng)突觸更新,，這與反向傳播類似,。

加拿大 CIFAR 人工智能主席、麥吉爾大學(xué)生物工程系教授 Danilo Bzdok 轉(zhuǎn)發(fā)了該研究,。

在學(xué)習(xí)過程中,，大腦會(huì)調(diào)整突觸以優(yōu)化行為。在皮層中,，突觸嵌入在多層網(wǎng)絡(luò)中,，這導(dǎo)致我們難以確定單個(gè)突觸的調(diào)整對(duì)整個(gè)系統(tǒng)行為的影響。而反向傳播算法在深度神經(jīng)網(wǎng)絡(luò)中解決了上述問題,，不過長(zhǎng)期以來人們一直認(rèn)為反向傳播在生物層面上存在問題,。

盡管如此，神經(jīng)科學(xué)的最新發(fā)展和神經(jīng)網(wǎng)絡(luò)的成功激活了人們對(duì)反向傳播能否幫助進(jìn)一步了解皮層學(xué)習(xí)的興趣,。反向傳播算法使用反向連接（feedback connection）傳遞誤差信號(hào),，來計(jì)算突觸更新，從而實(shí)現(xiàn)快速學(xué)習(xí),。盡管反向連接在皮層中無處不在,，但我們很難觀察到它們是如何傳遞反向傳播所需誤差信號(hào)的。

近日，來自 DeepMind,、牛津大學(xué)和谷歌大腦的 Timothy P. Lillicrap,、Adam Santoro、Geoffrey Hinton 等人在 Nature 子刊《Nature Reviews Neuroscience》發(fā)表文章,。該研究以過去和近期的研究發(fā)展為基礎(chǔ),，認(rèn)為反向連接可能會(huì)引發(fā)神經(jīng)活動(dòng)，而其中的差異可用于局部逼近誤差信號(hào),，從而促進(jìn)大腦深層網(wǎng)絡(luò)中的有效學(xué)習(xí),。

大腦對(duì)反向傳播算法的近似,。

論文地址：https://www./articles/s41583-020-0277-3

引言

大腦通過調(diào)整神經(jīng)元之間的突觸連接來進(jìn)行學(xué)習(xí),。盡管突觸生理學(xué)可以幫助解釋單個(gè)突觸調(diào)整背后的規(guī)則和過程,，但這并不能解釋突觸調(diào)整是如何協(xié)調(diào)進(jìn)而實(shí)現(xiàn)網(wǎng)絡(luò)目標(biāo)的,。

學(xué)習(xí)不能只是對(duì)局部突觸特定事件的盲目累積,，也不能不考慮下游行為后果,。因此,，想要了解大腦中的學(xué)習(xí)過程,，就必須揭示在整個(gè)網(wǎng)絡(luò)中協(xié)調(diào)可塑性的原則,。

在機(jī)器學(xué)習(xí)領(lǐng)域中,，研究人員探索協(xié)調(diào)突觸更新的方法，以提高神經(jīng)網(wǎng)絡(luò)的性能,，同時(shí)不受生物現(xiàn)實(shí)情況的限制,。

他們首先定義了神經(jīng)網(wǎng)絡(luò)的整體架構(gòu)，包括大量神經(jīng)元及其連接方式,。例如,，研究人員經(jīng)常使用包含多層神經(jīng)元的深層網(wǎng)絡(luò)，因?yàn)檠芯孔C明這些架構(gòu)對(duì)于多項(xiàng)任務(wù)都非常有效,。

接下來,，定義一個(gè)誤差函數(shù)，用于量化當(dāng)前網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)的程度,，進(jìn)而搜索學(xué)習(xí)算法來計(jì)算那些可以減少誤差的突觸變化（如下圖 1）,。

圖 1：多種學(xué)習(xí)算法圖示。a）從左到右：神經(jīng)網(wǎng)絡(luò)通過一系列簡(jiǎn)單的計(jì)算單元來計(jì)算輸出,。b）在規(guī)定突觸變化特異性的譜系中,，反向傳播和擾動(dòng)算法的位置。c）該譜系上的算法以不同的速度進(jìn)行學(xué)習(xí),。

在機(jī)器學(xué)習(xí)中,，誤差反向傳播（backprop）是深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中最常用的算法，也是這些神經(jīng)網(wǎng)絡(luò)中最成功的學(xué)習(xí)步驟,。

反向傳播算法描述見下圖：

反向傳播算法的核心是對(duì)整個(gè)網(wǎng)絡(luò)所有可能的路徑重復(fù)使用鏈?zhǔn)椒▌t,。反向傳播算法真正強(qiáng)大的地方在于它是動(dòng)態(tài)規(guī)劃的,，我們可以重復(fù)使用中間結(jié)果計(jì)算梯度下降。因?yàn)樗峭ㄟ^神經(jīng)網(wǎng)絡(luò)由后向前傳播誤差,，并優(yōu)化每一個(gè)神經(jīng)節(jié)點(diǎn)之間的權(quán)重,，所以這種算法就稱之為反向傳播算法（backpropagation algorithm）。

經(jīng)過反向傳播訓(xùn)練的網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)近期成功案例的核心,，包括最領(lǐng)先的語音識(shí)別,、圖像識(shí)別以及語言翻譯。反向傳播還支撐了無監(jiān)督學(xué)習(xí)方面的最新進(jìn)展,，例如圖像和語音生成,、語言建模和其他相關(guān)的預(yù)測(cè)任務(wù)。此外,，反向傳播和強(qiáng)化學(xué)習(xí)的組合在解決控制問題方面也取得了重大進(jìn)展,，例如玩轉(zhuǎn) Atari 游戲，在圍棋和撲克游戲中擊敗人類頂尖的專業(yè)選手,。

反向傳播通過反向連接發(fā)送的誤差信號(hào)來調(diào)整突觸，該經(jīng)典方法已在監(jiān)督學(xué)習(xí)設(shè)置中有詳細(xì)描述,。

然而,，大腦似乎將反向連接用于不同目的，而且主要以無監(jiān)督的方式進(jìn)行學(xué)習(xí),，為原始感官輸入中的隱式表征構(gòu)建顯式結(jié)構(gòu)從而建立表征,。那么，我們很自然地就會(huì)想到這個(gè)問題：反向傳播算法是否可以幫助我們了解更多有關(guān)大腦學(xué)習(xí)的信息,？

該研究認(rèn)為,，盡管存在明顯的差異，但大腦仍有能力實(shí)現(xiàn)反向傳播的核心原則,。其主要思想是,，大腦可以通過使用反向連接來引發(fā)神經(jīng)元活動(dòng)從而計(jì)算有效的突觸更新，而這些神經(jīng)元活動(dòng)將局部計(jì)算出的差異編碼成類似于反向傳播的誤差信號(hào),。

該研究將一組看似完全不同的學(xué)習(xí)算法放入該框架中——neural gradient representation by activity differences（NGRAD）,。

NGRAD 框架表明，在避開反向傳播許多有問題的實(shí)現(xiàn)要求后,，反向傳播核心原則的實(shí)現(xiàn)是可能的,。這些考慮因素可能與任何同時(shí)包含前向和反向連接的腦回路有關(guān)。盡管如此,，該研究團(tuán)隊(duì)仍然關(guān)注大腦皮層,，皮層是由其多層結(jié)構(gòu)和分層組織所定義的，因此長(zhǎng)期以來被視為具與深度網(wǎng)絡(luò)具備很多相關(guān)的架構(gòu)特征,。

大腦中是否存在反向傳播,？

目前沒有直接證據(jù)表明,，大腦使用類似反向傳播的算法進(jìn)行學(xué)習(xí)。但是,，之前的研究表明,，使用反向傳播訓(xùn)練的模型可以解釋觀測(cè)到的神經(jīng)響應(yīng)，如后頂葉皮層和初級(jí)運(yùn)動(dòng)皮層中的神經(jīng)元響應(yīng),。此外,，神經(jīng)科學(xué)領(lǐng)域?qū)σ曈X皮層進(jìn)行建模的研究提供了新的證據(jù)。

該研究表明,，相比匹配靈長(zhǎng)目動(dòng)物視覺皮層腹側(cè)流中表征的其他模型,，使用反向傳播訓(xùn)練得到的多層分類模型性能更好（參見下圖 2）。

未使用反向傳播訓(xùn)練的模型（如使用 Gabor filter 的生物啟發(fā)模型,，或使用非反向傳播優(yōu)化的網(wǎng)絡(luò)）的性能不如使用反向傳播進(jìn)行優(yōu)化的網(wǎng)絡(luò),。與使用反向傳播訓(xùn)練的模型所發(fā)現(xiàn)的表征相比，未使用反向傳播模型的表征無法很好地匹配下顳葉皮層中的表征,。

圖 2：使用反向傳播訓(xùn)練的網(wǎng)絡(luò)與利用視覺皮層腹側(cè)流中神經(jīng)響應(yīng)的模型的對(duì)比,。a）Cadieu 等人的研究 [58] 表明使用反向傳播訓(xùn)練的模型（藍(lán)色）比其他模型（灰色）更好地解釋下顳葉皮層（IT）中的多單元響應(yīng)；b）Khaligh-Razavi 和 Kriegeskorte 的研究 [70] 表明,，具備更好分類性能的模型與 IT 表征的近似度越高,。

使用反向傳播訓(xùn)練的深層網(wǎng)絡(luò)除了能夠更好地匹配大腦中的表征以外，它還可以幫助解釋感知學(xué)習(xí)中感受野變化的規(guī)模和時(shí)間,，以及在動(dòng)物和人類的某種學(xué)習(xí)過程中觀察到的階段變換,。

反向傳播自身的問題

盡管越多越多的證據(jù)表明使用反向傳播訓(xùn)練的多層網(wǎng)絡(luò)有助于解釋神經(jīng)數(shù)據(jù)，但關(guān)于如何在皮層中實(shí)現(xiàn)類反向傳播的學(xué)習(xí)還有很多難題,。下列公式 1 表示反向傳播中的突觸更新：

基于該公式,，該研究指出了在生物回路中實(shí)現(xiàn)反向傳播的三個(gè)主要難題。

反向傳播要求前向和后向路徑具備突觸對(duì)稱性

反向傳播的樸素實(shí)現(xiàn)要求通過反向連接傳播誤差信號(hào),，而反向連接的強(qiáng)度必須與前向連接一致,。從上文公式 1 中可以看到，誤差 δ_l+1 沿著后向權(quán)重 W^?_l+1 移動(dòng),，該后向權(quán)重與前向權(quán)重是對(duì)稱的,。

在計(jì)算機(jī)上，反向傳播算法利用一組與前向傳播所用活動(dòng)變量完全不同的 error derivative 變量,，向后傳播誤差信息,。而將反向傳播引入大腦中后，大腦中的誤差信息可以通過不同的「誤差傳播網(wǎng)絡(luò)」（error delivery network）進(jìn)行傳播,，該反向網(wǎng)絡(luò)的每一個(gè)神經(jīng)元均攜帶前向網(wǎng)絡(luò)中對(duì)應(yīng)神經(jīng)元的更新信息,。

反向傳播中的誤差信號(hào)可能出現(xiàn)極值情況

在反向傳播中，通過網(wǎng)絡(luò)向后傳播用于告知更新的信息通常以 signed 誤差信號(hào) δ 的形式進(jìn)行傳輸,。在訓(xùn)練過程中,，誤差信號(hào)常常發(fā)生多個(gè)數(shù)量級(jí)的變化,，即梯度爆炸和梯度消失問題。

盡管有證據(jù)表明單層結(jié)構(gòu)（如小腦）中存在 signed 誤差傳播,，但深層網(wǎng)絡(luò)（如大腦皮層）中 signed 誤差的反饋存在很多問題,。

大腦中的反向連接改變了神經(jīng)活動(dòng)

在誤差反向傳播中，反向連接發(fā)送的誤差信號(hào)不會(huì)影響前向傳播生成神經(jīng)元的活動(dòng)狀態(tài),。但是通過 δ 傳播的信息僅對(duì)突觸更新造成影響,。因此，大腦中反向連接的作用發(fā)生本質(zhì)變化,。例如在皮層中,，反向連接影響前向傳播生成的神經(jīng)活動(dòng)，而這些活動(dòng)用于執(zhí)行多個(gè)功能,。又例如,，通過反向連接執(zhí)行自上而下的控制與增益控制（gain control）有一定關(guān)聯(lián)，即神經(jīng)響應(yīng)的增強(qiáng)或抑制取決于對(duì)視場(chǎng)中特定特征的關(guān)注,。有趣的是,，大腦皮層中的反向連接還可以驅(qū)動(dòng)活動(dòng)，而不只是調(diào)整或激活活動(dòng),。

NGRAD 假設(shè)

利用神經(jīng)活動(dòng)差異來編碼誤差

研究者將利用活動(dòng)狀態(tài)差異來驅(qū)動(dòng)突觸變化的學(xué)習(xí)機(jī)制稱為 NGRAD,，而皮層利用 NGRAD 機(jī)制來執(zhí)行對(duì)梯度下降近似的想法被稱為 NGRAD 假設(shè)。該假設(shè)的主要魅力在于,，它不再需要傳播兩種類型截然不同的參數(shù)：活動(dòng)和 error derivative。

相反,，NGRAD 機(jī)制基于這樣一種 idea,，即來自一個(gè)目標(biāo)、另一種形態(tài)或更大空間或時(shí)間背景的較高級(jí)活動(dòng),，可以推動(dòng)較低級(jí)活動(dòng)得到與較高級(jí)活動(dòng)或期望輸出更一致的值,。然后，較低級(jí)活動(dòng)中出現(xiàn)的變化可以僅使用局部可用信號(hào)來計(jì)算反向傳播的權(quán)重更新,。因此,，其核心理念是自上而下驅(qū)動(dòng)（top-down-driven）的活動(dòng)可以在層間不出現(xiàn)明顯誤差信息的情況下驅(qū)動(dòng)學(xué)習(xí)。

目標(biāo)傳播

目標(biāo)傳播是深度學(xué)習(xí)中使用一系列自編碼器的基礎(chǔ)理念,，下圖 3a 展示了目標(biāo)傳播的流程圖：

圖 3：目標(biāo)傳播算法,。a）在每一層使用完美反函數(shù) g_l=f_l^-1(.) 的目標(biāo)傳播原理圖；b）差異目標(biāo)傳播有助于糾正反向連接或許無法實(shí)現(xiàn)完美反函數(shù)的事實(shí),；c）單層差異目標(biāo)傳播原理圖,。前向突觸權(quán)重的更新旨在促使 forward-pass 隱藏活動(dòng)更接近修正后的隱藏目標(biāo)。

差異目標(biāo)傳播

上文中描述的目標(biāo)傳播使用完美的自編碼器將目標(biāo)傳達(dá)至較早出現(xiàn)的層,。這個(gè)約束是不切實(shí)際的,，但可以通過訓(xùn)練后向權(quán)重來修復(fù),。在前向傳遞過程中，研究者力圖基于后續(xù)層中的活動(dòng)來重建神經(jīng)活動(dòng)：? h= g_l+1(h_l+1)（如圖 3b 中淺紫色箭頭所示）

此學(xué)習(xí)過程稱為差異目標(biāo)傳播（difference target propagation,，DTP）,，并在圖 3b 和 c 中與逐層權(quán)重更新一起顯示。

實(shí)現(xiàn)

大腦如何近似反向傳播,，現(xiàn)有的 NGRAD 或許能提供高級(jí)見解,，但是關(guān)于如何在神經(jīng)組織中實(shí)現(xiàn)這種算法仍有許多疑問。

為了在神經(jīng)回路中發(fā)揮作用,，NGRAD 必須具備以下能力：協(xié)調(diào)前向和反向路徑之間的交互,、計(jì)算神經(jīng)活動(dòng)模式之間的差異以及利用這一差異進(jìn)行適當(dāng)?shù)耐挥|更新。

當(dāng)前,，尚不清楚生物回路如何支持這些操作,，但最近的實(shí)證研究提出了針對(duì)這些實(shí)現(xiàn)所需的一組潛在解決方案（下圖 4）。

圖 4：大腦如何近似反向傳播算法,，近期的實(shí)證研究提供了新思路,。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： taotao_2016 > 《歷史》

舉報(bào)/認(rèn)領(lǐng)