【原】如果深度學(xué)習(xí)是答案，那么問題是什么,？

思影科技 2022-12-24 發(fā)布于重慶

展開全文

機(jī)器學(xué)習(xí)和人工智能研究的最新進(jìn)展為神經(jīng)計算開辟了新的思路,。許多研究人員對深度神經(jīng)網(wǎng)絡(luò)可能提供知覺、認(rèn)知和行動的大腦神經(jīng)理論的可能性感興趣,。這種方法有可能從根本上重塑我們理解神經(jīng)系統(tǒng)的方法,，因?yàn)樯疃染W(wǎng)絡(luò)執(zhí)行的計算是從經(jīng)驗(yàn)中學(xué)習(xí)的，而不是由研究人員賦予的,。如果是這樣,，神經(jīng)科學(xué)家如何使用深度網(wǎng)絡(luò)來建模和理解生物大腦?對于那些試圖描述計算或神經(jīng)代碼的特征,，或者希望理解感知,、注意力,、記憶和執(zhí)行功能的神經(jīng)科學(xué)家來說，他們的前景如何?從這個角度來看,，我們的目標(biāo)是為深度學(xué)習(xí)時代的系統(tǒng)神經(jīng)科學(xué)研究提供一個路線圖,。我們討論了在人工和生物系統(tǒng)中比較行為、學(xué)習(xí)動力學(xué)和神經(jīng)表征的概念和方法上的挑戰(zhàn),，并強(qiáng)調(diào)了作為機(jī)器學(xué)習(xí)最新進(jìn)展的直接結(jié)果而出現(xiàn)的神經(jīng)科學(xué)新研究問題,。本文發(fā)表在Nature Reviews Neuroscience雜志。

介紹

近年來,，在深度學(xué)習(xí)的進(jìn)步推動下,，人們對人工智能(AI)研究進(jìn)展的樂觀急劇回升。“深度學(xué)習(xí)”是一種用于構(gòu)建多層神經(jīng)網(wǎng)絡(luò)的方法,，用于解決監(jiān)督分類,、生成建模或強(qiáng)化學(xué)習(xí)中的挑戰(zhàn)性問題,。最近的文獻(xiàn)中有大量對生物系統(tǒng)和人工系統(tǒng)的行為和活性的比較,，并在越來越多的綜述文章中進(jìn)行了總結(jié)。

從這個角度來看,，我們評估了神經(jīng)科學(xué)和人工智能研究之間的新一波協(xié)同所帶來的機(jī)遇和挑戰(zhàn),。我們首先考慮最近的一些建議，這些建議試圖將神經(jīng)理論重新定義為深度學(xué)習(xí)問題,。我們評估了現(xiàn)有的結(jié)果,，表明深度網(wǎng)絡(luò)以類似生物代理的方式形成表征或表現(xiàn)行為，并考慮了一系列受深度學(xué)習(xí)啟發(fā)的新問題,。在此過程中,，我們強(qiáng)調(diào)了通常支撐深度學(xué)習(xí)模型的特定可證偽假設(shè)，包括使用感知,、記憶,、推理和控制過程領(lǐng)域的知識。我們指出了將大腦表示和復(fù)雜深度學(xué)習(xí)架構(gòu)相關(guān)聯(lián)的局限性,，并主張關(guān)注學(xué)習(xí)軌跡和復(fù)雜行為,。最后，我們討論了深度網(wǎng)絡(luò)理論如何提供解釋和理解,。通過這樣做,，我們認(rèn)為，深度網(wǎng)絡(luò)可以而且應(yīng)該被用來提供新一代的可證偽理論,，說明人類和其他動物是如何思考,、學(xué)習(xí)和行為的。

新連接主義

神經(jīng)網(wǎng)絡(luò)可以作為神經(jīng)計算理論的想法并不新鮮。在20世紀(jì)80年代的并行分布式處理中,，心理學(xué)家和計算機(jī)科學(xué)家提出神經(jīng)網(wǎng)絡(luò)可以解決感知,、記憶和語言方面的關(guān)鍵問題。當(dāng)代深度網(wǎng)絡(luò)類似于放大的連接主義模型,。因此,，人們可能很容易將當(dāng)前圍繞神經(jīng)科學(xué)深度學(xué)習(xí)模型視為對早期想法的重提。然而,，許多研究人員認(rèn)為,，深度學(xué)習(xí)模型有可能從根本上重塑神經(jīng)理論，并為神經(jīng)科學(xué)和AI研究之間的共生研究開辟新的途徑,。這是因?yàn)楫?dāng)代深度網(wǎng)絡(luò)是建立在準(zhǔn)自然主義的感覺信號(如圖像像素或聽覺譜圖)基礎(chǔ)上的,，這使它們能夠執(zhí)行比以前可能的復(fù)雜得多的任務(wù)。因此,，當(dāng)代深度網(wǎng)絡(luò)可以在類似于我們自己的感官生態(tài)中學(xué)習(xí)“端到端”(即不需要研究人員干預(yù))：用于監(jiān)督學(xué)習(xí)和生成建模的自然聲音和場景,，以及用于深度強(qiáng)化學(xué)習(xí)的具有現(xiàn)實(shí)物理的3D環(huán)境。這種端到端的生物功能模型的出現(xiàn),，使研究人員能夠第一次嘗試模擬能夠解決現(xiàn)實(shí)世界問題的神經(jīng)計算,。

網(wǎng)絡(luò)在復(fù)雜的現(xiàn)實(shí)世界任務(wù)中具有高性能，這使得機(jī)器學(xué)習(xí)和神經(jīng)科學(xué)的交叉領(lǐng)域最近取得了許多進(jìn)展,。例如,，一個主要的研究方向檢查了由監(jiān)督深度網(wǎng)絡(luò)形成的表示，這些網(wǎng)絡(luò)被訓(xùn)練為在自然場景中標(biāo)記物體(圖1),。一個引人注目的觀察是,，在將梯度下降與一些簡單的計算原理相結(jié)合的網(wǎng)絡(luò)中，可以出現(xiàn)生物學(xué)上合理的神經(jīng)表示(梯度下降是一種訓(xùn)練方法,，其中權(quán)重被逐步調(diào)整,，以鼓勵網(wǎng)絡(luò)輸出朝向一個目標(biāo))。當(dāng)深度網(wǎng)絡(luò)被賦予包括局部連通性,、卷積,、池化和歸一化等屬性時，早期層獲得了簡單的方向和空間頻率過濾器,，就像初級視覺皮層中的神經(jīng)元(圖1a)一樣,，而在更深的層中，對象和類別的神經(jīng)表征的分布和相似結(jié)構(gòu)類似于靈長類動物腹側(cè)流中的分布和相似結(jié)構(gòu)(圖1b,d),。值得注意的是,，在更準(zhǔn)確地執(zhí)行對象識別的網(wǎng)絡(luò)中，表征等價性可能更強(qiáng)(圖1e),。這些發(fā)現(xiàn)的一個推論是,，在人類和其他動物身上觀察到的復(fù)雜行為和結(jié)構(gòu)化神經(jīng)表征可能來自有限的計算原理集,，只要輸入數(shù)據(jù)足夠豐富，網(wǎng)絡(luò)得到適當(dāng)優(yōu)化,。

圖1 神經(jīng)網(wǎng)絡(luò)和靈長類大腦之間的表征等價,。該圖總結(jié)了深度網(wǎng)絡(luò)和生物大腦之間的表征對應(yīng)的證據(jù)。

(a)左圖：哺乳動物初級視覺皮層(V1)簡單和復(fù)雜細(xì)胞接受域示意圖,。右圖：在深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的第一個隱藏層中學(xué)習(xí)的示例過濾器。表征相似性分析是一種方法,，通過這種方法,，可以評估群體對每種刺激(在本例中是人臉、蜜蜂,、樹葉和球的圖像)的反應(yīng)的相似性,。

(b)代表性相似矩陣的例子，說明了由靈長類動物大腦早期視覺區(qū)域的物體引起的群體活動的相似性(藍(lán)色表示相似,，紅色表示不相似)(左,，電生理學(xué)記錄)和深層CNN的中間層(右)。

(c)對一系列自然圖像(深藍(lán)色軌跡)的假設(shè)神經(jīng)放電速率和相應(yīng)的假設(shè)活動預(yù)測為神經(jīng)網(wǎng)絡(luò)活動的線性變換(淺藍(lán)色軌跡),。

(d)表征相似矩陣,，如b部分，但比較下顳皮層(IT)與CNN的最后一層,。

(e)說明IT信號中解釋的方差與偽隨機(jī)生成神經(jīng)網(wǎng)絡(luò)的分類精度之間的關(guān)系,，這些神經(jīng)網(wǎng)絡(luò)被訓(xùn)練為最大化分類性能(淺藍(lán)色線)或最大化神經(jīng)信號中解釋的方差(深藍(lán)色線)。

(f)左:點(diǎn)運(yùn)動分類任務(wù)中記錄的獼猴側(cè)頂內(nèi)區(qū)(LIP)神經(jīng)信號的狀態(tài)空間分析,。紅色和藍(lán)色線表示不同類別的不同運(yùn)動方向,。右:對循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的隱藏單元進(jìn)行了相同的分析。

(g)左:在進(jìn)行長間隔或短間再現(xiàn)任務(wù)時,，對獼猴背內(nèi)側(cè)前額葉皮層(DMPFC)記錄的神經(jīng)信號進(jìn)行狀態(tài)空間分析,。右圖:對RNN的隱藏單元進(jìn)行了相同的分析。

深度學(xué)習(xí)框架

“深度學(xué)習(xí)框架”鼓勵研究人員避免對神經(jīng)計算進(jìn)行明確的描述(例如,，人為制作的調(diào)諧曲線和人為設(shè)計的網(wǎng)絡(luò)連接的模擬神經(jīng)元如何實(shí)現(xiàn)某種功能),。相反，它提出研究人員的角色是指定整體網(wǎng)絡(luò)架構(gòu),、學(xué)習(xí)規(guī)則和代理函數(shù),，這樣就放棄了對計算微觀結(jié)構(gòu)的控制，而是在網(wǎng)絡(luò)訓(xùn)練過程中有機(jī)地出現(xiàn),。這個提議提出了一個問題：神經(jīng)計算是否有足夠的可解釋性,。一個相關(guān)的提議將神經(jīng)網(wǎng)絡(luò)中計算的優(yōu)化與進(jìn)化中生物形式的優(yōu)化進(jìn)行了類比:在這兩種情況下，可解釋的功能適應(yīng)都出現(xiàn)了,，而沒有對搜索過程施加有意義的約束,。換句話說,，有人聲稱神經(jīng)系統(tǒng)從根本上是不可解釋的，知覺和認(rèn)知的結(jié)構(gòu)化理論只是“故事”,，它更接近地反映了研究人員對意義的追求,，而不是神經(jīng)計算的現(xiàn)實(shí)。

還有人聲稱,，將大腦建模為神經(jīng)網(wǎng)絡(luò)可以減輕研究人員詳盡記錄和解釋單個神經(jīng)元的編碼屬性的負(fù)擔(dān),。隨著方法學(xué)的進(jìn)步，可以同時記錄大量神經(jīng)元,，神經(jīng)表征在人群中實(shí)現(xiàn)動態(tài)多路復(fù)用,。從這個角度來看，單個神經(jīng)元編碼多個實(shí)驗(yàn)變量及其相互作用,，表現(xiàn)出非線性混合選擇性,。盡管對總體編碼的關(guān)注是獨(dú)立于對深度學(xué)習(xí)日益增長的興趣之外出現(xiàn)的，但混合選擇性通常是深度網(wǎng)絡(luò)模型編碼的一個標(biāo)志,。在大腦中,，這種傾向似乎在支持工作記憶和行動選擇的高級皮層區(qū)域最為明顯，如頂葉皮層和前額葉皮層,。在這些區(qū)域中,，單個神經(jīng)元的編碼屬性可能是高度異質(zhì)的，并且在給定的試驗(yàn)過程中以令人迷惑的方式變化,。然而,，當(dāng)在種群水平上檢查神經(jīng)活動時，例如,，使用降維—神經(jīng)模式出現(xiàn),，就可以有意義地區(qū)分實(shí)驗(yàn)變量。

另一個關(guān)鍵的觀察結(jié)果是,，當(dāng)同樣的分析應(yīng)用于循環(huán)神經(jīng)網(wǎng)絡(luò)中的單元激活時,，可以重新創(chuàng)建這些群體活動的模式，這些神經(jīng)網(wǎng)絡(luò)被訓(xùn)練來評估時變決策證據(jù)(圖1f),，判斷時間間隔的長度(圖1g)或在延遲周期上保持信息,。因此，從零開始訓(xùn)練的深度循環(huán)神經(jīng)網(wǎng)絡(luò)越來越多地被提出作為感覺運(yùn)動集成和工作記憶的計算理論,。在工作記憶領(lǐng)域,，一個特別有趣的新研究方向使用循環(huán)網(wǎng)絡(luò)來解決系統(tǒng)神經(jīng)科學(xué)中的一個關(guān)鍵問題，即存儲信息的代碼應(yīng)該是靜態(tài)的還是動態(tài)的,。這項工作促成了這樣一種說法:描述單個細(xì)胞的編碼特性或推斷它們?nèi)绾螀⑴c計算是徒勞的,。有人認(rèn)為計算模型只能在人的總水平上解釋，最終是由網(wǎng)絡(luò)的結(jié)構(gòu)和優(yōu)化方式驅(qū)動的,。

總之,，這些發(fā)現(xiàn)可以證明,，試圖解釋單個神經(jīng)元或局部大腦區(qū)域的計算是徒勞的，而對神經(jīng)計算的有意義的描述更好地由機(jī)器學(xué)習(xí)模型的設(shè)計選擇或超參數(shù)設(shè)置來給出,。

從框架到假設(shè)

深度學(xué)習(xí)框架給出了強(qiáng)大的新工具,，可以用于對目前系統(tǒng)神經(jīng)科學(xué)中常規(guī)記錄的大量數(shù)據(jù)進(jìn)行建模。然而,，我們希望,，對于深度網(wǎng)絡(luò)作為計算模型的熱情，能夠冷靜地考慮如何有效地部署它們來理解神經(jīng)機(jī)制和認(rèn)知功能,。也就是說,，如果深度學(xué)習(xí)是答案，神經(jīng)科學(xué)家最終應(yīng)該問的問題是什么?

深度學(xué)習(xí)框架的一個優(yōu)點(diǎn)是它的通用性:它為研究跨功能,、物種和大腦區(qū)域的計算提供了統(tǒng)一的視野,。然而,，它還沒有為系統(tǒng)神經(jīng)科學(xué)研究提供一個具體的路線圖,。如果神經(jīng)計算通過盲目的、無約束的優(yōu)化而不受控制地使用,，神經(jīng)科學(xué)家如何制定關(guān)于大腦功能的新的,、可驗(yàn)證的假設(shè)?有一些證據(jù)表明，更明智的深度網(wǎng)絡(luò)設(shè)計選擇可能會使其與生物學(xué)更接近,。例如,，添加循環(huán)連接可以提高與神經(jīng)數(shù)據(jù)的契合度，特別是對于那些難以分類的自然圖像和刺激后時間點(diǎn),，而添加生物學(xué)上看似合理的前端(“視網(wǎng)膜網(wǎng)”)則有助于形成真實(shí)的編碼屬性,，包括在丘腦中發(fā)現(xiàn)的細(xì)胞類型。然而,，總的來說,，我們?nèi)狈ψ龀鲞@種設(shè)計選擇的總體指導(dǎo)原則。在機(jī)器學(xué)習(xí)研究中,，網(wǎng)絡(luò)很少在構(gòu)建時考慮到生物學(xué)的合理性,，因此在如何使用它們來建模神經(jīng)系統(tǒng)方面，之前的指導(dǎo)相對較少,。此外,，理解深度網(wǎng)絡(luò)中從設(shè)計到性能的映射是具有挑戰(zhàn)性的，這可能是為什么人工智能在進(jìn)行可解釋或公開假設(shè)驅(qū)動的研究方面的記錄相對較差的原因,，它更傾向于關(guān)注系統(tǒng)是否有效,，而不是它為什么有效。

在最壞的情況下,，深度學(xué)習(xí)框架面臨著神經(jīng)科學(xué)的生存挑戰(zhàn),。該研究項目要求研究人員記錄不同的架構(gòu)或算法如何鼓勵深度網(wǎng)絡(luò)形成語義上有意義的表示或表現(xiàn)出復(fù)雜的行為,，就像人類和其他動物所做的那樣。這種努力聽起來與當(dāng)代人工智能研究本身相似得令人懷疑,。深度學(xué)習(xí)框架似乎打破了在生物大腦中尋找神經(jīng)計算解釋的長期傳統(tǒng),。相反，它似乎提議掃除有關(guān)特定計算類別如何支撐行為的現(xiàn)有知識,，將理論神經(jīng)科學(xué)的目標(biāo)與當(dāng)代人工智能研究的目標(biāo)結(jié)合起來,。

我們認(rèn)識到深度學(xué)習(xí)框架的前景，并對神經(jīng)網(wǎng)絡(luò)模型作為神經(jīng)計算理論所提供的新可能性感到興奮,。我們相信這個框架的最強(qiáng)版本將建立在現(xiàn)有的神經(jīng)理論之上,，并將重點(diǎn)放在解釋生物大腦中的計算上。換句話說,，我們希望深度學(xué)習(xí)不僅能為神經(jīng)科學(xué)研究提供一個框架,，還能為生物網(wǎng)絡(luò)中的行為、學(xué)習(xí)動力學(xué)和神經(jīng)表征提供一套明確的假設(shè),。

深度網(wǎng)絡(luò)作為神經(jīng)模型

深度學(xué)習(xí)框架是建立在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的表示和計算類似于生物大腦的提議上的(圖2),。然而，深度網(wǎng)絡(luò)和動物大腦之間的等價性可能被夸大了,。目前,，一種流行的方法是學(xué)習(xí)從網(wǎng)絡(luò)單元到神經(jīng)元的線性映射，并在給定的數(shù)據(jù)集中評估結(jié)果回歸模型的預(yù)測有效性,。如果采用這種方法進(jìn)行圖像分類,，表現(xiàn)最好的深度網(wǎng)絡(luò)可以解釋靈長類動物下顳皮層神經(jīng)元反應(yīng)差異的60%。然而,，在圖像分類方面表現(xiàn)較差的神經(jīng)網(wǎng)絡(luò)只能解釋5%的差異,。事實(shí)上，訓(xùn)練過的網(wǎng)絡(luò)和未訓(xùn)練過的網(wǎng)絡(luò)在預(yù)測依賴于血氧水平的信號的準(zhǔn)確性方面的差異非常小—對于大多數(shù)視覺區(qū)域,，準(zhǔn)確度差異為5-10%,。人們經(jīng)常忘記，那些聲稱深度網(wǎng)絡(luò)和大腦中等價表征的里程碑式研究實(shí)際上使用的是沒有經(jīng)過梯度下降訓(xùn)練的深度網(wǎng)絡(luò),。因此,，目前還不完全清楚，現(xiàn)有的證據(jù)是否能有力地將深度學(xué)習(xí)與密集連接的多層網(wǎng)絡(luò)中更通用的計算概念區(qū)分開,。因此,，未來研究的一個重要目標(biāo)將是更嚴(yán)格和系統(tǒng)地評估深度網(wǎng)絡(luò)和生物大腦以類似方式學(xué)習(xí)的說法的準(zhǔn)確性，例如通過測量和比較學(xué)習(xí)過程中表征的變化(圖2a),。

圖2 比較深度學(xué)習(xí)和大腦的新興方法,。

(a)比較學(xué)習(xí)過程中的表征變化。上圖:在學(xué)習(xí)和發(fā)展的過程中,，行為可能會系統(tǒng)地改善(這里的圖示為減少任務(wù)上的錯誤),。下圖:實(shí)驗(yàn)可以跟蹤神經(jīng)表征在學(xué)習(xí)過程中是如何變化的,，以及這些變化是否可以由使用特定學(xué)習(xí)規(guī)則訓(xùn)練的深度網(wǎng)絡(luò)預(yù)測。比較學(xué)習(xí)軌跡可以幫助評估深度神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)過程,，而不僅僅是最終的表征是否與靈長類動物大腦中的學(xué)習(xí)過程相似,。

(b)更細(xì)粒度的行為比較。上圖:測量一個圖像對干擾對象的鑒別性,，隔離了具體由圖像驅(qū)動但不被對象預(yù)測的行為差異,。個體圖像之間的混淆模式在人類(y軸)和獼猴(靈長類區(qū)域)中是相同的。淺藍(lán)色柱狀圖顯示了基于低級視覺表示的模型的人類-性能一致性,，而深藍(lán)色柱狀圖顯示了公開可用的深度神經(jīng)網(wǎng)絡(luò)的人類-性能一致性,。下圖:在ImageNe上從頭訓(xùn)練的ResNet-50在標(biāo)準(zhǔn)彩色圖像上訓(xùn)練和測試時(左)和在加性均勻噪聲圖像上訓(xùn)練和測試時(中)的分類性能接近完美。然而,，當(dāng)它在帶有噪聲的圖像上訓(xùn)練,，并在具有均勻噪聲的圖像上測試時(右)，即使噪聲類型對人類觀察者來說似乎沒有什么不同,，性能也是不穩(wěn)定的,。

(c)深度學(xué)習(xí)模型因果檢驗(yàn)。如圖所示,，使用“閉環(huán)”實(shí)驗(yàn)設(shè)計來測試深度網(wǎng)絡(luò)的預(yù)測能力,。在一項研究中,，將自然圖像呈現(xiàn)給小鼠,，同時記錄誘發(fā)的神經(jīng)活動(右上方圖中的深藍(lán)色曲線)，并訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)來預(yù)測這種活動(右下方圖中的淺藍(lán)色曲線說明了單元1和神經(jīng)元1之間的對應(yīng)關(guān)系),。然后,，深度網(wǎng)絡(luò)被用來計算一個最大興奮的輸入圖像(MEI)，它強(qiáng)烈激活了模型中的特定神經(jīng)元,。然后將這個MEI顯示給小鼠,，并測量由此產(chǎn)生的神經(jīng)反應(yīng)(右上方圖的橙色部分)。如果深度網(wǎng)絡(luò)捕捉到從像素到神經(jīng)反應(yīng)的映射,，MEI也應(yīng)該強(qiáng)烈刺激生物神經(jīng)元,。

測試神經(jīng)信號是否是模型激活的線性轉(zhuǎn)換是一個很好的開始，但即使大腦和神經(jīng)網(wǎng)絡(luò)中的神經(jīng)模式在稀疏性或維度方面存在很大差異,，這種關(guān)系也可能存在,。通過限制映射函數(shù)自由度的方法提供了更嚴(yán)格的共享編碼測試，例如表征相似性分析,，其中表征由不同輸入引起的群活動向量之間的距離表征,。表征相似性分析揭示了大腦和網(wǎng)絡(luò)之間的表面相似性，但這種一致性可能主要是由物理上相似的刺激的共享相似性結(jié)構(gòu)驅(qū)動的,，例如面部,。為了超越相關(guān)性,，系統(tǒng)神經(jīng)科學(xué)將需要使用人工網(wǎng)絡(luò)和生物網(wǎng)絡(luò)之間預(yù)測聯(lián)系的因果分析，例如利用網(wǎng)絡(luò)激活進(jìn)行新的圖像合成(圖2c),。這種閉環(huán)實(shí)驗(yàn)設(shè)計為人工大腦和生物大腦之間的映射提供了強(qiáng)有力的測試,。

另一種測試生物系統(tǒng)和人工系統(tǒng)之間等價性的方法是研究它們的反應(yīng)模式。這是至關(guān)重要的,，因?yàn)樯窠?jīng)系統(tǒng)中的計算通?？梢栽谒鼈儺a(chǎn)生的行為的背景下被理解。很明顯,，人類和機(jī)器在物體識別的測試中會犯截然不同的錯誤,。在一項研究中，網(wǎng)絡(luò)傾向于混淆人類甚至猴子都可以安全地區(qū)分的對象類別,，例如狗和吉他,，并且人類和獼猴都有個體圖像之間的混淆模式，但深度網(wǎng)絡(luò)卻沒有(圖2b上圖),。類似地,，人類對被添加像素噪聲或帶通濾波干擾的圖像的泛化效果遠(yuǎn)比深度網(wǎng)絡(luò)好得多(圖2b下圖)，并且不太容易被故意誤導(dǎo)的圖像影響,。有一種廣泛的觀點(diǎn)認(rèn)為,，生物視覺表現(xiàn)出的魯棒性是目前有監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)所缺乏的。

到目前為止,，我們已經(jīng)論證了神經(jīng)網(wǎng)絡(luò),，特別是來自深度學(xué)習(xí)的現(xiàn)代工具，有很大的潛力來塑造我們的神經(jīng)計算理論,。然而,，我們提供了兩個謹(jǐn)慎的理由。首先,，我們應(yīng)該注意不要夸大深度網(wǎng)絡(luò)和生物系統(tǒng)之間現(xiàn)有的實(shí)驗(yàn)比較在多大程度上支持深度學(xué)習(xí)作為生物學(xué)的框架,。其次，如果我們希望使用深度學(xué)習(xí)作為神經(jīng)科學(xué)的框架,，重要的是要清楚它允許我們提出哪些新的研究問題,。如果我們希望調(diào)整學(xué)習(xí)規(guī)則或架構(gòu)來模擬生物系統(tǒng)，我們從哪里開始呢?有哪些經(jīng)驗(yàn)現(xiàn)象是深度網(wǎng)絡(luò)可以預(yù)測而經(jīng)典神經(jīng)科學(xué)的傳統(tǒng)模型不能預(yù)測的?哪些理論我們可以證實(shí)或證偽?在接下來的內(nèi)容中,，我們將采取步驟回答這些問題,。

感知的學(xué)習(xí)規(guī)則

感知為檢驗(yàn)深度學(xué)習(xí)假設(shè)的幾個方面提供了一個關(guān)鍵的機(jī)會。例如,，心理學(xué)家和神經(jīng)科學(xué)家長期以來一直在爭論知覺表征在多大程度上是由進(jìn)化預(yù)先決定的,，還是通過經(jīng)驗(yàn)習(xí)得的。例如，靈長類動物的面部表征是先天的還是后天的仍有爭議,。深度學(xué)習(xí)假設(shè)通過觀察神經(jīng)代碼是否可以從應(yīng)用于相對通用的架構(gòu)和起點(diǎn)的學(xué)習(xí)原理中產(chǎn)生,，從而重新構(gòu)建了這場辯論。一個強(qiáng)有力的候選者是梯度下降的監(jiān)督學(xué)習(xí),，在這種學(xué)習(xí)中,，表征是由關(guān)于與感官輸入相關(guān)的標(biāo)簽、名稱或類別的反饋來塑造的,。這些更復(fù)雜的學(xué)習(xí)機(jī)制的某種組合是否可以在不構(gòu)建特定領(lǐng)域內(nèi)容的情況下解釋跨模式知覺神經(jīng)反應(yīng)的全部多樣性仍有待觀察,。

深度學(xué)習(xí)的第二個需要測試的是端到端學(xué)習(xí)。評估學(xué)習(xí)規(guī)則的一種方法是評估它們在自然數(shù)據(jù)中為深度網(wǎng)絡(luò)提供豐富表示和復(fù)雜行為的能力,。然而,，這種方法具有挑戰(zhàn)性。學(xué)習(xí)可能只能適度地提高與數(shù)據(jù)的匹配,。此外,，標(biāo)準(zhǔn)的監(jiān)督模型，似乎需要大量的標(biāo)記數(shù)據(jù)量—不像人類嬰兒,，在獲得語言之前就獲得了復(fù)雜的物體理解能力,。使用梯度下降訓(xùn)練的網(wǎng)絡(luò)的另一個挑戰(zhàn)是確定一個生物學(xué)上現(xiàn)實(shí)的實(shí)現(xiàn)—也就是說，一個更新是局部的,，網(wǎng)絡(luò)中的向前和向后連接不需要對稱,。盡管機(jī)器學(xué)習(xí)研究人員為單個突觸分配信用所采用的機(jī)制曾被認(rèn)為在生物學(xué)上是不可信的，但我們現(xiàn)在有越來越多的候選實(shí)現(xiàn)需要實(shí)證測試,。

考慮到這些困難,，對不同學(xué)習(xí)原則的更直接測試可以關(guān)注在長時間訓(xùn)練中表征的變化，這為知覺學(xué)習(xí)的研究打開了大門,。例如,，圖3顯示了訓(xùn)練用于分類帶有梯度下降的傾斜光柵的神經(jīng)網(wǎng)絡(luò)模型的預(yù)測?，F(xiàn)有的神經(jīng)和行為現(xiàn)象從模型中無縫地出現(xiàn),，例如信息最豐富的神經(jīng)元的調(diào)諧功能的更強(qiáng)銳化(圖3b,c)，訓(xùn)練期間高級皮層階段(即更深層次)的早期表征變化(圖3d),，更傾向于將粗辨別能力而不是細(xì)辨別能力轉(zhuǎn)移到其他未訓(xùn)練的刺激(圖3e),，以及在訓(xùn)練中轉(zhuǎn)移細(xì)辨別能力。關(guān)鍵的是,，其他學(xué)習(xí)原則可能會做出質(zhì)的不同的預(yù)測(圖3f),。

圖3 運(yùn)用知覺學(xué)習(xí)范式學(xué)習(xí)的測試原則。

(a)知覺學(xué)習(xí)的深度網(wǎng)絡(luò)模型,。順時針方向或逆時針方向的可視輸入通過權(quán)重層流向報告旋轉(zhuǎn)方向的輸出層,。h_t和h_r分別表示目標(biāo)圖像和參考圖像的最后一個隱藏單元，p(CW)是目標(biāo)圖像相對于參考點(diǎn)順時針方向的概率,。

(b)靈長類動物初級視覺皮層(V1)因?qū)W習(xí)而測量的調(diào)諧曲線斜率變化,。

(c)a部分所示模型中由于梯度下降學(xué)習(xí)導(dǎo)致的調(diào)諧曲線斜率變化,。

(d)每一層突觸變化峰值的時間。較高層的權(quán)重變化較早,。在不同角度分離任務(wù)訓(xùn)練后,，行為表現(xiàn)轉(zhuǎn)移到不同的方向(Ori)和空間頻率(SF)。

(f)學(xué)習(xí)規(guī)則的圖式化概念,。實(shí)驗(yàn)觀測可能跨越該空間的較大區(qū)域,，因此理論上可能與多個學(xué)習(xí)規(guī)則一致。交叉許多約束可以開始縮小候選學(xué)習(xí)算法集,。

認(rèn)知的深度學(xué)習(xí)

深度神經(jīng)網(wǎng)絡(luò)擅長將復(fù)雜的輸入分類為不同的類別,，如物體或單詞。然而,，同樣重要的是我們大腦接下來的行動:我們將物體和項目連接到描述我們世界的不同知識結(jié)構(gòu)中,。例如，我們知道狗會叫,，楓樹是一種樹,。此外，我們根據(jù)多模態(tài)特征形成語義類別,，將一個物體的書面和口頭名稱與其形狀,、氣味和質(zhì)地聯(lián)系起來。這種對世界的概念性認(rèn)識超越了物理外觀,，將各種甚至不可觀察的物體屬性相互聯(lián)系起來,。

人類和其他動物的行為是由一系列豐富的認(rèn)知功能控制的，包括模塊化記憶過程和注意力和任務(wù)級控制,，以及用于導(dǎo)航,、計劃、心理模擬,、推理和抽象推理的神經(jīng)系統(tǒng),。這些認(rèn)知功能是在一個區(qū)域?qū)ｉT化的地方實(shí)現(xiàn)的。如果我們致力于將深度學(xué)習(xí)模型部署為生物學(xué)理論,，我們需要認(rèn)真對待這樣一個問題:認(rèn)知和行為中如此復(fù)雜的結(jié)構(gòu)是如何通過優(yōu)化出現(xiàn)的,。人類如何學(xué)習(xí)脫離物理對象屬性的抽象表征?我們?nèi)绾螌⒅R組裝成關(guān)系結(jié)構(gòu)，如樹,、環(huán)和網(wǎng)格?我們?nèi)绾螐默F(xiàn)有的子組件中組合新的行為?我們?nèi)绾慰焖佾@取和概括新的記憶?

神經(jīng)科學(xué)家可以利用他們熟悉的實(shí)驗(yàn)工具包,，利用深度網(wǎng)絡(luò)來研究認(rèn)知，朝著更復(fù)雜的行為前進(jìn),，并揭示深度學(xué)習(xí)假設(shè)目前的局限性,。一個潛在的富有成效的方法是確定特定的問題或任務(wù)，在這些問題或任務(wù)中，人的表現(xiàn)和網(wǎng)絡(luò)的表現(xiàn)有質(zhì)的不同,。

抽象和概括

深度網(wǎng)絡(luò)在數(shù)據(jù)豐富,、訓(xùn)練詳盡的情況下表現(xiàn)出色。然而,，他們很難將這些知識推廣到由以前未見過的特征和物體組成的新環(huán)境中,。相比之下，人類似乎能有效地進(jìn)行概括,。例如,，大多數(shù)人可以在一個語言、貨幣和習(xí)俗都不熟悉的外國城市里航行,，因?yàn)樗麄冎?/span>“問候”,、“出租車”和“地圖”等概念。而深度網(wǎng)絡(luò)無法傳遞知識,，因?yàn)樗鼈儧]有形成在物理上不同的領(lǐng)域上抽象出來的神經(jīng)代碼,。建立能夠以這種方式泛化的深度網(wǎng)絡(luò)將是機(jī)器學(xué)習(xí)的一個重要里程碑。

然而,，神經(jīng)科學(xué)家在尋求解決這個問題的方法時遇到了關(guān)鍵的方法挑戰(zhàn),。首先，尚不清楚嚙齒類動物和獼猴等實(shí)驗(yàn)動物是否進(jìn)化出了上述神經(jīng)機(jī)制,。因此,，目前尚不清楚用于記錄和侵入性工具(如電生理學(xué)或光遺傳學(xué))是否可以用于研究動物的相關(guān)問題。此外,，為了研究人類的抽象性,，我們不得不使用宏觀成像方法，如功能磁共振成像,、腦磁圖和腦電圖,，這些方法不太適合揭示神經(jīng)回路中計算是如何展開的。使用這些工具的創(chuàng)造性新方法正在開發(fā)中,。其次,，人類(和其他動物)通常帶著豐富的經(jīng)驗(yàn)進(jìn)入實(shí)驗(yàn)室，這些經(jīng)驗(yàn)塑造了他們學(xué)習(xí)的方式,。這使得人類和神經(jīng)網(wǎng)絡(luò)之間的直接比較變得復(fù)雜,，因?yàn)楹茈y給人工系統(tǒng)注入等價的先驗(yàn)，或者使用全新的刺激來消除人類的先驗(yàn),。第三，人類和神經(jīng)網(wǎng)絡(luò)在非常不同的時間尺度上學(xué)習(xí),。

在端到端學(xué)習(xí)系統(tǒng)中,，抽象表示需要以經(jīng)驗(yàn)為基礎(chǔ)。一種可能性是，終身接觸大量的感官數(shù)據(jù),，可能會通過有監(jiān)督或無監(jiān)督學(xué)習(xí),，使強(qiáng)不變性自然出現(xiàn)。有證據(jù)表明,，位于靈長類動物腹側(cè)流頂端的MTL中的細(xì)胞具有物理不變的編碼特性,。例如，在人類中,，“概念”細(xì)胞編碼著名的個人或地標(biāo),，而不管它們是用圖片還是文字表示的。這種MTL編碼與分配中心空間緊密相關(guān)的編碼方案在其他動物身上也有體現(xiàn),。統(tǒng)計學(xué)習(xí)的功能磁共振成像研究已經(jīng)揭示了MTL中的神經(jīng)相似性概括了刺激的對,、線、映射或?qū)哟蔚年P(guān)聯(lián)強(qiáng)度,。

與神經(jīng)科學(xué)中基于模型計算的優(yōu)點(diǎn)日益受到重視的同時,，機(jī)器學(xué)習(xí)研究人員正在構(gòu)建強(qiáng)大的深度生成模型，這些模型能夠將世界分解為潛在因素,，并重新組合這些因素,，以構(gòu)建逼真的合成3D圖像。然而,，到目前為止,，盡管有一些有希望的努力，但將這些生成模型與控制系統(tǒng)連接起來以構(gòu)建智能代理仍然具有挑戰(zhàn)性,。

學(xué)習(xí)中的資源分配

人類和其他動物在一生中不斷學(xué)習(xí),。這種“持續(xù)的”學(xué)習(xí)可能會讓人類學(xué)會第二種語言，讓猴子適應(yīng)新的社會角色,，讓嚙齒動物在新的環(huán)境中生存,。這與當(dāng)前大多數(shù)人工智能系統(tǒng)形成鮮明對比，后者缺乏在初始任務(wù)上實(shí)現(xiàn)收斂后獲得新行為的靈活性,。制造能夠像人類和其他動物一樣不斷學(xué)習(xí)的機(jī)器,，被證明是當(dāng)代機(jī)器學(xué)習(xí)研究中最棘手的挑戰(zhàn)之一。然而,，幸運(yùn)的是,，這個問題為神經(jīng)科學(xué)研究開辟了新的途徑，研究生物學(xué)如何解決持續(xù)學(xué)習(xí)的問題,。

人們早就注意到,，在神經(jīng)網(wǎng)絡(luò)中，根據(jù)初始任務(wù)A進(jìn)行的學(xué)習(xí)通常會在后續(xù)任務(wù)B的訓(xùn)練中被覆蓋(稱為“災(zāi)難性干擾”),。即使網(wǎng)絡(luò)有足夠的能力執(zhí)行兩項任務(wù),，也會發(fā)生這種情況,。在人類中，新的學(xué)習(xí)有時會降低現(xiàn)有的性能,，例如在編碼了對A - B之后記憶關(guān)聯(lián)對A - C,，但一般來說，干擾效應(yīng)遠(yuǎn)不如神經(jīng)網(wǎng)絡(luò)那么顯著,。

一種流行的模型認(rèn)為,，哺乳動物已經(jīng)進(jìn)化到通過使用海馬體和新皮層中的互補(bǔ)學(xué)習(xí)系統(tǒng)來解決持續(xù)學(xué)習(xí)的問題。與大腦皮層不同的是,，海馬體可以快速學(xué)習(xí)特定經(jīng)歷的稀疏(或“模式分離”)表征,，通常被稱為“情景記憶”，這些記憶在休息或睡眠期間離線回放,。海馬重放為過去和現(xiàn)在的經(jīng)歷提供了虛擬交織的機(jī)會,，有可能使記憶逐漸整合到新皮層回路中，從而避免災(zāi)難性干擾的問題,。這一理論得到了大量證據(jù)的支持,，包括發(fā)現(xiàn)海馬體損傷會導(dǎo)致逆行性遺忘，以及海馬體中基于實(shí)例的記憶(或“回憶”)與新皮層中對過去經(jīng)驗(yàn)的總結(jié)(或“熟悉”)之間的雙重分離,。近年來,，過去經(jīng)驗(yàn)的人為重放已經(jīng)成為一個關(guān)鍵因素，使深度網(wǎng)絡(luò)能夠在時間相關(guān)的環(huán)境中表現(xiàn)出強(qiáng)大的性能,，包括用于動態(tài)視頻游戲的深度強(qiáng)化學(xué)習(xí)代理,。令人高興的是，這使得理論學(xué)家在生物智能中持續(xù)學(xué)習(xí)的計算解決方案與AI之間建立了聯(lián)系,。互補(bǔ)學(xué)習(xí)系統(tǒng)框架的適應(yīng)性使其能夠解釋看似矛盾的現(xiàn)象,，例如MTL結(jié)構(gòu)在快速統(tǒng)計學(xué)習(xí)中的參與。

盡管越來越多的證據(jù)表明離線回放對鞏固記憶很重要,，但持續(xù)學(xué)習(xí)的問題也給神經(jīng)科學(xué)家提出了新的問題,。生物學(xué)習(xí)是否被主動劃分以避免災(zāi)難性干擾?與神經(jīng)網(wǎng)絡(luò)不同，動物并不總是能從交叉學(xué)習(xí)條件中受益(想象一下同時學(xué)習(xí)小提琴和大提琴),。來自人類類別學(xué)習(xí)的其他證據(jù)表明,，人類知識可能會被時間和環(huán)境主動劃分。事實(shí)上,，在機(jī)器學(xué)習(xí)文獻(xiàn)中,，有希望的持續(xù)學(xué)習(xí)解決方案依賴于對權(quán)重子空間的識別，在這些子空間中,，新的學(xué)習(xí)最不可能引起回溯性干擾,，例如通過“凍結(jié)”更有可能參與現(xiàn)有任務(wù)的突觸。當(dāng)這些工具與一個門控過程結(jié)合在一起時,，這些工具會更有效,。另一種有趣的可能性是,，無監(jiān)督過程通過根據(jù)上下文聚類神經(jīng)表征來促進(jìn)生物系統(tǒng)中的持續(xù)學(xué)習(xí),。奇特的“表征漂移”現(xiàn)象(神經(jīng)代碼隨著時間不可預(yù)測地彎曲)可能反映了在不同環(huán)境下信息分配到不同神經(jīng)回路的情況,，使任務(wù)知識能夠以干擾最小化的方式進(jìn)行劃分。

關(guān)于資源分配的一個更普遍的問題是,，生物系統(tǒng)如何在任務(wù)之間既能最小化負(fù)遷移(干擾)又能最大化正遷移(概括),。一種理論觀點(diǎn)認(rèn)為，生物控制過程中固有的能力限制是對這一難題的回應(yīng),。通過深度網(wǎng)絡(luò)的模擬,，Musslick等人表明，共享和單獨(dú)的任務(wù)表現(xiàn)出具有混合的成本和收益,，共享代碼使任務(wù)之間的泛化具有任務(wù)之間的干擾風(fēng)險,。他們認(rèn)為，大腦已經(jīng)通過促進(jìn)共享神經(jīng)代碼找到了解決方案,，這反過來又能實(shí)現(xiàn)強(qiáng)轉(zhuǎn)移,，部署控制過程來排除可能引發(fā)干擾的無關(guān)任務(wù)。他們認(rèn)為,，這回答了為什么盡管大腦由數(shù)十億個神經(jīng)元和數(shù)萬億個連接組成,，人類卻難以同時處理多項任務(wù)。

理解深層網(wǎng)絡(luò)

為了充分實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)用作大腦功能科學(xué)理論,，我們需要了解它們是如何工作的,。然而，深度網(wǎng)絡(luò)執(zhí)行的計算包含了數(shù)百萬個可訓(xùn)練的參數(shù),，因此它們被稱為“黑盒”,。然而，盡管如此復(fù)雜,，在神經(jīng)網(wǎng)絡(luò)中,，我們可以訪問學(xué)習(xí)過程中的每個突觸權(quán)重和單元激活，這在動物模型中仍然是不可能的。這些考慮提出了一些棘手的問題,，涉及深度網(wǎng)絡(luò)作為神經(jīng)模型的效用,，以及更普遍的問題，通過計算模型“理解”神經(jīng)過程意味著什么,。

到目前為止，許多利用深度學(xué)習(xí)工具包的神經(jīng)科學(xué)家更喜歡使用現(xiàn)成的黑盒深度網(wǎng)絡(luò)模擬作為神經(jīng)模型,。然而,，理論神經(jīng)科學(xué)家、物理學(xué)家和計算機(jī)科學(xué)家之間的合作已經(jīng)為一種新的方法鋪平了道路,，這種方法使用理想化的神經(jīng)網(wǎng)絡(luò)模型來理解他們學(xué)習(xí)的數(shù)學(xué)原理,，并將結(jié)果用于預(yù)測或解釋心理學(xué)或神經(jīng)科學(xué)中的現(xiàn)象,。為了使這種努力易于處理，必須簡化深層網(wǎng)絡(luò)模型(圖4),，例如通過使用線性激活函數(shù)(“深層線性”網(wǎng)絡(luò))(圖4a-c)或特殊結(jié)構(gòu)的環(huán)境,。通常，深度網(wǎng)絡(luò)的行為在“極限”情況下變得更簡單,，例如當(dāng)每層神經(jīng)元的數(shù)量向無窮遠(yuǎn)發(fā)散(無限寬極限)(圖4d),，或者當(dāng)數(shù)據(jù)樣本和模型參數(shù)的數(shù)量都向無窮遠(yuǎn)發(fā)散，但它們的比例是有限的(高維極限)(圖4e,f),。矛盾的是,，無限大小的網(wǎng)絡(luò)比單元更少的網(wǎng)絡(luò)更可解釋，因?yàn)樗鼈兊膶W(xué)習(xí)軌跡更穩(wěn)定,，不容易被損失景觀中糟糕的局部最小值所阻礙,，從而導(dǎo)致次優(yōu)結(jié)果(圖4d)。利用這些簡化的假設(shè),，研究人員可以得出特定網(wǎng)絡(luò)中每個突觸將遵循的學(xué)習(xí)軌跡的精確解(圖4a, b, d),。這些網(wǎng)絡(luò)理想化產(chǎn)生了對關(guān)于網(wǎng)絡(luò)行為的復(fù)雜問題的數(shù)學(xué)見解，包括為什么深度網(wǎng)絡(luò)通常訓(xùn)練得更慢(圖4c),，為什么一層一層的統(tǒng)計學(xué)習(xí)的初始階段讓人產(chǎn)生臨界期可塑性(“無監(jiān)督預(yù)訓(xùn)練”)可以加速未來的梯度下降學(xué)習(xí)(圖4c),，以及為什么對未見數(shù)據(jù)的泛化在過渡到過度參數(shù)化(圖4e,f)。

圖4 使用理想化的模型來理解深度網(wǎng)絡(luò),。

(a,b)深度神經(jīng)網(wǎng)絡(luò)中的錯誤糾正學(xué)習(xí)過程通常在計算機(jī)上模擬,，可以表現(xiàn)出復(fù)雜的訓(xùn)練錯誤動態(tài)(a)和復(fù)雜的突觸權(quán)重動態(tài)(b)。通過簡化神經(jīng)非線性,，深度線性網(wǎng)絡(luò)允許從某些初始化得到訓(xùn)練誤差動力學(xué)(a)和權(quán)重動力學(xué)(b)的精確解析解,，繪制為虛線曲線。這些解決方案明確地描述了訓(xùn)練過程中每個權(quán)重的軌跡,，無需模擬這些網(wǎng)絡(luò),，并直接揭示了數(shù)據(jù)集統(tǒng)計數(shù)據(jù)對學(xué)習(xí)動態(tài)的影響。

(c)解析解已經(jīng)闡明了各種現(xiàn)象,，包括深度線性網(wǎng)絡(luò)中的訓(xùn)練速度如何取決于網(wǎng)絡(luò)初始化,。如圖所示，從小隨機(jī)權(quán)重開始的深度線性網(wǎng)絡(luò)隨著深度的增加而呈指數(shù)級緩慢訓(xùn)練,，那些無監(jiān)督分層預(yù)訓(xùn)練的網(wǎng)絡(luò)線性訓(xùn)練,，并且具有大正交初始化的網(wǎng)絡(luò)的訓(xùn)練速度與深度無關(guān)。

(d)在具有許多非線性神經(jīng)元的非常大的“寬”網(wǎng)絡(luò)中,，學(xué)習(xí)動態(tài)可以簡化,。不同大小的非線性網(wǎng)絡(luò)在不同隨機(jī)初始條件下訓(xùn)練同一任務(wù)的訓(xùn)練誤差示意圖。具有少量神經(jīng)元的小型網(wǎng)絡(luò)的模擬通常表現(xiàn)出復(fù)雜的軌跡(淺紫色),。相比之下,，具有許多神經(jīng)元的大型網(wǎng)絡(luò)的模擬可靠地找到了零錯誤的解決方案,，并采取類似的軌跡(暗紫色)。值得注意的是,，當(dāng)神經(jīng)元的數(shù)量在特定的初始化狀態(tài)下趨于無窮大時,，其軌跡可以解析地描述(虛線紅色)。

(e,f)可控制的設(shè)置還可以通過對數(shù)據(jù)生成方式進(jìn)行假設(shè)來實(shí)現(xiàn),。在一種方法中,，“教師”神經(jīng)網(wǎng)絡(luò)為“學(xué)生”神經(jīng)網(wǎng)絡(luò)標(biāo)記數(shù)據(jù),。該設(shè)置允許對訓(xùn)練(藍(lán)色)和測試(淺藍(lán)色)誤差進(jìn)行分析性描述,，并允許對過度訓(xùn)練現(xiàn)象進(jìn)行分析。如f所示,，學(xué)生-教師設(shè)置可以對“高維”區(qū)域的泛化誤差進(jìn)行分析預(yù)測(紅色虛線),，其中數(shù)據(jù)相對于權(quán)重的數(shù)量是稀缺的。這些預(yù)測與模擬的大型網(wǎng)絡(luò)(紫色點(diǎn))的性能密切匹配,，并解釋了為什么泛化誤差在從過度參數(shù)化到參數(shù)化的過渡階段達(dá)到峰值,。

最近，這種方法已被應(yīng)用于語義認(rèn)知的研究(圖5),。在生長過程中,，兒童會經(jīng)歷準(zhǔn)離散階段，在這個階段他們會迅速獲得新的類別或概念,。他們的學(xué)習(xí)也是高度結(jié)構(gòu)化的:例如,，語義知識是逐步分化的，因?yàn)楹⒆觽兿葘W(xué)會更廣泛的等級區(qū)別(“動物”和“植物”),，再學(xué)會更細(xì)微的區(qū)別(“玫瑰”和“雛菊”),，并表現(xiàn)出刻板的錯誤(比如認(rèn)為蠕蟲有骨頭)。已知在結(jié)構(gòu)豐富的數(shù)據(jù)(圖5a)上訓(xùn)練的深度網(wǎng)絡(luò)表現(xiàn)出這些現(xiàn)象,，但直到最近才顯示出:誤差面中出現(xiàn)所謂的鞍點(diǎn)(圖5c),，也就是類似階段的過渡，輸入-輸出相關(guān)性的奇異值隨著時間的推移驅(qū)動學(xué)習(xí)(圖5a-d),，而語義錯覺來自于犧牲異常的準(zhǔn)確性以滿足全局監(jiān)督目標(biāo)(圖5e),。此外，這些現(xiàn)象可以被證明是深度本身的結(jié)果,，出現(xiàn)在深度線性網(wǎng)絡(luò),，而不是淺層網(wǎng)絡(luò)(圖5c,e)。這凸顯了神經(jīng)科學(xué)家研究學(xué)習(xí)動力學(xué)的重要性,，即學(xué)習(xí)所經(jīng)歷的軌跡,，而不是簡單地檢查已經(jīng)融合的網(wǎng)絡(luò)中的表征。

圖5 深度線性神經(jīng)網(wǎng)絡(luò)的發(fā)展軌跡,。

(a)一個理想化的等級環(huán)境,。項目(葉節(jié)點(diǎn))具有許多屬性,，例如“會飛”或“有根”。樹中鄰近的項目更有可能共享屬性,。

(b)在深度線性網(wǎng)絡(luò)中,，通過學(xué)習(xí)對每個項目的內(nèi)部表示進(jìn)行二維嵌入，以輸出每個項目的屬性,。網(wǎng)絡(luò)表現(xiàn)出漸進(jìn)式的分化,，經(jīng)過一系列的階段，在這些階段中,，高級的區(qū)分在低級的區(qū)分之前被學(xué)習(xí),。

(c)如圖所示，只有深度網(wǎng)絡(luò)在學(xué)習(xí)中表現(xiàn)出準(zhǔn)階段樣過渡,，這種過渡來自于誤差表面的鞍點(diǎn),。

(d)對于一類層次結(jié)構(gòu)，學(xué)習(xí)速度隨層次結(jié)構(gòu)的等級而下降,，網(wǎng)絡(luò)表現(xiàn)出從最寬的區(qū)別開始的漸進(jìn)分化,。

(e)深度而非淺層網(wǎng)絡(luò)在學(xué)習(xí)過程中會在特定的項目和道具上犯短暫的錯誤(比如斷言“蠕蟲有骨頭”)，這讓人聯(lián)想到人類語義發(fā)展,。

一個潛在的擔(dān)憂是,，以這種方式獲得的見解可能無法擴(kuò)展，因?yàn)槟Ｐ褪抢硐牖?，它避開了最先進(jìn)的深度網(wǎng)絡(luò)的混亂復(fù)雜性,，并做出了對生物學(xué)來說是錯誤的假設(shè)(例如線性轉(zhuǎn)導(dǎo)，或無限寬度的層),。然而,，我們認(rèn)為，神經(jīng)理論很好地服務(wù)于對復(fù)雜現(xiàn)象的分析公式,，這些公式對神經(jīng)電路和系統(tǒng)產(chǎn)生了具體的,、可證偽的預(yù)測。我們希望神經(jīng)科學(xué)家將深度網(wǎng)絡(luò)模型的簡化納入他們的神經(jīng)理論規(guī)范集,，而不是僅僅尋求大腦和完全成熟的深度學(xué)習(xí)系統(tǒng)之間的對應(yīng)關(guān)系,，這些系統(tǒng)幾乎沒有希望被理解。

總結(jié)

深度學(xué)習(xí)模型可以為神經(jīng)科學(xué)提供很多幫助,。最令人興奮的是,，它有可能超越人工制作函數(shù)，并理解計算是如何從經(jīng)驗(yàn)中產(chǎn)生的,。神經(jīng)科學(xué)家已經(jīng)認(rèn)識到這一機(jī)遇,，但對它的利用才剛剛開始。從這個角度來看，我們試圖為希望將深度網(wǎng)絡(luò)用作神經(jīng)理論的研究人員提供一個路線圖,。我們對神經(jīng)科學(xué)家的主要勸告是使用深度網(wǎng)絡(luò)作為預(yù)測模型,，進(jìn)行可證偽的預(yù)測，并使用模型理想化方法來提供對它們?nèi)绾我约盀槭裁纯赡懿蹲缴铿F(xiàn)象的真正理解,。我們警告不要使用越來越復(fù)雜的模型和模擬,，這些模型和模擬超過了我們的概念洞察力，并且不鼓勵盲目搜索生物和人工系統(tǒng)形成的神經(jīng)代碼中的對應(yīng)關(guān)系,。相反,，我們希望神經(jīng)科學(xué)家能夠建立模型，以豐富而富有成效的方式解釋人類行為,、學(xué)習(xí)動態(tài)和神經(jīng)編碼,，但不失去經(jīng)典神經(jīng)模型固有的可解釋性。