久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

“用魔法擊敗魔法”,?一群計算神經(jīng)學(xué)家正借神經(jīng)網(wǎng)絡(luò)解釋大腦

 悟道然 2020-11-13

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自學(xué)術(shù)頭條
作者:Anil Ananthaswamy(科普作家)
譯者:Yang

2011 年冬天,麻省理工學(xué)院計算神經(jīng)科學(xué)博士后研究員 Daniel Yamins 有時會在他的機(jī)器視覺項目上苦干到午夜,。

他正全身心地投入到一個視覺系統(tǒng)的設(shè)計上:該系統(tǒng)應(yīng)該能夠識別圖片中的物體,,而不受大小、位置和其他屬性的影響,,正如人類的視覺系統(tǒng)所能夠輕而易舉實現(xiàn)的那樣,。這個系統(tǒng)利用了深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(一種受大腦的神經(jīng)系統(tǒng)啟發(fā)而產(chǎn)生的計算策略)。

“我記憶猶新,,我們實現(xiàn)了一種深度神經(jīng)網(wǎng)絡(luò),,它的的確確能解決這個問題?!?當(dāng)時是凌晨 2 點(diǎn),,有點(diǎn)太早了,Daniel Yamins 還不能叫醒他的導(dǎo)師 James DiCarlo 和其他同事,,所以興奮的 Daniel Yamins 只好在劍橋區(qū)寒冷的夜里散步,。“我真的很興奮,,” 他說,。

在人工智能領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)被視為矚目的突破,。但這并不是 Daniel Yamins 和他的同事們的主要目標(biāo),。對他們和其他神經(jīng)學(xué)家來說,這是具備大腦功能的計算模型的黃金發(fā)展時期。

如今 9 年過去,,DiCarlo 和 Yamins 已經(jīng)在斯坦福大學(xué)擁有自己的實驗室,,并是使用深度神經(jīng)網(wǎng)絡(luò)來理解大腦結(jié)構(gòu)的神經(jīng)科學(xué)家圈子中的一員。

他們不但想知道為什么大腦可以用不同部分解決不同任務(wù),,而且還想知道這些不同的部分是怎樣實現(xiàn)專業(yè)化的:例如,,大腦有一個區(qū)域可以識別一般的物體,但也可以識別特定的面孔,?深度神經(jīng)網(wǎng)絡(luò)表明,,這種專業(yè)化可能正是解決問題最有效的方法。

 Daniel Yamins


現(xiàn)任斯坦福大學(xué)工作的計算神經(jīng)學(xué)家 Daniel Yamins 表示,,一個像大腦那樣對場景進(jìn)行分層處理的神經(jīng)網(wǎng)絡(luò),,可以與人類在識別物體方面的機(jī)制相映射。

同樣的,,研究人員已經(jīng)證明,,最擅長分類語言、音樂和仿造氣味的深度神經(jīng)網(wǎng)絡(luò),,其結(jié)構(gòu)似乎與大腦的聽覺和嗅覺系統(tǒng)是類似的,。這種相似之處也在另一類深度神經(jīng)網(wǎng)絡(luò)得到了體現(xiàn):它們可以僅通過觀察 2D 場景就推斷其中的 3D 對象的潛在屬性。該發(fā)現(xiàn)有助于解釋生物感知為什么既快速又豐富,。這些結(jié)果表明,,生物神經(jīng)系統(tǒng)的結(jié)構(gòu)對它們所承擔(dān)的任務(wù)具有某種獨(dú)到的最佳解決方案。

考慮到神經(jīng)科學(xué)家一直以來對大腦和深度神經(jīng)網(wǎng)絡(luò)之間的相似度持懷疑態(tài)度,,這些發(fā)現(xiàn)就更加出人意料了,,因為深度神經(jīng)網(wǎng)絡(luò)本身的工作原理是難以理解、不可解釋的,?!袄蠈嵳f,過去我的實驗室里沒有人做過任何關(guān)于深度神經(jīng)網(wǎng)絡(luò)的研究,,” 麻省理工學(xué)院的神經(jīng)科學(xué)家 Nancy Kanwisher 說,。“現(xiàn)在,,他們中的大多數(shù)人每天都在例行訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),。”

深度神經(jīng)網(wǎng)絡(luò)與視覺

人工神經(jīng)網(wǎng)絡(luò)由被稱為 “感知器”,、相互連接的單元所建立,,感知器則是生物神經(jīng)元的簡化數(shù)字模型。人工神經(jīng)網(wǎng)絡(luò)至少有兩層感知器,,一層用于輸入層,,另一層用于輸出層。在輸入和輸出之間夾上一個或多個 “隱藏” 層,就得到了一個 “深層” 神經(jīng)網(wǎng)絡(luò),,這些層越多,網(wǎng)絡(luò)越深,。

深度神經(jīng)網(wǎng)絡(luò)可以通過訓(xùn)練來識別數(shù)據(jù)中的特征,,就比如代表貓或狗圖像的特征。訓(xùn)練包括使用一種算法來迭代地調(diào)整感知器之間的連接強(qiáng)度(權(quán)重系數(shù)),,以便網(wǎng)絡(luò)學(xué)會將給定的輸入(圖像的像素)與正確的標(biāo)簽(貓或狗)相關(guān)聯(lián),。理想狀況是,一旦經(jīng)過訓(xùn)練,,深度神經(jīng)網(wǎng)絡(luò)應(yīng)該能夠?qū)λ郧皼]有見過的同類型輸入進(jìn)行分類,。

但在總體結(jié)構(gòu)和功能上,深度神經(jīng)網(wǎng)絡(luò)還不能說是嚴(yán)格地模仿人類大腦,,其中對神經(jīng)元之間連接強(qiáng)度的調(diào)整反映了學(xué)習(xí)過程中的關(guān)聯(lián),。

神經(jīng)科學(xué)家常常指出深度神經(jīng)網(wǎng)絡(luò)與人腦相比存在的局限性:單個神經(jīng)元處理信息的范圍可能比 “失效” 的感知器更廣,例如,,深度神經(jīng)網(wǎng)絡(luò)經(jīng)常依賴感知器之間被稱為反向傳播的通信方式,,而這種通信方式似乎并不存在于人腦神經(jīng)系統(tǒng)。

然而,,計算神經(jīng)科學(xué)家會持不同想法,。有的時候,深度神經(jīng)網(wǎng)絡(luò)似乎是建模大腦的最佳選擇,。


事實上,,現(xiàn)有計算機(jī)視覺系統(tǒng)已經(jīng)受到我們所知的靈長類視覺系統(tǒng)的影響,尤其是在負(fù)責(zé)識別人,、位置和事物的路徑上,,借鑒了一種被稱為腹側(cè)視覺流的機(jī)制。

對人類來說,,腹側(cè)神經(jīng)通路從眼睛開始,,然后進(jìn)入丘腦的外側(cè)膝狀體,這是一種感覺信息的中繼站,。外側(cè)膝狀體連接到初級視覺皮層中稱為 V1 的區(qū)域,,在 V1 和 V4 的下游是區(qū)域 V2 和 V4,它們最終通向下顳葉皮層,。非人類靈長類動物的大腦也有類似的結(jié)構(gòu)(與之相應(yīng)的背部視覺流是一條很大程度上獨(dú)立的通道,,用于處理看到運(yùn)動和物體位置的信息)。

這里所體現(xiàn)的神經(jīng)科學(xué)見解是,,視覺信息處理的分層,、分階段推進(jìn)的:早期階段先處理視野中的低級特征(如邊緣、輪廓、顏色和形狀),,而復(fù)雜的表征,,如整個對象和面孔,將在之后由顳葉皮層接管,。


這些見解指導(dǎo)了 Yamins 和他的同事如何設(shè)計深度神經(jīng)網(wǎng)絡(luò),。他們的深度神經(jīng)網(wǎng)絡(luò)中有一定的隱藏層,其中一些進(jìn)行了 “卷積”,,對圖像的每個部分應(yīng)用相同的過濾器,。每次卷積都捕獲了圖像不同的基本特征,比如說圖像邊緣,。

基本的特征在網(wǎng)絡(luò)的早期階段被捕捉,,復(fù)雜的特征在更深層的階段被捕捉,正如靈長類的視覺系統(tǒng),。當(dāng)像這樣的卷積神經(jīng)網(wǎng)絡(luò)(CNN)接受圖像分類訓(xùn)練時,,它會從隨機(jī)初始化過濾器的權(quán)重值開始,然后逐步學(xué)習(xí)當(dāng)前任務(wù)所需的正確值,。

團(tuán)隊開發(fā)的四層 CNN 可以識別出 5760 張逼真的 3D 圖像中描繪的八類物體(涵蓋動物,、船、汽車,、椅子,、臉、水果,、飛機(jī)和桌子),。照片中的物體在姿勢、位置和比例上都有變化,。盡管如此,,深度學(xué)習(xí)網(wǎng)絡(luò)的性能也與非常擅長識別物體的人類相當(dāng)。

Yamins 所未知的是,,計算機(jī)視覺領(lǐng)域正在醞釀的一場革命,,也將獨(dú)立地驗證他和他的同事們所采用的方法。

在他們構(gòu)建完上述的 CNN 網(wǎng)絡(luò)后不久,,一個名為 AlexNet 的 CNN 在 imagenet 圖像識別比賽中一舉成名,。

AlexNet 同樣基于層次化處理結(jié)構(gòu),先捕獲基本的視覺特性,,再于后面的階段捕獲更復(fù)雜的特性,。它使用了 120 萬張帶有標(biāo)簽的圖像進(jìn)行訓(xùn)練,這些圖像顯示了一千種類別的物體,。

2012 年的比賽中,,AlexNet 擊敗了所有其他參賽算法:從比賽的指標(biāo)來看,,AlexNet 的錯誤率只有 15.3%,而它之后的最強(qiáng)競爭對手,,錯誤率為 26.2%,。隨著 AlexNet 的勝利,深度神經(jīng)網(wǎng)絡(luò)正式成為人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的主流方法,。

然而,,AlexNet 的勝利并沒有打亂 Yamins 及 DiCarlo 團(tuán)隊的節(jié)奏。他們想要的是神經(jīng)科學(xué)層面的回報,。

他們想知道,如果 CNN 模仿了一個視覺系統(tǒng),,它能預(yù)測神經(jīng)對新圖像的反應(yīng)嗎,?

為了找到答案,他們首先確定了 CNN 中人造神經(jīng)元的活動如何與兩只恒河猴腹側(cè)視覺流中近 300 個部位的活動相對應(yīng),。

然后他們用 CNN 預(yù)測,,當(dāng)猴子看到不屬于訓(xùn)練數(shù)據(jù)集的圖像時,相關(guān)大腦區(qū)域會做出何種反應(yīng),。

“我們不僅得到正確的預(yù)測…… 而且發(fā)現(xiàn)某種解剖上的一致性,,”Yamins 說。CNN 的早期,、中期和晚期層對應(yīng)預(yù)測了早期,、中期和高級腦區(qū)的行為。也就是說,,形式和功能實現(xiàn)配套,。

Kanwisher 仍然自己在 2014 年獲知該研究結(jié)果時的感受。

“這并不是說深度神經(jīng)網(wǎng)絡(luò)中的單個單元在生物物理上表現(xiàn)得像神經(jīng)元,。盡管如此,,在功能匹配上還是有令人震驚的特征?!?她說,。

區(qū)分聲音

在 Yamins 和 DiCarlo 的研究結(jié)果公布后,,研究人員開始尋找其他更好的大腦深度神經(jīng)網(wǎng)絡(luò)模型,,尤其是包含靈長類視覺系統(tǒng)研究較少的區(qū)域的模型,。

麻省理工學(xué)院神經(jīng)學(xué)家 Josh McDermott 提到,,“我們對聽覺皮層仍然沒有很好的理解,尤其是人類的大腦?!?深度學(xué)習(xí)能幫助探索大腦如何處理聲音嗎,?

麻省理工學(xué)院的神經(jīng)學(xué)家 Josh McDermott

這正是 McDermott 的目標(biāo),。包括 Alexander Kell 和 Yamins 等團(tuán)隊成員在內(nèi),他們開始設(shè)計一種能區(qū)分語言和音樂兩種類型聲音的深度神經(jīng)網(wǎng)絡(luò)。

首先,,他們硬編碼了一個耳蝸模型來處理音頻(耳蝸是內(nèi)耳的聲音傳導(dǎo)器官,,其工作原理已被非常詳細(xì)地了解)。然后,他們將音頻分類到不同的頻率通道來作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,,對 CNN 進(jìn)行識別語音片段中的單詞和混雜著背景噪音的音樂片段的訓(xùn)練,。

他們希望找到一種深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以在不需要大量數(shù)據(jù)或計算資源的情況下準(zhǔn)確地執(zhí)行這些任務(wù),。

有三組結(jié)構(gòu)似乎是可能的,。深度神經(jīng)網(wǎng)絡(luò)的兩個任務(wù)只能共享輸入層,然后分成兩個不同的網(wǎng)絡(luò),。在另一個極端,任務(wù)可以共享相同的網(wǎng)絡(luò)進(jìn)行所有處理,,只在輸出階段進(jìn)行分割,?;蛘咚赡苁墙橛趦烧咧g的幾十個變體之一,,即網(wǎng)絡(luò)的某些階段是共享的,,而其他階段是不同的,。

不出所料,在輸入層之后有專用通道的網(wǎng)絡(luò)比完全共享通道的網(wǎng)絡(luò)要好,。然而,,一個混合網(wǎng)絡(luò) —— 在輸入階段之后有七個公共層,然后是兩個分別為五層的獨(dú)立網(wǎng)絡(luò) —— 幾乎和完全獨(dú)立的網(wǎng)絡(luò)做得一樣好,。因此 McDermott 和他的同事選擇了用最少的計算資源且工作得最好的混合網(wǎng)絡(luò)。


當(dāng)他們讓這個混合網(wǎng)絡(luò)與人類在這些任務(wù)中的表現(xiàn)進(jìn)行較量時,,兩者非常相似,。

這也與一些研究人員早先的研究結(jié)果相吻合,即非初級聽覺皮層擁有著不同的區(qū)域來處理音樂和語言,。

2018 年發(fā)表的一項關(guān)鍵測試中,,該模型預(yù)測了人類受試者的大腦活動:模型的中間層預(yù)測了初級聽覺皮層的反應(yīng),而更深的層預(yù)測了聽覺皮層的高級區(qū)域,。這些預(yù)測遠(yuǎn)遠(yuǎn)好于那些不是基于深度學(xué)習(xí)的模型,。

“神經(jīng)科學(xué)的目標(biāo)(之一)是能夠預(yù)測系統(tǒng)將會做什么,” McDermott 說?!斑@些人工神經(jīng)網(wǎng)絡(luò)讓我們更接近于此,。”

Kanwisher 最初懷疑深度學(xué)習(xí)對她自己的研究是否有用,,但她同樣受到了 McDermott 模型的啟發(fā),。

Kanwisher 最為人所知的工作便與此相關(guān):20 世紀(jì) 90 年代中后期,她的研究發(fā)現(xiàn),,顳下皮層中被稱為紡絲狀臉區(qū)(FFA)的區(qū)域是專門用來識別面孔的,。當(dāng)受測注視人臉圖像時,F(xiàn)FA 明顯比注視房屋等其他圖像時更活躍,。為什么大腦會將處理面孔的過程與處理其他物體的過程分開呢,?

按照傳統(tǒng),回答這樣的 “為什么” 這類問題對神經(jīng)科學(xué)來說是相當(dāng)困難的,。

所以 Kanwisher 和她的博士后 Katharina Dobs 以及其他同事們向深度神經(jīng)網(wǎng)絡(luò)尋求幫助,。他們使用了 AlexNet 的 “后來者”—— 一種叫做 VGG 的更深層的卷積神經(jīng)網(wǎng)絡(luò) —— 來訓(xùn)練完成兩種特定的任務(wù):識別人臉和識別物體。

Alexander Kell 現(xiàn)在是哥倫比亞大學(xué)的博士后研究員,,他和 McDermott 在麻省理工學(xué)院(MIT)合作,,評估不同構(gòu)筑策略在設(shè)計執(zhí)行多重聽覺任務(wù)的神經(jīng)網(wǎng)絡(luò)時的有效性

研究小組發(fā)現(xiàn),接受過人臉識別訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)在識別物體方面表現(xiàn)不佳,,反之亦然,,這表明這些網(wǎng)絡(luò)描繪的面孔和物體是不同的。

接下來,,團(tuán)隊訓(xùn)練一個單一的網(wǎng)絡(luò)來完成這兩個任務(wù),。他們發(fā)現(xiàn),在后期階段,,網(wǎng)絡(luò)進(jìn)行了調(diào)整,,將對面孔和物體的處理分離開來。Kanwisher 說:“VGG 在后期會自發(fā)地分離更多,,它沒有必要在早期階段分開訓(xùn)練,。”

這與人類視覺系統(tǒng)的組織方式是一致的:分支只發(fā)生在腹側(cè)視覺通路(外側(cè)膝狀核和 V1 和 V2 區(qū))的下游,。目前在德國吉森的李比希大學(xué)工作的 Dobs 說:“我們發(fā)現(xiàn),,在同時接受這兩項訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中,面孔和物體處理的功能專業(yè)化自發(fā)出現(xiàn),,就像人腦一樣,。”

Kanwisher 說:“最讓我興奮的是,,我認(rèn)為我們現(xiàn)在有了一種方法來回答為什么大腦是這樣的,。”

識別氣味

更多這樣的證據(jù)正從關(guān)于氣味感知的研究中涌現(xiàn)出來。

2019 年,,哥倫比亞大學(xué)的計算神經(jīng)科學(xué)家 Robert Yang 和他的同事設(shè)計了一個深度神經(jīng)網(wǎng)絡(luò)來模擬果蠅的嗅覺系統(tǒng),。神經(jīng)科學(xué)家已經(jīng)能夠?qū)@個系統(tǒng)進(jìn)行了詳細(xì)的描繪。

氣味處理的第一層涉及嗅覺感覺神經(jīng)元,,每個神經(jīng)元只表示大約 50 種氣味感受器中的一種,。所有相同類型的感覺神經(jīng)元,平均大約 10 個,,延伸到處理層的下一層的單個神經(jīng)簇,。因為在這一層中,大腦的每一側(cè)大約有 50 個這樣的神經(jīng)簇,,這就在不同類型的感覺神經(jīng)元和相應(yīng)的神經(jīng)簇之間建立了一一對應(yīng)的映射,。神經(jīng)簇與下一層的神經(jīng)元有多個隨機(jī)連接,這一層被稱為凱尼恩(Kenyon)層,,該層有大約 2500 個神經(jīng)元,,每個神經(jīng)元接收大約 7 個信號。凱尼恩層被認(rèn)為與氣味的高級表征有關(guān),。最后一層大約 20 個神經(jīng)元提供了果蠅用來引導(dǎo)其氣味相關(guān)行為的輸出(Yang 提醒,,沒有人知道這種輸出是否可以作為氣味分類)。

為了驗證他們是否能設(shè)計一個模擬這一過程的計算模型,,Yang 和他的同事們首先創(chuàng)建了一個模擬氣味的數(shù)據(jù)集,。

氣味激活神經(jīng)元的方式和圖像并不相同。就好比你把兩張貓的圖像疊加起來,,逐像素相加,,得到的圖像可能一點(diǎn)也不像貓。然而,,如果你把兩個蘋果的氣味混合在一起,,它還是會聞起來像蘋果?!斑@是我們用來設(shè)計嗅覺任務(wù)的關(guān)鍵洞察力,,”Yang 說。

他們用四層網(wǎng)絡(luò)構(gòu)建了一個深度神經(jīng)網(wǎng)絡(luò):三層模擬果蠅的處理層和一個輸出層,。當(dāng) Yang 和他的同事們訓(xùn)練該網(wǎng)絡(luò)分類模擬的氣味,,他們發(fā)現(xiàn)網(wǎng)絡(luò)聚集在連接層與果蠅的大腦:第一層,第二層的一對一的映射,,然后從第二層稀疏隨機(jī)(7 對 1)映射到第三層,。

這種相似性表明,,進(jìn)化論和深度神經(jīng)網(wǎng)絡(luò)都達(dá)到最優(yōu)解,。但 Yang 仍然對他們的成績持謹(jǐn)慎態(tài)度。他說:“也許我們只是運(yùn)氣好,也許它沒有普適性,?!?/span>

測試的下一步將是進(jìn)化出能夠預(yù)測某些尚未被研究的動物嗅覺系統(tǒng)連通性的深度神經(jīng)網(wǎng)絡(luò),然后由神經(jīng)科學(xué)家加以證實,?!斑@將為我們的理論提供更嚴(yán)格的檢驗”,Yang 說,。他將于 2021 年 7 月搬到麻省理工學(xué)院,。

不只是黑箱

深度神經(jīng)網(wǎng)絡(luò)常被詬病不能應(yīng)用到和訓(xùn)練數(shù)據(jù)集相差太遠(yuǎn)的數(shù)據(jù)上,還有一個問題則是黑箱問題,。

通過檢查塑造它的數(shù)百萬甚至數(shù)十億的參數(shù)來解釋一個深度神經(jīng)網(wǎng)絡(luò)仍是不可行的,。那么,一個大腦某些部分的深度神經(jīng)網(wǎng)絡(luò)模型,,不就是用另一個黑箱子代替了一個黑箱子嗎,?

在 Yang 看來,并不完全如此,,他認(rèn)為:“它仍然比大腦更容易研究,。”

去年,,DiCarlo 的團(tuán)隊發(fā)表了研究結(jié)果,,對深度神經(jīng)網(wǎng)絡(luò)的不透明性和所謂的難以遷移進(jìn)行了分析。研究人員使用 AlexNet 的 一個版本來模擬獼猴的腹側(cè)視覺流,,并計算出人工神經(jīng)元單元和猴子的 V4 區(qū)域的神經(jīng)節(jié)點(diǎn)之間的對應(yīng)關(guān)系,。

然后,他們通過計算模型合成了一些圖像,,并預(yù)測這些圖像會導(dǎo)致猴子神經(jīng)元異?;钴S。在一個實驗中,,當(dāng)這些 “非自然” 的圖像被展示給猴子時,,它們 68% 的神經(jīng)部位的活躍性都超出正常水平。在另一個實驗中,,這些圖像提高了一個神經(jīng)元的活動,,同時抑制了附近神經(jīng)元的活動。這兩個結(jié)果都是由神經(jīng)網(wǎng)絡(luò)模型預(yù)測的,。

這些結(jié)果表明,,深度神經(jīng)網(wǎng)絡(luò)確實適用于大腦,并不是完全深不可測的,?!叭欢?,我們承認(rèn)…… 關(guān)于‘理解’的許多其他概念仍有待探索,看看這些模型是否具有價值以及如何增加價值,,” 他們寫道,。

深度神經(jīng)網(wǎng)絡(luò)和大腦在結(jié)構(gòu)和性能上的類似并不一定意味著它們以相同的方式工作,在某些方面并沒有顯現(xiàn)這樣的跡象,。但是,,這兩種類型的系統(tǒng)可能有更多的相似之處,從而遵循某種一致的管理原則,。

模型的局限

McDermott 在這些深度神經(jīng)網(wǎng)絡(luò)研究中看到了一些潛在的醫(yī)學(xué)價值,。如今,當(dāng)人們失去聽力,,通常是由于耳朵的變化,。大腦的聽覺系統(tǒng)必須處理受損的輸入。McDermott 說:“因此,,如果我們有好的模型來了解其余的聽覺系統(tǒng)在做什么,,我們就能更好地了解如何才能真正幫助人們提高聽力?!?/span>

盡管如此,,McDermott 還是對深度神經(jīng)網(wǎng)絡(luò)的表現(xiàn)持謹(jǐn)慎態(tài)度。他說:“我們一直在努力嘗試?yán)斫馍窠?jīng)網(wǎng)絡(luò)作為模型的局限性,?!?/span>

Jenelle Feather 是 McDermott 實驗室的一名研究生,她使用了被稱為 metamers 的成對音頻輸入來比較神經(jīng)網(wǎng)絡(luò)和人類聽覺的表現(xiàn)

McDermott 實驗室的研究生 Jenelle Feather 和其他人集中研究了metamers,,這是一種在物理上截然不同的輸入信號,,在系統(tǒng)中產(chǎn)生相同的表示。例如,,兩個音頻元產(chǎn)生器有不同的波形,,但對人來說聽起來是一樣的。利用聽覺系統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)模型,,該團(tuán)隊設(shè)計了自然音頻信號的元信號,,這些元分子激活神經(jīng)網(wǎng)絡(luò)的不同階段,就像音頻片段一樣,。如果神經(jīng)網(wǎng)絡(luò)準(zhǔn)確地模擬了人類的聽覺系統(tǒng),,那么 metamers 的聲音也應(yīng)該是一樣的。

但事實并非如此,。在神經(jīng)網(wǎng)絡(luò)的早期階段,,人類能識別出產(chǎn)生與相應(yīng)的音頻片段相同的激活的元器。然而,,這并不適用于在網(wǎng)絡(luò)的較深階段具有匹配激活的元數(shù)據(jù):它們聽起來像是噪音,。

McDermott 說:“因此,,雖然在某些情況下,這些模型在復(fù)制人類行為方面做得非常好,,但它們也有非常錯誤的地方?!?/span>

在斯坦福大學(xué),,Yamins 正在探索在哪些情況下這些模型還不能代表大腦。例如,,許多這些模型需要大量的標(biāo)記數(shù)據(jù)來進(jìn)行訓(xùn)練,,而我們的大腦可以毫不費(fèi)力地從一個例子中學(xué)習(xí)。人們正在努力開發(fā)能夠有效學(xué)習(xí)的無監(jiān)督深度神經(jīng)網(wǎng)絡(luò),。

深度神經(jīng)網(wǎng)絡(luò)還使用一種名為反向傳播的算法進(jìn)行學(xué)習(xí),,大多數(shù)神經(jīng)科學(xué)家認(rèn)為這種算法不能在真實的神經(jīng)組織中工作,因為它缺乏適當(dāng)?shù)倪B接,。

Yamins 說:“在生物學(xué)上更可行的學(xué)習(xí)規(guī)則方面,,我們?nèi)〉昧艘恍┲卮筮M(jìn)展?!?/span>

麻省理工學(xué)院的認(rèn)知神經(jīng)學(xué)家 Josh Tenenbaum 說,,雖然所有這些深度神經(jīng)網(wǎng)絡(luò)模型都是貨真價實的進(jìn)展,但它們主要是在進(jìn)行歸納或者說分類任務(wù),。然而,,我們的大腦所做的遠(yuǎn)不止對事物進(jìn)行分類。我們的視覺系統(tǒng)可以理解表面的幾何形狀和場景的 3D 結(jié)構(gòu),,還可以推斷出潛在的因果因素,。例如,它可以實時推斷出一棵樹消失只是因為一輛汽車從它前面經(jīng)過,。

為了理解大腦的這種能力,,曾在麻省理工學(xué)院工作、現(xiàn)就職于耶魯大學(xué)的 Ilker Yildirim 與 Tenenbaum 及其同事一起建立了一種叫做高效反向圖形模型的模型,。

它從描述要在背景上渲染的人臉的參數(shù)開始,,例如形狀、紋理,、光照方向,、頭部姿勢等等。一個被稱為生成模型的計算機(jī)圖形程序根據(jù)參數(shù)創(chuàng)建一個 3D 場景,,然后,,經(jīng)過不同階段的處理,它會產(chǎn)生一個從某個位置觀看的該場景的 2D 圖像,。利用生成模型中的 3D 和 2D 數(shù)據(jù),,研究人員訓(xùn)練了一個改進(jìn)版的 AlexNet ,,來從一個不熟悉的 2D 圖像中預(yù)測 3D 場景的可能參數(shù)。

“系統(tǒng)學(xué)會了從結(jié)果到原因,,從 2D 圖像到產(chǎn)生它的 3D 場景,,” Tenenbaum 說。

研究小組通過驗證他們對恒河猴顳下皮層活動的預(yù)測來測試他們的模型,。他們給獼猴看了 175 張圖像,,25 個人擺了 7 個姿勢,并記錄了 “臉斑” 的神經(jīng)特征,,“臉斑” 是專門用于人臉識別的視覺處理區(qū)域,。他們還向深度學(xué)習(xí)網(wǎng)絡(luò)展示了這些圖像。在網(wǎng)絡(luò)中,,第一層神經(jīng)元的激活代表二維圖像,,最后一層神經(jīng)元的激活代表三維參數(shù)。

“在這個過程中,,它經(jīng)歷了一系列的轉(zhuǎn)換,,似乎基本上從 2D 變成了 3D,” Tenenbaum 說,。

他們發(fā)現(xiàn)網(wǎng)絡(luò)的最后三層與獼猴臉部處理網(wǎng)絡(luò)的最后三層非常吻合,。

這表明,大腦使用生成模型和識別模型的組合,,不僅是為了識別和表征物體,,而且是為了推斷場景中固有的因果結(jié)構(gòu),這一切都是在一瞬間發(fā)生的,。

Tenenbaum 承認(rèn),,他們的模型并不能證明大腦是這樣工作的。

“但這確實為以更精細(xì)的機(jī)械論方式提問這些問題打開了大門,,并激勵我們持續(xù)探索,。” 他說,。

Refrence:
[1]https://www./deep-neural-networks-help-to-explain-living-brains-20201028/

來源:數(shù)據(jù)實戰(zhàn)派

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多