實現(xiàn)有效的腦-機接口需要理解人腦如何跨模態(tài)(如視覺、語言(或文本)等)編碼刺激,。大腦編碼旨在構(gòu)建fMRI大腦活動給定的刺激。目前有大量的神經(jīng)編碼模型用于研究大腦對單一模式刺激的編碼:視覺(預(yù)訓(xùn)練的CNN)或文本(預(yù)訓(xùn)練的語言模型),。通過獲得單獨的視覺和文本表示模型,,并使用簡單的啟發(fā)式進行后期融合。然而,以前的工作未能探索:(a)圖像轉(zhuǎn)換器模型對視覺刺激編碼的有效性,,以及(b)協(xié)同多模態(tài)模型對視覺和文本推理的有效性,。在本研究中首次系統(tǒng)地研究和探討了圖像轉(zhuǎn)換器(ViT,DEiT和BEiT)和多模態(tài)轉(zhuǎn)換器(VisualBERT,,LXMERT和CLIP)對大腦編碼的有效性,,并發(fā)現(xiàn):VisualBERT是一種多模態(tài)轉(zhuǎn)換器,其性能顯著優(yōu)于之前提出的單模態(tài)CNN,、圖像轉(zhuǎn)換器以及其他之前提出的多模態(tài)模型,,從而建立了新的研究狀態(tài)。 以下數(shù)據(jù)集在文獻中被廣泛用于研究大腦編碼:Vim-1,、Harry Potter,、BOLD5000、Algonauts和SS-fMRI,。 Vim-1只有黑白圖像,,只與物體識別有關(guān),并被BOLD5000所包含,。SS-fMRI更小,,與BOLD5000非常相似。Harry Potter數(shù)據(jù)集沒有圖像,。fMRIs還沒有為Algonauts數(shù)據(jù)集公開,。因此,在這項工作中,,對BOLD5000和Pereira數(shù)據(jù)集進行了實驗,。 圖1:大腦編碼方法。使用來自圖像/多模態(tài)轉(zhuǎn)換器(如ViT,、Visual-BERT和LXMERT)的特征作為回歸模型的輸入,,預(yù)測不同大腦區(qū)域的fMRI激活。通過計算2V2準確度和實際激活與預(yù)測激活之間的Pearson相關(guān)性來評估腦編碼結(jié)果,。在transformer層和腦區(qū)之間進行分層相關(guān)性分析,。 從4個受試者中,3個受試者觀看了5254幅自然圖像(ImageNet:2051,,COCO:2135,,Scenes:1068),同時獲得了fMRI,。第4名受試者只觀看了3108幅圖像,。附錄表1中簡要總結(jié)了數(shù)據(jù)集的細節(jié)。數(shù)據(jù)涵蓋了人類視覺皮層中的五個視覺區(qū)域,,即早期視覺區(qū)(early visual area,,EarlyVis),;對象相關(guān)區(qū)域,如枕外側(cè)復(fù)合體(LOC),;以及場景相關(guān)區(qū)域,,如枕區(qū)(OPA)、海馬旁區(qū)(PPA)和脾后復(fù)合體(RSC),。每張圖片也有相應(yīng)的文本標簽:ImageNet每張圖片1000個可能的標簽中有幾個,,COCO每張圖片有5個標題,而Scenes每張圖片250個可能的類別中有一個,。專注于對應(yīng)于4個腦網(wǎng)絡(luò)的9個腦區(qū)域:默認模式網(wǎng)絡(luò)(DMN)(與語義處理的功能相關(guān)),、語言網(wǎng)絡(luò)(與語言處理、理解,、詞義和句子理解相關(guān)),、任務(wù)積極網(wǎng)絡(luò)(與注意力、顯著信息相關(guān))和視覺網(wǎng)絡(luò)(與視覺對象,、物體的處理相關(guān),,物體識別)。在附錄表2中簡要總結(jié)了數(shù)據(jù)集的細節(jié)和每個區(qū)域?qū)?yīng)的體素數(shù)量,。 對于這兩個數(shù)據(jù)集,,在使用各種模型獲得的刺激表征上使用脊回歸訓(xùn)練fMRI編碼模型,如圖1所示,。每個fMRI編碼器模型的主要目標是預(yù)測給定刺激的每個大腦區(qū)域的fMRI體素值,。在所有情況下,,為每個受試者單獨訓(xùn)練一個模型,。不同的大腦區(qū)域參與處理涉及物體和場景的刺激。同樣,,一些區(qū)域?qū)iT理解視覺輸入,,而另一些區(qū)域更好地解釋語言刺激。為了理解模型在這些認知方面(物體vs.場景,,語言vs.視覺)的泛化性,,進行了以下實驗。每當在同一個數(shù)據(jù)集上訓(xùn)練和測試時,,都會遵循K折(K=10)交叉驗證。所有來自K-1折疊的數(shù)據(jù)樣本都被用于訓(xùn)練,,模型在左側(cè)折疊的樣本上進行測試,。全數(shù)據(jù)集fMRI編碼:對于每個數(shù)據(jù)集,進行K-fold(K=10)交叉驗證,。 交叉驗證的fMRI編碼在BOLD5000數(shù)據(jù)集中,有三個子數(shù)據(jù)集:COCO、ImageNet和Scenes,。Ima geNet圖像主要包含對象,。場景圖像是關(guān)于自然場景的,而COCO圖像既涉及物體,,也涉及場景。為了評估模型在物體與場景理解上的泛化性,,還對訓(xùn)練圖像進行了交叉驗證實驗,。 訓(xùn)練圖像屬于一個子數(shù)據(jù)集,,而測試圖像屬于另一個子數(shù)據(jù)集,。因此,,對于每個受試者,,進行(1)3個相同子數(shù)據(jù)集的訓(xùn)練-測試實驗和(2)6個跨子數(shù)據(jù)集的訓(xùn)練-測試實驗。因此,,對每個主題進行兩種不同設(shè)置的實驗:(抽象訓(xùn)練,,具體測試)和(具體訓(xùn)練,抽象測試),。 本研究中訓(xùn)練了一個基于脊回歸的編碼模型,,以預(yù)測每個腦區(qū)與刺激表征相關(guān)的fMRI腦活動。使用單獨的脊回歸模型預(yù)測每個體素值,。輸入刺激表示可以使用以下任何模型獲得(i)預(yù)訓(xùn)練的CNN,,(ii)預(yù)訓(xùn)練的文本轉(zhuǎn)換器(ii)圖像轉(zhuǎn)換器,(iv)后期融合模型,,或(v)多模態(tài)轉(zhuǎn)換器,。 預(yù)訓(xùn)練CNN:從不同的預(yù)訓(xùn)練 CNN模型中提取分層特征,如VG-GNet19(Max- Pooll,,MaxPool2,,MaxPool3,MaxPool4,,Max-Pool5,,F(xiàn)C6,F(xiàn)C7,,F(xiàn)C8),,ResNet50(Block1,,Block2,Block3,,Block4,,F(xiàn)C),In-ceptionV2ResNet(con2d5,,con2d50,,con2d100,con2d150,,con2d200,,con2d 7b),和EfficientNetB5(con2d2,,con2d8,,con2d16,con2d24,,F(xiàn)C),,并使用它們預(yù)測fMRI腦活動。在這里,,在每一層上使用自適應(yīng)平均池化來獲得每一幅圖像的特征表示,。 預(yù)訓(xùn)練文本轉(zhuǎn)換器:RoBERTa建立在BERT的語言屏蔽策略上,并在流行的GLUENLP基準上被證明優(yōu)于其他幾個文本模型,。使用RoBERTa的平均池化表示來編碼文本刺激,。 圖像轉(zhuǎn)換器:使用了三種圖像轉(zhuǎn)換器:視覺轉(zhuǎn)換器(ViT)、數(shù)據(jù)高效圖像轉(zhuǎn)換器(DEIT)和來自圖像轉(zhuǎn)換器的雙向編碼器表示(BEiT),。給定一幅圖像,,圖像轉(zhuǎn)換器輸出兩種表示:池和塊。對這兩種表示進行了實驗,。 后期融合模型:在這些模型中,,刺激表示是由從預(yù)訓(xùn)練的CNN中獲得的圖像刺激編碼和從預(yù)訓(xùn)練的文本轉(zhuǎn)換器中獲得的文本刺激編碼的串聯(lián)得到的,。因此,,對這些后期融合模型進行了實驗:VGGNet19+RoBERTa,ResNet50+RoBER Ta,,InceptionV2ResNet+RoBERTa 和Efficient-NetB5+RoBERTa,。這些模型沒有融合真實的信息,只是跨模態(tài)進行了級聯(lián),。 多模態(tài)轉(zhuǎn)換器:對這些多模態(tài)轉(zhuǎn)換器模型進行了實驗:對比語言圖像預(yù)訓(xùn)練(CLIP),、從轉(zhuǎn)換器中學(xué)習(xí)跨模態(tài)編碼器表示(LXMERT)和Visualalbert。這些轉(zhuǎn)換器將圖像和文本刺激都作為輸入,,并輸出視覺-語言聯(lián)合表示,。具體而言,,這些模型的圖像輸入包括區(qū)域建議以及從Faster R-CNN提取的邊界框回歸特征作為輸入特征,如圖1所示,。這些模型在使用共同注意的不同處理水平上合并了跨模態(tài)的信息融合,,因此是預(yù)計將產(chǎn)生高質(zhì)量的視覺語言表示。 超參數(shù)設(shè)置:使用了sklearm的默認參數(shù)的脊回歸,、K-fold(K=10)交叉驗證,、隨機平均梯度下降優(yōu)化器、轉(zhuǎn)換器模型的Huggin gface,、MSE損失函數(shù)和L2衰減,。使用詞塊標記器作為語言轉(zhuǎn)換器的輸入,并使用Faster-RCNN提取區(qū)域建議,。所有實驗都是在一臺帶有1個NVIDIA GEFORCE-GTX GPU和16GB GPU RAM的機器上進行的,。 評價指標 使用大腦編碼評估指標2V2 Accuracy評估該模型。給定一個受試者和一個大腦區(qū)域,,設(shè)N為樣本數(shù)量,。設(shè)表示第i個樣本的實際和預(yù)測體素值向量,其中V是該區(qū)域的體素數(shù),。2V2 Accuracy的計算如下,。 其中cosD為余弦距離函數(shù)。I[c]是一個指示函數(shù),,使I[c]=1如果c為真,,否則為0。2V2 Accuracy越高越好,。 這里給出了用不同方法訓(xùn)練的模型的2V2準確度和Pearson相關(guān)性結(jié)果,。分別在圖2和圖4中的BOLD5000和Pereira兩個數(shù)據(jù)集上輸入表示(從每個預(yù)訓(xùn)練的CNN模型的最佳表現(xiàn)層和transformer模型的最后輸出層提取的特征)。并對附錄圖8和圖9中CNN模型和Transformer模型的最后一層使用許多中間層激活(不僅僅是最好的)的結(jié)果進行了比較,。此外,,還比較了附錄圖10和圖11中Transformer模型使用所有中間層激活的結(jié)果。 圖2:BOLD5000結(jié)果:使用各種模型在不同腦區(qū)預(yù)測和真實反應(yīng)之間的2V2(上圖)和Pearson相關(guān)系數(shù)(下圖),。對所有參與者的結(jié)果進行了平均,。VisualBERT表現(xiàn)最好。 圖3:BOLD5000: #參數(shù)vs Pearson Corr均值 BOLD5000:從圖2中進行了以下觀察: (1)在2V2準確度和Pearson相關(guān)性方面,,VisualBERT在所有模型中都更好,。 (2)其他多模態(tài)轉(zhuǎn)換器,如LXMERT和CLIP的表現(xiàn)與預(yù)訓(xùn)練的CNN一樣好,。然而,,圖像轉(zhuǎn)換器的表現(xiàn)比預(yù)訓(xùn)練的CNN差,后期融合模型和RoBERTa表現(xiàn)最差,。 (3)后期視覺區(qū)域,,如OPA(場景相關(guān))和LOC(物體相關(guān)),,與多模態(tài)轉(zhuǎn)換器顯示出更高的Pearson相關(guān)性,,這與視覺處理層次是內(nèi)聯(lián)的??偟膩碚f,多模態(tài)轉(zhuǎn)換器與所有視覺腦區(qū)ROI的相關(guān)性更高,,這表明聯(lián)合編碼視覺和語言信息的能力。 (4)與合并表示相比,,圖像轉(zhuǎn)換器的塊表示具有更高的2V2準確度和Pearson相關(guān)性。 (5)在單模模型中,InceptionV2ResNet和ResNet-50均有較好的表現(xiàn),。 為了估計性能差異的統(tǒng)計學(xué)意義,對所有受試者在5個腦感興趣區(qū)進行了雙尾t檢驗,。研究發(fā)現(xiàn),,VisualBERT在除EarlyVis外的所有感興趣區(qū)均優(yōu)于LXMERT(次優(yōu)多模態(tài)轉(zhuǎn)換器)和InceptionV2ResNet(最佳預(yù)訓(xùn)練CNN),。最后,,在所有感興趣點上,,InceptionV2ResNet均顯著優(yōu)于BEiT(best image Transformer)(附錄表3中提到了詳細的p值)。 圖4:Pereira結(jié)果:使用各種模型在不同大腦區(qū)域預(yù)測和真實反應(yīng)之間的2V2(上圖)和Pearson相關(guān)系數(shù)(下圖),。所有參與者的結(jié)果是平均的,。VisualBERT表現(xiàn)最好。 Pereira:從圖4中進行了如下觀察: (1)與BOLD5000類似,,VisualBERT和LXMERT等多模態(tài)轉(zhuǎn)換器的性能更好。 (2)橫向視覺區(qū)域如Vision Object,、Vision Body,、Vision Face和視覺區(qū)域與多模態(tài)轉(zhuǎn)換器表現(xiàn)出更高的相關(guān)性。與所有視覺大腦區(qū)域,,語言區(qū)域,,DMN和TP的高相關(guān)性與多模態(tài)變形器,表明對齊的視覺語言理解有幫助,。 為了估計性能差異的統(tǒng)計顯著性,,對所有受試者在9個腦感興趣區(qū)進行了雙尾t檢驗,。發(fā)現(xiàn)VisualBERT在除Vi-sion Body外的所有感興趣區(qū)均顯著優(yōu)于LXMERT(次優(yōu)多模態(tài)轉(zhuǎn)換器),。此外,,VisualBERT在除Vision Object和Vi-sion Scene外的所有roi上均顯著優(yōu)于ResNet(最佳預(yù)訓(xùn)練CNN)。最后,,ResNet在所有roi上都顯著優(yōu)于ViT(best image Transformer)(附錄表4中提到了詳細的p值),。 圖5:實際體素和預(yù)測體素之間的MAE:(a)左圖在BOLD5000受試者1上Visual-BERT的V2和V3腦區(qū)進行了放大。注意V1和V2也被稱為EarlyVis區(qū)域,,V3也被稱為LOC區(qū)域,。(b)右圖是VisualBERT在Pereira數(shù)據(jù)集subject2上的圖,。 作為進一步的分析,在圖5中展示了平均值,。使用Visual-BERT在大腦區(qū)域中實際和預(yù)測體素之間的絕對誤差(MAE),。與其他模型的類似腦圖相比(見附錄圖12和圖13),,注意到大多數(shù)體素的誤差幅度非常小。觀察到,對于BOLD5000,,EarlyVis區(qū)域的MAE值相對較高,,OPA的MAE值最低,。 在圖3中繪制了BOLD5000中所有受試者的模型大小與Pearson相關(guān)性(PC)平均值的比較,。觀察到,與LXMERT相比,,VisualBERT不僅更準確,,而且也小得多。在大小幾乎相同的情況下,,VisualBERT與圖像轉(zhuǎn)換器相比要準確得多,。最后,預(yù)訓(xùn)練的CNN比VisualBERT小,,但即使使用的特定層激活是精挑細選的,,準確度也較低。觀察到Pereira數(shù)據(jù)集的類似趨勢,,如附錄圖7所示,。 圖6:(a)BOLD5000數(shù)據(jù)集的交叉驗證結(jié)果。(b)Pereira數(shù)據(jù)集的抽象-具體結(jié)果,。VB=VisualBERT,,LX=LXMERT,CL=CLIP,,B=Baseline(Blauch等人,,2019年),INC=InceptionV2ResNet,。CC=Train and test on COCo,,CI=Train on COCO and test on ImageNet,CS=Train on COCO and test on Scenes,,等等) 圖6(a)展示了使用三個多模態(tài)轉(zhuǎn)換器(VisualBERT,、LXMERT和CLIP)在BOLD5000上進行交叉驗證編碼的PC。展示了基線方法的結(jié)果,觀察到: (1)在所有交叉驗證任務(wù)中,,多模態(tài)轉(zhuǎn)換器在所有5個腦區(qū)域的表現(xiàn)均優(yōu)于基線結(jié)果,。 (2)在對象選擇視覺區(qū)LOC(外側(cè)枕葉皮質(zhì)),COCO訓(xùn)練和ImageNet測試的PC評分較高,。 (3)同樣,,場景選擇性腦區(qū)如RSC和OPA在coco-scene、ima genet-scene和scene-scene任務(wù)中具有較高的相關(guān)性,。 (4)與其他腦區(qū)相比,,早期視覺區(qū)在3個任務(wù)中相關(guān)性較低。 (5)總體而言,在COCO或Ima-geNet 上訓(xùn)練的模型比在場景上訓(xùn)練的模型報告更高的相關(guān)性,。 抽象-具體的IRI編碼 在圖6(b)中,,使用兩個最好的多模態(tài)轉(zhuǎn)換器(VisualBERT和LXMERT)和最好的預(yù)訓(xùn)練 CNN模型(In-ceptionV2ResNet),在大腦區(qū)域展示了abstract-train-concrete-test和concrete-train-abstract-test編碼器模型的結(jié)果,。觀察到,,與abstract-train-concrete-test模型相比,concrete-train-abstract-test模型提供了更好的PC評分,。這與的預(yù)期相吻合,,即的大腦從具體概念中學(xué)習(xí)得比從抽象概念中學(xué)習(xí)得更好??绱竽X區(qū)域的PC分析提供了以下見解,。 (1)視覺腦區(qū)如Vision_Body、Vision_Face,、Vision_Object和Vision對具體概念和抽象概念都有優(yōu)越的表現(xiàn),;然而,這并不是Vision Scene區(qū)域的情況,。 (2)在concrete-train-abstract-test模型中,,語言、DMN和任務(wù)正(TP)腦網(wǎng)絡(luò)的相關(guān)性高于abstract-train-concrete-test模型,。 此外,,在向參與者展示文本和圖像的情況下,這些模型的性能自然很好,,并且與Pere ira數(shù)據(jù)集的情況一樣,,全腦反應(yīng)被捕獲(見圖4和圖5(b))?;谟嬎銓嶒灥闹庇X,,對未來的fMRI實驗做了以下可測試的預(yù)測。如果參與者對物體場景執(zhí)行命名任務(wù)/決策任務(wù),,而不是被動的觀看任務(wù),,預(yù)計將看到更明顯和集中的結(jié)果與被動觀看相比,基于語言的任務(wù)中視覺區(qū)域的激活,。 (1)盡管VisualBERT看起來性能很好,,但它的尺寸相對較大。最近有很多關(guān)于壓縮大型深度學(xué)習(xí)模型的工作,,可以加以利用,。 (2)盡管觀察到VisualBERT導(dǎo)致了更好的結(jié)果,但它真的像大腦一樣工作嗎,?計劃在未來探索大腦體素空間和表征特征空間之間的相關(guān)性,,以回答這個問題,。 (3)在這項工作中探索了多模態(tài)刺激作為視覺和文本的組合。但聯(lián)合強度(音頻,、視覺和文本)模態(tài)仍有待研究,。 具體而言,本文做出了以下貢獻,。 (1)給出了基于多模態(tài)變換器的最新編碼結(jié)果,,并研究了該模型在交叉驗證設(shè)置下的有效性。 (2)生成了基于轉(zhuǎn)換器的架構(gòu)的使用,,消除了在現(xiàn)有的基于CNN的fMRI編碼架構(gòu)中手動選擇特定層的需要,。 (3)揭示了關(guān)于fMRI體素和多模態(tài)/圖像轉(zhuǎn)換器和CNN的表征之間的關(guān)聯(lián)的幾個認知見解,。計劃將此作為未來工作的一部分進行探索,。 附錄 在表1和表2中分別展示了BOLD5000和Pereira數(shù)據(jù)集在不同大腦區(qū)域的實例數(shù)量和體素分布。 表1:BOLD5000數(shù)據(jù)集統(tǒng)計,。LH =左半球,。RH -右半球。 表2:Pereira數(shù)據(jù)集統(tǒng)計 預(yù)訓(xùn)練cnn的中間層表示相比,,多模態(tài)變壓器的編碼性能 分別在圖8和圖9中的BOLD5000和Pereira兩個數(shù)據(jù)集上,,展示了使用從多模態(tài)轉(zhuǎn)換器的最后一層提取的表示以及從預(yù)訓(xùn)練的CNN的所有低層到高層表示訓(xùn)練的模型的2V2準確度和Pearson相關(guān)性。 從圖8中進行了以下觀察: (1)在2V2和Pearson 相關(guān)性方面,,多模態(tài)轉(zhuǎn)換器VisualBERT的表現(xiàn)優(yōu)于所有預(yù)訓(xùn)練CNN的內(nèi)部表示,。 (2)在預(yù)訓(xùn)練的CNN中,與較低或較高級別的層表示相比,,中間塊具有更好的相關(guān)性評分. (3)除了InceptionV2ResNet中的Conv2D150等中間塊,,其他多模態(tài)轉(zhuǎn)換器CLIP和LXMERT與所有模型相比都有邊緣改進。 從圖9中進行了以下觀察: (1)在2V2和Pearson 相關(guān)性方面,,多模態(tài)轉(zhuǎn)換器VisualBERT的表現(xiàn)優(yōu)于所有預(yù)訓(xùn)練CNN的內(nèi)部表示,。 (2)與BOLD5000相似,在Pereira數(shù)據(jù)集上預(yù)訓(xùn)練的CNN中,,與較低或較高層次的層表示相比,,中間塊的相關(guān)性評分更好。 (3)其他多模態(tài)轉(zhuǎn)換器,,LXMERT,,與每個預(yù)訓(xùn)練CNN模型的中間塊具有相同的性能。 多模態(tài)轉(zhuǎn)換器在它們的層中表現(xiàn)的編碼性能 考慮到視覺或視覺語言信息跨轉(zhuǎn)換器層的分層處理,,進一步研究這些轉(zhuǎn)換器層如何使用圖像和多模態(tài)轉(zhuǎn)換器編碼fMRI大腦活動,。分別在圖10和圖11中展示了BOLD5000和Pereira兩個數(shù)據(jù)集上的分層編碼性能結(jié)果。 從圖10中進行了以下觀察: (1)多模態(tài)轉(zhuǎn)換器Visu-alBERT在1到12層之間具有一致的性能,。 (2)LXMERT模型的性能從中間層(L7)到高層有邊際下降,。 (3)圖像變換具有較高的Pearson相關(guān)性,,對于較低層次的早期視覺區(qū)域,而在較高層次的視覺區(qū)域,,如LOC,、OPA和PPA,相關(guān)性越來越強,。 (4)表明人腦對視覺刺激的處理層次與圖像轉(zhuǎn)換器層相似,。 從圖11中進行了以下觀察: (1)多模態(tài)轉(zhuǎn)換器VisualBERT在1到12層之間具有一致的性能。 (2)LXMERT模型的性能從較低的層到較高的層有邊際遞減,。 (3)圖像轉(zhuǎn)換器ViT在較低層的早期視覺區(qū)域具有較高的Pearson相關(guān)性,,而在較高層的視覺區(qū)域如VisionBody、Vision_Face和Vision_Obj具有較高的相關(guān)性,。 BOLD5000數(shù)據(jù)集的各種模型的腦圖 圖12顯示了BOLD5000數(shù)據(jù)集上各種模型的實際和預(yù)測體素之間的平均絕對誤差(MAE),,請注意,與圖5(a)所示的Visual-BERT模型相比,,大多數(shù)體素的誤差幅度要高得多,。此外,與圖像轉(zhuǎn)換器(MAE范圍:0~0.02)和預(yù)訓(xùn)練CNN(MAE范圍:0~0.0236)相比,,多模態(tài)轉(zhuǎn)換器VisaulBERT(MAE范圍:0~0.0181)和LXMERT(MAE范圍:0~0.0188)的MAE更低,。 針對Pereira數(shù)據(jù)集的各種模型的腦圖 圖13顯示了Pereira數(shù)據(jù)集上各種模型的實際體素和預(yù)測體素之間的平均絕對誤差(MAE)。請注意,,與圖13(a)所示的VisualBERT模型相比,,大多數(shù)體素的誤差幅度要高得多。此外,,與圖像轉(zhuǎn)換器和其他預(yù)訓(xùn)練的CNN相比,,多模態(tài)轉(zhuǎn)換器、VisaulBERT和LXMERT以及InceptionV2ResNet+Conv2D150的MAE更低,。 圖8:BOLD5000: 2V2(頂部圖)和Pearson相關(guān)系數(shù)(底部圖)使用各種模型在不同大腦區(qū)域預(yù)測和真實反應(yīng)之間的關(guān)系,。結(jié)果是所有參與者的平均值。預(yù)訓(xùn)練的CNN結(jié)果顯示所有層,,而多模態(tài)轉(zhuǎn)換器的結(jié)果只顯示最后一層,。 圖9:Pereira數(shù)據(jù)集:2V2(上圖)和Pearson相關(guān)系數(shù)(下圖)使用各種模型在不同大腦區(qū)域預(yù)測和真實反應(yīng)之間的關(guān)聯(lián)系數(shù)。結(jié)果是所有參與者的平均值,。預(yù)訓(xùn)練的CNN結(jié)果顯示所有層,,而多模態(tài)轉(zhuǎn)換器的結(jié)果只顯示最后一層。 論文詳情: Max Ortiz-Catalan, Enzo Mastinu, Charles M. Greenspon, Sliman J. Bensmaia, Chronic Use of a Sensitized Bionic Hand Does Not Remap the Sense of Touch, Cell Reports, Volume 33, Issue 12, 2020, 108539, ISSN 2211-1247, https:///10.1016/j.celrep.2020.108539. https:///bionics-robotics/bionic-touch-does-not-remap-the-brain.html |
|
來自: 腦機接口社區(qū) > 《待分類》