有缺陷的監(jiān)督
來源:新智元 我們都知道,,人類的大腦90%都是自監(jiān)督學(xué)習(xí)的,生物會不斷對下一步發(fā)生的事情做出預(yù)測,。 自監(jiān)督學(xué)習(xí),,就是不需要外部干預(yù)也能做出決策。 只有少數(shù)情況我們會接受外部反饋,,比如老師說:「你搞錯了」,。 而現(xiàn)在有學(xué)者發(fā)現(xiàn),大型語言模型的自監(jiān)督學(xué)習(xí)機制,,像極了我們的大腦,。 知名科普媒體Quanta Magazine近日報道,越來越多的研究發(fā)現(xiàn),,自監(jiān)督學(xué)習(xí)模型,,尤其是大型語言模型的自學(xué)方式,與我們的大腦的學(xué)習(xí)模式非常類似,。 過去常見的AI系統(tǒng)都是使用大量標(biāo)記數(shù)據(jù)進行訓(xùn)練的,。 例如,圖像可能被標(biāo)記為「虎斑貓」或「虎貓」,,用以訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)來正確區(qū)分虎斑和虎,。 這種「自監(jiān)督」訓(xùn)練需要人工費力地標(biāo)記數(shù)據(jù),而神經(jīng)網(wǎng)絡(luò)通常會走捷徑,,學(xué)習(xí)將標(biāo)簽與最少,、有時甚至是膚淺的信息聯(lián)系起來。 例如,神經(jīng)網(wǎng)絡(luò)可能會使用草的存在來識別奶牛的照片,,因為奶牛通常是在田野中拍攝的,。 加州大學(xué)伯克利分校的計算機科學(xué)家阿列克謝·埃弗羅斯 (Alexei Efros) 說: 我們正在培養(yǎng)的算法,就像是一整個學(xué)期都沒來上課的本科生,,雖然他們并沒有系統(tǒng)學(xué)習(xí)這些材料,,但他們在考試中表現(xiàn)出色。 此外,,對于對動物智能和機器智能的交叉感興趣的研究人員來說,,這種「監(jiān)督學(xué)習(xí)」可能僅限于它對生物大腦的揭示。 許多動物,,包括人類不使用標(biāo)記數(shù)據(jù)集來學(xué)習(xí),。在大多數(shù)情況下,他們自己探索環(huán)境,,并且通過這樣做,,他們對世界獲得了豐富而深刻的理解。 現(xiàn)在,,一些計算神經(jīng)科學(xué)家已經(jīng)開始探索使用很少或沒有人工標(biāo)記數(shù)據(jù)進行訓(xùn)練的神經(jīng)網(wǎng)絡(luò),。 最近的研究結(jié)果表明,使用自我監(jiān)督學(xué)習(xí)模型構(gòu)建的動物視覺和聽覺系統(tǒng)的計算模型比監(jiān)督學(xué)習(xí)模型更接近大腦功能,。 對一些神經(jīng)科學(xué)家來說,,人工神經(jīng)網(wǎng)絡(luò)似乎開始揭示用大腦來類比機器學(xué)習(xí)的途徑。 有缺陷的監(jiān)督
大約10年前,,受人工神經(jīng)網(wǎng)絡(luò)啟發(fā)的大腦模型開始出現(xiàn),,同時一個名為AlexNet的神經(jīng)網(wǎng)絡(luò)徹底改變了對未知圖像進行分類的任務(wù)。 這項成果在Alex Krizhevsky,、Ilya Sutskever和Geoffrey E. Hinton 的論文「ImageNet Classification with Deep Convolutional Neural Networks」中發(fā)表,。 論文地址:https://dl./doi/10.1145/3065386 與所有神經(jīng)網(wǎng)絡(luò)一樣,該網(wǎng)絡(luò)由多層人工神經(jīng)元組成,,其中不同神經(jīng)元之間連接的權(quán)重不同,。 如果神經(jīng)網(wǎng)絡(luò)未能正確分類圖像,學(xué)習(xí)算法會更新神經(jīng)元之間連接的權(quán)重,,以降低在下一輪訓(xùn)練中錯誤分類的可能性,。 該算法重復(fù)此過程多次,調(diào)整權(quán)重,,直到網(wǎng)絡(luò)的錯誤率低到可以接受的程度,。 之后,神經(jīng)科學(xué)家使用AlexNet開發(fā)了第一個靈長類視覺系統(tǒng)(Primate Visual System)的計算模型,。 當(dāng)猴子和人工神經(jīng)網(wǎng)絡(luò)顯示相同的圖像時,,真實神經(jīng)元和人工神經(jīng)元的活動顯示出類似的反應(yīng),。 在聽覺和氣味檢測的人工模型上也取得了相似的結(jié)果。 但隨著該領(lǐng)域的發(fā)展,,研究人員意識到自監(jiān)督訓(xùn)練的局限性,。 2017年,德國蒂賓根大學(xué)的計算機科學(xué)家Leon Gatys和他的同事拍攝了一張福特T型車的照片,,然后在照片上覆蓋了豹皮圖案,。 而人工智能神經(jīng)網(wǎng)絡(luò)將原始圖像正確分類為Model T,,但將修改后的圖像視為豹子,。 原因是它只專注于圖像紋理,不了解汽車(或豹子)的形狀,。 自監(jiān)督學(xué)習(xí)模型旨在避免此類問題,。 瑞士巴塞爾弗里德里希·米歇爾生物醫(yī)學(xué)研究所的計算神經(jīng)科學(xué)家弗里德曼·岑克 (Friedemann Zenke) 說,, 在這種方法中,,人類不會標(biāo)記數(shù)據(jù),相反,,標(biāo)簽來自數(shù)據(jù)本身,。自監(jiān)督算法本質(zhì)上是在數(shù)據(jù)中創(chuàng)建空白,并要求神經(jīng)網(wǎng)絡(luò)填補空白,。 例如,,在所謂的大型語言模型中,訓(xùn)練算法將向神經(jīng)網(wǎng)絡(luò)顯示句子的前幾個單詞,,并要求它預(yù)測下一個單詞,。 當(dāng)使用從互聯(lián)網(wǎng)收集的大量文本進行訓(xùn)練時,該模型似乎可以學(xué)習(xí)語言的句法結(jié)構(gòu),,展示出令人印象深刻的語言能力——所有這些都沒有外部標(biāo)簽或監(jiān)督,。 計算機視覺方面也正在進行類似的努力。 2021年底,,何愷明及其同事展示了著名的掩碼自動編碼器研究「Masked Auto-Encoder」(MAE),。 論文地址:https:///abs/2111.06377 MAE將未掩碼部分轉(zhuǎn)換為潛在表示——壓縮的數(shù)學(xué)描述,其中包含有關(guān)對象的重要信息,。 在圖像的情況下,,潛在表示可能是一種數(shù)學(xué)描述,其中包括圖像中對象的形狀,。然后解碼器將這些表示轉(zhuǎn)換回完整的圖像,。 大腦也是「自監(jiān)督」的
在這樣的系統(tǒng)中,一些神經(jīng)科學(xué)家認(rèn)為,,我們的大腦實際上也是自監(jiān)督學(xué)習(xí)的,。 麥吉爾大學(xué)和魁北克人工智能研究所(Mila)的計算神經(jīng)科學(xué)家布萊克-理查茲(Blake Richards)說:「我認(rèn)為毫無疑問,大腦所做的90%都是自監(jiān)督學(xué)習(xí)?!?/p> 生物大腦被認(rèn)為是在不斷地預(yù)測,,例如,一個物體在移動時的未來位置,,或一句話中的下一個詞,,就像自我監(jiān)督學(xué)習(xí)算法試圖預(yù)測圖像或一段文字的間隙一樣。 計算神經(jīng)科學(xué)家布萊克-理查茲(Blake Richards)創(chuàng)建了一個AI系統(tǒng),,模仿活體大腦中的視覺網(wǎng)絡(luò) 理查茲和他的團隊創(chuàng)建了一個自監(jiān)督模型,,暗示了一個答案。他們訓(xùn)練了一個結(jié)合兩種不同神經(jīng)網(wǎng)絡(luò)的人工智能,。 第一個,,稱為ResNet架構(gòu),是為處理圖像而設(shè)計的,;第二個,,稱為遞歸網(wǎng)絡(luò),可以跟蹤先前的輸入序列,,對下一個預(yù)期輸入進行預(yù)測,。 為了訓(xùn)練聯(lián)合AI,該團隊從一連串的視頻開始,,比如說10幀,,讓ResNet逐一處理。 然后,,遞歸網(wǎng)絡(luò)預(yù)測了第11幀的潛在表示,,而不是簡單地匹配前10幀。自監(jiān)督學(xué)習(xí)算法將預(yù)測值與實際值進行比較,,并指示神經(jīng)網(wǎng)絡(luò)更新其權(quán)重,,以使預(yù)測效果更好。 為了進一步測試,,研究人員向AI展示了一組視頻,,西雅圖艾倫腦科學(xué)研究所的研究人員以前曾向小鼠展示過這些視頻。與靈長類動物一樣,,小鼠的大腦區(qū)域?qū)iT用于靜態(tài)圖像和運動,。艾倫研究人員在小鼠觀看視頻時記錄了小鼠視覺皮層的神經(jīng)活動。 理查茲的團隊發(fā)現(xiàn)了AI和活體大腦對視頻的反應(yīng)方式的相似之處,。在訓(xùn)練過程中,,人工神經(jīng)網(wǎng)絡(luò)中的一條途徑變得與小鼠大腦的腹側(cè)、物體探測區(qū)域更加相似,,而另一條途徑則變得與注重運動的背側(cè)區(qū)域相似,。 這些結(jié)果表明,,我們的視覺系統(tǒng)有兩條專門的通路,因為它們有助于預(yù)測視覺的未來,;單一的通路是不夠好的,。 人類聽覺系統(tǒng)的模型講述了一個類似的故事。 6月,,由Meta AI的研究科學(xué)家Jean-Rémi King領(lǐng)導(dǎo)的團隊訓(xùn)練了一個名為Wav2Vec 2.0的人工智能,,它使用一個神經(jīng)網(wǎng)絡(luò)將音頻轉(zhuǎn)化為潛在的表征。研究人員對這些表征中的一些進行了屏蔽,,然后將其送入另一個稱為轉(zhuǎn)化器的組件神經(jīng)網(wǎng)絡(luò),。 在訓(xùn)練過程中,轉(zhuǎn)化器預(yù)測被屏蔽的信息,。在這個過程中,,整個人工智能學(xué)會了將聲音轉(zhuǎn)化為潛在的表征,同樣,,不需要標(biāo)簽。 該團隊使用了大約600小時的語音數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò),?!高@大約是一個孩子在前兩年的經(jīng)驗中得到的東西?!菇鹫f,。 Meta AI的讓-雷米-金幫助訓(xùn)練了一種人工智能,它以模仿大腦的方式處理音頻--部分是通過預(yù)測下一步應(yīng)該發(fā)生什么 一旦該系統(tǒng)被訓(xùn)練出來,,研究人員給它播放英語,、法語和普通話的有聲讀物部分,然后將AI的表現(xiàn)與412人的數(shù)據(jù)進行了比較(這些人都是以這三種語言為母語的人),,他們在核磁共振掃描對自己的大腦進行成像時,,聽了同樣長的一段音頻。 結(jié)果顯示,,盡管fMRI圖像有噪音且分辨率不高,,但AI神經(jīng)網(wǎng)絡(luò)和人類的大腦「不僅相互關(guān)聯(lián),而且還以系統(tǒng)的方式關(guān)聯(lián)」,。 AI早期層的活動與初級聽覺皮層的活動一致,,而AI最深層的活動則與大腦中較高層的活動相一致,比如前額葉皮層,。 「這是非常漂亮的數(shù)據(jù),,雖然算不上是決定性的,但算得上是令人信服的證據(jù),,表明我們學(xué)習(xí)語言的方式在很大程度上是在預(yù)測接下來會說的話,?!?/p> 有人不同意:模擬大腦?模型,、算法都差的遠(yuǎn) 當(dāng)然,,也并非所有人都認(rèn)同這種說法。 MIT的計算神經(jīng)科學(xué)家喬希-麥克德莫特(Josh McDermott)曾使用監(jiān)督和自監(jiān)督學(xué)習(xí)研究視覺和聽覺的模型,。他的實驗室設(shè)計了一些人工合成的音頻和視覺信號,,對于人類來說,這些信號只是難以捉摸的噪音,。 然而,,對于人工神經(jīng)網(wǎng)絡(luò)來說,這些信號似乎與真實語言和圖像沒有區(qū)別,。這表明,,在神經(jīng)網(wǎng)絡(luò)的深層形成的表征,即使是自監(jiān)督學(xué)習(xí),,也與我們大腦中的表征不一樣,。 麥克德莫特說:「這些自我監(jiān)督的學(xué)習(xí)方法是一種進步,因為你能夠?qū)W習(xí)能夠支持很多識別行為的表征,,而不需要所有標(biāo)簽,。但仍然有很多監(jiān)督模型的特征?!?/p> 算法本身也需要更多改進,。比如在Meta AI的Wav2Vec 2.0模型中,AI只預(yù)測了幾十毫秒的聲音的潛在表征,,比人發(fā)出一個噪音音節(jié)的時間還要短,,更不用說預(yù)測一個詞了。 要真正實現(xiàn)讓AI模型和人類大腦相類似,,我們還有很多事情要做,,金說。 如果目前發(fā)現(xiàn)的大腦和自我監(jiān)督學(xué)習(xí)模型之間的相似性在其他感官任務(wù)中也成立,,將更有力地表明,,無論我們的大腦有什么神奇的能力,都需要以某種形式進行自監(jiān)督學(xué)習(xí),。 |
|
來自: 小飛俠cawdbof0 > 《智能》