久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

正面剛CNN,,Transformer居然連犯錯(cuò)都像人類|細(xì)胞|序列|卷積|上下文|紋理

 博采簡納 2021-07-26
夢晨 水木番 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI

這是你眼里的一只貓:


這是CNN眼里的一只貓:


這是ViT (Vision Transformer)眼里的一只貓:


從去年起,,Transformer忙著跨界CV,如ViT在圖像分類上準(zhǔn)確率已超過CNN,大有取代之勢,。

這背后的原因是什么,?

最近普林斯頓的一項(xiàng)研究認(rèn)為,,Transformer的運(yùn)作方式更接近人類,連犯錯(cuò)的方式都和人類一樣。

研究團(tuán)隊(duì)在圖像分類的準(zhǔn)確率之外,增加了對錯(cuò)誤類型的分析,。

結(jié)果發(fā)現(xiàn),,與CNN相比,ViT更擅長判斷形狀

此前在ICLR2019上發(fā)表的一篇論文提出,,用ImageNet訓(xùn)練的CNN模型更傾向于通過紋理分類圖像。

如下圖中混合了大象皮膚紋理的貓被判斷成了大象。


△來自arXiv:1811.12231

雖然說這更可能和ImageNet的數(shù)據(jù)紋理信息更豐富有關(guān),。

但ViT模型,,使用相同數(shù)據(jù)集訓(xùn)練,就傾向于通過形狀分類圖像,,并且表現(xiàn)比CNN更好,。

用形狀分類物體也是人類的傾向,。不信的話,,試試回答下圖的問題:右面的三個(gè)物體中哪個(gè)與左邊的是同類?


△來自DOI: 10.1016/0749-596X(92)90040-5

這意味著,,使用ViT不僅能建立更高效的視覺神經(jīng)網(wǎng)絡(luò),,甚至對理解人類視覺的運(yùn)作方式都有幫助。

這么神奇,?

下面來看看CNN與Transformer與人腦的聯(lián)系分別在哪里,。

CNN:從貓身上獲得靈感

大腦的不同區(qū)域?qū)σ曈X信息有不同的處理方式,,CNN主要模仿的是“腹側(cè)流 (Ventral Stream)”在物體識別,、分類上的運(yùn)作方式,。


1981年獲得諾貝爾生理和醫(yī)學(xué)獎(jiǎng),,由神經(jīng)科學(xué)家Hubel和Wiesel發(fā)現(xiàn)貓的視覺皮層中有簡單細(xì)胞復(fù)雜細(xì)胞兩種,。

每個(gè)簡單細(xì)胞對一個(gè)特定角度的長條物體反應(yīng)最強(qiáng)烈,而復(fù)雜細(xì)胞接受許多個(gè)簡單細(xì)胞傳出的信號,,就能做到將不同角度的長條物體識別成同一個(gè),。


在CNN中,這兩種細(xì)胞的工作被分配給了卷積層池化層,。

卷積層中的神經(jīng)元像簡單細(xì)胞一樣,,僅和上一層的部分區(qū)域相連接,學(xué)習(xí)局部特征,。


最大池化 (Max Pooling)操作就是模仿復(fù)雜細(xì)胞,,對簡單細(xì)胞中信號最強(qiáng)的作出反應(yīng),。


這就是CNN從動(dòng)物視覺中學(xué)到的第一個(gè)重要特性“局部連接”。

在卷積層和池化層中使用局部連接,僅在最后輸出結(jié)果前加入全連接層,使CNN獲得了“平移不變性”,。

也就是把圖像稍微挪動(dòng)位置,,也可以識別成相同的特征。


另外,,與全連接的神經(jīng)網(wǎng)絡(luò)相比,,局部連接的方式還大大減少了需要的參數(shù)量,,降低訓(xùn)練成本,。

為了進(jìn)一步節(jié)省資源,、提高效率,,CNN在此基礎(chǔ)上發(fā)展出另一個(gè)特性“權(quán)重共享”。

隱藏層中的每個(gè)神經(jīng)元都使用相同的過濾器,,也就是卷積核,。

就像這樣:


△來自freecodecamp

卷積核中的相同的參數(shù)使用在每一次卷積操作中,,進(jìn)一步降低了需要的參數(shù)量,。

不過,,與生物視神經(jīng)的不同之處也隨之出現(xiàn)了。

ViT: 擁有多個(gè)注意力中心

讓我們再來看看人眼的注意力機(jī)制,。

人是不能同時(shí)看清視野左右兩端邊緣上的物體的,。

當(dāng)你把目光聚焦到一邊時(shí),另一邊只能模糊地感覺到有無物體存在,,看不清具體的形狀或顏色,。

不信的話現(xiàn)在就可以試一試,。

這是因?yàn)楦泄饧?xì)胞在視網(wǎng)膜上的分布并是不均勻的,。

人眼的感光細(xì)胞分為視桿細(xì)胞(Rods)和視錐細(xì)胞(Cones)兩種。


視桿細(xì)胞主要負(fù)責(zé)感知光的亮度,,不能很好地分辨細(xì)節(jié),。

而在光亮度足夠時(shí)能分辨顏色和形狀的視錐細(xì)胞,集中分布在視網(wǎng)膜中心處,。

只有在目光聚焦的位置上可以看清細(xì)節(jié),,所以我們觀察時(shí)要不停地轉(zhuǎn)動(dòng)眼球,將目光聚焦在視野上的不同位置,這就產(chǎn)生了注意力機(jī)制,。


不過比人眼更先進(jìn)的是,,神經(jīng)網(wǎng)絡(luò)可以擁有多個(gè)注意力,被稱為多頭注意力(Multi-Head Attention)機(jī)制,。

一句話是一個(gè)序列

在NLP任務(wù)中,,Transformer將文本作為一個(gè)序列來處理。

有了注意力機(jī)制,,就可以在長序列中注意到每個(gè)詞與其他詞間的關(guān)系,,實(shí)現(xiàn)上下文關(guān)聯(lián)的機(jī)器翻譯。


一張圖也是一個(gè)序列

谷歌大腦團(tuán)隊(duì)進(jìn)一步提出,,圖像在分解成小塊之后,,再配合位置編碼,也可以當(dāng)作一個(gè)序列來處理,。


就像在NLP領(lǐng)域Transformer可以有效注意到一個(gè)詞與上下文的關(guān)系一樣,,在CV領(lǐng)域也可以匯總圖像的全局特征進(jìn)行學(xué)習(xí)。

用于圖像分類的ViT就此誕生,,開啟了Transformer的跨界刷屏之旅,。

犯錯(cuò)的方式都和人一樣

在普林斯頓大學(xué)對比CNN和ViT的這篇論文中,還建立了錯(cuò)誤一致性這個(gè)指標(biāo)來對各個(gè)模型進(jìn)行評判,。

從WordNet中選取了16個(gè)概念(如飛機(jī)、熊,、鍵盤等)來衡量CNN和ViT犯錯(cuò)的類型,。


從結(jié)果可以看出,ViT和人類一樣,,更傾向于通過形狀判斷物體,。

未來趨勢

ViT問世之初來勢洶洶,,以至于很多人都在問,注意力機(jī)制這是要取代卷積嗎,?

從最近的趨勢看來,,Transformer在CV領(lǐng)域的應(yīng)用,,反倒是刺激了二者的結(jié)合統(tǒng)一

卷積擅長提取細(xì)節(jié),,要掌握全局信息往往需要堆疊很多個(gè)卷積層,。

注意力善于把握整體,但又需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練。

如果把兩者結(jié)合起來,,是不是能夠取長補(bǔ)短,?

把注意力引入CNN的有谷歌推出的BoTNet就是簡單把ResNet的最后瓶頸塊中的3x3卷積替換成全局自注意力,沒有別的改變,,就在減少開銷的情況下提高了性能,。


之后麥吉爾大學(xué)和微軟又把卷積引入Transformer架構(gòu)的CvT(Convolutional vision Transformers),去除了Transformer中的位置編碼,,提升對于高分辨率視覺任務(wù)的效果,。


最近,谷歌大腦Quoc Le團(tuán)隊(duì)利用簡單的相對注意力把兩大架構(gòu)自然地統(tǒng)一起來,,提出了混合模型CoAtNet,。

看來,強(qiáng)強(qiáng)聯(lián)合果然不錯(cuò),。

這還沒結(jié)束,,除了卷積與注意力的協(xié)作以外,甚至有人從更高的層面開始嘗試將二者統(tǒng)一,。

上海交大和華為的研究,,用對卷積特征的變換操作達(dá)到近似自注意力的效果,提出全新的算子X-Volution,,可以在任何現(xiàn)代神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中使用,。


港中文提出更是將CNN、Transformer以及MLP都統(tǒng)一在一起,,提出了用于多頭上下文聚合的通用結(jié)構(gòu)Container,,取得了超越三大架構(gòu)及混合架構(gòu)的成績。


ViT:
https:///abs/2010.11929

ViT比CNN更像人類:
https:///abs/2105.07197

CNN紋理偏差的來源:
https:///abs/1911.09071

BoTNet:
https:///abs/2101.11605

CvT:
https:///abs/2103.15808

CoAtNet:
https:///abs/2106.04803 

X-Volution:
https:///abs/2106.02253

Container:
https:///abs/2106.01401

參考鏈接:
[1]https:///abs/1706.09077
[2]https:///a-comprehensive-guide-to-convolutional-neural-networks-the-eli5-way-3bd2b1164a53
[3]https:///pdf/2101.01169.pdf
[4]https://ai./2017/08/transformer-novel-neural-network.html

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多