從此不迷路 公眾號(hào)ID|ComputerVisionGzq 學(xué)習(xí)群|掃碼在主頁(yè)獲取加入方式 計(jì)算機(jī)視覺(jué)研究院專欄 作者:Edison_G
輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò) (CNN) 是移動(dòng)視覺(jué)任務(wù)的事實(shí)。他們的空間歸納偏差使他們能夠在不同的視覺(jué)任務(wù)中以較少的參數(shù)學(xué)習(xí)表示,。然而,,這些網(wǎng)絡(luò)在空間上是局部的。為了學(xué)習(xí)全局表示,,已經(jīng)采用了基于自我注意的視覺(jué)變換器 (ViTs),。與CNN不同,ViTs是重量級(jí)的,。 二,、背景 基于self-attention的模型,尤其是視覺(jué)變換器(ViTs,;下圖a),,是卷積神經(jīng)網(wǎng)絡(luò)的替代方法,,可用于學(xué)習(xí)視覺(jué)表示。簡(jiǎn)而言之,,ViTs將圖像劃分為一系列不重疊的補(bǔ)丁,,然后使用Transformer中的multi-headed自注意力學(xué)習(xí)interpatch表示??傮w趨勢(shì)是增加ViTs網(wǎng)絡(luò)中的參數(shù)數(shù)量以提高性能,。然而,這些性能改進(jìn)是以模型大?。ňW(wǎng)絡(luò)參數(shù))和延遲為代價(jià)的,。許多現(xiàn)實(shí)世界的應(yīng)用程序(例如,增強(qiáng)現(xiàn)實(shí)和自動(dòng)輪椅)需要視覺(jué)識(shí)別任務(wù)(例如,,目標(biāo)檢測(cè)和語(yǔ)義分割)才能及時(shí)在資源受限的移動(dòng)設(shè)備上運(yùn)行,。為了有效,此類任務(wù)的ViT模型應(yīng)該是輕量級(jí)和快速的,。即使縮小ViT模型的模型大小以匹配移動(dòng)設(shè)備的資源限制,,其性能也明顯比輕量級(jí)CNN差。例如,,對(duì)于大約5-6百萬(wàn)的參數(shù)預(yù)算,,DeIT的準(zhǔn)確度比MobileNetv3低3%。因此,,設(shè)計(jì)輕量級(jí)的ViTs模型勢(shì)在必行,。 輕量級(jí)CNN為許多移動(dòng)視覺(jué)任務(wù)提供了動(dòng)力。然而,,基于ViT的網(wǎng)絡(luò)還遠(yuǎn)未在此類設(shè)備上使用,。與易于優(yōu)化和與特定任務(wù)網(wǎng)絡(luò)集成的輕量級(jí)CNN不同,ViT是重量級(jí)的(例如,,ViT-B/16 vs. MobileNetv3:86 vs. 750 萬(wàn)個(gè)參數(shù)),,更難優(yōu)化,需要大量的數(shù)據(jù)增強(qiáng)和L2正則化以防止過(guò)擬合,,并且需要昂貴的解碼器來(lái)執(zhí)行下游任務(wù),,尤其是密集預(yù)測(cè)任務(wù)。例如,,基于ViT的分割網(wǎng)絡(luò)學(xué)習(xí)了大約3.45億個(gè)參數(shù),,并獲得了與基于CNN的網(wǎng)絡(luò)DeepLabv3相似的性能,有5900萬(wàn)個(gè)參數(shù),。在基于ViT的模型中需要更多參數(shù)可能是因?yàn)樗鼈內(nèi)狈μ囟ㄓ趫D像的歸納偏差,,這是CNN固有的 。為了構(gòu)建穩(wěn)健且高性能的ViT模型,,結(jié)合卷積和變換器的混合方法引起了人們的興趣,。然而,,這些混合模型仍然是重量級(jí)的,并且對(duì)數(shù)據(jù)增強(qiáng)很敏感,。例如,,去除CutMix和DeIT-style數(shù)據(jù)增強(qiáng)會(huì)導(dǎo)致ImageNet準(zhǔn)確率顯著下降(78.1% 到 72.4%)(2021)。 三,、概要 在今天分享中,,研究者提出以下問(wèn)題:是否可以結(jié)合兩者的優(yōu)勢(shì)?CNN和ViT為移動(dòng)視覺(jué)任務(wù)構(gòu)建輕量級(jí)低延遲網(wǎng)絡(luò),? 為此,,研究者推出了MobileViT,這是一種用于移動(dòng)設(shè)備的輕量級(jí)通用視覺(jué)轉(zhuǎn)換器,。MobileViT為使用轉(zhuǎn)換器(即,,轉(zhuǎn)換器作為卷積)對(duì)信息的全局處理提出了不同的觀點(diǎn),。新框架的結(jié)果表明,,MobileViT在不同的任務(wù)和數(shù)據(jù)集上明顯優(yōu)于基于CNN和ViT的網(wǎng)絡(luò)。在ImageNet-1k數(shù)據(jù)集上,,MobileViT在大約600萬(wàn)個(gè)參數(shù)下達(dá)到了78.4%的top-1準(zhǔn)確率,,比MobileNetv3(基于CNN)和DeIT(基于ViT)準(zhǔn)確率高3.2%和6.2%。在MS-COCO目標(biāo)檢測(cè)任務(wù)上,,對(duì)于相似數(shù)量的參數(shù),,MobileViT的準(zhǔn)確度比MobileNetv3高5.7%。 四,、新框架 MobileViT 與ViT及其變體(有和沒(méi)有卷積)不同,,MobileViT提供了一個(gè)不同的視角來(lái)學(xué)習(xí)全局表示。標(biāo)準(zhǔn)卷積涉及三個(gè)操作:展開(kāi),、局部處理和折疊,。MobileViT塊使用轉(zhuǎn)換器將卷積中的局部處理替換為全局處理。這允許MobileViT塊具有類似CNN和ViT的屬性,,這有助于它以更少的參數(shù)和簡(jiǎn)單的訓(xùn)練配方(例如,,基本增強(qiáng))學(xué)習(xí)更好的表示。 據(jù)我們所知,,這是第一項(xiàng)表明輕量級(jí)ViT可以通過(guò)跨不同移動(dòng)視覺(jué)任務(wù)的簡(jiǎn)單訓(xùn)練配方實(shí)現(xiàn)輕量級(jí)CNN級(jí)性能的工作,。對(duì)于大約5-600萬(wàn)的參數(shù)預(yù)算,MobileViT在 ImageNet-1k數(shù)據(jù)集上實(shí)現(xiàn)了78.4%的 top-1 準(zhǔn)確率,,比MobileNetv3準(zhǔn)確率高3.2%,。當(dāng)MobileViT用作高度優(yōu)化的移動(dòng)視覺(jué)任務(wù)特定架構(gòu)中的功能主干時(shí),我們還觀察到性能的顯著提升,。將MNASNet替換為MobileViT作為SSDLite中的特征主干,,產(chǎn)生了更好(+1.8% mAP)和更?。?.8×)的檢測(cè)網(wǎng)絡(luò)。具體如下圖: MobileViT顯示出與CNN類似的泛化能力,。MobileNetv2和ResNet-50的最終訓(xùn)練和驗(yàn)證錯(cuò)誤分別用☆和O標(biāo)記,。 每個(gè)像素都能看到MobileViT塊中的每個(gè)其他像素。在這個(gè)例子中,,紅色像素使用 transformers處理藍(lán)色像素(其他補(bǔ)丁中相應(yīng)位置的像素),。因?yàn)樗{(lán)色像素已經(jīng)使用卷積對(duì)相鄰像素的信息進(jìn)行了編碼,所以這允許紅色像素對(duì)來(lái)自圖像中所有像素的信息進(jìn)行編碼,。這里,,黑色和灰色網(wǎng)格中的每個(gè)單元格分別代表一個(gè)補(bǔ)丁和一個(gè)像素。 Multi-scale vs. standard sampler. 五,、實(shí)驗(yàn) ImageNet-1k驗(yàn)證集上MobileViT和CNN的比較,。所有模型都使用基本增強(qiáng)。 在這里,,Basic意味著ResNet風(fēng)格的增強(qiáng),,而Advanced意味著是增強(qiáng)方法的組合,如MixUp,、RandAugmentation和CutMix,。 Inference time of MobileViT models on different tasks. |
|
來(lái)自: mynotebook > 《待分類》