Apple團(tuán)隊(duì)：輕量級(jí),、通用且移動(dòng)友好的網(wǎng)絡(luò)框架（附論文下載）

mynotebook 2022-12-02 發(fā)布于湖南

展開(kāi)全文

從此不迷路

計(jì)算機(jī)視覺(jué)研究院

公眾號(hào)ID｜ComputerVisionGzq

學(xué)習(xí)群｜掃碼在主頁(yè)獲取加入方式

論文地址：https:///pdf/2110.02178.pdf

計(jì)算機(jī)視覺(jué)研究院專欄

作者：Edison_G

輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò) (CNN) 是移動(dòng)視覺(jué)任務(wù)的事實(shí)。他們的空間歸納偏差使他們能夠在不同的視覺(jué)任務(wù)中以較少的參數(shù)學(xué)習(xí)表示,。

一,、前言

輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò) (CNN) 是移動(dòng)視覺(jué)任務(wù)的事實(shí)。他們的空間歸納偏差使他們能夠在不同的視覺(jué)任務(wù)中以較少的參數(shù)學(xué)習(xí)表示,。然而,，這些網(wǎng)絡(luò)在空間上是局部的。為了學(xué)習(xí)全局表示,，已經(jīng)采用了基于自我注意的視覺(jué)變換器 (ViTs),。與CNN不同，ViTs是重量級(jí)的,。

二,、背景

基于self-attention的模型，尤其是視覺(jué)變換器（ViTs,；下圖a）,，是卷積神經(jīng)網(wǎng)絡(luò)的替代方法,，可用于學(xué)習(xí)視覺(jué)表示。簡(jiǎn)而言之,，ViTs將圖像劃分為一系列不重疊的補(bǔ)丁,，然后使用Transformer中的multi-headed自注意力學(xué)習(xí)interpatch表示?？傮w趨勢(shì)是增加ViTs網(wǎng)絡(luò)中的參數(shù)數(shù)量以提高性能,。然而，這些性能改進(jìn)是以模型大?。ňW(wǎng)絡(luò)參數(shù)）和延遲為代價(jià)的,。許多現(xiàn)實(shí)世界的應(yīng)用程序（例如，增強(qiáng)現(xiàn)實(shí)和自動(dòng)輪椅）需要視覺(jué)識(shí)別任務(wù)（例如,，目標(biāo)檢測(cè)和語(yǔ)義分割）才能及時(shí)在資源受限的移動(dòng)設(shè)備上運(yùn)行,。為了有效，此類任務(wù)的ViT模型應(yīng)該是輕量級(jí)和快速的,。即使縮小ViT模型的模型大小以匹配移動(dòng)設(shè)備的資源限制,，其性能也明顯比輕量級(jí)CNN差。例如,，對(duì)于大約5-6百萬(wàn)的參數(shù)預(yù)算,，DeIT的準(zhǔn)確度比MobileNetv3低3%。因此,，設(shè)計(jì)輕量級(jí)的ViTs模型勢(shì)在必行,。

輕量級(jí)CNN為許多移動(dòng)視覺(jué)任務(wù)提供了動(dòng)力。然而,，基于ViT的網(wǎng)絡(luò)還遠(yuǎn)未在此類設(shè)備上使用,。與易于優(yōu)化和與特定任務(wù)網(wǎng)絡(luò)集成的輕量級(jí)CNN不同，ViT是重量級(jí)的（例如,，ViT-B/16 vs. MobileNetv3：86 vs. 750 萬(wàn)個(gè)參數(shù)）,，更難優(yōu)化，需要大量的數(shù)據(jù)增強(qiáng)和L2正則化以防止過(guò)擬合,，并且需要昂貴的解碼器來(lái)執(zhí)行下游任務(wù),，尤其是密集預(yù)測(cè)任務(wù)。例如,，基于ViT的分割網(wǎng)絡(luò)學(xué)習(xí)了大約3.45億個(gè)參數(shù),，并獲得了與基于CNN的網(wǎng)絡(luò)DeepLabv3相似的性能，有5900萬(wàn)個(gè)參數(shù),。在基于ViT的模型中需要更多參數(shù)可能是因?yàn)樗鼈內(nèi)狈μ囟ㄓ趫D像的歸納偏差,，這是CNN固有的。為了構(gòu)建穩(wěn)健且高性能的ViT模型,，結(jié)合卷積和變換器的混合方法引起了人們的興趣,。然而,，這些混合模型仍然是重量級(jí)的，并且對(duì)數(shù)據(jù)增強(qiáng)很敏感,。例如,，去除CutMix和DeIT-style數(shù)據(jù)增強(qiáng)會(huì)導(dǎo)致ImageNet準(zhǔn)確率顯著下降（78.1% 到 72.4%）(2021)。

三,、概要

在今天分享中,，研究者提出以下問(wèn)題：是否可以結(jié)合兩者的優(yōu)勢(shì)？CNN和ViT為移動(dòng)視覺(jué)任務(wù)構(gòu)建輕量級(jí)低延遲網(wǎng)絡(luò),？

為此,，研究者推出了MobileViT，這是一種用于移動(dòng)設(shè)備的輕量級(jí)通用視覺(jué)轉(zhuǎn)換器,。MobileViT為使用轉(zhuǎn)換器（即,，轉(zhuǎn)換器作為卷積）對(duì)信息的全局處理提出了不同的觀點(diǎn),。新框架的結(jié)果表明,，MobileViT在不同的任務(wù)和數(shù)據(jù)集上明顯優(yōu)于基于CNN和ViT的網(wǎng)絡(luò)。在ImageNet-1k數(shù)據(jù)集上,，MobileViT在大約600萬(wàn)個(gè)參數(shù)下達(dá)到了78.4%的top-1準(zhǔn)確率,，比MobileNetv3（基于CNN）和DeIT（基于ViT）準(zhǔn)確率高3.2%和6.2%。在MS-COCO目標(biāo)檢測(cè)任務(wù)上,，對(duì)于相似數(shù)量的參數(shù),，MobileViT的準(zhǔn)確度比MobileNetv3高5.7%。

四,、新框架

MobileViT

與ViT及其變體（有和沒(méi)有卷積）不同,，MobileViT提供了一個(gè)不同的視角來(lái)學(xué)習(xí)全局表示。標(biāo)準(zhǔn)卷積涉及三個(gè)操作：展開(kāi),、局部處理和折疊,。MobileViT塊使用轉(zhuǎn)換器將卷積中的局部處理替換為全局處理。這允許MobileViT塊具有類似CNN和ViT的屬性,，這有助于它以更少的參數(shù)和簡(jiǎn)單的訓(xùn)練配方（例如,，基本增強(qiáng)）學(xué)習(xí)更好的表示。

據(jù)我們所知,，這是第一項(xiàng)表明輕量級(jí)ViT可以通過(guò)跨不同移動(dòng)視覺(jué)任務(wù)的簡(jiǎn)單訓(xùn)練配方實(shí)現(xiàn)輕量級(jí)CNN級(jí)性能的工作,。對(duì)于大約5-600萬(wàn)的參數(shù)預(yù)算，MobileViT在 ImageNet-1k數(shù)據(jù)集上實(shí)現(xiàn)了78.4%的 top-1 準(zhǔn)確率,，比MobileNetv3準(zhǔn)確率高3.2%,。當(dāng)MobileViT用作高度優(yōu)化的移動(dòng)視覺(jué)任務(wù)特定架構(gòu)中的功能主干時(shí)，我們還觀察到性能的顯著提升,。將MNASNet替換為MobileViT作為SSDLite中的特征主干,，產(chǎn)生了更好（+1.8% mAP）和更?。?.8×）的檢測(cè)網(wǎng)絡(luò)。具體如下圖：

MobileViT顯示出與CNN類似的泛化能力,。MobileNetv2和ResNet-50的最終訓(xùn)練和驗(yàn)證錯(cuò)誤分別用☆和O標(biāo)記,。

每個(gè)像素都能看到MobileViT塊中的每個(gè)其他像素。在這個(gè)例子中,，紅色像素使用 transformers處理藍(lán)色像素（其他補(bǔ)丁中相應(yīng)位置的像素）,。因?yàn)樗{(lán)色像素已經(jīng)使用卷積對(duì)相鄰像素的信息進(jìn)行了編碼，所以這允許紅色像素對(duì)來(lái)自圖像中所有像素的信息進(jìn)行編碼,。這里,，黑色和灰色網(wǎng)格中的每個(gè)單元格分別代表一個(gè)補(bǔ)丁和一個(gè)像素。

Multi-scale vs. standard sampler.

五,、實(shí)驗(yàn)

ImageNet-1k驗(yàn)證集上MobileViT和CNN的比較,。所有模型都使用基本增強(qiáng)。

在這里,，Basic意味著ResNet風(fēng)格的增強(qiáng),，而Advanced意味著是增強(qiáng)方法的組合，如MixUp,、RandAugmentation和CutMix,。

Inference time of MobileViT models on different tasks.

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： mynotebook > 《待分類》

舉報(bào)/認(rèn)領(lǐng)