久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

Apple團(tuán)隊(duì):輕量級(jí),、通用且移動(dòng)友好的網(wǎng)絡(luò)框架(附論文下載)

 mynotebook 2022-12-02 發(fā)布于湖南

從此不迷路

計(jì)算機(jī)視覺(jué)研究院
圖片

圖片

??

公眾號(hào)ID|ComputerVisionGzq

學(xué)習(xí)群|掃碼在主頁(yè)獲取加入方式

圖片

論文地址:https:///pdf/2110.02178.pdf

計(jì)算機(jī)視覺(jué)研究院專欄

作者:Edison_G

輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò) (CNN) 是移動(dòng)視覺(jué)任務(wù)的事實(shí)。他們的空間歸納偏差使他們能夠在不同的視覺(jué)任務(wù)中以較少的參數(shù)學(xué)習(xí)表示,。
一,、前言

圖片

輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò) (CNN) 是移動(dòng)視覺(jué)任務(wù)的事實(shí)。他們的空間歸納偏差使他們能夠在不同的視覺(jué)任務(wù)中以較少的參數(shù)學(xué)習(xí)表示,。然而,,這些網(wǎng)絡(luò)在空間上是局部的。為了學(xué)習(xí)全局表示,,已經(jīng)采用了基于自我注意的視覺(jué)變換器 (ViTs),。與CNN不同,ViTs是重量級(jí)的,。

二,、背景

基于self-attention的模型,尤其是視覺(jué)變換器(ViTs,;下圖a),,是卷積神經(jīng)網(wǎng)絡(luò)的替代方法,,可用于學(xué)習(xí)視覺(jué)表示。簡(jiǎn)而言之,,ViTs將圖像劃分為一系列不重疊的補(bǔ)丁,,然后使用Transformer中的multi-headed自注意力學(xué)習(xí)interpatch表示??傮w趨勢(shì)是增加ViTs網(wǎng)絡(luò)中的參數(shù)數(shù)量以提高性能,。然而,這些性能改進(jìn)是以模型大?。ňW(wǎng)絡(luò)參數(shù))和延遲為代價(jià)的,。許多現(xiàn)實(shí)世界的應(yīng)用程序(例如,增強(qiáng)現(xiàn)實(shí)和自動(dòng)輪椅)需要視覺(jué)識(shí)別任務(wù)(例如,,目標(biāo)檢測(cè)和語(yǔ)義分割)才能及時(shí)在資源受限的移動(dòng)設(shè)備上運(yùn)行,。為了有效,此類任務(wù)的ViT模型應(yīng)該是輕量級(jí)和快速的,。即使縮小ViT模型的模型大小以匹配移動(dòng)設(shè)備的資源限制,,其性能也明顯比輕量級(jí)CNN差。例如,,對(duì)于大約5-6百萬(wàn)的參數(shù)預(yù)算,,DeIT的準(zhǔn)確度比MobileNetv3低3%。因此,,設(shè)計(jì)輕量級(jí)的ViTs模型勢(shì)在必行,。

圖片

輕量級(jí)CNN為許多移動(dòng)視覺(jué)任務(wù)提供了動(dòng)力。然而,,基于ViT的網(wǎng)絡(luò)還遠(yuǎn)未在此類設(shè)備上使用,。與易于優(yōu)化和與特定任務(wù)網(wǎng)絡(luò)集成的輕量級(jí)CNN不同,ViT是重量級(jí)的(例如,,ViT-B/16 vs. MobileNetv3:86 vs. 750 萬(wàn)個(gè)參數(shù)),,更難優(yōu)化,需要大量的數(shù)據(jù)增強(qiáng)和L2正則化以防止過(guò)擬合,,并且需要昂貴的解碼器來(lái)執(zhí)行下游任務(wù),,尤其是密集預(yù)測(cè)任務(wù)。例如,,基于ViT的分割網(wǎng)絡(luò)學(xué)習(xí)了大約3.45億個(gè)參數(shù),,并獲得了與基于CNN的網(wǎng)絡(luò)DeepLabv3相似的性能,有5900萬(wàn)個(gè)參數(shù),。在基于ViT的模型中需要更多參數(shù)可能是因?yàn)樗鼈內(nèi)狈μ囟ㄓ趫D像的歸納偏差,,這是CNN固有的 。為了構(gòu)建穩(wěn)健且高性能的ViT模型,,結(jié)合卷積和變換器的混合方法引起了人們的興趣,。然而,,這些混合模型仍然是重量級(jí)的,并且對(duì)數(shù)據(jù)增強(qiáng)很敏感,。例如,,去除CutMix和DeIT-style數(shù)據(jù)增強(qiáng)會(huì)導(dǎo)致ImageNet準(zhǔn)確率顯著下降(78.1% 到 72.4%)(2021)。

三,、概要

在今天分享中,,研究者提出以下問(wèn)題:是否可以結(jié)合兩者的優(yōu)勢(shì)?CNN和ViT為移動(dòng)視覺(jué)任務(wù)構(gòu)建輕量級(jí)低延遲網(wǎng)絡(luò),?

為此,,研究者推出了MobileViT,這是一種用于移動(dòng)設(shè)備的輕量級(jí)通用視覺(jué)轉(zhuǎn)換器,。MobileViT為使用轉(zhuǎn)換器(即,,轉(zhuǎn)換器作為卷積)對(duì)信息的全局處理提出了不同的觀點(diǎn),。新框架的結(jié)果表明,,MobileViT在不同的任務(wù)和數(shù)據(jù)集上明顯優(yōu)于基于CNN和ViT的網(wǎng)絡(luò)。在ImageNet-1k數(shù)據(jù)集上,,MobileViT在大約600萬(wàn)個(gè)參數(shù)下達(dá)到了78.4%的top-1準(zhǔn)確率,,比MobileNetv3(基于CNN)和DeIT(基于ViT)準(zhǔn)確率高3.2%和6.2%。在MS-COCO目標(biāo)檢測(cè)任務(wù)上,,對(duì)于相似數(shù)量的參數(shù),,MobileViT的準(zhǔn)確度比MobileNetv3高5.7%

四,、新框架

圖片

MobileViT

與ViT及其變體(有和沒(méi)有卷積)不同,,MobileViT提供了一個(gè)不同的視角來(lái)學(xué)習(xí)全局表示。標(biāo)準(zhǔn)卷積涉及三個(gè)操作:展開(kāi),、局部處理和折疊,。MobileViT塊使用轉(zhuǎn)換器將卷積中的局部處理替換為全局處理。這允許MobileViT塊具有類似CNN和ViT的屬性,,這有助于它以更少的參數(shù)和簡(jiǎn)單的訓(xùn)練配方(例如,,基本增強(qiáng))學(xué)習(xí)更好的表示

據(jù)我們所知,,這是第一項(xiàng)表明輕量級(jí)ViT可以通過(guò)跨不同移動(dòng)視覺(jué)任務(wù)的簡(jiǎn)單訓(xùn)練配方實(shí)現(xiàn)輕量級(jí)CNN級(jí)性能的工作,。對(duì)于大約5-600萬(wàn)的參數(shù)預(yù)算,MobileViT在 ImageNet-1k數(shù)據(jù)集上實(shí)現(xiàn)了78.4%的 top-1 準(zhǔn)確率,,比MobileNetv3準(zhǔn)確率高3.2%,。當(dāng)MobileViT用作高度優(yōu)化的移動(dòng)視覺(jué)任務(wù)特定架構(gòu)中的功能主干時(shí),我們還觀察到性能的顯著提升,。將MNASNet替換為MobileViT作為SSDLite中的特征主干,,產(chǎn)生了更好(+1.8% mAP)和更?。?.8×)的檢測(cè)網(wǎng)絡(luò)。具體如下圖:

圖片

圖片

MobileViT顯示出與CNN類似的泛化能力,。MobileNetv2和ResNet-50的最終訓(xùn)練和驗(yàn)證錯(cuò)誤分別用☆和O標(biāo)記,。

圖片

每個(gè)像素都能看到MobileViT塊中的每個(gè)其他像素。在這個(gè)例子中,,紅色像素使用 transformers處理藍(lán)色像素(其他補(bǔ)丁中相應(yīng)位置的像素),。因?yàn)樗{(lán)色像素已經(jīng)使用卷積對(duì)相鄰像素的信息進(jìn)行了編碼,所以這允許紅色像素對(duì)來(lái)自圖像中所有像素的信息進(jìn)行編碼,。這里,,黑色和灰色網(wǎng)格中的每個(gè)單元格分別代表一個(gè)補(bǔ)丁和一個(gè)像素。

圖片

Multi-scale vs. standard sampler.

五,、實(shí)驗(yàn)

圖片

ImageNet-1k驗(yàn)證集上MobileViT和CNN的比較,。所有模型都使用基本增強(qiáng)。

圖片

在這里,,Basic意味著ResNet風(fēng)格的增強(qiáng),,而Advanced意味著是增強(qiáng)方法的組合,如MixUp,、RandAugmentation和CutMix,。

圖片

圖片

Inference time of MobileViT models on different tasks.

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多