久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

一個算法同時解決兩大CV任務(wù),,讓目標(biāo)檢測和實例分割互相幫助

 nacei 2020-01-07

目標(biāo)檢測與實例分割是計算機視覺領(lǐng)域重要的兩個任務(wù),近年來出現(xiàn)了非常多優(yōu)秀的算法解決這兩個問題,,且都取得了優(yōu)異的效果,。

但是,卻鮮有文章深入分析兩者之間的關(guān)聯(lián),,也就導(dǎo)致了諸如下圖所示的錯誤的出現(xiàn):

一個算法同時解決兩大CV任務(wù),,讓目標(biāo)檢測和實例分割互相幫助

上面的結(jié)果由Mask R-CNN得到,可以看到由于邊界框定位不準(zhǔn)導(dǎo)致前兩張圖的實例掩碼缺失,,以及后兩張圖的邊界框與實例掩碼不統(tǒng)一,。

最近,來自中科院自動化所的碩士生王紹儒提出的算法,,很好地解決了以上問題,,可以同時完成目標(biāo)檢測與實例分割任務(wù),兩個任務(wù)能相互輔助,,同時取得了性能的提升,。

論文一作王紹儒現(xiàn)在也是地平線公司的一名實習(xí)生,他的論文已被AAAI 2020收錄,,相關(guān)工作已經(jīng)開源,。

雙流網(wǎng)絡(luò)

這篇文章認為,目標(biāo)檢測屬于目標(biāo)級別的任務(wù),,這類任務(wù)更關(guān)注物體級別的特征,,對分辨率的需求不高,但需要更多的高級語義信息,。

而實例分割任務(wù)屬于像素級別的任務(wù),,這類任務(wù)需要給出逐像素的輸出,對分辨率的需求較高,,需要更多的細節(jié)信息,。

因此作者設(shè)計了如圖所示的雙流網(wǎng)絡(luò):

一個算法同時解決兩大CV任務(wù),讓目標(biāo)檢測和實例分割互相幫助

上面的object stream重點完成目標(biāo)檢測任務(wù),,可以是SSD, YOLO, RetinaNet等任一anchor-based的目標(biāo)檢測算法,。

下面的pixel stream重點完成分割的任務(wù),,分辨率很高。

兩個任務(wù)相互輔助“物體”輔助實例分割:

目前常見的實例分割算法分為兩類,,一類是類似于Mask R-CNN的proposal-based的方法,,是目標(biāo)檢測算法的直接擴展。

但這類方法會面臨上文提到的諸多問題,,得到的實例掩碼分辨率相對較低且嚴重依賴于proposal的邊界框,。

另一類基于分割算法,首先預(yù)測每個點的嵌入,,然后再通過聚類得到每個實例的掩碼,。

這類方法天然克服了proposal-based的缺陷,但一般無法端到端訓(xùn)練,,且受限于聚類算法,性能一般有限,。

仔細分析發(fā)現(xiàn),,聚類的難題主要源于聚類中心的缺失,換句話說,,如果我們擁有每個簇的中心,,我們就可以拋棄聚類算法,進行端到端訓(xùn)練,。

而這個“中心”,,應(yīng)該是每個物體的嵌入,也就是說,,它應(yīng)該源于目標(biāo)級別,,而非像素級別。因此,,也就形成了論文里提出的基于相關(guān)濾波的實例掩碼生成算法:

一個算法同時解決兩大CV任務(wù),,讓目標(biāo)檢測和實例分割互相幫助

Object stream和pixel stream分別提取目標(biāo)和像素的嵌入,屬于同一物體的像素和與其對應(yīng)的物體具有相近的嵌入,,相似性的衡量采用了內(nèi)積相似度,。

也就是說,對于每個檢測到的物體,,以其嵌入作為內(nèi)核,,在像素嵌入上執(zhí)行相關(guān)濾波,即可得到這一物體的掩碼,。

除此之外,,文中還充分利用了object stream得到的目標(biāo)邊界框,對距離物體中心較遠的噪聲進行了抑制,,本質(zhì)上是在一定程度上克服CNN的translation-variant對實例分割任務(wù)的影響,。

“掩碼”輔助目標(biāo)檢測:

邊界框定位是目標(biāo)檢測的一項重要任務(wù),,而現(xiàn)有的方法大多采用回歸的方式得到邊界框的位置。然而我們回顧邊界框的定義,,發(fā)現(xiàn)它本身就是通過物體的掩碼定義的,。

那么,既然我們可以得到物體的掩碼,,為什么還要依賴于回歸算法,,多此一舉呢?

文中通過實驗發(fā)現(xiàn),,直接利用通過上述基于相關(guān)濾波方法得到的實例掩碼生成邊界框,,精度并不太高,甚至低于回歸方法得到的邊界框,。

文章作者通過可視化發(fā)現(xiàn):大多數(shù)物體的掩碼都可以提供十分準(zhǔn)確的邊界框,,然而也存在部分物體的掩碼預(yù)測結(jié)果不太理想,使得邊界框出現(xiàn)了較大的偏移,。

據(jù)此觀察,,文章提出了一種基于貝葉斯公式的邊界框定位算法,首先將邊界框定位定義為分類任務(wù),,將問題轉(zhuǎn)化為給定物體掩碼,,坐標(biāo)屬于邊界框的后驗概率的預(yù)測:

一個算法同時解決兩大CV任務(wù),讓目標(biāo)檢測和實例分割互相幫助

然后利用貝葉斯公式,,將回歸得到的邊界框作為先驗概率P(X=i),,而P(M’|X=i)則由物體實例掩碼通過逐列(行)取最大、一維卷積和激活函數(shù)得到,。

一個算法同時解決兩大CV任務(wù),,讓目標(biāo)檢測和實例分割互相幫助

整體過程如下圖所示:

一個算法同時解決兩大CV任務(wù),讓目標(biāo)檢測和實例分割互相幫助

此方法綜合考慮了回歸得到的邊界框和實例掩碼的優(yōu)勢,,得到了更準(zhǔn)確的邊界框,。具體結(jié)果可以看下圖,可以明顯發(fā)現(xiàn),,由此方法得到的邊界框可以以更高的IOU和ground truth box匹配,。

一個算法同時解決兩大CV任務(wù),讓目標(biāo)檢測和實例分割互相幫助

實驗結(jié)果:

文章在COCO數(shù)據(jù)集上進行了實驗驗證,。

在實例分割任務(wù)中,,此方法在單階段算法中可以達到更優(yōu)的速度與精度的平衡,以近3倍的速度取得了和TensorMask相近的精度,,以相近的速度在YOLACT的基礎(chǔ)上取得了2.3mAP的提升,。

一個算法同時解決兩大CV任務(wù),讓目標(biāo)檢測和實例分割互相幫助

在目標(biāo)檢測任務(wù)中,此方法以極低的計算代價在不同的backbone上取得了一致的性能提升,。

一個算法同時解決兩大CV任務(wù),,讓目標(biāo)檢測和實例分割互相幫助

值得注意的是,文章中采用的是RetinaNet作為探測器,,且在其基礎(chǔ)上擴展到實例分割任務(wù)中并不會帶來顯著的計算量的增加,,如果采用其他更先進的目標(biāo)檢測算法,其精度與速度還能取得更進一步的提升,。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多