一個算法同時解決兩大CV任務(wù),，讓目標(biāo)檢測和實例分割互相幫助

nacei 2020-01-07

展開全文

目標(biāo)檢測與實例分割是計算機視覺領(lǐng)域重要的兩個任務(wù)，近年來出現(xiàn)了非常多優(yōu)秀的算法解決這兩個問題,，且都取得了優(yōu)異的效果,。

但是，卻鮮有文章深入分析兩者之間的關(guān)聯(lián),，也就導(dǎo)致了諸如下圖所示的錯誤的出現(xiàn)：

一個算法同時解決兩大CV任務(wù),，讓目標(biāo)檢測和實例分割互相幫助

上面的結(jié)果由Mask R-CNN得到，可以看到由于邊界框定位不準(zhǔn)導(dǎo)致前兩張圖的實例掩碼缺失,，以及后兩張圖的邊界框與實例掩碼不統(tǒng)一,。

最近，來自中科院自動化所的碩士生王紹儒提出的算法,，很好地解決了以上問題,，可以同時完成目標(biāo)檢測與實例分割任務(wù)，兩個任務(wù)能相互輔助,，同時取得了性能的提升,。

論文一作王紹儒現(xiàn)在也是地平線公司的一名實習(xí)生，他的論文已被AAAI 2020收錄,，相關(guān)工作已經(jīng)開源,。

雙流網(wǎng)絡(luò)

這篇文章認為，目標(biāo)檢測屬于目標(biāo)級別的任務(wù),，這類任務(wù)更關(guān)注物體級別的特征,，對分辨率的需求不高，但需要更多的高級語義信息,。

而實例分割任務(wù)屬于像素級別的任務(wù),，這類任務(wù)需要給出逐像素的輸出，對分辨率的需求較高,，需要更多的細節(jié)信息,。

因此作者設(shè)計了如圖所示的雙流網(wǎng)絡(luò)：

一個算法同時解決兩大CV任務(wù)，讓目標(biāo)檢測和實例分割互相幫助

上面的object stream重點完成目標(biāo)檢測任務(wù),，可以是SSD, YOLO, RetinaNet等任一anchor-based的目標(biāo)檢測算法,。

下面的pixel stream重點完成分割的任務(wù),，分辨率很高。

兩個任務(wù)相互輔助“物體”輔助實例分割：

目前常見的實例分割算法分為兩類,，一類是類似于Mask R-CNN的proposal-based的方法,，是目標(biāo)檢測算法的直接擴展。

但這類方法會面臨上文提到的諸多問題,，得到的實例掩碼分辨率相對較低且嚴重依賴于proposal的邊界框,。

另一類基于分割算法，首先預(yù)測每個點的嵌入,，然后再通過聚類得到每個實例的掩碼,。

這類方法天然克服了proposal-based的缺陷，但一般無法端到端訓(xùn)練,，且受限于聚類算法，性能一般有限,。

仔細分析發(fā)現(xiàn),，聚類的難題主要源于聚類中心的缺失，換句話說,，如果我們擁有每個簇的中心,，我們就可以拋棄聚類算法，進行端到端訓(xùn)練,。

而這個“中心”,，應(yīng)該是每個物體的嵌入，也就是說,，它應(yīng)該源于目標(biāo)級別,，而非像素級別。因此,，也就形成了論文里提出的基于相關(guān)濾波的實例掩碼生成算法：

一個算法同時解決兩大CV任務(wù),，讓目標(biāo)檢測和實例分割互相幫助

Object stream和pixel stream分別提取目標(biāo)和像素的嵌入，屬于同一物體的像素和與其對應(yīng)的物體具有相近的嵌入,，相似性的衡量采用了內(nèi)積相似度,。

也就是說，對于每個檢測到的物體,，以其嵌入作為內(nèi)核,，在像素嵌入上執(zhí)行相關(guān)濾波，即可得到這一物體的掩碼,。

除此之外,，文中還充分利用了object stream得到的目標(biāo)邊界框，對距離物體中心較遠的噪聲進行了抑制,，本質(zhì)上是在一定程度上克服CNN的translation-variant對實例分割任務(wù)的影響,。

“掩碼”輔助目標(biāo)檢測：

邊界框定位是目標(biāo)檢測的一項重要任務(wù),，而現(xiàn)有的方法大多采用回歸的方式得到邊界框的位置。然而我們回顧邊界框的定義,，發(fā)現(xiàn)它本身就是通過物體的掩碼定義的,。

那么，既然我們可以得到物體的掩碼,，為什么還要依賴于回歸算法,，多此一舉呢？

文中通過實驗發(fā)現(xiàn),，直接利用通過上述基于相關(guān)濾波方法得到的實例掩碼生成邊界框,，精度并不太高，甚至低于回歸方法得到的邊界框,。

文章作者通過可視化發(fā)現(xiàn)：大多數(shù)物體的掩碼都可以提供十分準(zhǔn)確的邊界框,，然而也存在部分物體的掩碼預(yù)測結(jié)果不太理想，使得邊界框出現(xiàn)了較大的偏移,。

據(jù)此觀察,，文章提出了一種基于貝葉斯公式的邊界框定位算法，首先將邊界框定位定義為分類任務(wù),，將問題轉(zhuǎn)化為給定物體掩碼,，坐標(biāo)屬于邊界框的后驗概率的預(yù)測：

一個算法同時解決兩大CV任務(wù)，讓目標(biāo)檢測和實例分割互相幫助

然后利用貝葉斯公式,，將回歸得到的邊界框作為先驗概率P(X=i),，而P(M’|X=i)則由物體實例掩碼通過逐列（行）取最大、一維卷積和激活函數(shù)得到,。

一個算法同時解決兩大CV任務(wù),，讓目標(biāo)檢測和實例分割互相幫助

整體過程如下圖所示：

一個算法同時解決兩大CV任務(wù)，讓目標(biāo)檢測和實例分割互相幫助

此方法綜合考慮了回歸得到的邊界框和實例掩碼的優(yōu)勢,，得到了更準(zhǔn)確的邊界框,。具體結(jié)果可以看下圖，可以明顯發(fā)現(xiàn),，由此方法得到的邊界框可以以更高的IOU和ground truth box匹配,。

一個算法同時解決兩大CV任務(wù)，讓目標(biāo)檢測和實例分割互相幫助

實驗結(jié)果：

文章在COCO數(shù)據(jù)集上進行了實驗驗證,。

在實例分割任務(wù)中,，此方法在單階段算法中可以達到更優(yōu)的速度與精度的平衡，以近3倍的速度取得了和TensorMask相近的精度,，以相近的速度在YOLACT的基礎(chǔ)上取得了2.3mAP的提升,。

一個算法同時解決兩大CV任務(wù)，讓目標(biāo)檢測和實例分割互相幫助

在目標(biāo)檢測任務(wù)中，此方法以極低的計算代價在不同的backbone上取得了一致的性能提升,。

一個算法同時解決兩大CV任務(wù),，讓目標(biāo)檢測和實例分割互相幫助

值得注意的是，文章中采用的是RetinaNet作為探測器,，且在其基礎(chǔ)上擴展到實例分割任務(wù)中并不會帶來顯著的計算量的增加,，如果采用其他更先進的目標(biāo)檢測算法，其精度與速度還能取得更進一步的提升,。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： nacei > 《大數(shù)據(jù)與人工智能》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

nacei

關(guān)注對話

TA的最新館藏

[轉(zhuǎn)] 圖說人體常用按摩穴位
[轉(zhuǎn)] 人體同身寸，如何確定穴位1寸,、2寸,、3寸、4寸
[轉(zhuǎn)] 美國之行《十三》大提頓國家公園
[轉(zhuǎn)] 富貴包是腦梗的前兆,，消除三法要常做
[轉(zhuǎn)] 二陳湯加頸三藥治療富貴包
2023,，療愈自己！

喜歡該文的人也喜歡更多

熱門閱讀換一換

久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

一個算法同時解決兩大CV任務(wù),，讓目標(biāo)檢測和實例分割互相幫助