目標(biāo)檢測與實例分割是計算機視覺領(lǐng)域重要的兩個任務(wù),近年來出現(xiàn)了非常多優(yōu)秀的算法解決這兩個問題,,且都取得了優(yōu)異的效果,。 但是,卻鮮有文章深入分析兩者之間的關(guān)聯(lián),,也就導(dǎo)致了諸如下圖所示的錯誤的出現(xiàn): 上面的結(jié)果由Mask R-CNN得到,可以看到由于邊界框定位不準(zhǔn)導(dǎo)致前兩張圖的實例掩碼缺失,,以及后兩張圖的邊界框與實例掩碼不統(tǒng)一,。 最近,來自中科院自動化所的碩士生王紹儒提出的算法,,很好地解決了以上問題,,可以同時完成目標(biāo)檢測與實例分割任務(wù),兩個任務(wù)能相互輔助,,同時取得了性能的提升,。 論文一作王紹儒現(xiàn)在也是地平線公司的一名實習(xí)生,他的論文已被AAAI 2020收錄,,相關(guān)工作已經(jīng)開源,。 雙流網(wǎng)絡(luò)這篇文章認為,目標(biāo)檢測屬于目標(biāo)級別的任務(wù),,這類任務(wù)更關(guān)注物體級別的特征,,對分辨率的需求不高,但需要更多的高級語義信息,。 而實例分割任務(wù)屬于像素級別的任務(wù),,這類任務(wù)需要給出逐像素的輸出,對分辨率的需求較高,,需要更多的細節(jié)信息,。 因此作者設(shè)計了如圖所示的雙流網(wǎng)絡(luò): 上面的object stream重點完成目標(biāo)檢測任務(wù),,可以是SSD, YOLO, RetinaNet等任一anchor-based的目標(biāo)檢測算法,。 下面的pixel stream重點完成分割的任務(wù),,分辨率很高。 兩個任務(wù)相互輔助“物體”輔助實例分割:目前常見的實例分割算法分為兩類,,一類是類似于Mask R-CNN的proposal-based的方法,,是目標(biāo)檢測算法的直接擴展。 但這類方法會面臨上文提到的諸多問題,,得到的實例掩碼分辨率相對較低且嚴重依賴于proposal的邊界框,。 另一類基于分割算法,首先預(yù)測每個點的嵌入,,然后再通過聚類得到每個實例的掩碼,。 這類方法天然克服了proposal-based的缺陷,但一般無法端到端訓(xùn)練,,且受限于聚類算法,性能一般有限,。 仔細分析發(fā)現(xiàn),,聚類的難題主要源于聚類中心的缺失,換句話說,,如果我們擁有每個簇的中心,,我們就可以拋棄聚類算法,進行端到端訓(xùn)練,。 而這個“中心”,,應(yīng)該是每個物體的嵌入,也就是說,,它應(yīng)該源于目標(biāo)級別,,而非像素級別。因此,,也就形成了論文里提出的基于相關(guān)濾波的實例掩碼生成算法: Object stream和pixel stream分別提取目標(biāo)和像素的嵌入,屬于同一物體的像素和與其對應(yīng)的物體具有相近的嵌入,,相似性的衡量采用了內(nèi)積相似度,。 也就是說,對于每個檢測到的物體,,以其嵌入作為內(nèi)核,,在像素嵌入上執(zhí)行相關(guān)濾波,即可得到這一物體的掩碼,。 除此之外,,文中還充分利用了object stream得到的目標(biāo)邊界框,對距離物體中心較遠的噪聲進行了抑制,,本質(zhì)上是在一定程度上克服CNN的translation-variant對實例分割任務(wù)的影響,。 “掩碼”輔助目標(biāo)檢測:邊界框定位是目標(biāo)檢測的一項重要任務(wù),,而現(xiàn)有的方法大多采用回歸的方式得到邊界框的位置。然而我們回顧邊界框的定義,,發(fā)現(xiàn)它本身就是通過物體的掩碼定義的,。 那么,既然我們可以得到物體的掩碼,,為什么還要依賴于回歸算法,,多此一舉呢? 文中通過實驗發(fā)現(xiàn),,直接利用通過上述基于相關(guān)濾波方法得到的實例掩碼生成邊界框,,精度并不太高,甚至低于回歸方法得到的邊界框,。 文章作者通過可視化發(fā)現(xiàn):大多數(shù)物體的掩碼都可以提供十分準(zhǔn)確的邊界框,,然而也存在部分物體的掩碼預(yù)測結(jié)果不太理想,使得邊界框出現(xiàn)了較大的偏移,。 據(jù)此觀察,,文章提出了一種基于貝葉斯公式的邊界框定位算法,首先將邊界框定位定義為分類任務(wù),,將問題轉(zhuǎn)化為給定物體掩碼,,坐標(biāo)屬于邊界框的后驗概率的預(yù)測: 然后利用貝葉斯公式,,將回歸得到的邊界框作為先驗概率P(X=i),,而P(M’|X=i)則由物體實例掩碼通過逐列(行)取最大、一維卷積和激活函數(shù)得到,。 整體過程如下圖所示: 此方法綜合考慮了回歸得到的邊界框和實例掩碼的優(yōu)勢,,得到了更準(zhǔn)確的邊界框,。具體結(jié)果可以看下圖,可以明顯發(fā)現(xiàn),,由此方法得到的邊界框可以以更高的IOU和ground truth box匹配,。 實驗結(jié)果: 文章在COCO數(shù)據(jù)集上進行了實驗驗證,。 在實例分割任務(wù)中,,此方法在單階段算法中可以達到更優(yōu)的速度與精度的平衡,以近3倍的速度取得了和TensorMask相近的精度,,以相近的速度在YOLACT的基礎(chǔ)上取得了2.3mAP的提升,。 在目標(biāo)檢測任務(wù)中,此方法以極低的計算代價在不同的backbone上取得了一致的性能提升,。 值得注意的是,文章中采用的是RetinaNet作為探測器,,且在其基礎(chǔ)上擴展到實例分割任務(wù)中并不會帶來顯著的計算量的增加,,如果采用其他更先進的目標(biāo)檢測算法,其精度與速度還能取得更進一步的提升,。 |
|