重磅干貨,第一時間送達 能夠在沒有監(jiān)督的情況下學習密集的圖像語義表示是計算機視覺中的一個重要問題。然而,,盡管意義重大,,這個問題仍然沒有得到充分的探討,除了一些例外,,即考慮在具有狹窄視覺域的小尺度數(shù)據(jù)集上進行無監(jiān)督語義分割,。在本文中,,作者首次嘗試解決傳統(tǒng)上用于有監(jiān)督情況的數(shù)據(jù)集上的問題。為了實現(xiàn)這一目標,,作者引入了一個新的兩步學習框架,,該框架采用了一個預先確定的對比優(yōu)化目標來學習像素嵌入。這標志著與依賴代理任務或端到端集群的現(xiàn)有工作有很大的不同,。此外,,作者討論了擁有一個包含對象或其部分信息的先驗的重要性,并討論了以無監(jiān)督方式獲得這樣一個先驗的幾種可能性,。大量的實驗評價表明,,所提出的方法比現(xiàn)有的方法具有關鍵的優(yōu)勢。首先,,學習到的像素嵌入可以使用K-Means直接聚類到語義組中,。其次,該方法可以作為一種有效的無監(jiān)督的語義分割任務前訓練,。特別是,,當使用PASCAL上1%的標記示例來優(yōu)化學習到的表示時,作者比監(jiān)督ImageNet預訓練的性能高出7.1% mIoU 代碼鏈接:https://github.com/wvangansbeke/Unsupervised-Semantic-Segmentation 作者的貢獻有: (1)作者提出了一個兩步的無監(jiān)督語義分割框架,,這標志著與最近依賴代理任務或端到端聚類的工作有很大的偏差,。 (2)在PASCAL上,作者學習到的像素嵌入可以使用K-Means直接聚類到語義組中,。請注意,,這是一個非常具有挑戰(zhàn)性的場景,在之前的作品中從未被探索過,。 (3)最后,,當對學習到的表示進行微調(diào)時,作者在ImageNet上報告了經(jīng)過監(jiān)督的預訓練后的更好性能,。這些結果表明,,就學前訓練而言,關注密集表征的學習是一個值得關注的研究方向,。這與主流的基于圖像級特征學習的預訓練策略相反,。 作者分別在DUTS和MSRA數(shù)據(jù)集上訓練有監(jiān)督(中間)和無監(jiān)督(底部)顯著性估計量。作者對帕斯卡進行預測,。 在PASCAL上使用1%的標記數(shù)據(jù)進行微調(diào)后的定性比較,。作者在ImageNet(中間)或作者的方法(底部)上使用監(jiān)督前訓練來在微調(diào)之前初始化權重。 作者提出了一個一般的兩步框架來處理無監(jiān)督語義分割,。此外,,作者還討論了擁有表達物體或其部分信息的先驗的重要性。實驗結果表明,,獲得的像素嵌入具有幾個有趣的特性,,即直接聚類,、半監(jiān)督微調(diào)和遷移學習能力。最后,,作者的框架允許幾個可能的擴展: 1.可選擇的物體掩模建議方法,,以解決與使用顯著物體掩模相關的限制。更具體地說,,它將有助于提取更細粒度的圖像區(qū)域的共享像素所有權優(yōu)先適用,。這可以在幾個方面對結果有好處,例如,,作者可以增加掩模建議的數(shù)量,,識別物體的部分和學習非顯著物體的表示。 2.該方法可以推廣到其他密集預測任務,,如語義實例分割,。例如,像素嵌入可以與對象掩碼提議機制相結合來預測語義實例,。 3.一種層次策略可以被探索來建模像素關系在多個尺度,。 鑒于作者框架的可行性,作者相信這些是有希望的研究方向,。 論文鏈接:https:///pdf/2102.06191.pdf - END - |
|