泡泡圖靈智庫,,帶你精讀機器人頂級會議文章 標題:DeepLiDARFlow: A Deep Learning Architecture For Scene FlowEstimation Using Monocular Camera and Sparse LiDAR 作者: Rishav,,Ramy Battrawy andRene Schuster etl 來源:IROS 2020 編譯:Cirstan 審核:wyc 這是泡泡圖靈智庫推送的第 521 篇文章,歡迎個人轉(zhuǎn)發(fā)朋友圈,;其他機構(gòu)或自媒體如需轉(zhuǎn)載,,后臺留言申請授權(quán) 摘要 大家好,今天為大家?guī)淼奈恼率恰狣eepLiDARFlow: A Deep Learning Architecture For Scene FlowEstimation Using Monocular Camera and Sparse LiDAR 場景流是對場景的運動和幾何結(jié)構(gòu)進行密集的三維重建,。最先進的方法是使用一對立體圖像作為輸入進行全場景重建,。這些方法很大程度上依賴于RGB圖像的質(zhì)量,在有反射物,、陰影,、光環(huán)境不好等情況下效果不佳。激光雷達測量對上述條件的敏感性要小得多,,但由于其稀疏性,,激光雷達的特征通常不適合匹配任務(wù)。因此,,使用激光雷達和RGB可以通過相互改進來克服每種傳感器各自的缺點,,產(chǎn)生魯棒的特征,從而改善匹配過程,。在這篇論文中,,我們提出了一種新的深度學(xué)習(xí)架構(gòu)DeepLiDARFlow,它將高階RGB和多尺度的LiDAR特征融合在一個單目裝置中,,以預(yù)測稠密場景流,。在僅使用圖像和僅使用激光雷達的方法不準確的關(guān)鍵區(qū)域,它的性能要好得多,。我們使用已建立的數(shù)據(jù)集KITTI和FlyingThings3D驗證了我們的DeepLiDARFlow,,與使用其他輸入模式的幾種最新方法相比,我們顯示出了很強的魯棒性,。代碼https://github.com/dfki-av/DeepLiDARFlow 主要貢獻 1.提出一種新的基于稀疏激光雷達和RGB圖像融合的稠密場景流估計的深度學(xué)習(xí)策略。 2.提出一種新穎的用于密集場景流量估計的RGB和LiDAR特征的多尺度融合策略,。 3.實驗中展示了我們的DeepLiDARFlow在有反射物體,、照明不良等的關(guān)鍵區(qū)域優(yōu)于基于圖像的方法。 4.針對使用其他輸入模式的不同最先進算法的整體競爭和穩(wěn)定的結(jié)果,。 算法流程 1.問題分析 對于自主車輛,、機器人導(dǎo)航、先進的駕駛員輔助系統(tǒng)等,對環(huán)境中的三維幾何和動態(tài)變化有著非常重要的意義,。在這種情況下,,場景流估計是一項重要的任務(wù),其目的是重建整個場景中每個觀察點的三維幾何和三維運動,。因此,,密集的場景流豐富了感知信息,對提高自主系統(tǒng)的可靠性非常有用,。 通常scene flow估計大部分是用雙目相機,,對圖像質(zhì)量要求較高,如果圖像受到反射,,陰影等因素影響對光流估計有很大的干擾,。[Lidar-flow: Dense scene flow estimation from sparse lidar and stereoimages](https:///pdf/1910.14453.pdf) 提出了雙目結(jié)合稀疏激光雷達進行場景流估計,但是計算效率太低,。 本文的DeepLiDARFlow在多個尺度上學(xué)習(xí)稀疏激光雷達測量和RGB圖像的高級特征,,并以端到端學(xué)習(xí)的方式將它們相互融合。該方法的目的是解決RGB圖像中光照差,、陰影,、反射物等關(guān)鍵區(qū)域,產(chǎn)生魯棒的匹配特征,。 2.算法結(jié)構(gòu) 對于場景流估計,,我們的Deeplidarflow的輸入是RGB圖像(it,it+1)和相應(yīng)的激光雷達測量值(Dt,,Dt+1),,分別在兩個連續(xù)的時間步長t和t+1。我們的場景特征提取模塊和深度流模塊相融合,,通過深度流和深度流模塊進行特征融合,。以下各節(jié)詳細描述了每個模塊。 圖1 稀疏深度與RGB融合預(yù)測場景流框架 2.1.特征提取模塊 圖像特征與稀疏點云融合的多尺度的特征有助于解決像大運動這樣的密集像素匹配問題,。RGB和LiDAR輸入的金字塔在結(jié)構(gòu)上類似于PWOC-3D中的特征金字塔網(wǎng)絡(luò),,但是從LiDAR數(shù)據(jù)中提取的特征在我們使用的操作和層次上有所不同。文獻[28]指出,,在稀疏輸入密度或模式變化的情況下,,正則卷積無法等效。因此,,稀疏性感知卷積被提出,,它使用二進制稀疏掩模進行歸一化。 本文使用相同的置信卷積[8],、最大置信池(用于下采樣)和最近鄰上采樣的概念來解釋特征提取過程中激光雷達測量的稀疏性,。特征的分辨率在金字塔的每一級上減半,每一級由兩個卷積組成。所有金字塔都有6個級別,,因此最終地圖的分辨率是原始輸入的164,。然后,對特征進行連續(xù)解碼和上采樣,,直到再次達到輸入分辨率的1/4,。對于RGB和LiDAR輸入,在兩個時間步分別用i t l,、i t+1 l,、dt l和d t+1 l表示特定水平l的最終特征。兩個RGB圖像或兩個激光雷達測量值的特征金字塔共享其權(quán)重,。 2.2 融合模塊 異構(gòu)RGB和深度信息的融合是該方法的重要組成部分,。一方面,利用激光雷達特征提取的深度信息對圖像特征進行細化,,以提高密集匹配的效果,。另一方面,利用稠密的RGB信息指導(dǎo)稀疏激光雷達測量的加密,,以獲得密集的深度表示,。 我們的DeepLiDARFlow基于這一發(fā)現(xiàn),并將高水平RGB和LiDAR特征的后期融合擴展到多尺度的后期融合和預(yù)測策略中,。隨著水平l的增加,,dtl(和dt+1l)的密度越來越大,語義也越來越強,,但只有很少的結(jié)構(gòu)信息依賴于激光雷達輸入的密度,。RGB具有ITL和it+1l豐富的結(jié)構(gòu)信息。融合模塊負責(zé)將結(jié)構(gòu)化RGB和非結(jié)構(gòu)化LiDAR特征相結(jié)合,,生成高層次特征進行匹配,。這些特征結(jié)合了激光雷達測量的魯棒性和準確性以及來自RGB圖像的豐富的紋理和結(jié)構(gòu)信息。 圖2 特征融合模塊 2.3 場景流估計模塊 該模塊的輸入是和,,即來自各個融合模塊的輸出特征,。僅需要單個二維wraps操作,該操作將向wrap以形成,。和被反饋送到cost volume層,,該層以與PWOC-3D [26]相同的方式計算2Dcost(表示為)。然后,,將,,和連接起來,并作為輸入給場景流估計器,,該場景流估計器預(yù)測級別為l的最終密集4D場景流。當(dāng)達到最終水平時,將使用上下文網(wǎng)絡(luò)的殘差預(yù)測進一步完善稠密預(yù)測,。上下文網(wǎng)絡(luò)從場景流估計器獲取,,和最后一級特征作為輸入。圖4給出了整個模塊的示意圖,。注意,,在,即最低分辨率時,,沒有先前的流量估計,。取而代之的是,假定初始流量為零,,因此不會發(fā)生wrap,,即.。 圖3 場景流估計 主要結(jié)果 1.具體細節(jié) 由于FT3D和KITTI數(shù)據(jù)集具有密集的視差圖,,因此我們使用統(tǒng)一的隨機采樣策略對視差點進行采樣,。大多數(shù)真正的LiDAR傳感器都有一些固有的噪聲,并且為了模仿此特性,,在訓(xùn)練和微調(diào)過程中會將一些噪聲模擬到采樣的深度點中,。另外,我們對RGB輸入應(yīng)用與[6]中相同的數(shù)據(jù)增強,。為了訓(xùn)練我們的體系結(jié)構(gòu),,我們使用超參數(shù)和多級損失,如[26]所示,。值得注意的是,,當(dāng)使用固定數(shù)量的LiDAR點訓(xùn)練時,當(dāng)使用不同密度的LiDAR輸入進行測試時,,DeepLiDARFlow的精度會大大降低,,這不是理想的特性。為了克服這個問題,,我們通過改變飛行前LiDAR樣本的數(shù)量(點從全密度的0.2%到20%變化),,在不同的LiDAR稀疏性級別(即分辨率)上推廣了我們的模型。-調(diào)整,。使用這種策略,,我們的DeepLiDARFlow能夠在各種LiDAR點上實現(xiàn)幾乎恒定的精度 2. point點對結(jié)果影響 表I:DeepLiDARFlow的各種設(shè)計選擇的消融研究。我們在FT3D和KITTI的測試分割中測試了所有5000點作為LiDAR輸入的變量,。 3. LIDAR數(shù)據(jù)對場景流估計的提升 圖4 我們的DeepLiDARFlow使用LiDAR功能和RGB功能的豐富紋理信息,,具有很高的魯棒性。在這里,,我們將DeepLiDARFlow的一些結(jié)果與僅使用圖像的方法[26]和僅使用LiDAR的方法[12]進行了比較,。與僅使用圖像的方法相比,,DeepLiDARFlow在光照不足的區(qū)域顯示出優(yōu)異的性能,并且克服了非結(jié)構(gòu)化點云的問題,,從而產(chǎn)生分辨率更高的結(jié)果 4.與其他方法對比 表2在KITTI [10]和FT3D [23]的測試片段上,,比較PWOC-3D [26],LiDAR-Flow [2],,MonoLiDAR-Flow(LiDAR-Flow的單眼版本)和DeepLiDARFlow的場景流結(jié)果,。通過輸入5000個深度測量值來評估LiDAR方法。 表3 在KITTI上有或沒有地面的DeepLiDARFlow和HPLFlowNet [12]的稀疏評估,。如果考慮到所有理由,,我們的DeepLiDARFlow在所有方面都將大大優(yōu)于HPLFlowNet。當(dāng)?shù)孛鏋榈孛鏁r,,HPLFlowNet只能在3D指標(即SF-EPE-3D和SF-3D)方面勝過我們的DeepLiDARFlow,。 即使這樣,我們的DeepLiDARFlow在光流估計方面仍具有更好的性能 Abstract Scene flow is the dense 3D reconstruction ofmotion and geometry of a scene. Most state-of-the-art methodsuse a pair of stereo images as input for full scene reconstruction.These methods depend a lot on the quality of the RGBimages and perform poorly in regions with reflective objects,shadows, ill-conditioned light environment and so on. LiDARmeasurements are much less sensitive to the aforementionedconditions but LiDAR features are in general unsuitable formatching tasks due to their sparse nature. Hence, using bothLiDAR and RGB can potentially overcome the individualdisadvantages of each sensor by mutual improvement and yieldrobust features which can improve the matching process. Inthis paper, we present DeepLiDARFlow, a novel deep learningarchitecture which fuses high level RGB and LiDAR featuresat multiple scales in a monocular setup to predict dense sceneflow. Its performance is much better in the critical regionswhere image-only and LiDAR-only methods are inaccurate.We verify our DeepLiDARFlow using the established data setsKITTI and FlyingThings3D and we show strong robustnesscompared to several state-of-the-art methods which used otherinput modalities. The code of our paper is available at https://github.com/dfki-av/DeepLiDARFlow. 如果你對本文感興趣,,想要下載完整文章進行閱讀,,可以關(guān)注【泡泡機器人SLAM】公眾號。 |
|
來自: taotao_2016 > 《機器人》