機(jī)器之心報(bào)道
前段時(shí)間,,Meta 發(fā)布「分割一切(SAM)」AI 模型,,可以為任何圖像或視頻中的任何物體生成 mask,,讓計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域研究者驚呼:「CV 不存在了」。之后,,CV 領(lǐng)域掀起了一陣「二創(chuàng)」狂潮,一些工作陸續(xù)在分割的基礎(chǔ)上結(jié)合目標(biāo)檢測(cè),、圖像生成等功能,但大部分研究是基于靜態(tài)圖像的,。 現(xiàn)在,一項(xiàng)稱為「追蹤一切」的新研究為動(dòng)態(tài)視頻中的運(yùn)動(dòng)估計(jì)提出了新方法,能夠準(zhǔn)確,、完整地追蹤物體的運(yùn)動(dòng)軌跡。 該研究由來(lái)自康奈爾大學(xué),、谷歌研究院和 UC 伯克利的研究者共同完成,。他們聯(lián)合提出了一種完整且全局一致的運(yùn)動(dòng)表征 OmniMotion,并提出一種新的測(cè)試時(shí)(test-time)優(yōu)化方法,,對(duì)視頻中每個(gè)像素進(jìn)行準(zhǔn)確、完整的運(yùn)動(dòng)估計(jì),。
有網(wǎng)友在推特上轉(zhuǎn)發(fā)了這項(xiàng)研究,,僅一天時(shí)間就收獲了 3500 + 的點(diǎn)贊量,研究?jī)?nèi)容大受好評(píng),。 從該研究發(fā)布的 demo 看,,運(yùn)動(dòng)追蹤的效果非常好,,例如追蹤跳躍袋鼠的運(yùn)動(dòng)軌跡: 蕩秋千的運(yùn)動(dòng)曲線: 還能交互式查看運(yùn)動(dòng)追蹤情況: 即使物體被遮擋也能追蹤運(yùn)動(dòng)軌跡,,如狗在跑動(dòng)的過(guò)程中被樹(shù)遮擋: 在計(jì)算機(jī)視覺(jué)領(lǐng)域,常用的運(yùn)動(dòng)估計(jì)方法有兩種:稀疏特征追蹤和密集光流,。但這兩種方法各有缺點(diǎn),,稀疏特征追蹤不能建模所有像素的運(yùn)動(dòng);密集光流無(wú)法長(zhǎng)時(shí)間捕獲運(yùn)動(dòng)軌跡,。 該研究提出的 OmniMotion 使用 quasi-3D 規(guī)范體積來(lái)表征視頻,,并通過(guò)局部空間和規(guī)范空間之間的雙射(bijection)對(duì)每個(gè)像素進(jìn)行追蹤。這種表征能夠保證全局一致性,,即使在物體被遮擋的情況下也能進(jìn)行運(yùn)動(dòng)追蹤,,并對(duì)相機(jī)和物體運(yùn)動(dòng)的任何組合進(jìn)行建模。該研究通過(guò)實(shí)驗(yàn)表明所提方法大大優(yōu)于現(xiàn)有 SOTA 方法。 方法概述 該研究將幀的集合與成對(duì)的噪聲運(yùn)動(dòng)估計(jì)(例如光流場(chǎng))作為輸入,,以形成整個(gè)視頻的完整、全局一致的運(yùn)動(dòng)表征,。然后,,該研究添加了一個(gè)優(yōu)化過(guò)程,,使其可以用任何幀中的任何像素查詢表征,,以在整個(gè)視頻中產(chǎn)生平滑、準(zhǔn)確的運(yùn)動(dòng)軌跡,。值得注意的是,該方法可以識(shí)別畫(huà)面中的點(diǎn)何時(shí)被遮擋,,甚至可以穿過(guò)遮擋追蹤點(diǎn),。 OmniMotion 表征 傳統(tǒng)的運(yùn)動(dòng)估計(jì)方法(例如成對(duì)光流),當(dāng)物體被遮擋時(shí)會(huì)失去對(duì)物體的追蹤,。為了在遮擋的情況下也能提供準(zhǔn)確,、一致的運(yùn)動(dòng)軌跡,,該研究提出全局運(yùn)動(dòng)表征 OmniMotion,。 該研究試圖在沒(méi)有顯式動(dòng)態(tài) 3D 重建的情況下準(zhǔn)確追蹤真實(shí)世界的運(yùn)動(dòng),。OmniMotion 表征將視頻中的場(chǎng)景表示為規(guī)范的 3D 體積,通過(guò)局部規(guī)范雙射(local-canonical bijection)映射成每個(gè)幀中的局部體積,。局部規(guī)范雙射被參數(shù)化為神經(jīng)網(wǎng)絡(luò),并在不分離兩者的情況下捕獲相機(jī)和場(chǎng)景運(yùn)動(dòng),?;诖朔N方法,,視頻可以被視為來(lái)自固定靜態(tài)相機(jī)局部體積的渲染結(jié)果。 由于 OmniMotion 沒(méi)有明確區(qū)分相機(jī)和場(chǎng)景運(yùn)動(dòng),,所以形成的表征不是物理上準(zhǔn)確的 3D 場(chǎng)景重建。因此,,該研究稱其為 quasi-3D 表征。 OmniMotion 保留了投影到每個(gè)像素的所有場(chǎng)景點(diǎn)的信息,以及它們的相對(duì)深度順序,,這讓畫(huà)面中的點(diǎn)即使暫時(shí)被遮擋,,也能對(duì)其進(jìn)行追蹤,。 實(shí)驗(yàn)及結(jié)果 定量比較 研究者將提出的方法與 TAP-Vid 基準(zhǔn)進(jìn)行比較,結(jié)果如表 1 所示,??梢钥闯?,在不同的數(shù)據(jù)集上,他們的方法始終能實(shí)現(xiàn)最佳的位置準(zhǔn)確性,、遮擋準(zhǔn)確性和時(shí)序一致性,。他們的方法可以很好地處理來(lái)自 RAFT 和 TAP-Net 的不同的成對(duì)對(duì)應(yīng)輸入,,并且在這兩種基準(zhǔn)方法上提供了一致的改進(jìn),。 定性比較 如圖 3 所示,,研究者對(duì)他們的方法和基線方法進(jìn)行了定性比較,。新方法在(長(zhǎng)時(shí)間)遮擋事件中顯示出了出色的識(shí)別和追蹤的能力,同時(shí)在遮擋期間為點(diǎn)提供合理的位置,,并處理很大的攝像機(jī)運(yùn)動(dòng)視差,。 消融實(shí)驗(yàn)與分析 研究者利用消融實(shí)驗(yàn)來(lái)驗(yàn)證他們?cè)O(shè)計(jì)決策的有效性,結(jié)果如表 2 所示,。 在圖 4 中,,他們展示了由他們的模型生成的偽深度圖,,以展示學(xué)習(xí)到的深度排序。 需要注意的是,這些圖并不對(duì)應(yīng)于物理深度,,然而,,它們展示了僅使用光度和光流信號(hào)時(shí),新方法能夠有效地確定不同表面之間的相對(duì)順序,,這對(duì)于在遮擋中進(jìn)行追蹤至關(guān)重要,。更多的消融實(shí)驗(yàn)和分析結(jié)果可以在補(bǔ)充材料中找到,。 |
|
來(lái)自: 天承辦公室 > 《022機(jī)器之心》