今天給大家?guī)?span textstyle=''>斯坦福李飛飛教授最新的大模型論文,論文已開源,。 【論文標題】 Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces 【論文鏈接】https:///pdf/2412.14171v1 源碼見文末 1 摘要 人類擁有視覺空間智能,,可以通過連續(xù)的視覺觀察記憶空間。然而在百萬規(guī)模的視頻數(shù)據(jù)集上訓(xùn)練的多模態(tài)大語言模型(MLLMs)也能從視頻中擁有 “空間思維 ”嗎,? 本文提出了一個新穎的基于視頻的視覺空間智能基準(VSI-Bench),,其中包含 5,000 多對問答,結(jié)果發(fā)現(xiàn) MLLMs 表現(xiàn)出了具有競爭力的視覺空間智能,,盡管這種智能還達不到人類的水平,。 本文對模型進行了探究,以表達它們是如何在語言和視覺上進行空間思維的,,結(jié)果發(fā)現(xiàn),,雖然空間推理能力仍然是 MLLMs 達到更高基準性能的主要瓶頸,但在這些模型中確實出現(xiàn)了局部世界模型和空間意識,。 值得注意的是,,目前流行的語言推理技術(shù)(如思維鏈、自洽性,、思維樹)無法提高成績,,而在回答問題時明確生成認知地圖卻能增強 MLLMs 的空間距離能力。 2 背景 在購買家具時,我們常常會嘗試回憶自家客廳的布局,,以想象心儀的櫥柜是否合適,。估算距離并非易事,然而人類只需觀看一次,,就能在腦海中重構(gòu)空間,回憶起房間里的物品,、它們的位置和大小,。我們生活在一個感官豐富的三維世界中,視覺信號環(huán)繞著我們,,使我們能夠感知,、理解并與之互動。 視覺空間智能需要感知和在心理上操縱空間關(guān)系,;它需要諸多能力,,包括關(guān)系推理以及在自我中心和客體中心視角之間轉(zhuǎn)換的能力。雖然大語言模型(LLMs)在語言智能方面取得了進展,,但視覺空間智能仍未得到充分探索,。 MLLMs整合了語言和視覺,在開放式對話和網(wǎng)絡(luò)代理等實際任務(wù)中展現(xiàn)出強大的思考和推理能力,。 3 貢獻 為了在視覺空間領(lǐng)域提升這一智能,,提出了VSI-Bench,這是一個基于視頻的基準測試,,包含近290個真實室內(nèi)場景視頻中的5000多個問答對,。視頻數(shù)據(jù)通過捕捉連續(xù)的時間輸入,既與我們觀察世界的方式相似,,又能實現(xiàn)比靜態(tài)圖像更豐富的空間理解和推理,。 在VSI-Bench上對開源和閉源模型進行評估后發(fā)現(xiàn),盡管模型與人類之間存在較大的性能差距,,但MLLMs在應(yīng)對視頻理解,、文本理解和空間推理的挑戰(zhàn)時,展現(xiàn)出了新興的視覺空間智能,。 為了分析模型行為,,并受雙編碼理論的啟發(fā),該理論認為語言和視覺處理是不同但互補的,,本文促使選定的模型進行自解釋(語言層面)和生成認知地圖(視覺層面),。 對自解釋的分析表明,與視覺感知,、語言智能或時間處理相比,,空間推理是VSI-Bench上性能薄弱的主要因素,。“認知地圖”代表環(huán)境的內(nèi)部布局,,能夠評估MLLMs的隱式空間世界模型,,并發(fā)現(xiàn)MLLMs構(gòu)建了強大的局部模型,但全局模型較弱,。 此外,,標準的語言推理技術(shù)未能提高基準測試的性能。然而,,在問答過程中明確生成認知地圖可提高MLLMs的空間距離能力,。 即使對人類來說,表達視覺空間智能也是困難的(且通常是零碎的),。通過這項工作,,旨在鼓勵社區(qū)探索用視覺空間智能為前沿模型奠定基礎(chǔ),并為這一方向鋪平道路并提供啟示,。 4 VSI-Bench 為了從第一人稱視角視頻定量評估 MLLMs 的視覺空間智能,,作者團隊引入了 VSI-Bench。它由超過 5000 個問答對組成,,這些問答對源自 288 個真實視頻,。 這些視頻來自公共室內(nèi) 3D 場景重建數(shù)據(jù)集 ScanNet、ScanNet++ 和 ARKitScenes 的驗證集,,涵蓋住宅,、辦公、工廠等多種環(huán)境及多個地理區(qū)域,。 利用這些現(xiàn)有數(shù)據(jù)集的對象級注釋進行問題生成,,并通過迭代審查確保了基準的高質(zhì)量,減少了問題歧義及錯誤注釋,。 VSI-Bench 包含三種類型的八項任務(wù): a.配置任務(wù)(如物體計數(shù),、相對距離、相對方向,、路線規(guī)劃)測試模型對空間配置的理解,; b.測量估計任務(wù)(如物體大小、房間大小,、絕對距離)對具身智能體有重要價值,; c.時空任務(wù)(如出現(xiàn)順序)則測試模型對視頻中空間的記憶。 基準構(gòu)建 數(shù)據(jù)收集與統(tǒng)一:標準化各數(shù)據(jù)集為統(tǒng)一元信息結(jié)構(gòu),,匯總 ScanNet,、ScanNet++ 和 ARKitScenes 數(shù)據(jù)集,將其視頻處理為統(tǒng)一格式(分辨率、幀率等),,并統(tǒng)一注釋結(jié)構(gòu)為包含數(shù)據(jù)集,、視頻路徑等屬性的格式,精心篩選類別并進行類別重映射以確保一致性,。 問答對生成:多數(shù)問答對通過元信息和問題模板自動注釋(路線規(guī)劃任務(wù)由人工注釋),,為每個任務(wù)精心設(shè)計問題模板并提供人工注釋指南,根據(jù)任務(wù)特點生成不同類型的問答對(如選擇題或數(shù)值題),,并對問題選項和答案進行處理(如采樣,、避免歧義等)。 人工循環(huán)質(zhì)量審查:盡管數(shù)據(jù)源于人工注釋且有精心設(shè)計的生成方法,,但仍存在錯誤,。實施貫穿基準構(gòu)建的人工驗證協(xié)議,審查人員標記問題,,追溯錯誤源并采取糾正措施(如移除問題數(shù)據(jù)、調(diào)整元信息或模板等),,迭代更新基準直至滿足質(zhì)量標準,。 5 VSI-Bench評估 1 評估設(shè)置 基準模型:全面評估 15 個支持視頻的MLLMs,涵蓋不同模型家族,、參數(shù)規(guī)模和訓(xùn)練方法,。包括專有模型 Gemini1.5 和 GPT - 4o,以及開源模型如 InternVL2,、ViLA 等系列,。所有評估在零樣本設(shè)置下進行,使用模型默認提示,,采用貪婪解碼確??芍貜?fù)性。 指標設(shè)計:根據(jù)問題答案類型(文本或數(shù)值),,任務(wù)采用選擇題答案(MCA)或數(shù)值答案(NA)格式,。MCA 任務(wù)使用準確率(ACC),NA 任務(wù)引入平均相對準確率(MRA),,通過計算模型預(yù)測與真實答案相對誤差率來評估預(yù)測準確性,,MRA 對數(shù)值預(yù)測與真實值的相似性提供更可靠和有區(qū)分度的測量。 基線水平:設(shè)定兩個基線,,Chance Level (Random) 為 MCA 任務(wù)隨機選擇準確率,,Chance Level (Frequency) 為選擇最頻繁答案的準確率,以識別因答案長尾分布或不平衡多項選擇可能導(dǎo)致的性能提升,。 2 主要結(jié)果 人類水平表現(xiàn):人類評估者在基準測試中平均準確率達 79%,,在配置和時空任務(wù)上表現(xiàn)卓越(94% - 100%),表明人類的直觀性,。在測量任務(wù)上,,人類與最佳 MLLM 的性能差距較小,,意味著 MLLMs 在定量估計任務(wù)上可能有相對優(yōu)勢。 專用 MLLMs:領(lǐng)先的專用模型 Gemini1.5 Pro 雖與人類有顯著差距,,但結(jié)果具有競爭力,,遠超基線水平,在絕對距離和房間大小估計等任務(wù)上接近人類水平,??紤]到人類在理解物理世界方面的經(jīng)驗,而 MLLMs 僅在二維數(shù)字數(shù)據(jù)上訓(xùn)練,,這一表現(xiàn)值得關(guān)注,。 開源 MLLMs:頂級開源模型如 LLaVA - NEXT - Video - 72B 和 LLaVA - OneVision - 72B 表現(xiàn)與閉源模型相當(dāng),僅落后領(lǐng)先的 Gemini1.5 Pro 4% - 5%,。然而,,多數(shù)開源模型(7/12)低于基線水平,表明其視覺空間智能存在顯著局限,。 盲評結(jié)果:對比 MLLMs 與 “Chance Level (frequency)” 和 “Vision Disabled”(盲測)結(jié)果,,發(fā)現(xiàn)視頻對 VSI - Bench 至關(guān)重要,盲測模型表現(xiàn)低于基線,。MLLMs 在絕對距離估計,、路線規(guī)劃和相對方向任務(wù)上,無論是否啟用視覺,,都難以超越基線水平,,凸顯這些任務(wù)的難度。在物體大小任務(wù)上,,“Vision Disabled” 模型因語言模型訓(xùn)練中的常識知識而優(yōu)于基線,。 6 多模態(tài)大語言模型如何在語言層面進行空間思考 為深入理解模型在視覺空間智能任務(wù)中的成敗原因,剖析其能力構(gòu)成,,本章從語言層面探究MLLMs如何進行空間思考,。 1 通過自解釋進行探究 自解釋是理解模型生成響應(yīng)的常用方法,類似于傳統(tǒng)模型解釋技術(shù)(如 LIME 顯著圖),,廣泛應(yīng)用于分析語言模型行為,。研究以在 VSI-Bench 中表現(xiàn)最佳的 Gemini-1.5 Pro 為例,隨機抽取 163 個錯誤答案,,促使模型解釋預(yù)測答案,,再人工詳細審查。 案例研究:成功與錯誤案例的自解釋表明,,MLLMs 在空間思考時,,視頻理解能力強,能準確描述時間戳,推理過程合理,,還可能構(gòu)建隱式世界模型,,利用全局空間上下文和推理得出正確結(jié)論。但在錯誤案例中,,也存在如自我中心 - 客體中心轉(zhuǎn)換和關(guān)系推理等視覺空間能力缺陷,,如在路線規(guī)劃任務(wù)中,模型可能因遵循視頻中的自我中心視角而非構(gòu)建客體中心視角,,導(dǎo)致方向判斷錯誤,。 錯誤分析:對 Gemini-1.5 Pro 在 VSI-Bench(tiny)上的錯誤進行量化分析,將錯誤歸為四類:視覺感知錯誤(源于未識別物體或錯誤分類),、語言智能錯誤(由邏輯,、數(shù)學(xué)推理或語言理解缺陷導(dǎo)致)、關(guān)系推理錯誤(包括空間關(guān)系推理錯誤,,如距離,、方向和大小判斷)、自我中心 - 客體中心轉(zhuǎn)換錯誤(因錯誤的客體中心空間布局或視角轉(zhuǎn)換不當(dāng)),。結(jié)果顯示,,約 71% 的錯誤源于空間推理,表明空間推理是 MLLM 在 VSI-Bench 上性能的主要瓶頸,。 2 思維鏈方法在視覺空間任務(wù)中的局限性 提示技術(shù)雖能提升大模型在多種任務(wù)中的推理和問題解決能力,但在 VSI-Bench 中,,研究發(fā)現(xiàn)三種常見的語言提示技術(shù)(Zero-Shot Chain-of-Thought,、Self-Consistency w/ CoT、Tree-of-Thoughts)均導(dǎo)致性能下降,。 Zero-Shot CoT 和 ToT 使平均性能降低約 4%,,Self-Consistency 雖稍好但仍低于無提示基線 1.1%。這可能是因為這些技術(shù)在處理視覺空間任務(wù)時,,對模型的空間推理能力要求較高,,而當(dāng)前模型在這方面存在不足。 在某些任務(wù)(如出現(xiàn)順序和絕對距離估計)中,,語言提示技術(shù)的單邊改進可由其較高比例的語言智能錯誤解釋,。同時,Zero-Shot CoT 在一般視頻理解基準 VideoMME 上能提升 1.6% 的性能,,表明這些語言提示技術(shù)在語言推理和一般視覺任務(wù)中有效,,但對空間推理有害。 7 多模態(tài)大語言模型如何在視覺層面進行空間思考 人類在進行空間推理時會下意識構(gòu)建空間心理表征,,受此啟發(fā)探究MLLMs如何記憶空間,,從視覺層面分析其空間思考方式。 1 通過認知地圖進行探究 認知地圖是記憶特定環(huán)境中物體的成熟框架,研究促使 MLLMs 使用認知地圖表達對所見空間的內(nèi)部表示,。以 Gemini-1.5 Pro 為例,,讓其根據(jù)視頻輸入預(yù)測物體中心位置(在 10×10 網(wǎng)格內(nèi)),并通過評估地圖中物體間歐幾里得距離來定量分析認知地圖,。 實驗結(jié)果與分析:MLLMs 在認知地圖中定位相鄰物體的準確率達 64%,,顯示出較強的局部空間感知能力。然而,,隨著物體間距離增加,,準確率顯著下降,表明 MLLMs 從給定視頻中形成的是一系列局部世界模型,,而非統(tǒng)一的全局模型,。這可能是因為從離散視頻幀構(gòu)建全局空間表示對 MLLMs 來說具有挑戰(zhàn)性,盡管人類在這方面也可能面臨困難,,但可能更擅長構(gòu)建準確的全局空間表示,。 2 通過認知地圖提升距離推理能力 鑒于 MLLMs 在記憶空間時的局部感知能力,以及心理意象對人類空間思考的重要性,,研究探討生成和使用認知地圖能否提升 MLLMs 在 VSI-Bench 相對距離任務(wù)中的空間推理能力,,即局部距離感知能否轉(zhuǎn)化為更好的距離回憶和推理。 實驗設(shè)置與結(jié)果:促使 Gemini-1.5 Pro 根據(jù)視頻和問題生成認知地圖,,然后利用該地圖回答問題,。 結(jié)果表明,使用心理意象使 MLLM 的相對距離準確率提高了 10%,,使用真實認知地圖時準確率提高 20% - 32%,,這強調(diào)了構(gòu)建準確場景心理地圖的重要性,盡管這只是解決問題的一部分,,但表明構(gòu)建心理空間世界模型或認知地圖是提升 MLLMs 視覺空間推理能力的有價值的預(yù)訓(xùn)練任務(wù)或解決方案,。 8 結(jié)論 通過構(gòu)建 VSI-Bench 并研究 MLLMs 在該平臺上的表現(xiàn)和行為,來研究模型是如何看到,、記住和回憶空間,。 本文對 MLLMs 如何通過語言和視覺進行空間思維進行了分析,發(fā)現(xiàn)了視覺空間智能的現(xiàn)有優(yōu)勢(如突出的感知,、時間和語言能力)和瓶頸(如自中心-全中心轉(zhuǎn)換和關(guān)系推理),。 雖然目前流行的語言提示方法無法提高空間推理能力,但建立明確的認知地圖確實可以提高 MLLMs 的空間距離推理能力,。 未來的改進途徑包括針對特定任務(wù)的微調(diào),、開發(fā)空間推理的自監(jiān)督學(xué)習(xí)目標或針對 MLLMs 的視覺空間定制提示技術(shù)。 【源碼鏈接】https://github.com/vision-x-nyu/thinking-in-space END |
|