Agent觸摸漢堡辨冷熱,，首次擁有類人感官！UCLA等發(fā)布3D多模態(tài)交互具身智能大模型

天承辦公室 2024-01-23 發(fā)布于江蘇

展開全文

新智元報道

編輯：桃子好困

【新智元導(dǎo)讀】Sam Altman認(rèn)為AGI很快就會降臨,，但若是沒有感官兼?zhèn)涞腁I何以稱為智能,？最近，UCLA等機構(gòu)研究人員提出多模態(tài)具身智能大模型MultiPLY,，AI可以知冷知熱,、辨音識物,。

具身智能，是大模型未來應(yīng)用的一個重要方向,。

現(xiàn)在，大模型加持下的智能體,，能夠參與3D環(huán)境,，不僅有了聽覺視覺,，還有了觸覺等多種感官能力,。

臥室里有什么物體,，一眼辨認(rèn)。

聽到門鈴響了,，LLM便會告訴你家里來客人了。

大模型加持的NPC,，在觸摸桌子的香蕉后,，發(fā)現(xiàn)沒熟并建議不要吃。

甚至,，它還能感受到物體的溫度,，餐桌上的漢堡已經(jīng)涼了，會告訴你加熱后再吃,。

除此之外,，這些智能體借助LLM之力，還擅長使用工具,、物體檢索,、導(dǎo)航、任務(wù)分解等多種任務(wù),。

來自UMass Amherst,、UCLA和MIT-IBM Watson AI Lab研究人員，推出了全新的具身智能大模型MultiPLY,。

通過智能體與3D環(huán)境交互,，MultiPLY呈現(xiàn)了大模型多感官能力，無縫地連接了語言,、動作和感知,！

論文地址：https:///abs/2401.08577

在推理過程中，MultiPLY能夠生成動作token,，指示智能體在環(huán)境中采取行動,，并獲得下一個多感官觀測值。

然后,，通過狀態(tài)token將觀測結(jié)果反饋給LLM,，以生成后續(xù)的文本或動作token。

在對象檢索,、工具使用,、多感官標(biāo)注和任務(wù)分解的具體任務(wù)實驗中，MultiPLY的性能刷新SOTA,。

多感官大模型

多模態(tài)大模型,，如LLaVA、Flamingo,、BLIP-2,、PaLM-E,，在視覺語言任務(wù)中表現(xiàn)出色。然而,，它們主要關(guān)注2D場景理解,，很難對3D環(huán)境進(jìn)行推理和交互。

盡管目前也有關(guān)于3D場景理解的大模型研究,，但這些LLM缺乏捕捉視覺和語言之外的多感官信息的能力,。相比之下，人類通過觸摸甜甜圈,，能夠感知其柔軟度和溫度,，而這種能力遠(yuǎn)遠(yuǎn)超出了當(dāng)前多模態(tài)LLM的范圍。

若想真正實現(xiàn)AI大佬口中的AGI,，那么未來構(gòu)建多感官的大模型也是必不可少,。

但挑戰(zhàn)在于，當(dāng)前缺少訓(xùn)練LLM的多感官交互數(shù)據(jù),，另外還缺乏對3D場景和物體的多感官信息的正確表示,。

通過將場景抽象為以「對象為中心」的表示，并在與對象進(jìn)一步交互時關(guān)注對象細(xì)節(jié),，人類很輕易就能做到,。

對于LLM來說，必須在以對象為中心的表示,，以及詳細(xì)多感官信息之間靈活切換,。

為此，研究人員提出了MultiPLY,，一種多感官呈現(xiàn)的LLM,，可以通過部署由LLM驅(qū)動的智能體與3D環(huán)境進(jìn)行交互，從而對以對象為中心的多感官表示進(jìn)行編碼,，包括視覺,、音頻、觸覺和溫度信息,。

Multisensory-Universe數(shù)據(jù)集

為了訓(xùn)練這種全新的模型,，研究人員提出了一個大規(guī)模多感官數(shù)據(jù)集Multisensory-Universe，包含50萬條由AI智能體在3D虛擬環(huán)境中交互時收集的數(shù)據(jù),。

這些數(shù)據(jù)涵蓋了多種任務(wù)類型,，包括多感官描述（multisensory captioning）、問答（question answering）,、對話（dialogue）,、操作（manipulation）、任務(wù)分解（task decomposition）等等,。

向3D場景中添加互動對象

具體來說,，團隊基于Habitat-Matterport 3D（HM3D）語義數(shù)據(jù)集對場景進(jìn)行了構(gòu)建,。

HM3D數(shù)據(jù)集包含了216個三維空間及其內(nèi)部的3,100個房間，但由于傳感器數(shù)據(jù)不足和種類單一的問題,，這些對象無法在Habitatsim環(huán)境中進(jìn)行互動,。

為此,，研究人員在場景中引入了新的對象,，這樣智能體就可以利用Habitatsim與它們進(jìn)行交互了。

主要來源有：

ObjectFolder,，包含了1000個對象模型,，這些對象的撞擊聲效被儲存在隱式神經(jīng)場中，并且還標(biāo)注了對象的材質(zhì),；
Objaverse,，是一個涵蓋了豐富類別的800,000個三維對象的集合。

具體來說,，研究人員讓ChatGPT從ObjectFolder和Objaverse中選擇1到10個新對象,，并為這些新加入的對象生成合適的邊界框。

期間,，ChatGPT需要確定對象的材質(zhì)類別（比如,，陶瓷、塑料,、鋼鐵）和特性（比如,，可變形性、彈性,、硬度）,，以及溫度標(biāo)簽（比如，物體是熱的,、冷的,，還是和室溫一樣）。

除了HM3D中現(xiàn)有的對象及其邊界框外,，研究人員給ChatGPT的提示還包括一些偏好,，和少樣本示例：

挑選一些外觀相似的對象。比如,，選兩個外形相似的瓶子,，其中一個是塑料的，另一個是金屬的,。這樣,，就需要通過不同的傳感器收集信息來消除歧義。
挑選那些與環(huán)境匹配,、并可以組合使用完成任務(wù)的對象,。例如,，在廚房環(huán)境中，可以選擇食材和烹飪工具,。

多感官全景（Multisensory-Universe）生成管線

獲取新物體的傳感器數(shù)據(jù)

- 觸覺

對于觸覺數(shù)據(jù)的收集,，研究人員采用了DiffTactile技術(shù)，它基于MLSMPM方法來模擬剛體,、彈性和彈塑性的物體,。

把物體的三維模型放入DiffTactile系統(tǒng)中，然后用一個裝有定位標(biāo)記的抓手在事先設(shè)定好的位置觸碰這些物體,。觸覺傳感器記錄下標(biāo)記點的起始和結(jié)束位置,，從而反映氣泡被壓縮的程度。

- 環(huán)境聲音

為了幫助導(dǎo)航或推理,，每個物體都可以發(fā)出環(huán)境聲音,，或者作為線索，讓AI智能體了解周圍環(huán)境中正在發(fā)生的事情,。

引導(dǎo)ChatGPT根據(jù)AudioSet中的聲音樣本與新添加物體的語義標(biāo)簽進(jìn)行匹配,。根據(jù)AudioSet提供的聲音描述，ChatGPT需要從候選物體列表中挑選出那些可能發(fā)出這種聲音的物體,。

- 撞擊聲音

撞擊聲音是指敲擊或撞擊物體時所聽到的聲音,，這對于識別物體的材料類型非常關(guān)鍵。

通過在ObjectFolder中查詢物體的隱式聲音場,，再給定敲擊位置和施加的力,，就可以獲撞擊聲音了。

- 溫度

針對每個物體的溫度標(biāo)簽,，需要讓ChatGPT給出它們各自合適的溫度,。

智能體采集場景構(gòu)建數(shù)據(jù)

研究人員通過大語言模型驅(qū)動的智能體，來收集場景構(gòu)建中的所需數(shù)據(jù),。

首先,，給ChatGPT設(shè)置任務(wù)，并讓它給出任務(wù)建議,。接著,，將一個能夠在3D環(huán)境中與物體進(jìn)行互動的智能體放入其中，執(zhí)行任務(wù)并收集交互數(shù)據(jù),。

- 生成任務(wù)建議

在給出需要執(zhí)行的動作清單后,，ChatGPT便會生成特定的任務(wù)，并產(chǎn)生一系列代表動作的詞語,，以及基于物體實際反饋標(biāo)簽推導(dǎo)出的語言推理結(jié)果,。由于ChatGPT能夠訪問所有的材料和溫度標(biāo)簽，因此它能在「觸摸」動作之后生成類似「感覺很冷」的句子。

- 互動數(shù)據(jù)的收集

智能體首先會隨機地探索環(huán)境,，并收集初始的RGBD環(huán)境數(shù)據(jù),。在確定了動作之后，智能體就會去與環(huán)境中的物體進(jìn)行互動,，并獲取感官反饋,。例如，當(dāng)動作是「觸摸物體」時,，智能體會反饋該物體的觸覺和溫度信息,。

MultiPLY架構(gòu)

接下來，便是進(jìn)入MultiPLY大模型訓(xùn)練階段了,。

以對象為中心的場景表征

LLM首先將智能體探索的3D環(huán)境特征作為輸入,，以便對場景有初步理解,。

研究人員按照3D-LLM研究路線,，利用2D特征來構(gòu)建3D場景特征。這樣視覺特征就可以無縫地輸入到預(yù)訓(xùn)練的視覺語言模型中,，且無需適應(yīng),。

然而，3D-LLM的點云編碼讓LLM很難一次處理數(shù)千個點,。

當(dāng)人類探索3D環(huán)境時,，會將場景抽象表示，并粗略地形成對象及其位置的理解,，無需記住所有細(xì)節(jié),。

同樣，研究團隊使用以對象為中心的抽象表示來表示3D場景,。

通過概念圖和CLIP編碼器來編碼圖像中的物體,，然后通過多視角關(guān)聯(lián)，將2D圖像編碼融合到3D空間中,。

研究人員還將位置嵌入添加到物體的視覺特征中,，最終得到

個特征作為抽象的以對象為中心的場景表示，其中

是對象的數(shù)量,。

如果3D環(huán)境中的物體帶有環(huán)境聲音,，研究人員會使用CLAP音頻編碼器對聲音進(jìn)行編碼，并得到1024維的特征,。

以對象為中心的場景表示和環(huán)境聲音表示作為LLM的初始輸入,，由 <SCENE>、</SCENE> 和 <AMBIENT SOUND>,、</AMBIENT SOUND> 等token括起來,。

動作token

研究人員設(shè)計了一組動作token來表示智能體與環(huán)境的交互：

<SELECT> token選擇要與之交互的對象。通過語言特征（即<SELECT> token的LLM的最后隱藏狀態(tài)）和環(huán)境中對象的CLIP視覺特征之間的注意力來選擇對象。它會選擇有最大注意力分?jǐn)?shù)的對象,。

<NAVIGATE> token要求智能體導(dǎo)航到選定的對象,。

<OBSERVE> token要求智能體仔細(xì)檢查所選對象并獲取對象詳細(xì)信息（以對象詳細(xì)點云的形式）。

<TOUCH> token允許智能體觸摸所選的物體,，獲取觸覺和溫度信息,。

<HIT> token允許智能體擊中所選物體，得到撞擊聲音,。

<PICK-UP>和<PUT-DOWN> token讓智能體能夠拾取或放下選定的對象,。

<LOOK-AROUND> token讓智能體轉(zhuǎn)頭并獲取附近的物體。

狀態(tài)token

研究人員還設(shè)計了另一種token,，將交互結(jié)果反饋給LLM：

<OBJECT>：當(dāng)AI智能體<OBSERVE>到一個物體時,，它會記錄物體的點信息。得到從2D CLIP特征聚合而來的3D特征后,，再加入位置信息來進(jìn)行增強,。隨后創(chuàng)建了一個由N個點組成的點云，每個點都有1024維的特征數(shù)據(jù),，其中N是點的總數(shù),。

<IMPACT SOUND>：當(dāng)AI智能體<HIT>一個物體時，它會記錄產(chǎn)生的撞擊聲,。利用CLAP音頻編碼器處理這些聲音,，即可得到一個1024維的撞擊聲音數(shù)據(jù)。然后使用一個聲音映射器（即一個處理層）將聲音數(shù)據(jù)轉(zhuǎn)換成LLM可以處理的格式,。

<TACTILE>：當(dāng)一個物體被AI智能體<TOUCH>時,，它會記錄下觸覺信息。先將觸覺感應(yīng)轉(zhuǎn)化為熱圖,，并使用CLIP來處理,。通過對這些熱圖區(qū)塊進(jìn)行平均值處理，就得到了一個1024維的溫度特征數(shù)據(jù),。然后使用一個觸覺映射器（即一個處理層）來將這些數(shù)據(jù)轉(zhuǎn)換成大語言模型的特征格式,。

<TEMPERATURE> ：在記錄溫度時，會先將溫度數(shù)據(jù)轉(zhuǎn)化為熱圖,，并使用CLIP來處理,。通過對熱圖區(qū)塊進(jìn)行平均值處理，就獲得了一個1024維的溫度特征數(shù)據(jù),。然后再使用一個溫度映射器（即一個處理層）來將這些數(shù)據(jù)轉(zhuǎn)換成大語言模型的特征格式,。

訓(xùn)練與推理

模型架構(gòu)

在此，研究人員使用了LLaVA作為多模態(tài)大模型骨干,。

由于研究中的視覺特征已使用ConceptGraphs與LLaVA對齊到相同的嵌入空間,，因此可以直接使用LLaVA的視覺到語言projector，而無需對視覺語言數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。

對于其他傳感器模式,，研究人員利用輕量級適配器,，它是單線層projector，將傳感器特征映射到LLaVA的文本token嵌入空間中,。

模態(tài)對齊

如上所述,，觸覺、聲音和溫度表示與語言特征不一致,。

在第一階段,，研究人員訓(xùn)練傳感器到語言適配器以進(jìn)行多感官特征對齊。對于音頻語言對齊,，使用了AudioSet和AudioCaps,。

對于撞擊聲、觸覺和熱數(shù)據(jù),，研究團隊使用ChatGPT生成一個句子標(biāo)題,，描述材料以及每種傳感器模態(tài)和語言之間的一致性。然后凍結(jié)圖像編碼器和LLM的權(quán)重,，以加快收斂速度并保持語言推理能力,。

使用Multisensory-Universe數(shù)據(jù)集進(jìn)行指令微調(diào)

在第二階段,，研究人員使用Multisensory-Universe數(shù)據(jù)集對LLaVA進(jìn)行調(diào)優(yōu),。

其中訓(xùn)練損失由兩部分組成，第一個是LLM損失,，與原始LLaVA模型相同,。然后又添加了一項損失，迫使模型選擇正確的對象來關(guān)注,。

具體來說,，研究人員計算SELECT token的LLM最后一個隱藏狀態(tài)，與每個抽象對象特征之間的注意力,。

該特征通過Sigmoid層,，并通過二元交叉熵（BCE）損失進(jìn)行優(yōu)化。在這一階段的訓(xùn)練中,，解凍整個模型,。

研究人員在128個V100 GPU上使用FSDP進(jìn)行了高效訓(xùn)練。

推理

在推理時,，MultiPLY首先將任務(wù)提示和抽象場景表示作為輸入,，并生成后續(xù)token。一旦生成了動作token,，就會指示智能體采取Habitat-sim中的動作并與環(huán)境交互,。

智能體的觀察結(jié)果通過狀態(tài)token作為輸入反饋給LLM。LLM進(jìn)一步根據(jù)當(dāng)前狀態(tài)輸入生成下一個token。

實驗結(jié)果

微調(diào)模型在多感官數(shù)據(jù)集上進(jìn)行訓(xùn)練之后,，研究人員在模擬環(huán)境中對其進(jìn)行了測試,。

在這些測試中，AI智能體能夠根據(jù)MultiPLY生成的動作Token與模擬環(huán)境進(jìn)行互動,。

接著,，LLM將等待智能體完成動作，并通過狀態(tài)Token接收智能體的觀察結(jié)果,，以此來生成下一個Token,。

具體來說，研究人員設(shè)計了4種實驗場景：對象檢索,、工具使用,、多感官標(biāo)注和任務(wù)分解，并為每個場景提供了詳細(xì)的任務(wù)說明,、基準(zhǔn)測試和分析,。

對象檢索

在對象檢索的實驗中，研究人員得出了幾個有趣的結(jié)論,。

首先,，能夠處理多種感官信息的模型，遠(yuǎn)遠(yuǎn)優(yōu)于只能處理單一信息類型的模型,。

CLIP和CLAP,，以及那些依賴初始視覺特征的模型，在物品檢索任務(wù)中的表現(xiàn)很差,。這更加凸顯了結(jié)合多種感官信息的模型,，相較于僅依賴2D圖像模型的重要性。

這主要是因為,，單一視角的圖片有時候無法提供充分的信息來識別物體,，尤其是當(dāng)視角不一致或者物體被遮擋時。

其次,，LLM在性能上超越了基于相似度檢索的模型,。這可能是因為后者將多感官的信息簡單地融合在一起，而沒有區(qū)分各種感官信息,。

總體而言,，MultiPLY在很多方面都顯著優(yōu)于基準(zhǔn)模型。

可能是因為其它模型將所有信息都與視覺信息綁定,，而忽視了一個視覺特征可能與來自其他感官的多個特征相關(guān)聯(lián)的事實,。

而MultiPLY通過單獨與不同感官數(shù)據(jù)進(jìn)行交互和推理，可以將不同感官特征相互聯(lián)系,。

工具使用

在工具使用測試中,，那些基于綁定（binding-based）的方法在工具使用這一任務(wù)上表現(xiàn)極差,。

原因可能在于這些方法將物體的多種感官信息，作為不可分割的整體進(jìn)行處理,，導(dǎo)致它們無法從整體中區(qū)分出單獨的感官特征,，比如物質(zhì)材料。

因此,，就更別提去推斷這些特性是如何成為工具使用的依據(jù),，以及如何在多種感官信息融合后分析和理解物體的實際功能了。

多感官標(biāo)注

從下表可以明顯看出,，整體而言,，基于3D的大模型的性能，超越了基于2D VLM,。

LLaVA和3D-LLM采用了全面的數(shù)據(jù)表示作為輸入,，這導(dǎo)致它們無法與那些可以靈活切換不同數(shù)據(jù)表示、進(jìn)行互動的模型相匹敵,。

MultiPLY的表現(xiàn)比Pointbind-LLM更加出色,，這很可能是因為PointBind把不同感官模態(tài)的數(shù)據(jù)表示綁定在一起，這樣做難以區(qū)分和解析各個感官信息,。

任務(wù)分解

在任務(wù)分解上,，那些缺乏交互功能的模型表現(xiàn)極差，這很可能是由于VLM極易出現(xiàn)錯誤的幻覺,。

例如,，即使場景中并無面包，模型也可能錯誤地生成「找到一塊面包」的指令,。

MultiPLY在性能上大幅領(lǐng)先于基線模型,，是因為MultiPLY綜合考慮了多種感官信息，而其他模型僅僅依賴視覺信息,。

另一個原因可能在于，基線模型僅以整個場景作為輸入,，無法精確地關(guān)注到場景中的具體細(xì)節(jié),。

定性實驗

下圖直觀展現(xiàn)了MultiPLY在具體環(huán)境中與物體互動并獲取多種感官信息的強大能力。

作者介紹

Yining Hong是加州大學(xué)洛杉磯分校計算機科學(xué)專業(yè)的博士生,，導(dǎo)師是MIT-IBM Watson AI Lab的淦創(chuàng)教授,，以及UCLA的Song-Chun Zhu教授和Ying Nian Wu教授。

在此之前,，她在上海交通大學(xué)獲得了學(xué)士學(xué)位,。

她的研究致力于開發(fā)能夠主動探索并與三維物理世界進(jìn)行互動，同時還能在這樣的環(huán)境中進(jìn)行常識性推理的通用具身智能體,。

其所需關(guān)鍵要素包括：

- 構(gòu)建三維世界的模型,；

- 發(fā)展大規(guī)模具身基礎(chǔ)模型,；

- 實現(xiàn)視覺常識推理。

參考資料：

https://vis-www.cs./multiply/

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：天承辦公室 > 《001科學(xué)原理》

舉報/認(rèn)領(lǐng)