久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

Agent觸摸漢堡辨冷熱,,首次擁有類人感官!UCLA等發(fā)布3D多模態(tài)交互具身智能大模型

 天承辦公室 2024-01-23 發(fā)布于江蘇

圖片


  新智元報道  

編輯:桃子 好困
【新智元導(dǎo)讀】Sam Altman認(rèn)為AGI很快就會降臨,,但若是沒有感官兼?zhèn)涞腁I何以稱為智能,?最近,UCLA等機構(gòu)研究人員提出多模態(tài)具身智能大模型MultiPLY,,AI可以知冷知熱,、辨音識物,。

具身智能,是大模型未來應(yīng)用的一個重要方向,。
現(xiàn)在,大模型加持下的智能體,,能夠參與3D環(huán)境,,不僅有了聽覺視覺,,還有了觸覺等多種感官能力,。
臥室里有什么物體,,一眼辨認(rèn)。
圖片
聽到門鈴響了,,LLM便會告訴你家里來客人了。
大模型加持的NPC,,在觸摸桌子的香蕉后,,發(fā)現(xiàn)沒熟并建議不要吃。

圖片

甚至,,它還能感受到物體的溫度,,餐桌上的漢堡已經(jīng)涼了,會告訴你加熱后再吃,。
圖片
除此之外,,這些智能體借助LLM之力,還擅長使用工具,、物體檢索,、導(dǎo)航、任務(wù)分解等多種任務(wù),。
來自UMass Amherst,、UCLA和MIT-IBM Watson AI Lab研究人員,推出了全新的具身智能大模型MultiPLY,。
通過智能體與3D環(huán)境交互,,MultiPLY呈現(xiàn)了大模型多感官能力,無縫地連接了語言,、動作和感知,!

圖片

論文地址:https:///abs/2401.08577
在推理過程中,MultiPLY能夠生成動作token,,指示智能體在環(huán)境中采取行動,,并獲得下一個多感官觀測值。
然后,,通過狀態(tài)token將觀測結(jié)果反饋給LLM,,以生成后續(xù)的文本或動作token。
在對象檢索,、工具使用,、多感官標(biāo)注和任務(wù)分解的具體任務(wù)實驗中,MultiPLY的性能刷新SOTA,。

多感官大模型

多模態(tài)大模型,,如LLaVA、Flamingo,、BLIP-2,、PaLM-E,,在視覺語言任務(wù)中表現(xiàn)出色。然而,,它們主要關(guān)注2D場景理解,,很難對3D環(huán)境進(jìn)行推理和交互。
盡管目前也有關(guān)于3D場景理解的大模型研究,,但這些LLM缺乏捕捉視覺和語言之外的多感官信息的能力,。相比之下,人類通過觸摸甜甜圈,,能夠感知其柔軟度和溫度,,而這種能力遠(yuǎn)遠(yuǎn)超出了當(dāng)前多模態(tài)LLM的范圍。
若想真正實現(xiàn)AI大佬口中的AGI,,那么未來構(gòu)建多感官的大模型也是必不可少,。
但挑戰(zhàn)在于,當(dāng)前缺少訓(xùn)練LLM的多感官交互數(shù)據(jù),,另外還缺乏對3D場景和物體的多感官信息的正確表示,。
通過將場景抽象為以「對象為中心」的表示,并在與對象進(jìn)一步交互時關(guān)注對象細(xì)節(jié),,人類很輕易就能做到,。
對于LLM來說,必須在以對象為中心的表示,,以及詳細(xì)多感官信息之間靈活切換,。
為此,研究人員提出了MultiPLY,,一種多感官呈現(xiàn)的LLM,,可以通過部署由LLM驅(qū)動的智能體與3D環(huán)境進(jìn)行交互,從而對以對象為中心的多感官表示進(jìn)行編碼,,包括視覺,、音頻、觸覺和溫度信息,。
圖片

Multisensory-Universe數(shù)據(jù)集

為了訓(xùn)練這種全新的模型,,研究人員提出了一個大規(guī)模多感官數(shù)據(jù)集Multisensory-Universe,包含50萬條由AI智能體在3D虛擬環(huán)境中交互時收集的數(shù)據(jù),。
這些數(shù)據(jù)涵蓋了多種任務(wù)類型,,包括多感官描述(multisensory captioning)、問答(question answering),、對話(dialogue),、操作(manipulation)、任務(wù)分解(task decomposition)等等,。

向3D場景中添加互動對象

具體來說,,團隊基于Habitat-Matterport 3D(HM3D)語義數(shù)據(jù)集對場景進(jìn)行了構(gòu)建,。
HM3D數(shù)據(jù)集包含了216個三維空間及其內(nèi)部的3,100個房間,但由于傳感器數(shù)據(jù)不足和種類單一的問題,,這些對象無法在Habitatsim環(huán)境中進(jìn)行互動,。
為此,,研究人員在場景中引入了新的對象,,這樣智能體就可以利用Habitatsim與它們進(jìn)行交互了。

主要來源有:

  1. ObjectFolder,,包含了1000個對象模型,,這些對象的撞擊聲效被儲存在隱式神經(jīng)場中,并且還標(biāo)注了對象的材質(zhì),;
  2. Objaverse,,是一個涵蓋了豐富類別的800,000個三維對象的集合。

具體來說,,研究人員讓ChatGPT從ObjectFolder和Objaverse中選擇1到10個新對象,,并為這些新加入的對象生成合適的邊界框。
期間,,ChatGPT需要確定對象的材質(zhì)類別(比如,,陶瓷、塑料,、鋼鐵)和特性(比如,,可變形性、彈性,、硬度),,以及溫度標(biāo)簽(比如,物體是熱的,、冷的,,還是和室溫一樣)。
除了HM3D中現(xiàn)有的對象及其邊界框外,,研究人員給ChatGPT的提示還包括一些偏好,,和少樣本示例:
  1. 挑選一些外觀相似的對象。比如,,選兩個外形相似的瓶子,,其中一個是塑料的,另一個是金屬的,。這樣,,就需要通過不同的傳感器收集信息來消除歧義。
  2. 挑選那些與環(huán)境匹配,、并可以組合使用完成任務(wù)的對象,。例如,,在廚房環(huán)境中,可以選擇食材和烹飪工具,。

圖片

多感官全景(Multisensory-Universe)生成管線

獲取新物體的傳感器數(shù)據(jù)

- 觸覺
對于觸覺數(shù)據(jù)的收集,,研究人員采用了DiffTactile技術(shù),它基于MLSMPM方法來模擬剛體,、彈性和彈塑性的物體,。
把物體的三維模型放入DiffTactile系統(tǒng)中,然后用一個裝有定位標(biāo)記的抓手在事先設(shè)定好的位置觸碰這些物體,。觸覺傳感器記錄下標(biāo)記點的起始和結(jié)束位置,,從而反映氣泡被壓縮的程度。
- 環(huán)境聲音
為了幫助導(dǎo)航或推理,,每個物體都可以發(fā)出環(huán)境聲音,,或者作為線索,讓AI智能體了解周圍環(huán)境中正在發(fā)生的事情,。
引導(dǎo)ChatGPT根據(jù)AudioSet中的聲音樣本與新添加物體的語義標(biāo)簽進(jìn)行匹配,。根據(jù)AudioSet提供的聲音描述,ChatGPT需要從候選物體列表中挑選出那些可能發(fā)出這種聲音的物體,。
- 撞擊聲音
撞擊聲音是指敲擊或撞擊物體時所聽到的聲音,,這對于識別物體的材料類型非常關(guān)鍵。
通過在ObjectFolder中查詢物體的隱式聲音場,,再給定敲擊位置和施加的力,,就可以獲撞擊聲音了。
- 溫度
針對每個物體的溫度標(biāo)簽,,需要讓ChatGPT給出它們各自合適的溫度,。

智能體采集場景構(gòu)建數(shù)據(jù)

研究人員通過大語言模型驅(qū)動的智能體,來收集場景構(gòu)建中的所需數(shù)據(jù),。
首先,,給ChatGPT設(shè)置任務(wù),并讓它給出任務(wù)建議,。接著,,將一個能夠在3D環(huán)境中與物體進(jìn)行互動的智能體放入其中,執(zhí)行任務(wù)并收集交互數(shù)據(jù),。
- 生成任務(wù)建議
在給出需要執(zhí)行的動作清單后,,ChatGPT便會生成特定的任務(wù),并產(chǎn)生一系列代表動作的詞語,,以及基于物體實際反饋標(biāo)簽推導(dǎo)出的語言推理結(jié)果,。由于ChatGPT能夠訪問所有的材料和溫度標(biāo)簽,因此它能在「觸摸」動作之后生成類似「感覺很冷」的句子。
- 互動數(shù)據(jù)的收集
智能體首先會隨機地探索環(huán)境,,并收集初始的RGBD環(huán)境數(shù)據(jù),。在確定了動作之后,智能體就會去與環(huán)境中的物體進(jìn)行互動,,并獲取感官反饋,。例如,當(dāng)動作是「觸摸物體」時,,智能體會反饋該物體的觸覺和溫度信息,。

MultiPLY架構(gòu)

接下來,便是進(jìn)入MultiPLY大模型訓(xùn)練階段了,。

以對象為中心的場景表征

LLM首先將智能體探索的3D環(huán)境特征作為輸入,,以便對場景有初步理解,。
研究人員按照3D-LLM研究路線,,利用2D特征來構(gòu)建3D場景特征。這樣視覺特征就可以無縫地輸入到預(yù)訓(xùn)練的視覺語言模型中,,且無需適應(yīng),。
然而,3D-LLM的點云編碼讓LLM很難一次處理數(shù)千個點,。
當(dāng)人類探索3D環(huán)境時,,會將場景抽象表示,并粗略地形成對象及其位置的理解,,無需記住所有細(xì)節(jié),。
同樣,研究團隊使用以對象為中心的抽象表示來表示3D場景,。
通過概念圖和CLIP編碼器來編碼圖像中的物體,,然后通過多視角關(guān)聯(lián),將2D圖像編碼融合到3D空間中,。
研究人員還將位置嵌入添加到物體的視覺特征中,,最終得到圖片個特征作為抽象的以對象為中心的場景表示,其中圖片是對象的數(shù)量,。
如果3D環(huán)境中的物體帶有環(huán)境聲音,,研究人員會使用CLAP音頻編碼器對聲音進(jìn)行編碼,并得到1024維的特征,。
以對象為中心的場景表示和環(huán)境聲音表示作為LLM的初始輸入,,由 <SCENE>、</SCENE> 和 <AMBIENT SOUND>,、</AMBIENT SOUND> 等token括起來,。
圖片

動作token

研究人員設(shè)計了一組動作token來表示智能體與環(huán)境的交互:
<SELECT> token選擇要與之交互的對象。通過語言特征(即<SELECT> token的LLM的最后隱藏狀態(tài))和環(huán)境中對象的CLIP視覺特征之間的注意力來選擇對象。它會選擇有最大注意力分?jǐn)?shù)的對象,。
<NAVIGATE> token要求智能體導(dǎo)航到選定的對象,。
<OBSERVE> token要求智能體仔細(xì)檢查所選對象并獲取對象詳細(xì)信息(以對象詳細(xì)點云的形式)。
<TOUCH> token允許智能體觸摸所選的物體,,獲取觸覺和溫度信息,。
<HIT> token允許智能體擊中所選物體,得到撞擊聲音,。
<PICK-UP>和<PUT-DOWN> token讓智能體能夠拾取或放下選定的對象,。
<LOOK-AROUND> token讓智能體轉(zhuǎn)頭并獲取附近的物體。
圖片

狀態(tài)token

研究人員還設(shè)計了另一種token,,將交互結(jié)果反饋給LLM:
<OBJECT>:當(dāng)AI智能體<OBSERVE>到一個物體時,,它會記錄物體的點信息。得到從2D CLIP特征聚合而來的3D特征后,,再加入位置信息來進(jìn)行增強,。隨后創(chuàng)建了一個由N個點組成的點云,每個點都有1024維的特征數(shù)據(jù),,其中N是點的總數(shù),。
<IMPACT SOUND>:當(dāng)AI智能體<HIT>一個物體時,它會記錄產(chǎn)生的撞擊聲,。利用CLAP音頻編碼器處理這些聲音,,即可得到一個1024維的撞擊聲音數(shù)據(jù)。然后使用一個聲音映射器(即一個處理層)將聲音數(shù)據(jù)轉(zhuǎn)換成LLM可以處理的格式,。
<TACTILE>:當(dāng)一個物體被AI智能體<TOUCH>時,,它會記錄下觸覺信息。先將觸覺感應(yīng)轉(zhuǎn)化為熱圖,,并使用CLIP來處理,。通過對這些熱圖區(qū)塊進(jìn)行平均值處理,就得到了一個1024維的溫度特征數(shù)據(jù),。然后使用一個觸覺映射器(即一個處理層)來將這些數(shù)據(jù)轉(zhuǎn)換成大語言模型的特征格式,。
<TEMPERATURE> :在記錄溫度時,會先將溫度數(shù)據(jù)轉(zhuǎn)化為熱圖,,并使用CLIP來處理,。通過對熱圖區(qū)塊進(jìn)行平均值處理,就獲得了一個1024維的溫度特征數(shù)據(jù),。然后再使用一個溫度映射器(即一個處理層)來將這些數(shù)據(jù)轉(zhuǎn)換成大語言模型的特征格式,。

訓(xùn)練與推理

模型架構(gòu)
在此,研究人員使用了LLaVA作為多模態(tài)大模型骨干,。
由于研究中的視覺特征已使用ConceptGraphs與LLaVA對齊到相同的嵌入空間,,因此可以直接使用LLaVA的視覺到語言projector,而無需對視覺語言數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。
對于其他傳感器模式,,研究人員利用輕量級適配器,,它是單線層projector,將傳感器特征映射到LLaVA的文本token嵌入空間中,。
模態(tài)對齊
如上所述,,觸覺、聲音和溫度表示與語言特征不一致,。
在第一階段,,研究人員訓(xùn)練傳感器到語言適配器以進(jìn)行多感官特征對齊。對于音頻語言對齊,,使用了AudioSet和AudioCaps,。
對于撞擊聲、觸覺和熱數(shù)據(jù),,研究團隊使用ChatGPT生成一個句子標(biāo)題,,描述材料以及每種傳感器模態(tài)和語言之間的一致性。然后凍結(jié)圖像編碼器和LLM的權(quán)重,,以加快收斂速度并保持語言推理能力,。
使用Multisensory-Universe數(shù)據(jù)集進(jìn)行指令微調(diào)
在第二階段,,研究人員使用Multisensory-Universe數(shù)據(jù)集對LLaVA進(jìn)行調(diào)優(yōu),。
其中訓(xùn)練損失由兩部分組成,第一個是LLM損失,,與原始LLaVA模型相同,。然后又添加了一項損失,迫使模型選擇正確的對象來關(guān)注,。
具體來說,,研究人員計算SELECT token的LLM最后一個隱藏狀態(tài),與每個抽象對象特征之間的注意力,。
該特征通過Sigmoid層,,并通過二元交叉熵(BCE)損失進(jìn)行優(yōu)化。在這一階段的訓(xùn)練中,,解凍整個模型,。
研究人員在128個V100 GPU上使用FSDP進(jìn)行了高效訓(xùn)練。
推理
在推理時,,MultiPLY首先將任務(wù)提示和抽象場景表示作為輸入,,并生成后續(xù)token。一旦生成了動作token,,就會指示智能體采取Habitat-sim中的動作并與環(huán)境交互,。
智能體的觀察結(jié)果通過狀態(tài)token作為輸入反饋給LLM。LLM進(jìn)一步根據(jù)當(dāng)前狀態(tài)輸入生成下一個token。

實驗結(jié)果

微調(diào)模型在多感官數(shù)據(jù)集上進(jìn)行訓(xùn)練之后,,研究人員在模擬環(huán)境中對其進(jìn)行了測試,。
在這些測試中,AI智能體能夠根據(jù)MultiPLY生成的動作Token與模擬環(huán)境進(jìn)行互動,。
接著,,LLM將等待智能體完成動作,并通過狀態(tài)Token接收智能體的觀察結(jié)果,,以此來生成下一個Token,。
具體來說,研究人員設(shè)計了4種實驗場景:對象檢索,、工具使用,、多感官標(biāo)注和任務(wù)分解,并為每個場景提供了詳細(xì)的任務(wù)說明,、基準(zhǔn)測試和分析,。

對象檢索

在對象檢索的實驗中,研究人員得出了幾個有趣的結(jié)論,。
首先,,能夠處理多種感官信息的模型,遠(yuǎn)遠(yuǎn)優(yōu)于只能處理單一信息類型的模型,。
CLIP和CLAP,,以及那些依賴初始視覺特征的模型,在物品檢索任務(wù)中的表現(xiàn)很差,。這更加凸顯了結(jié)合多種感官信息的模型,,相較于僅依賴2D圖像模型的重要性。
這主要是因為,,單一視角的圖片有時候無法提供充分的信息來識別物體,,尤其是當(dāng)視角不一致或者物體被遮擋時。
其次,,LLM在性能上超越了基于相似度檢索的模型,。這可能是因為后者將多感官的信息簡單地融合在一起,而沒有區(qū)分各種感官信息,。
總體而言,,MultiPLY在很多方面都顯著優(yōu)于基準(zhǔn)模型。
可能是因為其它模型將所有信息都與視覺信息綁定,,而忽視了一個視覺特征可能與來自其他感官的多個特征相關(guān)聯(lián)的事實,。
而MultiPLY通過單獨與不同感官數(shù)據(jù)進(jìn)行交互和推理,可以將不同感官特征相互聯(lián)系,。
圖片

工具使用

在工具使用測試中,,那些基于綁定(binding-based)的方法在工具使用這一任務(wù)上表現(xiàn)極差,。
原因可能在于這些方法將物體的多種感官信息,作為不可分割的整體進(jìn)行處理,,導(dǎo)致它們無法從整體中區(qū)分出單獨的感官特征,,比如物質(zhì)材料。
因此,,就 更別提去推斷這些特性是如何成為工具使用的依據(jù),,以及如何在多種感官信息融合后分析和理解物體的實際功能了。
圖片

多感官標(biāo)注

從下表可以明顯看出,,整體而言,,基于3D的大模型的性能,超越了基于2D VLM,。
LLaVA和3D-LLM采用了全面的數(shù)據(jù)表示作為輸入,,這導(dǎo)致它們無法與那些可以靈活切換不同數(shù)據(jù)表示、進(jìn)行互動的模型相匹敵,。
MultiPLY的表現(xiàn)比Pointbind-LLM更加出色,,這很可能是因為PointBind把不同感官模態(tài)的數(shù)據(jù)表示綁定在一起,這樣做難以區(qū)分和解析各個感官信息,。
圖片

任務(wù)分解

在任務(wù)分解上,,那些缺乏交互功能的模型表現(xiàn)極差,這很可能是由于VLM極易出現(xiàn)錯誤的幻覺,。
例如,,即使場景中并無面包,模型也可能錯誤地生成「找到一塊面包」的指令,。
MultiPLY在性能上大幅領(lǐng)先于基線模型,,是因為MultiPLY綜合考慮了多種感官信息,而其他模型僅僅依賴視覺信息,。
另一個原因可能在于,基線模型僅以整個場景作為輸入,,無法精確地關(guān)注到場景中的具體細(xì)節(jié),。
圖片

定性實驗

下圖直觀展現(xiàn)了MultiPLY在具體環(huán)境中與物體互動并獲取多種感官信息的強大能力。
圖片

作者介紹

Yining Hong是加州大學(xué)洛杉磯分校計算機科學(xué)專業(yè)的博士生,,導(dǎo)師是MIT-IBM Watson AI Lab的淦創(chuàng)教授,,以及UCLA的Song-Chun Zhu教授和Ying Nian Wu教授。
在此之前,,她在上海交通大學(xué)獲得了學(xué)士學(xué)位,。
她的研究致力于開發(fā)能夠主動探索并與三維物理世界進(jìn)行互動,同時還能在這樣的環(huán)境中進(jìn)行常識性推理的通用具身智能體,。

其所需關(guān)鍵要素包括:

- 構(gòu)建三維世界的模型,;

- 發(fā)展大規(guī)模具身基礎(chǔ)模型,;

- 實現(xiàn)視覺常識推理。
參考資料:
https://vis-www.cs./multiply/


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多