久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

具身智能(Embodied AI)技術(shù)全面綜述:感知,、交互、規(guī)劃,、仿真,、挑戰(zhàn)、機(jī)遇

 taotao_2016 2024-08-04

具身人工智能(Embodied AI)對于實(shí)現(xiàn)通用人工智能(AGI)至關(guān)重要,并作為連接網(wǎng)絡(luò)空間和物理世界的各種應(yīng)用的基礎(chǔ),。最近,,多模態(tài)大型模型(MLMs)和世界模型(WMs)的出現(xiàn)因其卓越的感知、交互和推理能力而受到顯著關(guān)注,,使它們成為具身智能體大腦的有希望的架構(gòu),。然而,目前還沒有針對MLMs時(shí)代的具身AI的全面調(diào)查,。在這項(xiàng)調(diào)查中,,我們對具身AI的最新進(jìn)展進(jìn)行了全面探索。我們的分析首先通過具身機(jī)器人和模擬器的前沿代表性作品,,全面了解研究重點(diǎn)及其局限性,。然后,我們分析了四個(gè)主要研究目標(biāo):1)具身感知,,2)具身交互,,3)具身智能體,以及4)仿真到現(xiàn)實(shí)的適應(yīng)性,,涵蓋了最先進(jìn)的方法,、基本范式和綜合數(shù)據(jù)集。此外,,我們探討了虛擬和現(xiàn)實(shí)具身智能體中MLMs的復(fù)雜性,,強(qiáng)調(diào)了它們在促進(jìn)動(dòng)態(tài)數(shù)字和物理環(huán)境中的交互中的重要性。最后,,我們總結(jié)了具身AI的挑戰(zhàn)和局限性,,并討論了它們潛在的未來方向。我們希望這項(xiàng)調(diào)查能為研究社區(qū)提供基礎(chǔ)參考,,并激發(fā)持續(xù)的創(chuàng)新,。

我們翻譯解讀最新論文:關(guān)于嵌入式人工智能的全面調(diào)查,文末有論文鏈接,。圖片圖片作者:張長旺,,圖源:旺知識(shí)

關(guān)鍵詞: 具身AI,網(wǎng)絡(luò)空間,,物理世界,多模態(tài)大型模型,,世界模型,,智能體,機(jī)器人學(xué)

I. 引言

具身AI最初由艾倫·圖靈在1950年提出的圖靈測試提出[1],,旨在確定智能體是否能夠展示不僅僅是在虛擬環(huán)境中解決抽象問題(網(wǎng)絡(luò)空間1),,而且也能夠?qū)Ш轿锢硎澜绲膹?fù)雜性和不可預(yù)測性。

圖片圖1 展示了谷歌學(xué)術(shù)上關(guān)于具身AI主題的搜索結(jié)果。垂直軸和水平軸分別表示出版物數(shù)量和年份,。自2023年MLMs的突破以來,,出版物呈指數(shù)級增長。

圖片

網(wǎng)絡(luò)空間中的智能體通常被稱為無體AI,,而物理空間中的智能體則是具身AI(表I),。最近在多模態(tài)大型模型(MLMs)方面的進(jìn)步,為具身模型注入了強(qiáng)大的感知,、交互和規(guī)劃能力,,以開發(fā)通用的具身智能體和機(jī)器人,它們積極地與虛擬和物理環(huán)境進(jìn)行交互[2],。因此,,具身智能體被廣泛認(rèn)為是MLMs的最佳載體。最近的代表性具身模型是RT-2 [3]和RT-H [4],。然而,,當(dāng)前MLMs在長期記憶能力、理解復(fù)雜意圖以及復(fù)雜任務(wù)分解方面的能力是有限的,。為了實(shí)現(xiàn)通用人工智能(AGI),,具身AI的發(fā)展是一條基本途徑。與像ChatGPT [5]這樣的對話智能體不同,,具身AI認(rèn)為通過控制物理體現(xiàn)并與模擬和物理環(huán)境進(jìn)行交互,,可以實(shí)現(xiàn)真正的AGI [6]–[8]。隨著我們站在AGI驅(qū)動(dòng)創(chuàng)新的前沿,,深入探索具身AI領(lǐng)域,,解開它們的復(fù)雜性,評估它們當(dāng)前的發(fā)展階段,,并思考它們未來可能遵循的潛在軌跡至關(guān)重要,。如今,具身AI包含了計(jì)算機(jī)視覺(CV),、自然語言處理(NLP)和機(jī)器人技術(shù)等各種關(guān)鍵技術(shù),,最具代表性的是具身感知、具身交互,、具身智能體和仿真到現(xiàn)實(shí)機(jī)器人控制,。因此,通過全面調(diào)查捕捉具身AI的不斷發(fā)展的景觀,,以追求AGI是至關(guān)重要的,。具身智能體是具身AI最突出的基礎(chǔ)。對于一個(gè)具身任務(wù),,具身智能體必須充分理解語言指令中的人類意圖,,積極探索周圍環(huán)境,,全面感知來自虛擬和物理環(huán)境的多模態(tài)元素,并為復(fù)雜任務(wù)執(zhí)行適當(dāng)?shù)男袆?dòng)[12],,[13],,如圖2所示。多模態(tài)模型的快速發(fā)展在復(fù)雜環(huán)境中展示了優(yōu)越的多功能性,、靈活性和泛化能力,,與傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)方法相比。最先進(jìn)的視覺編碼器[14],,[15]提供的預(yù)訓(xùn)練視覺表示提供精確的對象類別,、姿態(tài)和幾何形狀估計(jì),使具身模型能夠徹底感知復(fù)雜和動(dòng)態(tài)的環(huán)境,。功能強(qiáng)大的大型語言模型(LLMs)使機(jī)器人更好地理解來自人類的語言指令,。有希望的MLMs為對齊來自具身機(jī)器人的視覺和語言表示提供了可行的方法。世界模型[16],,[17]展示了顯著的模擬能力和對物理法則的理解,,使具身模型能夠全面理解物理和真實(shí)環(huán)境。這些創(chuàng)新使具身智能體能夠全面感知復(fù)雜環(huán)境,,自然地與人類交互,,并可靠地執(zhí)行任務(wù)。

圖片

具身AI的進(jìn)步已經(jīng)取得了快速發(fā)展,,在研究社區(qū)中引起了顯著關(guān)注(圖1),,并被認(rèn)為是實(shí)現(xiàn)AGI的最可行路徑。谷歌學(xué)術(shù)報(bào)告稱,,具身AI出版物的數(shù)量很大,,僅在2023年就有大約10700篇論文發(fā)表。這相當(dāng)于平均每天29篇論文或每小時(shí)超過一篇論文,。盡管對從MLMs中獲取強(qiáng)大的感知和推理能力非常感興趣,,但研究社區(qū)缺乏一個(gè)全面的調(diào)查,可以幫助整理現(xiàn)有的具身AI研究,、面臨的挑戰(zhàn)以及未來的研究方向,。在MLMs時(shí)代,我們的目標(biāo)是通過對網(wǎng)絡(luò)空間到物理世界的具身AI進(jìn)行全面系統(tǒng)調(diào)查來填補(bǔ)這一空白,。我們從不同的角度進(jìn)行調(diào)查,,包括具身機(jī)器人、模擬器,、四個(gè)代表性的具身任務(wù)(視覺主動(dòng)感知,、具身交互、多模態(tài)智能體和仿真到現(xiàn)實(shí)的機(jī)器人控制)以及未來的研究方向,。我們相信這項(xiàng)調(diào)查將提供一個(gè)清晰的大局圖,,展示我們已經(jīng)取得的成就,以及我們可以沿著這一新興但非常有前景的研究方向進(jìn)一步取得的成就,。

圖片

與以往工作的不同之處:盡管已經(jīng)有幾篇關(guān)于具身AI的調(diào)查論文[6],,[18]–[20],但它們大多已經(jīng)過時(shí),,因?yàn)樗鼈兪窃?023年左右的MLMs時(shí)代之前發(fā)表的,。據(jù)我們所知,2023年之后只有一篇調(diào)查論文[8],,它只關(guān)注了視覺-語言-動(dòng)作具身AI模型,。然而,MLMs,、WMs和具身智能體并沒有被完全考慮,。此外,最近的具身機(jī)器人和模擬器的發(fā)展也被忽視了,。為了解決這一快速發(fā)展領(lǐng)域中全面調(diào)查論文的缺乏,,我們提出了這項(xiàng)全面調(diào)查,涵蓋了代表性的具身機(jī)器人,、模擬器和四個(gè)主要研究任務(wù):具身感知,、具身交互、具身智能體和仿真到現(xiàn)實(shí)的機(jī)器人控制,。

總之,,這項(xiàng)工作的主要貢獻(xiàn)有三個(gè)方面。首先,,它對具身AI進(jìn)行了系統(tǒng)回顧,,包括具身機(jī)器人、模擬器和四個(gè)主要研究任務(wù):視覺主動(dòng)感知,、具身交互,、具身智能體和仿真到現(xiàn)實(shí)的機(jī)器人控制。據(jù)我們所知,,這是第一次從網(wǎng)絡(luò)和物理空間對齊的角度,,基于MLMs和WMs,對具身AI進(jìn)行全面調(diào)查,,提供了一個(gè)廣泛的概述,,并對現(xiàn)有研究進(jìn)行了徹底的總結(jié)和分類。其次,,它檢查了具身AI的最新進(jìn)展,,為跨多個(gè)模擬器和數(shù)據(jù)集的當(dāng)前工作提供了全面的基準(zhǔn)測試和討論。第三,,它確定了未來研究的幾個(gè)研究挑戰(zhàn)和潛在方向,,以實(shí)現(xiàn)具身AI的AGI,。本文的其余部分組織如下。第2節(jié)介紹各種具身機(jī)器人,。第3節(jié)描述通用和真實(shí)場景的模擬器,。第4節(jié)介紹具身感知,包括主動(dòng)視覺感知,、3D視覺定位,、視覺語言導(dǎo)航和非視覺感知。第5節(jié)介紹具身交互,。第6節(jié)介紹具身智能體,,包括具身多模態(tài)基礎(chǔ)模型和具身任務(wù)規(guī)劃。第7節(jié)介紹仿真到現(xiàn)實(shí)的適應(yīng)性,,包括具身世界模型,、數(shù)據(jù)收集和訓(xùn)練以及具身控制。第8節(jié),,我們討論有希望的研究方向,。

II. 具身機(jī)器人

具身智能體積極與物理環(huán)境互動(dòng),包括廣泛的具身形式,,包括機(jī)器人,、智能家電、智能眼鏡,、自動(dòng)駕駛汽車等,。其中,機(jī)器人作為最突出的具身形式之一,。根據(jù)應(yīng)用的不同,,機(jī)器人被設(shè)計(jì)成各種形態(tài),利用其硬件特性來執(zhí)行特定任務(wù),,如圖4所示,。

圖片

A. 固定基機(jī)器人

如圖4(a)所示,固定基機(jī)器人廣泛應(yīng)用于實(shí)驗(yàn)室自動(dòng)化,、教育培訓(xùn)和工業(yè)制造,,因?yàn)樗鼈凅w積小巧且操作精度高。這些機(jī)器人具有堅(jiān)固的基座和結(jié)構(gòu),,確保了操作期間的穩(wěn)定性和高精度,。它們配備了高精度傳感器和執(zhí)行器,能夠?qū)崿F(xiàn)微米級精度,,使它們適合需要高精度和重復(fù)性的任務(wù)[21],。此外,固定基機(jī)器人具有高度的可編程性,,允許用戶適應(yīng)各種任務(wù)場景,,例如Franka(Franka Emika panda)[22],、Kuka iiwa(KUKA)[23]和Sawyer(Rethink Robotics)[24]。然而,,固定基機(jī)器人也有一定的缺點(diǎn),。它們的固定基座設(shè)計(jì)限制了它們的操作范圍和靈活性,阻礙了它們在大面積內(nèi)的移動(dòng)或調(diào)整位置,,導(dǎo)致它們與人類和其他機(jī)器人的協(xié)作受到限制[21]。

B. 輪式機(jī)器人和履帶式機(jī)器人

對于移動(dòng)機(jī)器人,,它們可以面對更復(fù)雜和多樣化的應(yīng)用場景,。如圖4(b)所示,輪式機(jī)器人以其高效的機(jī)動(dòng)性而聞名,,在物流,、倉儲(chǔ)和安全檢查中得到廣泛應(yīng)用。輪式機(jī)器人的優(yōu)點(diǎn)包括結(jié)構(gòu)簡單,、成本相對較低,、高能效和在平坦表面上快速移動(dòng)的能力[21]。這些機(jī)器人通常配備有高精度傳感器,,如激光雷達(dá)和攝像頭,,使其能夠自主導(dǎo)航和環(huán)境感知,使它們在自動(dòng)化倉庫管理和檢查任務(wù)中非常有效,,例如Kiva機(jī)器人(Kiva Systems)[25]和Jackal機(jī)器人(Clearpath Robotics)[26],。然而,輪式機(jī)器人在復(fù)雜地形和惡劣環(huán)境中的機(jī)動(dòng)性有限,,特別是在不平坦的地面上,。此外,它們的載重能力和機(jī)動(dòng)性也受到一定限制,。與此不同,,履帶式機(jī)器人具有強(qiáng)大的越野能力和機(jī)動(dòng)性,在農(nóng)業(yè),、建筑和災(zāi)難恢復(fù)中顯示出潛力,,如圖4(c)所示。履帶系統(tǒng)提供了更大的地面接觸面積,,分散了機(jī)器人的重量,,降低了在泥濘和沙灘等軟質(zhì)地形上沉陷的風(fēng)險(xiǎn)。此外,,履帶式機(jī)器人配備了強(qiáng)大的動(dòng)力和懸掛系統(tǒng),,以在復(fù)雜地形上保持穩(wěn)定性和牽引力[27]。因此,,履帶式機(jī)器人也用于軍事等敏感領(lǐng)域,。iRobot的PackBot是一種多才多藝的軍事履帶機(jī)器人,,能夠執(zhí)行偵察、爆炸物處理和救援任務(wù)[28],。然而,,由于履帶系統(tǒng)的高摩擦,履帶式機(jī)器人通常遭受低能效的困擾,。此外,,它們在平坦表面上的移動(dòng)速度比輪式機(jī)器人慢,以及它們的靈活性和機(jī)動(dòng)性也受到限制,。

C. 四足機(jī)器人

四足機(jī)器人以其穩(wěn)定性和適應(yīng)性而聞名,,非常適合復(fù)雜地形探索、救援任務(wù)和軍事應(yīng)用,。受四足動(dòng)物啟發(fā),,這些機(jī)器人能夠在不平坦的表面上保持平衡和機(jī)動(dòng)性,如圖4(d)所示,。多關(guān)節(jié)設(shè)計(jì)使它們能夠模仿生物運(yùn)動(dòng),,實(shí)現(xiàn)復(fù)雜的步態(tài)和姿勢調(diào)整。高可調(diào)性使機(jī)器人能夠自動(dòng)調(diào)整其姿態(tài)以適應(yīng)不斷變化的地形,,增強(qiáng)機(jī)動(dòng)性和穩(wěn)定性,。傳感系統(tǒng),如激光雷達(dá)和攝像頭,,提供環(huán)境感知,,使機(jī)器人能夠自主導(dǎo)航并避免障礙[29]。幾種類型的四足機(jī)器人被廣泛使用:Unitree Robotics,、Boston Dynamics Spot和ANYmal C,。Unitree Robotics的Unitree A1和Go1以其成本效益和靈活性而聞名。A1[30]和Go1[31]具有強(qiáng)大的機(jī)動(dòng)性和智能避障能力,,適用于各種應(yīng)用,。Boston Dynamics的Spot以其卓越的穩(wěn)定性和操作靈活性而聞名,通常用于工業(yè)檢查和救援任務(wù),。它具有強(qiáng)大的負(fù)載能力和適應(yīng)性,,能夠在惡劣環(huán)境中執(zhí)行復(fù)雜任務(wù)[32]。ANYbotics的ANYmal C以其模塊化設(shè)計(jì)和高耐用性而廣泛用于工業(yè)檢查和維護(hù),。ANYmal C配備了自主導(dǎo)航和遠(yuǎn)程操作能力,,適合長時(shí)間的戶外任務(wù)甚至極端的月球任務(wù)[33]。四足機(jī)器人的復(fù)雜設(shè)計(jì)和高制造成本導(dǎo)致了大量初始投資,,限制了它們在成本敏感領(lǐng)域的使用,。此外,它們在復(fù)雜環(huán)境中的電池續(xù)航能力有限,需要頻繁充電或更換電池以進(jìn)行長時(shí)間操作[34],。

D. 仿人機(jī)器人

仿人機(jī)器人以其類人形態(tài)而著稱,,在服務(wù)行業(yè)、醫(yī)療保健和協(xié)作環(huán)境中越來越普遍,。這些機(jī)器人可以模仿人類的動(dòng)作和行為模式,,提供個(gè)性化服務(wù)和支持。它們靈巧的手設(shè)計(jì)使它們能夠執(zhí)行復(fù)雜和復(fù)雜的任務(wù),,與其他類型的機(jī)器人區(qū)分開來,,如圖4(e)所示。這些手通常具有多個(gè)自由度和高精度傳感器,,使它們能夠模仿人類的抓握和操縱能力,,在醫(yī)療手術(shù)和精密制造等領(lǐng)域尤為重要[35]。在當(dāng)前的仿人機(jī)器人中,,Atlas(Boston Dynamics)以其卓越的機(jī)動(dòng)性和穩(wěn)定性而聞名。Atlas可以執(zhí)行跑步,、跳躍和滾動(dòng)等復(fù)雜動(dòng)態(tài)動(dòng)作,,展示了仿人機(jī)器人在高度動(dòng)態(tài)環(huán)境中的潛力[36]。HRP系列(AIST)在各種研究和工業(yè)應(yīng)用中得到應(yīng)用,,設(shè)計(jì)重點(diǎn)是高穩(wěn)定性和靈活性,,使其在復(fù)雜環(huán)境中特別有效,尤其是與人類的協(xié)作任務(wù)[37],。ASIMO(Honda)是最知名的仿人機(jī)器人之一,,能夠行走、跑步,、爬樓梯,,以及識(shí)別面部和手勢,使其適合接待和導(dǎo)游服務(wù)[38],。此外,,一種小型社交機(jī)器人Pepper(Softbank Robotics)能夠識(shí)別情緒并進(jìn)行自然語言交流,在客戶服務(wù)和教育環(huán)境中得到廣泛應(yīng)用[39],。然而,,仿人機(jī)器人在保持復(fù)雜環(huán)境中的操作穩(wěn)定性和可靠性方面面臨挑戰(zhàn),由于其復(fù)雜的控制系統(tǒng),,包括健壯的雙足行走控制和靈巧的手部抓握[40],。此外,基于液壓系統(tǒng)的傳統(tǒng)仿人機(jī)器人以其龐大的結(jié)構(gòu)和高昂的維護(hù)成本為特點(diǎn),,正逐漸被電機(jī)驅(qū)動(dòng)系統(tǒng)所取代,。最近,特斯拉和Unitree Robotics推出了基于電機(jī)系統(tǒng)的仿人機(jī)器人。通過整合LLMs,,仿人機(jī)器人預(yù)計(jì)將智能地處理各種復(fù)雜任務(wù),,填補(bǔ)制造業(yè)、醫(yī)療保健和服務(wù)行業(yè)中的勞動(dòng)力缺口,,從而提高效率和安全性[41],。

E. 生物模擬機(jī)器人

不同地,生物模擬機(jī)器人通過模擬自然生物體的高效運(yùn)動(dòng)和功能,,在復(fù)雜和動(dòng)態(tài)的環(huán)境中執(zhí)行任務(wù),。通過模仿生物體的形式和運(yùn)動(dòng)機(jī)制,這些機(jī)器人在醫(yī)療保健,、環(huán)境監(jiān)測和生物研究等領(lǐng)域展示了巨大的潛力[21],。通常,它們使用柔性材料和結(jié)構(gòu)來實(shí)現(xiàn)逼真,、敏捷的運(yùn)動(dòng),,并最大限度地減少對環(huán)境的影響。重要的是,,生物模擬設(shè)計(jì)可以通過模仿生物體的高效運(yùn)動(dòng)機(jī)制顯著提高機(jī)器人的能效,,使它們在能源消耗方面更加經(jīng)濟(jì)[42],[43],。這些生物模擬機(jī)器人包括魚形機(jī)器人[44],,[45],昆蟲形機(jī)器人[46],,[47]和軟體機(jī)器人[48],,如圖4(f)所示。然而,,生物模擬機(jī)器人面臨幾個(gè)挑戰(zhàn),。首先,它們的設(shè)計(jì)和制造過程復(fù)雜且成本高,,限制了大規(guī)模生產(chǎn)和廣泛應(yīng)用,。其次,由于它們使用柔性材料和復(fù)雜的運(yùn)動(dòng)機(jī)制,,生物模擬機(jī)器人在極端環(huán)境中的耐用性和可靠性受到限制,。

III. 具身模擬器

具身模擬器對具身人工智能至關(guān)重要,因?yàn)樗鼈兲峁┝顺杀拘б娓叩膶?shí)驗(yàn),,通過模擬潛在的危險(xiǎn)場景來確保安全,,具有在不同環(huán)境中測試的可擴(kuò)展性、快速原型制作能力,、更廣泛的研究社區(qū)的可訪問性,、控制環(huán)境進(jìn)行精確研究、用于訓(xùn)練和評估的數(shù)據(jù)生成,以及用于算法比較的標(biāo)準(zhǔn)基準(zhǔn),。為了使智能體能夠與環(huán)境互動(dòng),,有必要構(gòu)建一個(gè)現(xiàn)實(shí)模擬的環(huán)境。這需要考慮環(huán)境的物理特性,、對象的屬性以及它們之間的互動(dòng),。本節(jié)將介紹兩部分常用的模擬平臺(tái):基于底層模擬的通用模擬器和基于真實(shí)場景的模擬器。

A. 通用模擬器

真實(shí)環(huán)境中的物理互動(dòng)和動(dòng)態(tài)變化是不可替代的,。然而,,在物理世界中部署具身模型通常會(huì)帶來高昂的成本和面臨眾多挑戰(zhàn)。通用模擬器提供了一個(gè)與物理世界緊密相似的虛擬環(huán)境,,允許進(jìn)行算法開發(fā)和模型訓(xùn)練,,這在成本、時(shí)間和安全性方面提供了顯著的優(yōu)勢,。Isaac Sim [49] 是一個(gè)先進(jìn)的機(jī)器人和人工智能研究的模擬平臺(tái),。它具有高保真度的物理模擬、實(shí)時(shí)光線追蹤,、廣泛的機(jī)器人模型庫和深度學(xué)習(xí)支持,。它的應(yīng)用場景包括自動(dòng)駕駛、工業(yè)自動(dòng)化和人機(jī)交互,。Gazebo [60] 是一個(gè)用于機(jī)器人研究的開源模擬器。它擁有豐富的機(jī)器人庫,,并與ROS緊密集成,。它支持各種傳感器的模擬,并提供眾多預(yù)建的機(jī)器人模型和環(huán)境,。它主要用于機(jī)器人導(dǎo)航和控制以及多機(jī)器人系統(tǒng),。PyBullet [52] 是Bullet物理引擎的Python接口。它易于使用,,具有多樣化的傳感器模擬和深度學(xué)習(xí)集成,。PyBullet支持實(shí)時(shí)物理模擬,包括剛體動(dòng)力學(xué),、碰撞檢測和約束求解。表II展示了10個(gè)通用模擬器的關(guān)鍵特性和主要應(yīng)用場景。它們在具身人工智能領(lǐng)域各自提供獨(dú)特的優(yōu)勢,。研究人員可以根據(jù)具體的研究需求選擇最合適的模擬器,,從而加速具身人工智能技術(shù)的發(fā)展和應(yīng)用。圖5顯示了通用模擬器的可視化效果,。

圖片

圖片

圖片

B. 基于真實(shí)場景的模擬器

實(shí)現(xiàn)在家庭活動(dòng)中的通用具身智能體一直是具身人工智能研究的主要焦點(diǎn),。這些具身智能體需要深入理解人類日常生活,并執(zhí)行復(fù)雜的具身任務(wù),如室內(nèi)環(huán)境中的導(dǎo)航和交互,。為了滿足這些復(fù)雜任務(wù)的需求,,模擬環(huán)境需要盡可能接近真實(shí)世界,這對模擬器的復(fù)雜性和現(xiàn)實(shí)性提出了高要求,。這導(dǎo)致了基于真實(shí)世界環(huán)境的模擬器的創(chuàng)建,。這些模擬器大多從真實(shí)世界收集數(shù)據(jù),創(chuàng)建照片般逼真的3D資產(chǎn),,并使用像UE5和Unity這樣的3D游戲引擎構(gòu)建場景,。豐富和真實(shí)的場景使基于真實(shí)世界環(huán)境的模擬器成為家庭活動(dòng)中具身人工智能研究的首選。

AI2-THOR [61] 是由Allen人工智能研究所領(lǐng)導(dǎo)的基于Unity3D的室內(nèi)具身場景模擬器,。作為一個(gè)在真實(shí)世界中構(gòu)建的高保真模擬器,,AI2-THOR擁有豐富的交互場景對象,并且為它們分配了物理屬性(如打開/關(guān)閉甚至冷/熱),。AI2-THOR由兩部分組成:iTHOR和RoboTHOR,。iTHOR包含120個(gè)房間,分為廚房,、臥室,、浴室和客廳,擁有2000多個(gè)獨(dú)特的交互對象,,并支持多智能體模擬,;

RoboTHOR包含89個(gè)模塊化公寓,這些公寓與真實(shí)世界中的真實(shí)場景相對應(yīng),。到目前為止,,已經(jīng)有超過一百篇基于AI2-THOR的作品發(fā)表。Matterport 3D [62] 在R2R [63]中提出,,通常用作大規(guī)模2D-3D視覺數(shù)據(jù)集,。Matterport3D數(shù)據(jù)集包括90個(gè)建筑室內(nèi)場景,包含10800個(gè)全景圖和194400個(gè)RGB-D圖像,,并提供表面重建,、相機(jī)姿態(tài)和2D和3D語義分割注釋。

Matterport3D將3D場景轉(zhuǎn)換為離散的“視點(diǎn)”,,具身智能體在Matterport3D場景中的相鄰“視點(diǎn)”之間移動(dòng),。在每個(gè)“視點(diǎn)”,具身智能體可以獲得一個(gè)1280x1024全景圖像(18× RGB-D),。Matterport3D是最重要的具身導(dǎo)航基準(zhǔn)之一,。

Virtualhome [64] 是Puig等人帶來的家庭活動(dòng)具身AI模擬器。Virtualhome最特別的是其環(huán)境由環(huán)境圖表示,。環(huán)境圖表示場景中的對象及其相關(guān)關(guān)系,。用戶也可以自定義和修改環(huán)境圖以實(shí)現(xiàn)場景對象的自定義配置,。這種環(huán)境圖為具身智能體理解環(huán)境提供了一種新方式。與AI2-THOR類似,,Virtualhome還提供了大量的交互對象,,具身智能體可以與它們互動(dòng)并改變它們的狀態(tài)。Virtualhome的另一個(gè)特點(diǎn)是其簡單易用的API,。具身智能體的操作簡化為“操作+對象”的格式,。這一特點(diǎn)使Virtualhome在具身規(guī)劃、指令分解等研究領(lǐng)域得到廣泛應(yīng)用,。

Habitat [65] 是Meta推出的用于大規(guī)模人機(jī)交互的開源模擬器,。基于Bullet物理引擎,,Habitat實(shí)現(xiàn)了高性能,、高速、并行3D模擬,,并為具身智能體的強(qiáng)化學(xué)習(xí)提供了豐富的接口,。Habitat具有極高的開放度。研究人員可以在Habitat中導(dǎo)入和創(chuàng)建3D場景,,或者使用Habitat平臺(tái)上豐富的開放資源進(jìn)行擴(kuò)展,。Habitat有許多可定制的傳感器,并支持多智能體模擬,。來自開放資源或自定義的多個(gè)具身智能體(例如,,人類和機(jī)器狗)可以在模擬器中合作,自由移動(dòng),,并與場景進(jìn)行簡單交互,。因此,Habitat正在吸引越來越多的關(guān)注,。

與其它更關(guān)注場景的模擬器不同,,SAPIEN [66] 更加關(guān)注模擬對象之間的交互,?;赑hysX物理引擎,SAPIEN提供了細(xì)粒度的具身控制,,可以通過ROS接口通過力和扭矩實(shí)現(xiàn)基于關(guān)節(jié)的控制,。基于PartNet-Mobility數(shù)據(jù)集,,SAPIEN提供了室內(nèi)模擬場景,,包含豐富的交互對象,并支持自定義資源的導(dǎo)入,。與像AI2-THOR這樣的模擬器不同,,后者直接改變對象的狀態(tài),,SAPIEN支持模擬物理交互,具身智能體可以通過物理動(dòng)作控制對象的鉸接部分,,從而改變對象的狀態(tài),。這些功能使SAPIEN非常適合訓(xùn)練具身AI的細(xì)粒度對象操作。

iGibson [67] [68] 是斯坦福推出的開源模擬器,。構(gòu)建在Bullet物理引擎上,,iGibson提供了15個(gè)高質(zhì)量的室內(nèi)場景,并支持從其他數(shù)據(jù)集(如Gibson和Matterport3D)導(dǎo)入資產(chǎn),。作為一個(gè)面向?qū)ο蟮哪M器,,iGibson為對象分配了豐富的可變屬性,不僅限于對象的運(yùn)動(dòng)屬性(姿態(tài),、速度,、加速度等),還包括溫度,、濕度,、清潔度、開關(guān)狀態(tài)等,。此外,,除了其他模擬器中的標(biāo)準(zhǔn)深度和語義傳感器外,iGibson還為具身智能體提供了激光雷達(dá),,使智能體能夠輕松獲取場景中的3D點(diǎn)云,。關(guān)于具身智能體配置,iGibson支持連續(xù)動(dòng)作控制和細(xì)粒度關(guān)節(jié)控制,。這允許iGibson中的具身智能體在移動(dòng)時(shí)與對象進(jìn)行精細(xì)交互,。

TDW [69] 由MIT推出。作為最新的具身模擬器之一,,TDW結(jié)合了高保真視頻和音頻渲染,、逼真的物理效果和單一靈活的控制器,在模擬環(huán)境的感知和交互方面取得了一定的進(jìn)展,。TDW將多個(gè)物理引擎集成到一個(gè)框架中,,可以實(shí)現(xiàn)各種材料(如剛體、軟體,、織物和流體)的物理交互模擬,,并在與對象交互時(shí)提供情境聲音。因此,,TDW與其他模擬器相比邁出了重要的一步,。TDW支持部署多個(gè)智能代理,并為用戶提供了豐富的API庫和資產(chǎn)庫,,允許用戶根據(jù)需要自由定制場景和任務(wù),,甚至是戶外場景和相關(guān)任務(wù),。表III總結(jié)了上述所有基于真實(shí)場景的模擬器。

圖片

Sapien以其設(shè)計(jì)脫穎而出,,專門用于模擬與門,、櫥柜和抽屜等關(guān)節(jié)對象的交互。VirtualHome以其獨(dú)特的環(huán)境圖而著稱,,這有助于基于自然語言描述的環(huán)境的高級具身規(guī)劃,。雖然AI2Thor提供了豐富的交互場景,但這些交互與VirtualHome中的交互類似,,都是基于腳本的,,缺乏真實(shí)的物理交互。這種設(shè)計(jì)足以滿足不需要細(xì)粒度交互的具身任務(wù),。iGibson和TDW都提供了細(xì)粒度的具身控制和高度模擬的物理交互,。

IV. 具身感知

未來的具身感知的“北斗星”是具身中心的視覺推理和社會(huì)智能[74]。與傳統(tǒng)的圖像中的對象識(shí)別不同,,具有具身感知的智能體必須在物理世界中移動(dòng)并與環(huán)境互動(dòng),。這要求對3D空間和動(dòng)態(tài)環(huán)境有更深入的理解。具身感知需要視覺感知和推理,,理解場景中的3D關(guān)系,,并基于視覺信息預(yù)測和執(zhí)行復(fù)雜任務(wù)。

A. 主動(dòng)視覺感知

主動(dòng)視覺感知系統(tǒng)需要基本能力,,如狀態(tài)估計(jì),、場景感知和環(huán)境探索。如圖7所示,,這些能力已在視覺同時(shí)定位與地圖構(gòu)建(vSLAM),、3D場景理解(3D Scene Understanding)和主動(dòng)探索(Active Exploration)等領(lǐng)域進(jìn)行了廣泛研究[118],[119],。這些研究領(lǐng)域有助于開發(fā)魯棒的主動(dòng)視覺感知系統(tǒng),,促進(jìn)在復(fù)雜、動(dòng)態(tài)環(huán)境中改進(jìn)環(huán)境交互和導(dǎo)航,。我們簡要介紹這三個(gè)組成部分,,并在表IV中總結(jié)了每個(gè)部分中提到的方法。

圖片

圖片

圖7 展示了主動(dòng)視覺感知的示意圖,。視覺SLAM和3D場景理解為被動(dòng)視覺感知提供了基礎(chǔ),,而主動(dòng)探索可以為被動(dòng)感知系統(tǒng)提供主動(dòng)性,。這三個(gè)要素相輔相成,,對主動(dòng)視覺感知系統(tǒng)至關(guān)重要。

  1. 視覺同時(shí)定位與地圖構(gòu)建(Visual Simultaneous Localization and Mapping, vSLAM):同時(shí)定位與地圖構(gòu)建(Simultaneous Localization and Mapping, SLAM)是一種技術(shù),,它可以在未知環(huán)境中確定移動(dòng)機(jī)器人的位置,,同時(shí)構(gòu)建該環(huán)境的地圖[121],,[122]?;诜秶腟LAM[123]–[125]使用測距儀(例如,,激光掃描儀、雷達(dá)和/或聲納)創(chuàng)建點(diǎn)云表示,,但成本高昂且提供的環(huán)境信息有限,。視覺SLAM(vSLAM)[118],[119]使用機(jī)載攝像頭捕獲幀并構(gòu)建環(huán)境的表示,。由于其硬件成本低,、在小規(guī)模場景中精度高以及能夠捕獲豐富的環(huán)境信息,vSLAM已經(jīng)變得流行,。傳統(tǒng)的vSLAM技術(shù)可以分為傳統(tǒng)vSLAM和語義vSLAM[119],。傳統(tǒng)vSLAM系統(tǒng)使用圖像信息和多視圖幾何原理估計(jì)未知環(huán)境中機(jī)器人的姿態(tài),構(gòu)建由點(diǎn)云組成的低級地圖(例如,,稀疏地圖,、半密集地圖和密集地圖),如基于濾波器的方法(例如,,MonoSLAM[75],,MSCKF[76]),基于關(guān)鍵幀的方法(例如,,PTAM[77],,ORB-SLAM[78]),和直接跟蹤方法(例如,,DTAM[79],,LSD-SLAM[80])。由于低級地圖中的點(diǎn)云不直接對應(yīng)環(huán)境中的對象,,這使得它們難以被具身機(jī)器人解釋和利用,。然而,語義概念的出現(xiàn),,特別是與語義信息解決方案集成的語義vSLAM系統(tǒng),,顯著提高了機(jī)器人感知和導(dǎo)航未探索環(huán)境的能力。早期的工作,,如SLAM++[81],,使用實(shí)時(shí)3D對象識(shí)別和跟蹤創(chuàng)建高效的對象圖,實(shí)現(xiàn)了魯棒的閉環(huán),、重定位和對象檢測,。CubeSLAM[82]和HDP-SLAM[83]在地圖中引入了3D矩形,構(gòu)建了一個(gè)輕量級的語義地圖,。QuadricSLAM[84]采用語義3D橢球來實(shí)現(xiàn)復(fù)雜幾何環(huán)境中對象形狀和姿態(tài)的精確建模,。So-SLAM[85]在室內(nèi)環(huán)境中結(jié)合了完全耦合的空間結(jié)構(gòu)約束(共面,、共線和接近)。為了應(yīng)對動(dòng)態(tài)環(huán)境的挑戰(zhàn),,DS-SLAM[86],,DynaSLAM[87]和SG-SLAM[88]采用語義分割進(jìn)行運(yùn)動(dòng)一致性檢查和多視圖幾何算法來識(shí)別和過濾動(dòng)態(tài)對象,確保穩(wěn)定的定位和地圖構(gòu)建,。OVD-SLAM[89]利用語義,、深度和光流信息來區(qū)分動(dòng)態(tài)區(qū)域,無需預(yù)定義標(biāo)簽,,實(shí)現(xiàn)更準(zhǔn)確和魯棒的定位,。GSSLAM[90]利用3D高斯表示,通過實(shí)時(shí)可微的splatting渲染流水線和自適應(yīng)擴(kuò)展策略,,在效率和準(zhǔn)確性之間取得平衡,。

  2. 3D場景理解:3D場景理解旨在區(qū)分對象的語義、確定它們的位置,,并從3D場景數(shù)據(jù)中推斷幾何屬性,,這在自動(dòng)駕駛[126]、機(jī)器人導(dǎo)航[127]和人機(jī)交互[128]等方面是基礎(chǔ)性的,。場景可能使用3D掃描工具(如激光雷達(dá)或RGB-D傳感器)記錄為3D點(diǎn)云,。與圖像不同,點(diǎn)云是稀疏的,、無序的和不規(guī)則的[120],,這使得場景解釋極具挑戰(zhàn)性。近年來,,提出了許多深度學(xué)習(xí)方法用于3D場景理解,,可以分為基于投影的方法、基于體素的方法和基于點(diǎn)的方法,。具體來說,,基于投影的方法(例如,MV3D[91],,PointPillars[92],,MVCNN[93])將3D點(diǎn)投影到各種圖像平面上,并使用2D CNN基礎(chǔ)結(jié)構(gòu)進(jìn)行特征提取,?;隗w素的方法將點(diǎn)云轉(zhuǎn)換為規(guī)則的體素網(wǎng)格,以便于3D卷積操作(例如,,VoxNet[94],,SSCNet[95]),一些工作通過稀疏卷積提高效率(例如,MinkowskiNet[96],,SSCNs[97],Embodiedscan[98]),。相比之下,,基于點(diǎn)的方法直接處理點(diǎn)云(例如,PointNet[99],,PointNet++[100],,PointMLP[101])。最近,,為了實(shí)現(xiàn)模型的可擴(kuò)展性,,基于Transformers的(例如,PointTransformer[102],,Swin3d[103],,PT2[104],PT3[105],,3D-VisTA[106],,LEO[107],PQ3D[108])和基于Mamba的(例如,,PointMamba[109],,PCM[110],Mamba3D[111])架構(gòu)已經(jīng)出現(xiàn),。值得注意的是,,除了直接使用點(diǎn)云的特征外,PQ3D[108]還無縫結(jié)合了多視圖圖像和體素的特征,,以增強(qiáng)場景理解能力,。

  3. 主動(dòng)探索:前面介紹的3D場景理解方法賦予了機(jī)器人以被動(dòng)方式感知環(huán)境的能力。在這種情況下,,感知系統(tǒng)的信息獲取和決策不會(huì)隨著場景的發(fā)展而適應(yīng),。然而,被動(dòng)感知為主動(dòng)探索提供了重要的基礎(chǔ),。鑒于機(jī)器人能夠移動(dòng)并與周圍環(huán)境頻繁互動(dòng),,它們也應(yīng)該能夠主動(dòng)探索和感知環(huán)境。圖7顯示了它們之間的關(guān)系,。當(dāng)前的方法通過與環(huán)境互動(dòng)或改變觀察方向來獲取更多視覺信息 [112],,[113]。例如,,Pinto等人[112]提出了一個(gè)好奇的機(jī)器人,,它通過與環(huán)境的物理互動(dòng)學(xué)習(xí)視覺表示,而不是僅僅依賴于數(shù)據(jù)集中的類別標(biāo)簽。為了解決不同形態(tài)機(jī)器人在交互對象感知中的挑戰(zhàn),,Tatiya等人[113]提出了一個(gè)多階段投影框架,,通過學(xué)習(xí)探索性互動(dòng)轉(zhuǎn)移隱含知識(shí),使機(jī)器人能夠在不需要從頭開始學(xué)習(xí)的情況下有效識(shí)別對象屬性,。認(rèn)識(shí)到自動(dòng)捕獲信息性觀察的挑戰(zhàn),,Jayaraman等人[114]提出了一種強(qiáng)化學(xué)習(xí)方法,其中智能體學(xué)習(xí)通過減少對環(huán)境未觀察部分的不確定性來積極獲取信息性視覺觀察,,使用循環(huán)神經(jīng)網(wǎng)絡(luò)來完成全景場景和3D對象形狀的主動(dòng)完成,。NeU-NBV[115]引入了一個(gè)無地圖規(guī)劃框架,使用基于圖像的神經(jīng)渲染中的新穎不確定性估計(jì)來指導(dǎo)數(shù)據(jù)收集朝著最不確定的視圖,。Hu等人[116]開發(fā)了一種機(jī)器人探索算法,,使用狀態(tài)價(jià)值函數(shù)預(yù)測未來狀態(tài),結(jié)合離線蒙特卡洛訓(xùn)練,、在線時(shí)間差分適應(yīng)和基于傳感器信息覆蓋的內(nèi)在獎(jiǎng)勵(lì)函數(shù),。為了解決開放世界環(huán)境中意外輸入的問題,F(xiàn)an等人[117]將主動(dòng)識(shí)別視為一個(gè)順序證據(jù)收集過程,,提供逐步不確定性量化和在證據(jù)組合理論下的可靠預(yù)測,,同時(shí)通過特別開發(fā)的獎(jiǎng)勵(lì)函數(shù)在開放世界環(huán)境中有效地表征行動(dòng)的優(yōu)點(diǎn)。

B. 3D視覺定位

與傳統(tǒng)的2D視覺定位不同,,它在平面圖像的限制下操作,,3D視覺定位結(jié)合了深度、透視和對象之間的空間關(guān)系,,為智能體與其環(huán)境的交互提供了更加強(qiáng)大的框架,。3D視覺定位的任務(wù)是使用自然語言描述在3D環(huán)境中定位對象。

圖片

圖8 展示了兩階段(上圖)和一階段(下圖)3D視覺定位方法的示意圖[141],。(a) 展示了3D視覺定位的示例,。(b) 兩階段方法包括可能會(huì)在檢測階段忽視目標(biāo)的稀疏提議和可能會(huì)在匹配階段引起混淆的密集提議。(c) 一階段方法可以根據(jù)語言描述的指導(dǎo)逐步選擇關(guān)鍵點(diǎn)(藍(lán)點(diǎn) → 紅點(diǎn) → 綠點(diǎn)),。[129],,[130]。如表V所總結(jié),,3D視覺定位的最新方法大致可以分為兩類:兩階段和一階段方法[145],。

圖片

  1. 兩階段3D視覺定位方法:類似于對應(yīng)的2D任務(wù)[146],早期的3D定位研究主要采用了兩階段檢測然后匹配的流程,。他們最初使用預(yù)訓(xùn)練的檢測器[147]或分割器[148]-[150]從3D場景中的許多對象提議中提取特征,,然后將這些特征與語言查詢特征融合以匹配目標(biāo)對象。兩階段研究的重點(diǎn)是第二階段,,例如探索對象提議特征與語言查詢特征之間的相關(guān)性以選擇最佳匹配對象,。ReferIt3D[130]和TGNN[131]不僅學(xué)習(xí)將提議特征與文本嵌入匹配,,還通過圖神經(jīng)網(wǎng)絡(luò)編碼對象之間的上下文關(guān)系。為了增強(qiáng)自由形式描述和不規(guī)則點(diǎn)云中的3D視覺定位,,F(xiàn)FL-3DOG[133]使用了語言場景圖進(jìn)行短語相關(guān)性,、多級3D提議關(guān)系圖以豐富視覺特征,以及描述引導(dǎo)的3D視覺圖以編碼全局上下文,。最近,,由于變換器架構(gòu)在自然語言處理[151]、[152]和計(jì)算機(jī)視覺任務(wù)[14],、[153]中展示了出色的性能,,研究越來越多地關(guān)注使用變換器提取和融合3D視覺定位任務(wù)中的視覺語言特征,。例如,,LanguageRefer[135]采用了基于變換器的架構(gòu),結(jié)合3D空間嵌入,、語言描述和類標(biāo)簽嵌入來實(shí)現(xiàn)魯棒的3D視覺定位,。3DVG-Transformer[134]是一種面向關(guān)系的3D點(diǎn)云的視覺定位方法,具有坐標(biāo)引導(dǎo)的上下文聚合模塊,,用于關(guān)系增強(qiáng)的提議生成和多重注意力模塊用于跨模態(tài)提議消歧,。為了實(shí)現(xiàn)對3D對象和指代表達(dá)的更細(xì)粒度推理,TransRefer3D[154]使用實(shí)體和關(guān)系感知注意力增強(qiáng)跨模態(tài)特征表示,,結(jié)合自注意力,、實(shí)體感知注意力和關(guān)系感知注意力。GPS[140]提出了一個(gè)統(tǒng)一的學(xué)習(xí)框架,,利用三個(gè)層次的對比對齊學(xué)習(xí)和掩蔽語言建模目標(biāo)學(xué)習(xí),,從百萬規(guī)模的3D視覺-語言數(shù)據(jù)集(即SCENEVERSE[140])中提取知識(shí)。大多數(shù)上述方法專注于特定視點(diǎn),,但學(xué)到的視覺-語言對應(yīng)關(guān)系在視點(diǎn)變化時(shí)可能會(huì)失敗,。為了學(xué)習(xí)更具視點(diǎn)魯棒性的視覺表示,MVT[137]提出了一種多視圖變換器,,學(xué)習(xí)獨(dú)立于視圖的多模態(tài)表示,。為了減輕稀疏、嘈雜和不完整點(diǎn)云的限制,,各種方法探索了結(jié)合捕獲的(例如,,SAT[132]或合成的(例如,LAR[136])圖像的詳細(xì)2D視覺特征以增強(qiáng)3D視覺定位任務(wù)?,F(xiàn)有的3D VG方法通常依賴于大量標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,,或在處理復(fù)雜語言查詢時(shí)顯示局限性。受到LLMs令人印象深刻的語言理解能力的啟發(fā),,LLM-Grounder[138]提出了一個(gè)開放詞匯3D視覺定位流程,,不需要標(biāo)記數(shù)據(jù),利用LLM分解查詢并生成對象識(shí)別的計(jì)劃,然后通過評估空間和常識(shí)關(guān)系來選擇最佳匹配對象,。為了捕獲視點(diǎn)依賴的查詢并解碼3D空間中的空間關(guān)系,,ZSVG3D[139]設(shè)計(jì)了一種零樣本開放詞匯3D視覺定位方法,使用LLM識(shí)別相關(guān)對象并執(zhí)行推理,,將此過程轉(zhuǎn)換為腳本化的視覺程序,,然后轉(zhuǎn)換為可執(zhí)行的Python代碼以預(yù)測對象位置。然而,,如圖8 (b)所示,,這些兩階段方法面臨著確定提議數(shù)量的困境,因?yàn)榈谝浑A段中的3D檢測器需要采樣關(guān)鍵點(diǎn)來表示整個(gè)3D場景,,并為每個(gè)關(guān)鍵點(diǎn)生成相應(yīng)的提議,。稀疏提議可能會(huì)在第一階段忽視目標(biāo),使它們在第二階段無法匹配,。相反,,密集提議可能包含不可避免的冗余對象,導(dǎo)致由于過于復(fù)雜的提議間關(guān)系而在第二階段難以區(qū)分目標(biāo),。此外,,關(guān)鍵點(diǎn)采樣策略是與語言無關(guān)的,這增加了檢測器識(shí)別與語言相關(guān)的提議的難度,。

  2. 一階段3D視覺定位方法:如圖8 (c)所示,,與兩階段3D VG方法不同,一階段3D VG方法整合了由語言查詢指導(dǎo)的對象檢測和特征提取,,使定位對象變得更加容易,。3D-SPS[141]將3D VG任務(wù)視為關(guān)鍵點(diǎn)選擇問題,避免了檢測和匹配的分離,。具體來說,,3D-SPS最初通過描述感知關(guān)鍵點(diǎn)采樣模塊粗略采樣與語言相關(guān)的關(guān)鍵點(diǎn)。隨后,,它精細(xì)選擇目標(biāo)關(guān)鍵點(diǎn),,并使用目標(biāo)導(dǎo)向的逐步挖掘模塊預(yù)測基礎(chǔ)。受到MDETR[155]和GLIP[156]等2D圖像語言預(yù)訓(xùn)練模型的啟發(fā),,BUTD-DETR[142]提出了一種自下而上的自上而下的檢測變換器,,可以用于2D和3D VG。具體來說,,BUTD-DETR使用標(biāo)記的自下而上的框提議和自上而下的語言描述來指導(dǎo)通過預(yù)測頭解碼目標(biāo)對象和相應(yīng)的語言跨度,。

圖片

C. 視覺語言導(dǎo)航(Visual Language Navigation, VLN)

視覺語言導(dǎo)航是具身人工智能(Embodied AI)的關(guān)鍵研究問題,旨在使智能體能夠在未見環(huán)境中遵循語言指令進(jìn)行導(dǎo)航,。VLN要求機(jī)器人不僅要理解復(fù)雜多樣的視覺觀察,,而且還要解釋不同粒度的指令,。VLN的輸入通常由兩部分組成:視覺信息和自然語言指令。視覺信息可以是過去軌跡的視頻,,或者是一組歷史當(dāng)前觀察圖像,。自然語言指令包括具身智能體需要到達(dá)的目標(biāo),或者是預(yù)期完成的任務(wù),。具身智能體必須使用上述信息從候選列表中選擇一個(gè)或一系列動(dòng)作來滿足自然語言指令的要求,。這個(gè)過程可以表示為:

其中Action是選擇的動(dòng)作或動(dòng)作候選列表,O是當(dāng)前觀察,,H是歷史信息,,I是自然語言指令。在VLN中最常用的指標(biāo)有SR(成功率),、TL(軌跡長度)和SPL(由路徑長度加權(quán)的成功率),。其中,SR直接反映了具身智能體的導(dǎo)航性能,,TL反映了導(dǎo)航效率,,SPL結(jié)合了兩者以指示具身智能體的整體性能,。下面,,我們將VLN分為兩部分進(jìn)行介紹:數(shù)據(jù)集和方法。

圖片

  1. 數(shù)據(jù)集:在VLN中,,自然語言指令可以是一系列詳細(xì)的動(dòng)作描述,、完整描述的目標(biāo),或者只是粗略描述的任務(wù),,甚至是人類的要求,。具身智能體需要完成的任務(wù)可能只是單一導(dǎo)航,或者是需要交互的導(dǎo)航,,或者是需要依次完成的多個(gè)導(dǎo)航任務(wù),。這些差異給VLN帶來了不同的挑戰(zhàn),并且已經(jīng)構(gòu)建了許多不同的數(shù)據(jù)集,?;谶@些差異,我們介紹一些重要的VLN數(shù)據(jù)集,。Room to Room (R2R) [63] 是基于Matterport3D的VLN數(shù)據(jù)集,。在R2R中,具身智能體根據(jù)逐步指令進(jìn)行導(dǎo)航,,根據(jù)視覺觀察選擇下一個(gè)相鄰的導(dǎo)航圖節(jié)點(diǎn),,直到到達(dá)目標(biāo)位置。具身智能體需要?jiǎng)討B(tài)跟蹤進(jìn)度,,以使導(dǎo)航過程與細(xì)粒度指令對齊,。Room-for-Room [157] 擴(kuò)展了R2R中的路徑到更長的軌跡,,這要求具身智能體具備更強(qiáng)的長距離指令和歷史對齊能力。VLN-CE [158] 擴(kuò)展了R2R和R4R到連續(xù)環(huán)境中,,具身智能體可以在場景中自由移動(dòng),。這使得具身智能體的動(dòng)作決策更加困難。與基于室內(nèi)場景的數(shù)據(jù)集不同,,TOUCHDOWN數(shù)據(jù)集 [159] 是基于Google Street View創(chuàng)建的,。在TOUCHDOWN中,具身智能體遵循指令,,在紐約市的街景渲染模擬中導(dǎo)航以找到指定的對象,。與R2R類似,REVERIE數(shù)據(jù)集 [160] 也是基于Matterport3D模擬器構(gòu)建的,。REVERIE要求具身智能體根據(jù)簡潔的,、人類注釋的高級自然語言指令準(zhǔn)確地定位遠(yuǎn)處不可見的目標(biāo)對象,這意味著具身智能體需要在場景中的大量對象中找到目標(biāo)對象,。在SOON [161]中,,代理接收從粗略到精細(xì)的長而復(fù)雜的指令,以在3D環(huán)境中找到目標(biāo)對象,。在導(dǎo)航過程中,,代理首先搜索較大的區(qū)域,然后根據(jù)視覺場景和指令逐漸縮小搜索范圍,。這使得DDN [162]在這些數(shù)據(jù)集中更進(jìn)一步,,只提供人類需求而不指定明確的對象。代理需要通過場景導(dǎo)航以找到滿足人類需求的對象,。ALFRED數(shù)據(jù)集 [163] 是基于AI2-THOR模擬器構(gòu)建的,。在ALFRED中,具身智能體需要理解環(huán)境觀察,,并根據(jù)粗粒度和細(xì)粒度指令在交互環(huán)境中完成家庭任務(wù),。OVMM [164] 的任務(wù)是在任何未見環(huán)境中挑選任何對象并將其放置在指定位置。代理需要在家庭環(huán)境中定位目標(biāo)對象,,導(dǎo)航并抓取它,,然后導(dǎo)航到目標(biāo)位置放下對象。OVMM提供了基于Habitat的模擬器和在真實(shí)世界中實(shí)現(xiàn)的框架,。Behavior-1K數(shù)據(jù)集 [165] 基于人類需求,,包含1000個(gè)長序列、復(fù)雜的,、技能依賴的日常任務(wù),,這些任務(wù)是在OmniGibson中設(shè)計(jì)的,OmniGibson是iGibson模擬環(huán)境的擴(kuò)展,。代理需要完成包含數(shù)千個(gè)低級動(dòng)作步驟的長跨度導(dǎo)航交互任務(wù),,這些任務(wù)基于視覺信息和語言指令,。這些復(fù)雜任務(wù)需要強(qiáng)大的理解和記憶能力。還有一些更特殊的數(shù)據(jù)集,。CVDN [166] 要求具身智能體根據(jù)對話歷史導(dǎo)航到目標(biāo),,并在不確定時(shí)提出問題以獲取幫助以決定下一個(gè)動(dòng)作。DialFRED [167] 是ALFRED的擴(kuò)展,,允許代理在導(dǎo)航和交互過程中提問以獲得幫助,。這些數(shù)據(jù)集都引入了額外的預(yù)言者,具身智能體需要通過提問獲取對導(dǎo)航有益的更多信息,。

  2. 方法:隨著LLMs的驚人表現(xiàn),,VLN的方向和焦點(diǎn)已經(jīng)發(fā)生了深刻的變化。盡管如此,,VLN方法可以分為兩個(gè)方向:基于記憶理解和基于未來預(yù)測,。基于記憶理解的方法側(cè)重于環(huán)境的感知和理解,,以及基于歷史觀察或軌跡的模型設(shè)計(jì),,這是一種基于過去學(xué)習(xí)的方法?;谖磥眍A(yù)測的方法更加關(guān)注建模,、預(yù)測和理解未來狀態(tài),這是一種未來學(xué)習(xí)的方法,。由于VLN可以被視為部分可觀測的馬爾可夫決策過程,,其中未來的觀察依賴于當(dāng)前的環(huán)境和智能體的動(dòng)作,,歷史信息對導(dǎo)航?jīng)Q策具有重要意義,,尤其是長跨度導(dǎo)航?jīng)Q策,因此基于記憶理解的方法一直是VLN的主流,。然而,,基于未來預(yù)測的方法仍然具有重要意義。其對環(huán)境的基本理解在連續(xù)環(huán)境中的VLN具有巨大價(jià)值,,特別是隨著世界模型概念的興起,,基于未來預(yù)測的方法正受到越來越多的研究關(guān)注。

基于記憶理解的,。基于圖的學(xué)習(xí)是記憶理解方法的重要組成部分,。基于圖的學(xué)習(xí)通常以圖的形式表示導(dǎo)航過程,,其中具身智能體在每個(gè)時(shí)間步驟獲得的信息被編碼為圖的節(jié)點(diǎn),。具身智能體獲得全局或部分導(dǎo)航圖信息作為歷史軌跡的表示。LVERG [168] 分別對每個(gè)節(jié)點(diǎn)的語言信息和視覺信息進(jìn)行編碼,,設(shè)計(jì)了一個(gè)新的語言和視覺實(shí)體關(guān)系圖來模擬文本和視覺之間的跨模態(tài)關(guān)系以及視覺實(shí)體之間的內(nèi)模態(tài)關(guān)系,。LM-Nav [172] 使用目標(biāo)條件距離函數(shù)推斷原始觀察集之間的連接,,并構(gòu)建導(dǎo)航圖,并從指令中提取地標(biāo),,通過視覺語言模型將其與導(dǎo)航圖的節(jié)點(diǎn)匹配,。盡管HOP [173] 不是基于圖學(xué)習(xí),但其方法類似于圖,,要求模型對不同粒度的時(shí)間有序信息進(jìn)行建模,,從而實(shí)現(xiàn)對歷史軌跡和記憶的深入理解。導(dǎo)航圖將環(huán)境離散化,,但同時(shí)理解和編碼環(huán)境也很重要,。FILM [171] 在導(dǎo)航過程中使用RGB-D觀察和語義分割從3D體素逐步構(gòu)建語義地圖。VER [178] 通過2D-3D采樣將物理世界量化為結(jié)構(gòu)化的3D單元,,提供細(xì)粒度的幾何細(xì)節(jié)和語義,。不同的學(xué)習(xí)方案探索了如何更好地利用歷史軌跡和記憶。通過對抗學(xué)習(xí),,CMG [169] 在模仿學(xué)習(xí)和探索鼓勵(lì)方案之間交替,,有效地加強(qiáng)了對指令和歷史軌跡的理解,縮短了訓(xùn)練和推理之間的差異,。GOAT [177] 直接通過后門調(diào)整因果學(xué)習(xí)(BACL)和前門調(diào)整因果學(xué)習(xí)(FACL)訓(xùn)練無偏模型,,并通過對視覺、導(dǎo)航歷史及其與指令的組合進(jìn)行對比學(xué)習(xí),,使智能體能夠更充分地利用信息,。RCM [170] 提出的增強(qiáng)跨模態(tài)匹配方法使用目標(biāo)導(dǎo)向的外部獎(jiǎng)勵(lì)和指令導(dǎo)向的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行全局和局部的跨模態(tài)定位,并通過自監(jiān)督模仿學(xué)習(xí)從其自身的歷史良好決策中學(xué)習(xí),。FSTT [175] 引入了TTA到VLN,,并在兩個(gè)時(shí)間步驟和任務(wù)的尺度上優(yōu)化了模型的梯度和模型參數(shù),有效提高了模型性能,。在記憶理解方法中,,大型模型的具體應(yīng)用是理解歷史記憶的表示,并基于其廣泛的世界知識(shí)理解環(huán)境和任務(wù),。NaviLLM [174] 通過視覺編碼器將歷史觀察序列集成到嵌入空間,,將融合編碼的多模態(tài)信息輸入到大型模型并進(jìn)行微調(diào),在多個(gè)基準(zhǔn)測試中達(dá)到了最先進(jìn)的水平,。NaVid [179] 在歷史信息編碼方面進(jìn)行了改進(jìn),,通過不同程度的池化在歷史觀察和當(dāng)前觀察之間實(shí)現(xiàn)了不同程度的信息保留。DiscussNav [176] 為大型模型專家分配了不同的角色,,驅(qū)動(dòng)大型模型在導(dǎo)航動(dòng)作前進(jìn)行討論以完成導(dǎo)航?jīng)Q策,,并在零樣本VLN中取得了優(yōu)異的性能。

圖片

基于未來預(yù)測的,。基于圖的學(xué)習(xí)也廣泛應(yīng)用于基于未來預(yù)測的方法中,。BGGL [182] 和 ETPNav [185] 使用了類似的設(shè)計(jì)方法,,設(shè)計(jì)了一個(gè)航點(diǎn)預(yù)測器,可以根據(jù)當(dāng)前導(dǎo)航圖節(jié)點(diǎn)的觀察在連續(xù)環(huán)境中預(yù)測可移動(dòng)路徑點(diǎn),。他們的目標(biāo)是將復(fù)雜環(huán)境中的導(dǎo)航從連續(xù)環(huán)境轉(zhuǎn)移到離散環(huán)境中的節(jié)點(diǎn)到節(jié)點(diǎn)導(dǎo)航,,從而彌合從離散環(huán)境到連續(xù)環(huán)境的性能差距。通過環(huán)境編碼提高對未來環(huán)境的理解和感知也是預(yù)測和探索未來狀態(tài)的研究方向之一,。NvEM [181] 使用主題模塊和參考模塊從全局和局部視角對鄰居視圖進(jìn)行融合編碼,。這實(shí)際上是對未來觀察的理解和學(xué)習(xí)。HNR [184] 使用大規(guī)模預(yù)訓(xùn)練的分層神經(jīng)輻射表示模型直接預(yù)測未來環(huán)境的視覺表示,,而不是像素級圖像,,使用三維特征空間編碼,并基于未來環(huán)境的表示構(gòu)建可導(dǎo)航的路徑樹,。他們從不同的層次預(yù)測未來環(huán)境,,為導(dǎo)航?jīng)Q策提供有效的參考。一些強(qiáng)化學(xué)習(xí)方法也被應(yīng)用于預(yù)測和探索未來狀態(tài),。LookBY [180] 采用強(qiáng)化預(yù)測,,使預(yù)測模塊能夠模仿世界并預(yù)測未來狀態(tài)和獎(jiǎng)勵(lì)。這允許智能體直接將“當(dāng)前觀察”和“未來觀察的預(yù)測”映射到動(dòng)作上,,在當(dāng)時(shí)達(dá)到了最先進(jìn)的性能,。大型模型的豐富世界知識(shí)和零樣本性能為基于未來預(yù)測的方法提供了許多可能性。MiC [183] 要求大型模型直接從指令中預(yù)測目標(biāo)及其可能的位置,,并通過場景感知的描述提供導(dǎo)航指令,。這種方法要求大型模型充分發(fā)揮其“想象力”,并通過提示構(gòu)建一個(gè)想象中的場景,。此外,,還有一些方法既從過去學(xué)習(xí)又為未來學(xué)習(xí)。MCR-Agent [186] 設(shè)計(jì)了一個(gè)三層動(dòng)作策略,,要求模型從指令中預(yù)測目標(biāo),,預(yù)測目標(biāo)的像素級掩模以進(jìn)行交互,并從以前的導(dǎo)航?jīng)Q策中學(xué)習(xí),;OVLM [187] 要求大型模型為指令預(yù)測相應(yīng)的操作和地標(biāo)序列。在導(dǎo)航過程中,,視覺語言地圖將不斷更新和維護(hù),,并將操作鏈接到地圖上的航點(diǎn)。

D. 非視覺感知:觸覺

觸覺傳感器為智能體提供了如紋理,、硬度和溫度等詳細(xì)信息,。對于相同的動(dòng)作,從視覺和觸覺傳感器中學(xué)到的知識(shí)可能是相關(guān)和互補(bǔ)的,,使機(jī)器人能夠充分掌握手中的高精度任務(wù),。因此,,觸覺感知對于物理世界中的智能體至關(guān)重要,并且無疑增強(qiáng)了人機(jī)交互[188]–[190],。對于觸覺感知任務(wù),,智能體需要從物理世界中收集觸覺信息,然后執(zhí)行復(fù)雜任務(wù),。在這一部分中,,如圖10所示,我們首先介紹現(xiàn)有的觸覺傳感器類型及其數(shù)據(jù)集,,然后討論觸覺感知中的三個(gè)主要任務(wù):估計(jì),、識(shí)別和操縱。

圖片

1) 傳感器設(shè)計(jì):人類觸覺的原理是皮膚在觸摸時(shí)發(fā)生形狀變化,,其豐富的神經(jīng)細(xì)胞發(fā)送電信號(hào),,這也為設(shè)計(jì)觸覺傳感器提供了基礎(chǔ)。觸覺傳感器設(shè)計(jì)方法可以分為三類:非視覺基礎(chǔ),、視覺基礎(chǔ)和多模態(tài),。非視覺基礎(chǔ)觸覺傳感器主要使用電力和機(jī)械原理,主要注冊基本的,、低維的感官輸出,,如力量、壓力,、振動(dòng)和溫度[191]–[196],。其中一個(gè)著名的代表是BioTac及其模擬器[197][198]?;谝曈X的觸覺傳感器基于光學(xué)原理,。使用凝膠變形的圖像作為觸覺信息,基于視覺的觸覺傳感器如GelSight,、Gelslim,、DIGIT、9DTact,、TacTip,、GelTip和AllSight已被用于眾多應(yīng)用。模擬器如TACTO和Taxim也很受歡迎,。最近的工作集中在降低成本[202]和集成到機(jī)器人手中[201][208][209],。多模態(tài)觸覺傳感器,受人類皮膚的啟發(fā),,結(jié)合了壓力,、接近度、加速度和溫度等多種模態(tài)信息,使用柔性材料和模塊化設(shè)計(jì),。

2) 數(shù)據(jù)集:非視覺傳感器的數(shù)據(jù)集主要由BioTac系列收集[197],,包含電極值、力量向量和接觸位置,。由于任務(wù)主要是力量和抓取細(xì)節(jié)的估計(jì),,數(shù)據(jù)集中的對象通常是力量和抓取樣本?;谝曈X的傳感器,,擁有高分辨率的變形凝膠圖像,更側(cè)重于更高的估計(jì),、紋理識(shí)別和操縱,。數(shù)據(jù)集由Geisight傳感器、DIGIT傳感器及其模擬器收集[199][201][202][206],,包括家庭對象,、野外環(huán)境、不同材料和抓取項(xiàng)目,。由于圖像信息可以很容易地與其他模態(tài)(圖像,、語言、音頻等)對齊和綁定[14][210],,具身代理中的觸覺感知主要圍繞基于視覺的傳感器,。我們介紹了十個(gè)主要的觸覺數(shù)據(jù)集,總結(jié)在表VIII中,。

圖片

3) 方法:觸覺感知有眾多應(yīng)用,,可以分為三類:估計(jì)、精確的機(jī)器人操縱和多模態(tài)識(shí)別任務(wù),。

a) 估計(jì):早期的估計(jì)工作主要集中在基本算法的形狀,、力量和滑動(dòng)測量[202][220][221]。研究人員簡單地使用閾值或應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)來解決這些任務(wù),,基于觸覺圖像的顏色和標(biāo)記在不同幀中的分布變化,。估計(jì)工作的重點(diǎn)是第二階段,觸覺圖像的生成和對象的重建,。觸覺圖像的生成[222]–[225]旨在從視覺數(shù)據(jù)生成觸覺圖像,。起初應(yīng)用了深度學(xué)習(xí)模型,輸入RGB-D圖像并輸出觸覺圖像[222][223],。最近,,隨著圖像生成的快速發(fā)展,Higuera等人[224]和Yang等人[225]應(yīng)用了擴(kuò)散模型進(jìn)行觸覺生成,,并且表現(xiàn)良好。對象的重建可以分為2D重建[226][227]和3D重建[202][219][228]–[241]。2D重建主要關(guān)注對象的形狀和分割,,而3D重建關(guān)注表面和姿態(tài),,甚至是完整的場景感知。任務(wù)首先采用了數(shù)學(xué)方法,、自編碼器方法和神經(jīng)網(wǎng)絡(luò)方法來融合視覺(有時(shí)是點(diǎn)云)和觸覺特征,。最近,研究人員如Comi等人[236]和Dou等人[219]在觸覺重建工作中實(shí)現(xiàn)了基于神經(jīng)輻射場(NeRF)和3D高斯濺射(3DGS)的新方法,。

b) 機(jī)器人操縱:在觸覺任務(wù)中,,彌合仿真與現(xiàn)實(shí)之間的差距至關(guān)重要。提出了強(qiáng)化學(xué)習(xí)和基于GAN的方法來解決準(zhǔn)確,、及時(shí)的機(jī)器人操縱任務(wù)中的變異問題,。

強(qiáng)化學(xué)習(xí)方法。Visuotactile-RL[242]為現(xiàn)有RL方法提出了幾種方法,,包括觸覺門控,、觸覺數(shù)據(jù)增強(qiáng)和視覺退化。Rotateit[243]是一個(gè)系統(tǒng),,它利用多模態(tài)感官輸入實(shí)現(xiàn)基于指尖的對象旋轉(zhuǎn),,沿多個(gè)軸進(jìn)行。它通過網(wǎng)絡(luò)訓(xùn)練強(qiáng)化學(xué)習(xí)策略,,使用特權(quán)信息,,并啟用在線推理。[244]提出了一種使用觸覺感知進(jìn)行目標(biāo)推動(dòng)的深度RL方法,。它提出了一個(gè)目標(biāo)條件公式,,允許無模型和基于模型的RL獲得推動(dòng)對象到目標(biāo)的準(zhǔn)確策略。AnyRotate[245]專注于手內(nèi)操縱,。它是一個(gè)使用密集特征的觸覺反饋進(jìn)行重力不變多軸手內(nèi)對象旋轉(zhuǎn)的系統(tǒng),,在模擬中構(gòu)建了連續(xù)的接觸特征表示,以提供觸覺反饋,,用于訓(xùn)練策略,,并引入了一種通過訓(xùn)練觀察模型來執(zhí)行零樣本策略遷移的方法。

基于GAN的方法,。ACTNet[246]提出了一種無監(jiān)督對抗性領(lǐng)域適應(yīng)方法,,以縮小像素級觸覺感知任務(wù)的領(lǐng)域差距。引入了一種自適應(yīng)相關(guān)注意力機(jī)制來改進(jìn)生成器,,使其能夠利用全局信息并專注于顯著區(qū)域,。然而,像素級領(lǐng)域適應(yīng)導(dǎo)致誤差累積,、性能下降,、結(jié)構(gòu)復(fù)雜性和訓(xùn)練成本增加,。相比之下,STR-Net[247]提出了一種針對觸覺圖像的特征級無監(jiān)督框架,,縮小了特征級觸覺感知任務(wù)的領(lǐng)域差距,。此外,一些方法專注于仿真到現(xiàn)實(shí),。例如,,Tactile Gym 2.0[248]。然而,,由于其復(fù)雜性和高成本,,它在實(shí)際應(yīng)用中具有挑戰(zhàn)性。

c) 識(shí)別: 觸覺表示學(xué)習(xí)側(cè)重于材料分類和多模態(tài)理解,,可以分為兩類:傳統(tǒng)方法和大型語言模型(LLMs)及視覺-語言模型(VLMs)方法,。

傳統(tǒng)方法: 為了增強(qiáng)觸覺表示學(xué)習(xí),采用了多種傳統(tǒng)方法,。自動(dòng)編碼器框架在開發(fā)緊湊的觸覺數(shù)據(jù)表示方面發(fā)揮了重要作用,。Polic等人[249]使用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)編碼器對基于光學(xué)的觸覺傳感器圖像進(jìn)行降維。Gao等人[250]創(chuàng)建了一個(gè)受監(jiān)督的循環(huán)自動(dòng)編碼器來處理異構(gòu)傳感器數(shù)據(jù)集,,而Cao等人[251]創(chuàng)建的TacMAE使用了一個(gè)掩蔽自動(dòng)編碼器來處理不完整的觸覺數(shù)據(jù),。Zhang等人[252]引入了MAE4GM,這是一個(gè)整合視覺和觸覺數(shù)據(jù)的多模態(tài)自動(dòng)編碼器,。由于觸覺作為其他模態(tài)的補(bǔ)充,,聯(lián)合訓(xùn)練方法被用來融合多個(gè)模態(tài)。Yuan等人[253]使用包括深度,、視覺和觸覺數(shù)據(jù)的模態(tài)訓(xùn)練CNN,。同樣,Lee等人[254]使用了變分貝葉斯方法來處理力傳感器系列和末端執(zhí)行器指標(biāo)等模態(tài),。為了更好地學(xué)習(xí)表示,,自監(jiān)督方法如對比學(xué)習(xí)也是將模態(tài)結(jié)合在一起的關(guān)鍵技術(shù)。在對比方法的研究中,,Lin等人[255]將觸覺輸入簡單地與多個(gè)視覺輸入配對,,而Yang等人[256]采用了視覺觸覺對比多視圖特征。Kerr等人[215]使用了InfoNCE損失,,Guzey等人[257]使用了BYOL,。這些傳統(tǒng)方法為觸覺表示學(xué)習(xí)奠定了堅(jiān)實(shí)的基礎(chǔ)。

LLMs和VLMs方法: LLM和VLM最近表現(xiàn)出對跨模態(tài)交互的驚人理解,,并展示了強(qiáng)大的零樣本性能,。最近的工作,如Yang等人[189],、Fu等人[218]和Yu等人[258],,通過對比預(yù)訓(xùn)練方法對觸覺數(shù)據(jù)進(jìn)行編碼和與視覺和語言模態(tài)對齊,。然后,像LLaMA這樣的大型模型將被應(yīng)用,,使用微調(diào)方法來適應(yīng)觸覺描述等任務(wù),。LLM和VLM技術(shù)的出現(xiàn)進(jìn)一步推進(jìn)了該領(lǐng)域,,使得跨模態(tài)觸覺表示更加全面和健壯,。

4) 困難:a) 不同傳感器類型的缺陷:傳統(tǒng)傳感器提供簡單和低維數(shù)據(jù),對多模態(tài)學(xué)習(xí)構(gòu)成挑戰(zhàn),?;谝曈X的傳感器和電子皮膚雖然高度準(zhǔn)確,但成本昂貴,。b) 數(shù)據(jù)獲取挑戰(zhàn):收集數(shù)據(jù),,特別是同時(shí)收集觸覺和視覺數(shù)據(jù),盡管在開發(fā)簡化收集設(shè)備方面取得了一些進(jìn)展,,但仍然困難,。c) 標(biāo)準(zhǔn)不一致:觸覺傳感器以不一致的標(biāo)準(zhǔn)和原則運(yùn)作,阻礙了大規(guī)模學(xué)習(xí)和限制了公共數(shù)據(jù)集的有用性,。需要標(biāo)準(zhǔn)化和廣泛的數(shù)據(jù)集,。

V. 具身交互

具身交互任務(wù)指的是智能體在物理或模擬空間中與人類和環(huán)境進(jìn)行交互的場景。典型的具身交互任務(wù)包括具身問答(EQA)和具身抓取,。

A. 具身問答 (Embodied Question Answering)

對于EQA任務(wù),,智能體需要從第一人稱視角探索環(huán)境,以收集回答給定問題所需的信息,。具有自主探索和決策能力的智能體不僅要考慮采取哪些行動(dòng)來探索環(huán)境,,還要決定何時(shí)停止探索以回答問題。現(xiàn)有的工作集中在不同類型的問題上,,如圖11所示,。在這一部分中,我們將介紹現(xiàn)有的數(shù)據(jù)集,,討論相關(guān)的方法,,描述用于評估模型性能的指標(biāo),并解決這項(xiàng)任務(wù)的剩余限制,。

圖片

1) 數(shù)據(jù)集:在真實(shí)環(huán)境中進(jìn)行機(jī)器人實(shí)驗(yàn)通常受到場景和機(jī)器人硬件的限制,。作為虛擬實(shí)驗(yàn)平臺(tái),模擬器為構(gòu)建具身問答數(shù)據(jù)集提供了合適的環(huán)境條件,。在模擬器中創(chuàng)建的數(shù)據(jù)集上訓(xùn)練和測試模型顯著降低了實(shí)驗(yàn)成本,,并提高了在真實(shí)機(jī)器上部署模型的成功率。我們簡要介紹了幾個(gè)具身問答數(shù)據(jù)集,,總結(jié)在表IX中,。EQA v1 [259] 是為EQA設(shè)計(jì)的首個(gè)數(shù)據(jù)集,。它建立在House3D [269] 模擬器中基于SUNCG數(shù)據(jù)集 [95] 的合成3D室內(nèi)場景上,包含四種類型的問題:位置,、顏色,、顏色房間和介詞。它擁有超過5000個(gè)問題,,分布在750多個(gè)環(huán)境中,。這些問題是通過功能程序執(zhí)行構(gòu)建的,使用模板選擇和組合基本操作,。與EQA v1類似,,MT-EQA [260] 也是在House3D中使用SUNCG構(gòu)建的,但它將單對象問答任務(wù)擴(kuò)展到了多對象設(shè)置,。設(shè)計(jì)了六種類型的問題,,涉及多個(gè)對象之間的顏色、距離和大小比較,。數(shù)據(jù)集包含588個(gè)環(huán)境中的19,287個(gè)問題,。

圖片

2) 方法:具身問題回答任務(wù)主要涉及導(dǎo)航和問題回答子任務(wù),實(shí)現(xiàn)方法大致分為兩類:基于神經(jīng)網(wǎng)絡(luò)的方法和基于大型語言模型(LLMs)/視覺-語言模型(VLMs)的方法,。

神經(jīng)網(wǎng)絡(luò)方法: 在早期工作中,,研究人員主要通過構(gòu)建深度神經(jīng)網(wǎng)絡(luò)來解決具身問題回答任務(wù)。他們使用模仿學(xué)習(xí),、強(qiáng)化學(xué)習(xí)等技術(shù)來訓(xùn)練和微調(diào)這些模型,,以提高性能。Das等人[259]首次提出了EQA任務(wù),,其中智能體由四個(gè)主要模塊組成:視覺,、語言、導(dǎo)航和回答,。這些模塊主要使用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)構(gòu)建塊:卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),。它們分兩個(gè)階段進(jìn)行訓(xùn)練。最初,,導(dǎo)航和回答模塊獨(dú)立地在自動(dòng)生成的專家導(dǎo)航演示上使用模仿或監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,。隨后,在第二階段,,使用策略梯度對導(dǎo)航架構(gòu)進(jìn)行微調(diào),。一些后續(xù)工作[274],[275]保留了Das等人[259]提出的問題回答模塊,,并改進(jìn)了模型,。此外,Wu等人[275]提出將導(dǎo)航和QA模塊整合到統(tǒng)一的SGD訓(xùn)練流程中進(jìn)行聯(lián)合訓(xùn)練,,從而避免了同時(shí)使用深度強(qiáng)化學(xué)習(xí)來訓(xùn)練分開訓(xùn)練的導(dǎo)航和問題回答模塊,。還有一些工作嘗試增加問題回答任務(wù)的復(fù)雜性和完整性,。從任務(wù)單一性的角度來看,一些工作[260],,[276]將任務(wù)擴(kuò)展到包括多個(gè)目標(biāo)和多智能體,,分別要求模型通過特征提取和場景重建等方法存儲(chǔ)和整合智能體探索過程中獲得的信息??紤]到智能體與動(dòng)態(tài)環(huán)境的交互,,Gordon等人[262]引入了分層交互記憶網(wǎng)絡(luò)??刂茩?quán)在規(guī)劃器和執(zhí)行任務(wù)的低級控制器之間交替,,在此過程中使用了一個(gè)以自我為中心的空間GRU(esGRU)來存儲(chǔ)空間記憶,使智能體能夠?qū)Ш讲⑻峁┐鸢?。之前工作中的一個(gè)限制是智能體無法使用外部知識(shí)回答復(fù)雜問題,并且缺乏對探索過的場景部分的知識(shí),。為了解決這個(gè)問題,,Tan等人[265]提出了一個(gè)框架,利用神經(jīng)程序合成方法和從知識(shí)和3D場景圖中轉(zhuǎn)換的表格,,允許動(dòng)作規(guī)劃器訪問與對象相關(guān)的信息,。此外,還使用了基于蒙特卡洛樹搜索(MCTS)的方法來確定智能體下一步移動(dòng)的位置,。

LLMs/VLMs方法: 近年來,,LLMs和VLMs不斷取得進(jìn)展,并在各個(gè)領(lǐng)域展示了卓越的能力,。因此,,研究人員嘗試將這些模型應(yīng)用于解決具身問題回答任務(wù),而無需任何額外的微調(diào),。

Majumdar等人[266]探索了使用LLMs和VLMs進(jìn)行情景記憶EQA(EM-EQA)任務(wù)和活躍EQA(AEQA)任務(wù),。對于EM-EQA任務(wù),他們考慮了盲目LLMs,、具有情景記憶語言描述的蘇格拉底LLMs,、具有構(gòu)建場景圖描述的蘇格拉底LLMs,以及處理多個(gè)場景幀的VLMs,。AEQA任務(wù)擴(kuò)展了EM-EQA方法,,增加了基于前沿的探索(FBE)[277],用于問題無關(guān)的環(huán)境探索,。一些其他工作[267],,[278]也采用了基于前沿的探索方法來識(shí)別后續(xù)探索的區(qū)域,并構(gòu)建語義地圖,。他們使用一致性預(yù)測或圖像-文本匹配提前結(jié)束探索,,以避免過度探索,。Patel等人[279]強(qiáng)調(diào)了任務(wù)的問題回答方面。他們利用多個(gè)基于LLM的智能體探索環(huán)境,,并使它們能夠獨(dú)立回答“是”或“否”的問題,。這些個(gè)別回答被用來訓(xùn)練一個(gè)中央答案模型,負(fù)責(zé)聚合回答并生成健壯的答案,。

3) 指標(biāo): 性能通?;趦蓚€(gè)方面進(jìn)行評估:導(dǎo)航和問題回答。在導(dǎo)航中,,許多工作遵循了Das等人[259]介紹的方法,,并使用指標(biāo)如完成導(dǎo)航時(shí)到達(dá)目標(biāo)對象的距離(dT)、從初始位置到最終位置目標(biāo)距離的變化(d?)以及在情節(jié)中的任何時(shí)候到達(dá)目標(biāo)的最小距離(dmin)來評估模型的性能,。它們在距離目標(biāo)10,、30或50個(gè)動(dòng)作時(shí)進(jìn)行測試。還有一些工作基于指標(biāo)如軌跡長度,、目標(biāo)對象的交并比分?jǐn)?shù)(IoU)等進(jìn)行測量,。對于問題回答,評估主要涉及答案列表中真實(shí)答案的平均排名(MR)和答案的準(zhǔn)確性,。最近,,Majumdar等人[266]引入了基于LLM的聚合正確性指標(biāo)(LLM-Match)的概念,以評估開放詞匯答案的準(zhǔn)確性,。此外,,他們通過將智能體路徑的規(guī)范化長度作為權(quán)重納入正確性指標(biāo),來評估效率,。

VI. 具身智能體智能體被定義為能夠感知其環(huán)境并采取行動(dòng)以實(shí)現(xiàn)特定目標(biāo)的自主實(shí)體,。最近在多模態(tài)大型模型(MLMs)方面的進(jìn)展進(jìn)一步擴(kuò)展了智能體在實(shí)際場景中的應(yīng)用。當(dāng)這些基于MLM的智能體被具身化到物理實(shí)體中時(shí),,它們能夠有效地將它們的能力從虛擬空間轉(zhuǎn)移到物理世界,,從而成為具身智能體[298]。圖13顯示了具身智能體的時(shí)間線概述,。為了使具身智能體能夠在信息豐富且復(fù)雜的現(xiàn)實(shí)世界中操作,,具身智能體已經(jīng)被開發(fā)出強(qiáng)大的多模態(tài)感知、交互和規(guī)劃能力,,如圖14所示,。為了完成一個(gè)任務(wù),具身智能體通常涉及以下過程:1)將抽象和復(fù)雜的任務(wù)分解為特定的子任務(wù),,這被稱為高水平的具身任務(wù)規(guī)劃,。2)通過有效利用具身感知和具身交互模型或利用基礎(chǔ)模型的策略功能逐步實(shí)施這些子任務(wù),稱為低水平的具身動(dòng)作規(guī)劃。值得注意的是,,任務(wù)規(guī)劃涉及行動(dòng)前的思考,,因此通常被認(rèn)為是在網(wǎng)絡(luò)空間中進(jìn)行的。相比之下,,動(dòng)作規(guī)劃必須考慮與環(huán)境的有效交互以及將這些信息反饋給任務(wù)規(guī)劃者以調(diào)整任務(wù)規(guī)劃,。因此,對具身智能體來說,,將其能力從網(wǎng)絡(luò)空間對齊和概括到物理世界至關(guān)重要,。

圖片

圖片

A. 具身多模態(tài)基礎(chǔ)模型

具身智能體需要在視覺上識(shí)別其環(huán)境,通過聽覺理解指令,,并理解自身的狀態(tài),,以實(shí)現(xiàn)復(fù)雜的交互和操作。這要求一個(gè)模型整合多種感官模態(tài)和自然語言處理能力,,通過綜合不同類型的數(shù)據(jù)來增強(qiáng)智能體的理解和決策,。因此,出現(xiàn)了具身多模態(tài)基礎(chǔ)模型,。最近,,Google DeepMind發(fā)現(xiàn)利用基礎(chǔ)模型和大型、多樣化的數(shù)據(jù)集是最佳策略,。他們基于機(jī)器人變換器(RT)[11]開發(fā)了一系列工作,為未來具身智能體研究提供了重要見解,。在基礎(chǔ)機(jī)器人模型方面取得了顯著進(jìn)展,,從最初的SayCan [299]開始,,該模型使用三個(gè)獨(dú)立的模型進(jìn)行規(guī)劃,、可承受性和低級策略。Q-Transformer [300]后來統(tǒng)一了可承受性和低級策略,,PaLM-E [301]集成了規(guī)劃和可承受性,。然后,,RT-2 [302]通過將所有三個(gè)功能整合到一個(gè)單一模型中,實(shí)現(xiàn)了突破,,使聯(lián)合擴(kuò)展和正向遷移成為可能,。這代表了機(jī)器人基礎(chǔ)模型的顯著進(jìn)步。RT-2引入了視覺-語言-動(dòng)作(VLA)模型,,具有“思維鏈”推理能力,,能夠進(jìn)行多步驟的語義推理,如在各種情境中選擇替代工具或飲料,。最終,,RT-H [4]實(shí)現(xiàn)了具有動(dòng)作層次結(jié)構(gòu)的端到端機(jī)器人變換器,以細(xì)粒度推理任務(wù)規(guī)劃,。

為了解決具身模型的泛化限制,,Google與33個(gè)領(lǐng)先的學(xué)術(shù)機(jī)構(gòu)合作,,創(chuàng)建了全面的開放X-Embodiment數(shù)據(jù)集[303],整合了22種不同的數(shù)據(jù)類型,。使用這個(gè)數(shù)據(jù)集,,他們訓(xùn)練了通用大型模型RT-X。這也促進(jìn)了更多的開源VLMs參與機(jī)器人領(lǐng)域,,如基于LLaVA的EmbodiedGPT [304]和基于FLAMINGO的RoboFlamingo [305],。盡管開放X-Embodiment提供了大量數(shù)據(jù)集,但考慮到具身機(jī)器人平臺(tái)的快速發(fā)展,,構(gòu)建數(shù)據(jù)集仍然是一個(gè)挑戰(zhàn),。為了解決這個(gè)問題,AutoRT [306]創(chuàng)建了一個(gè)系統(tǒng),,用于在新環(huán)境中部署機(jī)器人以收集訓(xùn)練數(shù)據(jù),,利用LLMs通過更全面和多樣化的數(shù)據(jù)來增強(qiáng)學(xué)習(xí)能力。

另外,,基于變換器的架構(gòu)面臨效率問題,,因?yàn)榫呱砟P托枰L上下文,包括來自視覺,、語言和具身狀態(tài)的信息,,以及與當(dāng)前執(zhí)行任務(wù)相關(guān)的內(nèi)存。例如,,盡管RT-2表現(xiàn)出色,,但其推理頻率僅為1-3Hz。已經(jīng)做出了一些努力,,如通過量化和蒸餾部署模型,。此外,改進(jìn)模型框架是另一種可行的方法,。SARA-RT [307]采用了更高效的線性注意力,,而RoboMamba [308]利用了更適合長序列任務(wù)的mamba架構(gòu),使其推理速度比現(xiàn)有的機(jī)器人MLMs快七倍,?;谏赡P偷腞T擅長高層次任務(wù)理解和規(guī)劃,但在低層次動(dòng)作規(guī)劃方面存在局限性,,因?yàn)樯赡P蜔o法精確生成動(dòng)作參數(shù)以及高層次任務(wù)規(guī)劃與低層次動(dòng)作執(zhí)行之間的差距,。為了解決這個(gè)問題,Google引入了RT-Trajectory [309],,通過自動(dòng)添加機(jī)器人軌跡為學(xué)習(xí)機(jī)器人控制策略提供低層次視覺線索,。同樣,基于RT-2框架,機(jī)器人變換器動(dòng)作層次結(jié)構(gòu)(RT-H)通過中間語言動(dòng)作將高層次任務(wù)描述與低層次機(jī)器人動(dòng)作聯(lián)系起來[4],。此外,,VLA模型僅在與VLMs相關(guān)的高層次規(guī)劃和可承受性任務(wù)中表現(xiàn)出能力,它們未能在低層次物理交互中展示新技能,,并受到其數(shù)據(jù)集中技能類別的限制,,導(dǎo)致動(dòng)作笨拙。未來的研究應(yīng)該將強(qiáng)化學(xué)習(xí)整合到大型模型的訓(xùn)練框架中,,以提高泛化能力,,使VLA模型能夠在現(xiàn)實(shí)世界環(huán)境中自主學(xué)習(xí)和優(yōu)化低層次物理交互策略,從而更靈活,、更準(zhǔn)確地執(zhí)行各種物理動(dòng)作,。

B. 具身任務(wù)規(guī)劃

如前所述,對于任務(wù)“把蘋果放在盤子上”,,任務(wù)規(guī)劃器將其分解為子任務(wù)“找到蘋果,,拿起蘋果”和“找到盤子”、“放下蘋果”,。由于如何找到(導(dǎo)航任務(wù))或拿起/放下動(dòng)作(抓取任務(wù))不在任務(wù)規(guī)劃的范圍之內(nèi),。這些動(dòng)作通常在模擬器中預(yù)定義或使用預(yù)訓(xùn)練策略模型在真實(shí)場景中執(zhí)行,例如使用CLIPort [294]進(jìn)行抓取任務(wù),。傳統(tǒng)的具身任務(wù)規(guī)劃方法通?;陲@式規(guī)則和邏輯推理。例如,,使用符號(hào)規(guī)劃算法如STRIPS [310]和PDDL [311],,以及搜索算法如MCTS [312]和A* [313]來生成計(jì)劃。然而,,這些方法通常依賴于預(yù)定義的規(guī)則、約束和啟發(fā)式,,這些規(guī)則是固定的,,可能無法很好地適應(yīng)環(huán)境的動(dòng)態(tài)或不可預(yù)見的變化。隨著LLMs的普及,,許多工作嘗試使用LLMs進(jìn)行規(guī)劃或?qū)鹘y(tǒng)方法與LLMs結(jié)合,,利用它們內(nèi)部豐富的世界知識(shí)進(jìn)行推理和規(guī)劃,無需手工定義,,大大增強(qiáng)了模型的泛化能力,。

  1. 利用LLMs的緊急能力進(jìn)行規(guī)劃:在自然語言模型擴(kuò)大規(guī)模之前,任務(wù)規(guī)劃器通過訓(xùn)練像BERT這樣的模型在具身指令數(shù)據(jù)集上,,如Alfred [314]和Alfworld [315],,由FILM [316]展示。然而,這種方法受到訓(xùn)練集示例的限制,,無法有效與物理世界對齊?,F(xiàn)在,由于LLMs的緊急能力,,它們可以使用內(nèi)部世界知識(shí)進(jìn)行任務(wù)分解,,并通過思維鏈推理,類似于人類在行動(dòng)前的推理過程,。例如,,Translated LM [317]和Inner Monologue [318]可以將復(fù)雜任務(wù)分解為可管理的步驟,并使用內(nèi)部邏輯和知識(shí)體系制定解決方案,,無需額外訓(xùn)練,,如ReAct [319]。同樣,,多智能體協(xié)作框架ReAd [320]提出了通過不同提示進(jìn)行有效自我完善計(jì)劃的方法,。此外,一些方法將過去成功的示例抽象為一系列技能存儲(chǔ)在記憶庫中,,在推理期間考慮以提高規(guī)劃成功率[321]–[323],。一些工作使用代碼作為推理媒介而不是自然語言,任務(wù)規(guī)劃根據(jù)可用的API庫生成代碼[324]–[326],。此外,,多輪推理可以有效地糾正任務(wù)規(guī)劃中的潛在幻覺,這是許多基于LLM的智能體研究的重點(diǎn),。例如,,Socratic Models [327]和Socratic Planner [328]使用蘇格拉底式提問來得出可靠的計(jì)劃。然而,,在任務(wù)規(guī)劃期間,,執(zhí)行期間可能出現(xiàn)潛在故障,通常由于規(guī)劃器沒有完全考慮真實(shí)環(huán)境的復(fù)雜性和任務(wù)執(zhí)行的困難[318],,[329],。由于缺乏視覺信息,計(jì)劃的子任務(wù)可能與實(shí)際場景偏離,,導(dǎo)致任務(wù)失敗,。因此,將視覺信息整合到規(guī)劃或執(zhí)行期間的重新規(guī)劃中是必要的,。這種方法可以顯著提高任務(wù)規(guī)劃的準(zhǔn)確性和可行性,,更好地應(yīng)對真實(shí)世界環(huán)境的挑戰(zhàn)。

  2. 利用具身感知模型的視覺信息進(jìn)行規(guī)劃:基于上述討論,,將視覺信息進(jìn)一步整合到任務(wù)規(guī)劃(或重新規(guī)劃)中尤為重要,。在此過程中,,由視覺輸入提供的對象標(biāo)簽、位置或描述可以為LLMs的任務(wù)分解和執(zhí)行提供關(guān)鍵參考,。通過視覺信息,,LLMs可以更準(zhǔn)確地識(shí)別當(dāng)前環(huán)境中的目標(biāo)對象和障礙物,從而優(yōu)化任務(wù)步驟或修改子任務(wù)目標(biāo),。一些工作使用對象檢測器在任務(wù)執(zhí)行期間查詢環(huán)境中存在的對象,,并將此信息反饋給LLM,允許它修改當(dāng)前計(jì)劃中的不合理步驟[327],,[329],,[330]。RoboGPT考慮了同一任務(wù)中相似對象的不同名稱,,進(jìn)一步提高了重新規(guī)劃的可行性[10],。然而,標(biāo)簽提供的信息仍然過于有限,??梢蕴峁└嗟膱鼍靶畔幔縎ayPlan [331]提出使用分層3D場景圖來表示環(huán)境,,有效緩解了在大型,、多層和多房間環(huán)境中進(jìn)行任務(wù)規(guī)劃的挑戰(zhàn)。同樣,,ConceptGraphs [332]也采用3D場景圖向LLMs提供環(huán)境信息,。與SayPlan相比,它提供了更詳細(xì)的開放世界對象檢測,,并將任務(wù)規(guī)劃以基于代碼的格式呈現(xiàn),,這更有效,更適合復(fù)雜任務(wù)的需求,。然而,,有限的視覺信息可能導(dǎo)致智能體對其環(huán)境的理解不足。雖然LLMs獲得了視覺提示,,但它們常常無法捕捉到環(huán)境的復(fù)雜性和動(dòng)態(tài)變化,,導(dǎo)致誤解和任務(wù)失敗。例如,,如果一條毛巾被鎖在浴室柜里,智能體可能會(huì)在浴室里反復(fù)搜尋而不考慮這種可能性[10],。為了解決這個(gè)問題,,必須開發(fā)更強(qiáng)大的算法來整合多種感官數(shù)據(jù),增強(qiáng)智能體對環(huán)境的理解,。此外,,利用歷史數(shù)據(jù)和上下文推理,,即使在視覺信息有限的情況下,也可以幫助智能體做出合理的判斷和決策,。這種多模態(tài)整合和基于上下文的推理方法不僅提高了任務(wù)執(zhí)行的成功率,,而且為具身人工智能的發(fā)展提供了新的視角。

  3. 利用VLMs進(jìn)行規(guī)劃:與使用外部視覺模型將環(huán)境信息轉(zhuǎn)換為文本不同,,VLM模型可以在潛在空間中捕捉視覺細(xì)節(jié),,特別是難以用對象標(biāo)簽表示的上下文信息。VLM能夠識(shí)別視覺現(xiàn)象背后的規(guī)則,;例如,,即使毛巾在環(huán)境中不可見,也可以推斷毛巾可能存放在柜子里,。這個(gè)過程本質(zhì)上展示了如何在潛在空間中更有效地對齊抽象的視覺特征和結(jié)構(gòu)化的文本特征,。在EmbodiedGPT [304]中,Embodied-Former模塊對齊了具身的,、視覺的和文本的信息,,在任務(wù)規(guī)劃期間有效考慮了智能體的狀態(tài)和環(huán)境信息。與直接使用第三人稱視角圖像的EmbodiedGPT不同,,LEO [333]將2D自我中心圖像和3D場景編碼為視覺標(biāo)記,。這種方法有效地感知了3D世界信息并據(jù)此執(zhí)行任務(wù)。同樣,,EIF-Unknow模型使用從體素特征中提取的語義特征圖作為視覺標(biāo)記,,這些標(biāo)記與文本標(biāo)記一起輸入到訓(xùn)練有素的LLaVA模型中進(jìn)行任務(wù)規(guī)劃[334]。此外,,具身多模態(tài)基礎(chǔ)模型,,或VLA模型,已經(jīng)在RT系列[11],、[302],、PaLM-E [301]和Matcha [335]等研究中通過大型數(shù)據(jù)集進(jìn)行了廣泛訓(xùn)練,以實(shí)現(xiàn)在具身場景中視覺和文本特征的對齊,。然而,,任務(wù)規(guī)劃只是智能體完成指令任務(wù)的第一步;隨后的動(dòng)作規(guī)劃決定了任務(wù)是否可以完成,。在RoboGPT [10]的實(shí)驗(yàn)中,,任務(wù)規(guī)劃的準(zhǔn)確率達(dá)到了96%,但整體任務(wù)完成率僅為60%,,受到低級規(guī)劃器性能的限制,。因此,具身智能體能否從“想象任務(wù)如何完成”的網(wǎng)絡(luò)空間過渡到“與環(huán)境互動(dòng)并完成任務(wù)”的物理世界,,取決于有效動(dòng)作規(guī)劃,。

圖片

圖片

C. 具身動(dòng)作規(guī)劃

第VI-B節(jié)討論了任務(wù)規(guī)劃和動(dòng)作規(guī)劃的定義和區(qū)別,。顯然,動(dòng)作規(guī)劃必須解決現(xiàn)實(shí)世界的不確定性,,因?yàn)槿蝿?wù)規(guī)劃提供的子任務(wù)粒度不足以指導(dǎo)智能體在環(huán)境互動(dòng)中,。通常,智能體可以通過兩種方式實(shí)現(xiàn)動(dòng)作規(guī)劃:1) 使用預(yù)訓(xùn)練的具身感知和具身干預(yù)模型作為工具,,通過API逐步完成任務(wù)規(guī)劃指定的子任務(wù),,2) 利用VLA模型的固有能力派生動(dòng)作規(guī)劃。此外,,動(dòng)作規(guī)劃器的執(zhí)行結(jié)果反饋給任務(wù)規(guī)劃器以調(diào)整和改進(jìn)任務(wù)規(guī)劃,。

  1. 使用API的動(dòng)作:一種典型的方法是為LLMs提供各種訓(xùn)練有素的政策模型的定義和描述作為上下文,使它們能夠理解這些工具并決定如何以及何時(shí)為特定任務(wù)調(diào)用它們[299],,[329],。此外,通過生成代碼,,一系列更細(xì)粒度的工具可以抽象成一個(gè)函數(shù)庫以供調(diào)用,,而不是直接傳遞子任務(wù)所需的參數(shù)給導(dǎo)航和抓取模型[326]??紤]到環(huán)境的不確定性,,Reflexion可以進(jìn)一步調(diào)整這些工具以實(shí)現(xiàn)更好的泛化[336]。優(yōu)化這些工具可以增強(qiáng)智能體的魯棒性,,并且可能需要新工具來完成未知任務(wù),。DEPS在零樣本學(xué)習(xí)的前提條件下,賦予LLMs各種角色設(shè)置,,以學(xué)習(xí)在與環(huán)境互動(dòng)時(shí)的各種技能,。在隨后的互動(dòng)中,LLMs可以學(xué)習(xí)選擇和組合這些技能以發(fā)展新技能[337],。這種分層規(guī)劃范式允許智能體專注于高層次任務(wù)規(guī)劃和決策,,同時(shí)將特定動(dòng)作執(zhí)行委托給策略模型,簡化了開發(fā)過程,。任務(wù)規(guī)劃器和動(dòng)作規(guī)劃器的模塊化使它們能夠獨(dú)立開發(fā),、測試和優(yōu)化,增強(qiáng)了系統(tǒng)的靈活性和可維護(hù)性,。這種方法允許智能體通過調(diào)用不同的動(dòng)作規(guī)劃器適應(yīng)各種任務(wù)和環(huán)境,,并促進(jìn)修改,而無需對智能體的結(jié)構(gòu)進(jìn)行重大更改,。然而,,調(diào)用外部策略模型可能會(huì)引入延遲,可能影響響應(yīng)時(shí)間和效率,,特別是在實(shí)時(shí)任務(wù)中,。智能體的性能嚴(yán)重依賴于策略模型的質(zhì)量。如果策略模型無效,,智能體的整體性能將受到影響,。

  2. 使用VLA模型的動(dòng)作:與之前在同一系統(tǒng)中執(zhí)行任務(wù)規(guī)劃和動(dòng)作執(zhí)行的方法不同,這種范式利用具身多模態(tài)基礎(chǔ)模型的能力進(jìn)行規(guī)劃和執(zhí)行動(dòng)作,,減少了通信延遲并提高了系統(tǒng)響應(yīng)速度和效率,。在VLA模型中,感知,、決策和執(zhí)行模塊的緊密整合使系統(tǒng)能夠更有效地處理復(fù)雜任務(wù)并適應(yīng)動(dòng)態(tài)環(huán)境的變化,。這種整合還有助于實(shí)時(shí)反饋,使智能體能夠自我調(diào)整策略,,從而增強(qiáng)任務(wù)執(zhí)行的魯棒性和適應(yīng)性[3],,[303],[304],。然而,,這種范式無疑更加復(fù)雜和昂貴,特別是處理復(fù)雜或長期任務(wù)時(shí),。此外,,一個(gè)關(guān)鍵問題是,沒有具身世界模型的動(dòng)作規(guī)劃器,,僅憑LLM的內(nèi)部知識(shí)無法模擬物理定律,。這個(gè)限制阻礙了智能體在物理世界中準(zhǔn)確有效地完成各種任務(wù),阻止了從網(wǎng)絡(luò)空間到物理世界的無縫轉(zhuǎn)移,。

VII. 仿真到現(xiàn)實(shí)適應(yīng)性(Sim-to-Real Adaptation)

在具身人工智能中,,仿真到現(xiàn)實(shí)適應(yīng)性指的是將學(xué)習(xí)能力或行為從模擬環(huán)境(網(wǎng)絡(luò)空間)轉(zhuǎn)移到現(xiàn)實(shí)世界場景(物理世界)的過程。它涉及驗(yàn)證和改進(jìn)在模擬中開發(fā)的算法,、模型和控制策略的有效性,,以確保它們在物理環(huán)境中表現(xiàn)出魯棒性和可靠性。為了實(shí)現(xiàn)仿真到現(xiàn)實(shí)適應(yīng)性,,具身世界模型,、數(shù)據(jù)收集和訓(xùn)練方法以及具身控制算法是三個(gè)基本組成部分。

A. 具身世界模型(Embodied World Model)

仿真到現(xiàn)實(shí)涉及創(chuàng)建與現(xiàn)實(shí)世界環(huán)境非常相似的模擬世界模型,,幫助算法在轉(zhuǎn)移時(shí)更好地泛化,。世界模型方法旨在構(gòu)建一個(gè)端到端的模型,通過生成或預(yù)測的方式,,將視覺映射到動(dòng)作,,甚至任何輸入到任何輸出,以做出決策,。這類世界模型與VLA模型的最大區(qū)別在于,,VLA模型首先是在大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)集上訓(xùn)練以獲得高水平的緊急能力,然后與現(xiàn)實(shí)世界的機(jī)器人數(shù)據(jù)共同微調(diào),。相比之下,,世界模型是從物理世界數(shù)據(jù)從頭開始訓(xùn)練的,隨著數(shù)據(jù)量的增加逐漸發(fā)展出高級能力,。然而,,它們?nèi)匀皇堑图壍奈锢硎澜缒P停悬c(diǎn)像人類神經(jīng)反射系統(tǒng)的工作機(jī)制,。這使它們更適合于輸入和輸出相對結(jié)構(gòu)化的場景,,如自動(dòng)駕駛(輸入:視覺,輸出:油門,、剎車,、方向盤)或物體排序(輸入:視覺、指令,、數(shù)值傳感器,,輸出:抓取目標(biāo)物體并將其放置在目標(biāo)位置)。它們不太適合于泛化到結(jié)構(gòu)化,、復(fù)雜的具身任務(wù),。在物理模擬領(lǐng)域,學(xué)習(xí)世界模型是有希望的,。與傳統(tǒng)的模擬方法相比,,它提供了顯著的優(yōu)勢,例如能夠在不完整信息下推理交互,、滿足實(shí)時(shí)計(jì)算需求,,并隨著時(shí)間的推移提高預(yù)測準(zhǔn)確性。這種世界模型的預(yù)測能力至關(guān)重要,,它使機(jī)器人能夠發(fā)展出在人類世界中操作所需的物理直覺,。如圖15所示,根據(jù)世界環(huán)境的學(xué)習(xí)流程,,它們可以分為基于生成的方法,、基于預(yù)測的方法和知識(shí)驅(qū)動(dòng)的方法。我們在表XI中簡要總結(jié)了提到的方法,。

圖片

圖片

  1. 基于生成的方法(Generation-based Methods):隨著模型規(guī)模和數(shù)據(jù)的逐步增加,,生成模型已經(jīng)展示了理解和生成符合物理定律的圖像(例如,World Models [338]),、視頻(例如,,Sora [17]、Pandora [339])、點(diǎn)云(例如,,3D-VLA [340])或其他格式數(shù)據(jù)(例如,,DWM [341])的能力。這表明生成模型能夠?qū)W習(xí)并內(nèi)化世界知識(shí),。具體來說,,經(jīng)過大量數(shù)據(jù)的暴露后,生成模型不僅能捕捉數(shù)據(jù)的統(tǒng)計(jì)特性,,還能通過其內(nèi)在結(jié)構(gòu)和機(jī)制模擬真實(shí)世界的物理和因果關(guān)系。因此,,這些生成模型可以被視為不僅僅是簡單的模式識(shí)別工具:它們表現(xiàn)出世界模型的特征,。因此,生成模型中嵌入的世界知識(shí)可以被利用來提高其他模型的性能,。通過挖掘和利用生成模型中表示的世界知識(shí),,我們可以提高模型的泛化能力和魯棒性。這種方法不僅增強(qiáng)了模型對新環(huán)境的適應(yīng)性,,還提高了對未知數(shù)據(jù)的預(yù)測準(zhǔn)確性[339],、[340]。然而,,生成模型也有一些限制和缺點(diǎn),。例如,當(dāng)數(shù)據(jù)分布顯著偏斜或訓(xùn)練數(shù)據(jù)不足時(shí),,生成模型可能會(huì)產(chǎn)生不準(zhǔn)確或失真的輸出,。此外,這些模型的訓(xùn)練過程通常需要大量的計(jì)算資源和時(shí)間,,模型通常缺乏可解釋性,,這使得它們的實(shí)際應(yīng)用變得復(fù)雜??偟膩碚f,,雖然生成模型在理解和生成符合物理定律的內(nèi)容方面展示了巨大的潛力,但要有效應(yīng)用它們,,必須解決幾個(gè)技術(shù)和實(shí)際挑戰(zhàn),。這些挑戰(zhàn)包括提高模型效率、增強(qiáng)可解釋性以及解決與數(shù)據(jù)偏差相關(guān)的問題,。隨著研究和發(fā)展的進(jìn)行,,預(yù)計(jì)生成模型在未來的應(yīng)用中將展示出更大的價(jià)值和潛力。

  2. 基于預(yù)測的方法(Prediction-based Methods):基于預(yù)測的世界模型通過構(gòu)建和利用內(nèi)部表示來預(yù)測和理解環(huán)境,。通過根據(jù)給定條件在潛在空間重建相應(yīng)的特征,,它捕獲了更深層次的語義和相關(guān)的世界知識(shí)。這個(gè)模型將輸入信息映射到潛在空間,并在該空間內(nèi)操作,,提取和利用高級語義信息,,從而使機(jī)器人能夠更準(zhǔn)確地感知世界環(huán)境的基本表示(例如,I-JEPA [16],、MC-JEPA [342],、A-JEPA [343]、Point-JEPA [354],、IWM [344])并更準(zhǔn)確地執(zhí)行具身下游任務(wù)(例如,,iVideoGPT [345]、IRASim [346],、STP [347],、MuDreamer [348])。與傳統(tǒng)的像素級信息相比,,潛在特征可以抽象并解耦各種形式的知識(shí),,使模型能夠更有效地處理復(fù)雜任務(wù)和場景,并提高其泛化能力[355],。例如,,在時(shí)空建模中,世界模型需要根據(jù)對象的當(dāng)前狀態(tài)和交互的性質(zhì)預(yù)測其交互后的后狀態(tài),,將這些信息與其內(nèi)部知識(shí)結(jié)合起來,。

  3. 知識(shí)驅(qū)動(dòng)的方法(Knowledge-driven Methods): 知識(shí)驅(qū)動(dòng)的世界模型將人工構(gòu)建的知識(shí)注入模型中,賦予它們世界知識(shí),。這種方法在具身人工智能領(lǐng)域顯示出廣泛的應(yīng)用潛力,。例如,在real2sim2real方法[357]中,,使用真實(shí)世界知識(shí)構(gòu)建符合物理規(guī)則的模擬器,,然后使用這些模擬器訓(xùn)練機(jī)器人,增強(qiáng)模型的魯棒性和泛化能力,。此外,,人工構(gòu)建常識(shí)或符合物理規(guī)則的知識(shí)并將其應(yīng)用于生成模型或模擬器是一種常見策略(例如,ElastoGen[350],、One-2-3-45[351],、PLoT[349])。這種方法對模型施加了更符合物理實(shí)際的約束,,增強(qiáng)了其在生成任務(wù)中的可靠性和可解釋性,。這些約束確保了模型的知識(shí)既準(zhǔn)確又一致,減少了訓(xùn)練和應(yīng)用過程中的不確定性,。一些方法將人工創(chuàng)建的物理規(guī)則與LLMs或MLMs結(jié)合起來,。通過利用LLMs和MLMs的常識(shí)能力,,這些方法(例如,Holodeck[71],、LEGENT[352],、GRUtopia[353])通過自動(dòng)空間布局優(yōu)化生成了多樣化且語義豐富的場景。這極大地推進(jìn)了通用具身代理的發(fā)展,,通過在新穎和多樣化的環(huán)境中訓(xùn)練它們,。

B. 數(shù)據(jù)收集和訓(xùn)練(Data Collection and Training)

對于仿真到現(xiàn)實(shí)適應(yīng)性,高質(zhì)量數(shù)據(jù)非常重要,。傳統(tǒng)的數(shù)據(jù)收集方法涉及昂貴的設(shè)備,、精確的操作,并且耗時(shí),、勞動(dòng)密集,,通常缺乏靈活性。最近,,一些高效且成本效益高的方法被提出用于高質(zhì)量演示數(shù)據(jù)收集和訓(xùn)練。本節(jié)將討論真實(shí)世界和模擬環(huán)境中數(shù)據(jù)收集的各種方法,。圖16展示了真實(shí)世界和模擬環(huán)境中的演示數(shù)據(jù),。

圖片

圖片

  1. 真實(shí)世界數(shù)據(jù)(Real-World Data):在大量、豐富的數(shù)據(jù)集上訓(xùn)練大型,、高容量模型已經(jīng)顯示出顯著的能力和顯著的成功,,有效地解決了下游應(yīng)用問題。例如,,像ChatGPT,、GPT-4和LLaMA這樣的LLMs不僅在NLP領(lǐng)域表現(xiàn)出色,而且為下游任務(wù)提供了出色的解決問題能力,。因此,,是否有可能在機(jī)器人領(lǐng)域訓(xùn)練一個(gè)具身大型模型,通過訓(xùn)練擁有強(qiáng)大的泛化能力,,并能夠適應(yīng)新場景和機(jī)器人任務(wù),。這需要大量的具身數(shù)據(jù)集為模型訓(xùn)練提供數(shù)據(jù)。Open X-Embodiment[303]是一個(gè)來自22種不同機(jī)器人的具身數(shù)據(jù)集,,包含527種技能和160,266個(gè)任務(wù),。收集的數(shù)據(jù)由機(jī)器人執(zhí)行操作的真實(shí)演示數(shù)據(jù)組成。該數(shù)據(jù)集主要關(guān)注家庭和廚房環(huán)境,,涉及家具,、食物和餐具等物品。操作主要圍繞拿起放置任務(wù),,一小部分涉及更復(fù)雜的操作,。在這個(gè)數(shù)據(jù)集上訓(xùn)練的高容量模型RT-X展示了出色的遷移能力。UMI[358]提出了一個(gè)數(shù)據(jù)收集和策略學(xué)習(xí)框架。他們設(shè)計(jì)了一個(gè)手持夾持器和優(yōu)雅的界面進(jìn)行數(shù)據(jù)收集,,實(shí)現(xiàn)了便攜,、低成本、信息豐富的數(shù)據(jù)收集,,用于挑戰(zhàn)性的雙手和動(dòng)態(tài)演示數(shù)據(jù),。通過簡單地修改訓(xùn)練數(shù)據(jù),機(jī)器人可以實(shí)現(xiàn)零樣本泛化的雙手,、精確任務(wù),。Mobile ALOHA[359]是一個(gè)低成本的全身移動(dòng)操作系統(tǒng)。它可以用于收集全身移動(dòng)下的雙手操作任務(wù)數(shù)據(jù),,如炒蝦和上菜,。使用這個(gè)系統(tǒng)和靜態(tài)ALOHA收集的數(shù)據(jù)訓(xùn)練代理可以提高移動(dòng)操作任務(wù)的性能。這樣的代理可以作為家庭助手或工作助手,。在人類-代理協(xié)作[360]中,,人類和代理在數(shù)據(jù)收集過程中一起學(xué)習(xí),減少人類工作量,,加快數(shù)據(jù)采集速度,,提高數(shù)據(jù)質(zhì)量。具體來說,,在具身場景中,,在數(shù)據(jù)收集期間,人類提供初始動(dòng)作輸入,。隨后,,代理通過迭代微調(diào)和去噪過程優(yōu)化這些動(dòng)作,逐步產(chǎn)生精確,、高質(zhì)量的操作演示,。整個(gè)過程可以總結(jié)如下:人類在操作中貢獻(xiàn)直覺和多樣性,而代理處理優(yōu)化和穩(wěn)定性,,減少對操作員的依賴,,使執(zhí)行更復(fù)雜的任務(wù),收集更高質(zhì)量的數(shù)據(jù),。

  2. 模擬數(shù)據(jù)(Simulated Data):前述的數(shù)據(jù)收集方法涉及直接在真實(shí)世界中收集演示數(shù)據(jù)以訓(xùn)練代理,。這種收集方法通常需要大量的人力、物力資源和時(shí)間,,導(dǎo)致效率低下,。因此,在大多數(shù)情況下,,研究人員可以選擇在模擬環(huán)境中收集數(shù)據(jù)集進(jìn)行模型訓(xùn)練,。在模擬環(huán)境中收集數(shù)據(jù)不需要大量資源,,通常可以由程序自動(dòng)化,,節(jié)省大量時(shí)間,。CLIPORT[294]和Transporter Networks[361]從Pybullet模擬器收集演示數(shù)據(jù),用于端到端網(wǎng)絡(luò)模型訓(xùn)練,,并成功地將模型從模擬轉(zhuǎn)移到真實(shí)世界,。GAPartNet[362]構(gòu)建了一個(gè)以零件為中心的大規(guī)模交互數(shù)據(jù)集GAPartNet,為感知和交互任務(wù)提供了豐富的零件級注釋,。他們提出了一個(gè)用于領(lǐng)域泛化的3D零件分割和姿態(tài)估計(jì)的流程,,可以很好地泛化到模擬器和真實(shí)世界中未見過的物體類別。SemGrasp[289]構(gòu)建了一個(gè)大規(guī)模的抓取文本對齊數(shù)據(jù)集CapGrasp,,這是一個(gè)來自虛擬環(huán)境的語義豐富的靈巧手抓取數(shù)據(jù)集,。

  3. 仿真到現(xiàn)實(shí)范式(Sim-to-Real Paradigms):最近,引入了幾個(gè)仿真到現(xiàn)實(shí)范式,,通過在模擬環(huán)境中進(jìn)行廣泛的學(xué)習(xí),,然后遷移到現(xiàn)實(shí)世界設(shè)置,以減少對廣泛且昂貴的真實(shí)世界演示數(shù)據(jù)的需求,。本節(jié)概述了五種仿真到現(xiàn)實(shí)轉(zhuǎn)移的范式,,如圖17所示。Real2Sim2real[363]通過在“數(shù)字孿生”模擬環(huán)境中利用強(qiáng)化學(xué)習(xí)(RL)增強(qiáng)了真實(shí)世界場景中的模仿學(xué)習(xí),。該方法涉及在模擬中通過廣泛的RL加強(qiáng)策略,然后將這些策略轉(zhuǎn)移到真實(shí)世界以解決數(shù)據(jù)稀缺問題,,并實(shí)現(xiàn)有效的機(jī)器人操作模仿學(xué)習(xí),。最初,使用NeRF和VR進(jìn)行場景掃描和重建,,并將構(gòu)建的場景資產(chǎn)導(dǎo)入模擬器以實(shí)現(xiàn)真實(shí)到模擬的保真度,。隨后,在模擬中進(jìn)行RL以微調(diào)從真實(shí)世界收集的稀疏專家演示得出的初始策略,。最后,,將經(jīng)過改進(jìn)的策略轉(zhuǎn)移到真實(shí)世界設(shè)置中。TRANSIC[364]通過實(shí)時(shí)人類干預(yù)來糾正真實(shí)世界場景中的機(jī)器人行為,,縮小了仿真到現(xiàn)實(shí)的差距,。它通過幾個(gè)步驟增強(qiáng)了仿真到現(xiàn)實(shí)的轉(zhuǎn)移性能:首先,機(jī)器人在模擬環(huán)境中使用RL訓(xùn)練以建立基礎(chǔ)策略,。然后,,這些策略在真實(shí)機(jī)器人上實(shí)施,人類通過遠(yuǎn)程控制實(shí)時(shí)干預(yù)和糾正錯(cuò)誤行為,。從這些干預(yù)中收集的數(shù)據(jù)用于訓(xùn)練殘差策略,。整合基礎(chǔ)和殘差策略確保了在仿真到現(xiàn)實(shí)轉(zhuǎn)移后,,真實(shí)世界應(yīng)用中的軌跡更平滑。這種方法顯著減少了對真實(shí)世界數(shù)據(jù)收集的需求,,從而減輕了負(fù)擔(dān),,同時(shí)實(shí)現(xiàn)了有效的仿真到現(xiàn)實(shí)轉(zhuǎn)移。Domain Randomization[365]–[367]通過在模擬期間引入?yún)?shù)隨機(jī)化,,增強(qiáng)了在模擬環(huán)境中訓(xùn)練的模型對真實(shí)世界場景的泛化,,涵蓋了可能在真實(shí)世界設(shè)置中發(fā)生的條件。這種方法提高了訓(xùn)練模型的魯棒性,,使其能夠從模擬環(huán)境部署到真實(shí)環(huán)境,。System Identification[368],[369]構(gòu)建了真實(shí)世界環(huán)境中物理場景的準(zhǔn)確數(shù)學(xué)模型,,包括動(dòng)態(tài)和視覺渲染等參數(shù),。它的目標(biāo)是使模擬環(huán)境與真實(shí)世界設(shè)置非常相似,從而促進(jìn)在模擬中訓(xùn)練的模型順利過渡到真實(shí)環(huán)境,。Lang4sim2real[370]使用自然語言作為橋接,,通過使用圖像的文本描述作為跨域統(tǒng)一信號(hào)來解決仿真到現(xiàn)實(shí)的差距。這種方法有助于學(xué)習(xí)領(lǐng)域不變的圖像表示,,從而提高跨模擬和真實(shí)環(huán)境的泛化性能,。最初,一個(gè)編碼器在帶有跨域語言描述的圖像數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,。隨后,,使用領(lǐng)域不變表示,訓(xùn)練了一個(gè)多領(lǐng)域,、多任務(wù)的語言條件行為克隆策略,。這種方法通過從豐富的模擬數(shù)據(jù)中獲取額外信息來補(bǔ)償真實(shí)世界數(shù)據(jù)的稀缺性,從而增強(qiáng)了仿真到現(xiàn)實(shí)轉(zhuǎn)移,。

C. 具身控制(Embodied Control)

具身控制通過與環(huán)境的交互學(xué)習(xí),,并使用獎(jiǎng)勵(lì)機(jī)制優(yōu)化行為以獲得最優(yōu)策略,從而避免了傳統(tǒng)物理建模方法的缺點(diǎn),。具身控制方法可以分為兩類:1) 深度強(qiáng)化學(xué)習(xí)(DRL),。DRL可以處理高維數(shù)據(jù)并學(xué)習(xí)復(fù)雜的行為模式,使其適合于決策和控制,?;旌虾蛣?dòng)態(tài)策略梯度(HDPG)[371]被提出用于雙足運(yùn)動(dòng),允許控制策略根據(jù)多個(gè)標(biāo)準(zhǔn)動(dòng)態(tài)同時(shí)優(yōu)化,。DeepGait [372]是一個(gè)神經(jīng)網(wǎng)絡(luò)策略,,用于地形感知運(yùn)動(dòng),它結(jié)合了基于模型的運(yùn)動(dòng)規(guī)劃和強(qiáng)化學(xué)習(xí)的方法,。它包括一個(gè)地形感知規(guī)劃器,,用于生成步態(tài)序列和基礎(chǔ)運(yùn)動(dòng),,引導(dǎo)機(jī)器人朝目標(biāo)方向前進(jìn),以及一個(gè)步態(tài)和基礎(chǔ)運(yùn)動(dòng)控制器,,用于在保持平衡的同時(shí)執(zhí)行這些序列,。規(guī)劃器和控制器都使用神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器進(jìn)行參數(shù)化,并使用深度強(qiáng)化學(xué)習(xí)算法進(jìn)行優(yōu)化,。2) 模仿學(xué)習(xí),。DRL的一個(gè)缺點(diǎn)是需要大量數(shù)據(jù)來自眾多試驗(yàn)。為了解決這個(gè)問題,,引入了模仿學(xué)習(xí),,旨在通過收集高質(zhì)量的演示來最小化數(shù)據(jù)使用。為了提高數(shù)據(jù)效率,,提出了Offline RL + Online RL來降低交互成本并確保安全,。首先使用離線RL從靜態(tài)的、預(yù)先收集的大型數(shù)據(jù)集中學(xué)習(xí)策略,。然后將這些策略部署在真實(shí)環(huán)境中進(jìn)行實(shí)時(shí)交互和探索,,并根據(jù)反饋進(jìn)行調(diào)整。人類演示的代表性模仿學(xué)習(xí)方法是ALOHA [373]和Mobile ALOHA [359],。盡管具身AI包括高級算法,、模型和規(guī)劃模塊,但其最基礎(chǔ)和最關(guān)鍵的組成部分是具身控制,。因此,,必須考慮如何控制物理實(shí)體并賦予它們物理智能。具身控制與硬件密切相關(guān),,例如控制關(guān)節(jié)運(yùn)動(dòng),、末端執(zhí)行器位置和行走速度。對于機(jī)器人臂,,了解末端執(zhí)行器的位置,如何規(guī)劃關(guān)節(jié)軌跡以將手臂移動(dòng)到目標(biāo),?對于仿人機(jī)器人,,了解運(yùn)動(dòng)模式,如何控制關(guān)節(jié)以實(shí)現(xiàn)目標(biāo)姿勢,?這些是需要解決的關(guān)鍵問題,。一些工作集中在機(jī)器人控制上,增強(qiáng)了機(jī)器人動(dòng)作的靈活性,。[374]提出了一個(gè)基于視覺的全身控制框架,。通過連接一個(gè)機(jī)器人臂和一個(gè)機(jī)器狗,利用所有自由度(腿上有12個(gè)關(guān)節(jié),,臂上有6個(gè)關(guān)節(jié),,夾持器上有1個(gè)),,它跟蹤機(jī)器狗的速度和機(jī)器人臂的末端執(zhí)行器位置,實(shí)現(xiàn)了更靈活的控制,。一些工作[375],,[376]采用傳統(tǒng)方法控制雙足機(jī)器人行走。MIT的Cheetah 3 [377],、ANYmal [378]和Atlas [379]使用了穩(wěn)健的行走控制器來管理機(jī)器人,。這些機(jī)器人可以用于更敏捷的運(yùn)動(dòng)任務(wù),如跳躍或克服各種障礙[380]–[384],。其他工作[385],,[386]專注于仿人機(jī)器人的控制,以執(zhí)行各種動(dòng)作,,模仿人類行為,。圖18展示了一些例子。具身控制整合了RL和仿真到現(xiàn)實(shí)技術(shù),,通過環(huán)境交互優(yōu)化策略,,使未知領(lǐng)域的探索成為可能,可能超越人類能力,,并適應(yīng)非結(jié)構(gòu)化環(huán)境,。雖然機(jī)器人可以模仿許多人類行為,但有效的任務(wù)完成通常需要基于環(huán)境反饋的RL訓(xùn)練,。最具挑戰(zhàn)性的場景包括接觸密集型任務(wù),,其中操縱需要根據(jù)反饋進(jìn)行實(shí)時(shí)調(diào)整,例如被操縱對象的狀態(tài),、變形,、材料和力量。在這種情況下,,RL是不可或缺的,。在MLM時(shí)代,這些模型具有對場景語義的泛化理解,,為RL提供了強(qiáng)大的獎(jiǎng)勵(lì)函數(shù),。此外,RL對于將大型模型與預(yù)期任務(wù)對齊至關(guān)重要,。未來,,在預(yù)訓(xùn)練和微調(diào)之后,仍然需要RL來與物理世界對齊,,確保在真實(shí)世界環(huán)境中有效部署,。

圖片

VIII. 挑戰(zhàn)和未來方向

盡管具身AI取得了快速進(jìn)展,但它面臨幾個(gè)挑戰(zhàn),,并提出了激動(dòng)人心的未來方向,。高質(zhì)量機(jī)器人數(shù)據(jù)集:獲取足夠的真實(shí)世界機(jī)器人數(shù)據(jù)仍然是一個(gè)重大挑戰(zhàn),。收集這些數(shù)據(jù)既耗時(shí)又耗費(fèi)資源。僅依賴模擬數(shù)據(jù)會(huì)加劇仿真到現(xiàn)實(shí)的差距問題,。創(chuàng)建多樣化的真實(shí)世界機(jī)器人數(shù)據(jù)集需要各種機(jī)構(gòu)之間密切而廣泛的合作,。此外,開發(fā)更現(xiàn)實(shí)和高效的模擬器對于提高模擬數(shù)據(jù)的質(zhì)量至關(guān)重要,。當(dāng)前的工作RT-1 [11]使用基于機(jī)器人圖像和自然語言命令的預(yù)訓(xùn)練模型,。RT-1在導(dǎo)航和抓取任務(wù)中取得了良好的結(jié)果,但獲取真實(shí)世界機(jī)器人數(shù)據(jù)集非常具有挑戰(zhàn)性,。為了構(gòu)建能夠在機(jī)器人學(xué)中跨場景和跨任務(wù)應(yīng)用的通用具身模型,,必須構(gòu)建大規(guī)模數(shù)據(jù)集,利用高質(zhì)量的模擬環(huán)境數(shù)據(jù)協(xié)助真實(shí)世界數(shù)據(jù),。高效利用人類演示數(shù)據(jù):高效利用人類演示數(shù)據(jù)涉及利用人類執(zhí)行的動(dòng)作和行為來訓(xùn)練和改進(jìn)機(jī)器人系統(tǒng),。這個(gè)過程包括收集、處理和從人類執(zhí)行機(jī)器人預(yù)期學(xué)習(xí)的任務(wù)的大型,、高質(zhì)量的數(shù)據(jù)集中學(xué)習(xí),。當(dāng)前的工作R3M [387]使用動(dòng)作標(biāo)簽和人類演示數(shù)據(jù)學(xué)習(xí)具有高成功率的通用表示,但復(fù)雜任務(wù)的效率仍需提高,。因此,,重要的是有效利用大量未結(jié)構(gòu)化、多標(biāo)簽和多模態(tài)的人類演示數(shù)據(jù),,結(jié)合動(dòng)作標(biāo)簽數(shù)據(jù),,訓(xùn)練能夠在短時(shí)間內(nèi)學(xué)習(xí)各種任務(wù)的具身模型。通過高效利用人類演示數(shù)據(jù),,機(jī)器人系統(tǒng)可以實(shí)現(xiàn)更高的性能和適應(yīng)性,,使它們更有能力在動(dòng)態(tài)環(huán)境中執(zhí)行復(fù)雜任務(wù)。復(fù)雜環(huán)境的認(rèn)知:復(fù)雜環(huán)境的認(rèn)知指的是具身智能體在物理或虛擬環(huán)境中感知,、理解和導(dǎo)航復(fù)雜真實(shí)世界環(huán)境的能力,。基于廣泛的常識(shí)知識(shí),,Say-Can [299]利用預(yù)訓(xùn)練的LLM模型的任務(wù)分解機(jī)制,,該機(jī)制嚴(yán)重依賴大量常識(shí)知識(shí)進(jìn)行簡單任務(wù)規(guī)劃,但缺乏對復(fù)雜環(huán)境中長期任務(wù)的理解,。對于非結(jié)構(gòu)化開放環(huán)境,,當(dāng)前的工作通常依賴于使用廣泛常識(shí)知識(shí)的預(yù)訓(xùn)練LLM模型的任務(wù)分解機(jī)制進(jìn)行簡單任務(wù)規(guī)劃,,而缺乏特定場景理解,。增強(qiáng)知識(shí)轉(zhuǎn)移和泛化能力在復(fù)雜環(huán)境中至關(guān)重要。一個(gè)真正多功能的機(jī)器人系統(tǒng)應(yīng)該能夠理解和執(zhí)行跨越多樣化和未見場景的自然語言指令,。這需要開發(fā)適應(yīng)性強(qiáng),、可擴(kuò)展的具身智能體架構(gòu),。長期任務(wù)執(zhí)行:執(zhí)行單個(gè)指令通常意味著機(jī)器人需要執(zhí)行長期任務(wù),例如命令“清潔廚房”,,這涉及重新排列物體,、掃地、擦桌子等活動(dòng),。成功完成這些任務(wù)需要機(jī)器人能夠計(jì)劃并在較長時(shí)間內(nèi)執(zhí)行一系列低級動(dòng)作,。雖然當(dāng)前的高級任務(wù)規(guī)劃器已經(jīng)顯示出初步的成功,但它們在多樣化的場景中往往因?yàn)槿狈︶槍呱砣蝿?wù)的調(diào)整而不足,。解決這一挑戰(zhàn)需要開發(fā)配備有強(qiáng)大感知能力和豐富常識(shí)知識(shí)的高效規(guī)劃器,。因果關(guān)系發(fā)現(xiàn):現(xiàn)有的數(shù)據(jù)驅(qū)動(dòng)具身智能體基于數(shù)據(jù)內(nèi)在的相關(guān)性做出決策。然而,,這種建模方法不允許模型真正理解知識(shí),、行為和環(huán)境之間的因果關(guān)系,導(dǎo)致策略存在偏見,。這使得確保它們能夠以可解釋,、魯棒和可靠的方式在真實(shí)世界環(huán)境中操作變得困難。因此,,重要的是讓具身智能體由世界知識(shí)驅(qū)動(dòng),,能夠進(jìn)行自主因果推理。通過交互和學(xué)習(xí)理解世界,,并通過推理進(jìn)一步增強(qiáng)多模態(tài)具身智能體在復(fù)雜真實(shí)世界環(huán)境中的適應(yīng)性,、決策可靠性和泛化能力。對于具身任務(wù),,需要通過交互指令和狀態(tài)預(yù)測建立跨模態(tài)的時(shí)空因果關(guān)系[388],。此外,智能體需要理解對象的可承受性,,以實(shí)現(xiàn)適應(yīng)性任務(wù)規(guī)劃和動(dòng)態(tài)場景中的長期自主導(dǎo)航,。為了優(yōu)化決策,需要結(jié)合反事實(shí)和因果干預(yù)策略[389],,從反事實(shí)和因果干預(yù)的角度追蹤因果關(guān)系,,減少探索迭代,并優(yōu)化決策,?;谑澜缰R(shí)構(gòu)建因果圖,并通過主動(dòng)因果推理驅(qū)動(dòng)仿真到現(xiàn)實(shí)轉(zhuǎn)移,,將為具身AI形成一個(gè)統(tǒng)一框架,。

持續(xù)學(xué)習(xí): 在機(jī)器人應(yīng)用中,持續(xù)學(xué)習(xí)[390]對于在多樣化環(huán)境中部署機(jī)器人學(xué)習(xí)策略至關(guān)重要,但目前這一領(lǐng)域尚未充分探索,。盡管一些近期研究已經(jīng)考察了持續(xù)學(xué)習(xí)的子主題——如增量學(xué)習(xí),、快速運(yùn)動(dòng)適應(yīng)和人在環(huán)路學(xué)習(xí)——但這些解決方案通常為單一任務(wù)或平臺(tái)設(shè)計(jì),并未考慮基礎(chǔ)模型,。開放的研究問題和可行的方法包括:1) 在微調(diào)最新數(shù)據(jù)時(shí)混合不同比例的先前數(shù)據(jù)分布,,以減輕災(zāi)難性遺忘[391];2) 開發(fā)從先前分布或課程中高效原型,,用于學(xué)習(xí)新任務(wù)時(shí)的任務(wù)推理,;3) 提高在線學(xué)習(xí)算法的訓(xùn)練穩(wěn)定性和樣本效率;4) 確定將大容量模型無縫整合到控制框架中的原則方法,,可能是通過分層學(xué)習(xí)或慢速-快速控制,,以實(shí)現(xiàn)實(shí)時(shí)推理。

統(tǒng)一評估基準(zhǔn): 盡管存在許多評估低級控制策略的基準(zhǔn),,但它們通常在評估的技能方面有顯著差異,。此外,這些基準(zhǔn)中包含的對象和場景通常受到模擬器限制,。為了全面評估具身模型,,需要基準(zhǔn)能夠使用現(xiàn)實(shí)模擬器涵蓋一系列多樣化的技能。關(guān)于高級任務(wù)規(guī)劃器,,許多基準(zhǔn)側(cè)重于通過問答任務(wù)評估規(guī)劃能力,。然而,更理想的方法包括評估高級任務(wù)規(guī)劃器和低級控制策略一起執(zhí)行長期任務(wù),,并測量成功率,,而不是僅依賴于規(guī)劃器的孤立評估。這種綜合方法為評估具身AI系統(tǒng)的能力提供了更全面的視角,。

IX. 結(jié)論

具身AI允許智能體感知,、感知并通過網(wǎng)絡(luò)空間和物理世界與各種對象互動(dòng),這對其實(shí)現(xiàn)通用人工智能(AGI)至關(guān)重要,。本調(diào)查廣泛回顧了具身機(jī)器人,、模擬器、四個(gè)代表性的具身任務(wù):視覺主動(dòng)感知,、具身交互,、具身智能體和仿真到現(xiàn)實(shí)機(jī)器人控制,以及未來的研究方向,。對具身機(jī)器人,、模擬器、數(shù)據(jù)集和方法的比較總結(jié)為最近在具身AI領(lǐng)域的發(fā)展提供了清晰的圖景,,這將極大地有利于未來沿著這一新興且有前景的研究方向進(jìn)行的研究,。

圖片作者:張長旺,,圖源:旺知識(shí)

參考資料

標(biāo)題:Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI
作者:Yang Liu, Weixing Chen, Yongjie Bai, Guanbin Li, Wen Gao, Fellow, IEEE, Liang Lin, Fellow, IEEE
單位:中山大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,鵬城實(shí)驗(yàn)室,,北京大學(xué)數(shù)字媒體研究所
標(biāo)簽:具身人工智能,多模態(tài)大型模型,,世界模型,,智能體,機(jī)器人學(xué)
概述:本調(diào)查研究了具身AI的最新進(jìn)展,,探討了多模態(tài)大型模型和世界模型在實(shí)現(xiàn)具身智能體中的重要作用,。
鏈接:https:///pdf/2407.06886v6

圖片

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多