具身智能(Embodied AI)技術(shù)全面綜述：感知,、交互、規(guī)劃,、仿真,、挑戰(zhàn)、機(jī)遇

taotao_2016 2024-08-04

展開全文

具身人工智能（Embodied AI）對于實(shí)現(xiàn)通用人工智能（AGI）至關(guān)重要，并作為連接網(wǎng)絡(luò)空間和物理世界的各種應(yīng)用的基礎(chǔ),。最近,，多模態(tài)大型模型（MLMs）和世界模型（WMs）的出現(xiàn)因其卓越的感知、交互和推理能力而受到顯著關(guān)注,，使它們成為具身智能體大腦的有希望的架構(gòu),。然而，目前還沒有針對MLMs時(shí)代的具身AI的全面調(diào)查,。在這項(xiàng)調(diào)查中,，我們對具身AI的最新進(jìn)展進(jìn)行了全面探索。我們的分析首先通過具身機(jī)器人和模擬器的前沿代表性作品,，全面了解研究重點(diǎn)及其局限性,。然后，我們分析了四個(gè)主要研究目標(biāo)：1）具身感知,，2）具身交互,，3）具身智能體，以及4）仿真到現(xiàn)實(shí)的適應(yīng)性,，涵蓋了最先進(jìn)的方法,、基本范式和綜合數(shù)據(jù)集。此外,，我們探討了虛擬和現(xiàn)實(shí)具身智能體中MLMs的復(fù)雜性,，強(qiáng)調(diào)了它們在促進(jìn)動(dòng)態(tài)數(shù)字和物理環(huán)境中的交互中的重要性。最后,，我們總結(jié)了具身AI的挑戰(zhàn)和局限性,，并討論了它們潛在的未來方向。我們希望這項(xiàng)調(diào)查能為研究社區(qū)提供基礎(chǔ)參考,，并激發(fā)持續(xù)的創(chuàng)新,。

我們翻譯解讀最新論文：關(guān)于嵌入式人工智能的全面調(diào)查，文末有論文鏈接,。作者：張長旺,，圖源：旺知識(shí)

關(guān)鍵詞：具身AI，網(wǎng)絡(luò)空間,，物理世界，多模態(tài)大型模型,，世界模型,，智能體，機(jī)器人學(xué)

I. 引言

具身AI最初由艾倫·圖靈在1950年提出的圖靈測試提出[1],，旨在確定智能體是否能夠展示不僅僅是在虛擬環(huán)境中解決抽象問題（網(wǎng)絡(luò)空間1）,，而且也能夠?qū)Ш轿锢硎澜绲膹?fù)雜性和不可預(yù)測性。

圖1 展示了谷歌學(xué)術(shù)上關(guān)于具身AI主題的搜索結(jié)果。垂直軸和水平軸分別表示出版物數(shù)量和年份,。自2023年MLMs的突破以來,，出版物呈指數(shù)級增長。

網(wǎng)絡(luò)空間中的智能體通常被稱為無體AI,，而物理空間中的智能體則是具身AI（表I）,。最近在多模態(tài)大型模型（MLMs）方面的進(jìn)步，為具身模型注入了強(qiáng)大的感知,、交互和規(guī)劃能力,，以開發(fā)通用的具身智能體和機(jī)器人，它們積極地與虛擬和物理環(huán)境進(jìn)行交互[2],。因此,，具身智能體被廣泛認(rèn)為是MLMs的最佳載體。最近的代表性具身模型是RT-2 [3]和RT-H [4],。然而,，當(dāng)前MLMs在長期記憶能力、理解復(fù)雜意圖以及復(fù)雜任務(wù)分解方面的能力是有限的,。為了實(shí)現(xiàn)通用人工智能（AGI）,，具身AI的發(fā)展是一條基本途徑。與像ChatGPT [5]這樣的對話智能體不同,，具身AI認(rèn)為通過控制物理體現(xiàn)并與模擬和物理環(huán)境進(jìn)行交互,，可以實(shí)現(xiàn)真正的AGI [6]–[8]。隨著我們站在AGI驅(qū)動(dòng)創(chuàng)新的前沿,，深入探索具身AI領(lǐng)域,，解開它們的復(fù)雜性，評估它們當(dāng)前的發(fā)展階段,，并思考它們未來可能遵循的潛在軌跡至關(guān)重要,。如今，具身AI包含了計(jì)算機(jī)視覺（CV）,、自然語言處理（NLP）和機(jī)器人技術(shù)等各種關(guān)鍵技術(shù),，最具代表性的是具身感知、具身交互,、具身智能體和仿真到現(xiàn)實(shí)機(jī)器人控制,。因此，通過全面調(diào)查捕捉具身AI的不斷發(fā)展的景觀,，以追求AGI是至關(guān)重要的,。具身智能體是具身AI最突出的基礎(chǔ)。對于一個(gè)具身任務(wù),，具身智能體必須充分理解語言指令中的人類意圖,，積極探索周圍環(huán)境,，全面感知來自虛擬和物理環(huán)境的多模態(tài)元素，并為復(fù)雜任務(wù)執(zhí)行適當(dāng)?shù)男袆?dòng)[12],，[13],，如圖2所示。多模態(tài)模型的快速發(fā)展在復(fù)雜環(huán)境中展示了優(yōu)越的多功能性,、靈活性和泛化能力,，與傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)方法相比。最先進(jìn)的視覺編碼器[14],，[15]提供的預(yù)訓(xùn)練視覺表示提供精確的對象類別,、姿態(tài)和幾何形狀估計(jì)，使具身模型能夠徹底感知復(fù)雜和動(dòng)態(tài)的環(huán)境,。功能強(qiáng)大的大型語言模型（LLMs）使機(jī)器人更好地理解來自人類的語言指令,。有希望的MLMs為對齊來自具身機(jī)器人的視覺和語言表示提供了可行的方法。世界模型[16],，[17]展示了顯著的模擬能力和對物理法則的理解,，使具身模型能夠全面理解物理和真實(shí)環(huán)境。這些創(chuàng)新使具身智能體能夠全面感知復(fù)雜環(huán)境,，自然地與人類交互,，并可靠地執(zhí)行任務(wù)。

具身AI的進(jìn)步已經(jīng)取得了快速發(fā)展,，在研究社區(qū)中引起了顯著關(guān)注（圖1）,，并被認(rèn)為是實(shí)現(xiàn)AGI的最可行路徑。谷歌學(xué)術(shù)報(bào)告稱,，具身AI出版物的數(shù)量很大,，僅在2023年就有大約10700篇論文發(fā)表。這相當(dāng)于平均每天29篇論文或每小時(shí)超過一篇論文,。盡管對從MLMs中獲取強(qiáng)大的感知和推理能力非常感興趣,，但研究社區(qū)缺乏一個(gè)全面的調(diào)查，可以幫助整理現(xiàn)有的具身AI研究,、面臨的挑戰(zhàn)以及未來的研究方向,。在MLMs時(shí)代，我們的目標(biāo)是通過對網(wǎng)絡(luò)空間到物理世界的具身AI進(jìn)行全面系統(tǒng)調(diào)查來填補(bǔ)這一空白,。我們從不同的角度進(jìn)行調(diào)查,，包括具身機(jī)器人、模擬器,、四個(gè)代表性的具身任務(wù)（視覺主動(dòng)感知,、具身交互、多模態(tài)智能體和仿真到現(xiàn)實(shí)的機(jī)器人控制）以及未來的研究方向,。我們相信這項(xiàng)調(diào)查將提供一個(gè)清晰的大局圖,，展示我們已經(jīng)取得的成就，以及我們可以沿著這一新興但非常有前景的研究方向進(jìn)一步取得的成就,。

與以往工作的不同之處：盡管已經(jīng)有幾篇關(guān)于具身AI的調(diào)查論文[6],，[18]–[20]，但它們大多已經(jīng)過時(shí),，因?yàn)樗鼈兪窃?023年左右的MLMs時(shí)代之前發(fā)表的,。據(jù)我們所知，2023年之后只有一篇調(diào)查論文[8],，它只關(guān)注了視覺-語言-動(dòng)作具身AI模型,。然而，MLMs,、WMs和具身智能體并沒有被完全考慮,。此外，最近的具身機(jī)器人和模擬器的發(fā)展也被忽視了,。為了解決這一快速發(fā)展領(lǐng)域中全面調(diào)查論文的缺乏,，我們提出了這項(xiàng)全面調(diào)查，涵蓋了代表性的具身機(jī)器人,、模擬器和四個(gè)主要研究任務(wù)：具身感知,、具身交互、具身智能體和仿真到現(xiàn)實(shí)的機(jī)器人控制,。

總之,，這項(xiàng)工作的主要貢獻(xiàn)有三個(gè)方面。首先,，它對具身AI進(jìn)行了系統(tǒng)回顧,，包括具身機(jī)器人、模擬器和四個(gè)主要研究任務(wù)：視覺主動(dòng)感知,、具身交互,、具身智能體和仿真到現(xiàn)實(shí)的機(jī)器人控制。據(jù)我們所知,，這是第一次從網(wǎng)絡(luò)和物理空間對齊的角度,，基于MLMs和WMs，對具身AI進(jìn)行全面調(diào)查,，提供了一個(gè)廣泛的概述,，并對現(xiàn)有研究進(jìn)行了徹底的總結(jié)和分類。其次,，它檢查了具身AI的最新進(jìn)展,，為跨多個(gè)模擬器和數(shù)據(jù)集的當(dāng)前工作提供了全面的基準(zhǔn)測試和討論。第三,，它確定了未來研究的幾個(gè)研究挑戰(zhàn)和潛在方向,，以實(shí)現(xiàn)具身AI的AGI,。本文的其余部分組織如下。第2節(jié)介紹各種具身機(jī)器人,。第3節(jié)描述通用和真實(shí)場景的模擬器,。第4節(jié)介紹具身感知，包括主動(dòng)視覺感知,、3D視覺定位,、視覺語言導(dǎo)航和非視覺感知。第5節(jié)介紹具身交互,。第6節(jié)介紹具身智能體,，包括具身多模態(tài)基礎(chǔ)模型和具身任務(wù)規(guī)劃。第7節(jié)介紹仿真到現(xiàn)實(shí)的適應(yīng)性,，包括具身世界模型,、數(shù)據(jù)收集和訓(xùn)練以及具身控制。第8節(jié),，我們討論有希望的研究方向,。

II. 具身機(jī)器人

具身智能體積極與物理環(huán)境互動(dòng)，包括廣泛的具身形式,，包括機(jī)器人,、智能家電、智能眼鏡,、自動(dòng)駕駛汽車等,。其中，機(jī)器人作為最突出的具身形式之一,。根據(jù)應(yīng)用的不同,，機(jī)器人被設(shè)計(jì)成各種形態(tài)，利用其硬件特性來執(zhí)行特定任務(wù),，如圖4所示,。

A. 固定基機(jī)器人

如圖4(a)所示，固定基機(jī)器人廣泛應(yīng)用于實(shí)驗(yàn)室自動(dòng)化,、教育培訓(xùn)和工業(yè)制造,，因?yàn)樗鼈凅w積小巧且操作精度高。這些機(jī)器人具有堅(jiān)固的基座和結(jié)構(gòu),，確保了操作期間的穩(wěn)定性和高精度,。它們配備了高精度傳感器和執(zhí)行器，能夠?qū)崿F(xiàn)微米級精度,，使它們適合需要高精度和重復(fù)性的任務(wù)[21],。此外，固定基機(jī)器人具有高度的可編程性,，允許用戶適應(yīng)各種任務(wù)場景,，例如Franka（Franka Emika panda）[22],、Kuka iiwa（KUKA）[23]和Sawyer（Rethink Robotics）[24]。然而,，固定基機(jī)器人也有一定的缺點(diǎn),。它們的固定基座設(shè)計(jì)限制了它們的操作范圍和靈活性，阻礙了它們在大面積內(nèi)的移動(dòng)或調(diào)整位置,，導(dǎo)致它們與人類和其他機(jī)器人的協(xié)作受到限制[21]。

B. 輪式機(jī)器人和履帶式機(jī)器人

對于移動(dòng)機(jī)器人,，它們可以面對更復(fù)雜和多樣化的應(yīng)用場景,。如圖4(b)所示，輪式機(jī)器人以其高效的機(jī)動(dòng)性而聞名,，在物流,、倉儲(chǔ)和安全檢查中得到廣泛應(yīng)用。輪式機(jī)器人的優(yōu)點(diǎn)包括結(jié)構(gòu)簡單,、成本相對較低,、高能效和在平坦表面上快速移動(dòng)的能力[21]。這些機(jī)器人通常配備有高精度傳感器,，如激光雷達(dá)和攝像頭,，使其能夠自主導(dǎo)航和環(huán)境感知，使它們在自動(dòng)化倉庫管理和檢查任務(wù)中非常有效,，例如Kiva機(jī)器人（Kiva Systems）[25]和Jackal機(jī)器人（Clearpath Robotics）[26],。然而，輪式機(jī)器人在復(fù)雜地形和惡劣環(huán)境中的機(jī)動(dòng)性有限,，特別是在不平坦的地面上,。此外，它們的載重能力和機(jī)動(dòng)性也受到一定限制,。與此不同,，履帶式機(jī)器人具有強(qiáng)大的越野能力和機(jī)動(dòng)性，在農(nóng)業(yè),、建筑和災(zāi)難恢復(fù)中顯示出潛力,，如圖4(c)所示。履帶系統(tǒng)提供了更大的地面接觸面積,，分散了機(jī)器人的重量,，降低了在泥濘和沙灘等軟質(zhì)地形上沉陷的風(fēng)險(xiǎn)。此外,，履帶式機(jī)器人配備了強(qiáng)大的動(dòng)力和懸掛系統(tǒng),，以在復(fù)雜地形上保持穩(wěn)定性和牽引力[27]。因此,，履帶式機(jī)器人也用于軍事等敏感領(lǐng)域,。iRobot的PackBot是一種多才多藝的軍事履帶機(jī)器人,，能夠執(zhí)行偵察、爆炸物處理和救援任務(wù)[28],。然而,，由于履帶系統(tǒng)的高摩擦，履帶式機(jī)器人通常遭受低能效的困擾,。此外,，它們在平坦表面上的移動(dòng)速度比輪式機(jī)器人慢，以及它們的靈活性和機(jī)動(dòng)性也受到限制,。

C. 四足機(jī)器人

四足機(jī)器人以其穩(wěn)定性和適應(yīng)性而聞名,，非常適合復(fù)雜地形探索、救援任務(wù)和軍事應(yīng)用,。受四足動(dòng)物啟發(fā),，這些機(jī)器人能夠在不平坦的表面上保持平衡和機(jī)動(dòng)性，如圖4(d)所示,。多關(guān)節(jié)設(shè)計(jì)使它們能夠模仿生物運(yùn)動(dòng),，實(shí)現(xiàn)復(fù)雜的步態(tài)和姿勢調(diào)整。高可調(diào)性使機(jī)器人能夠自動(dòng)調(diào)整其姿態(tài)以適應(yīng)不斷變化的地形,，增強(qiáng)機(jī)動(dòng)性和穩(wěn)定性,。傳感系統(tǒng)，如激光雷達(dá)和攝像頭,，提供環(huán)境感知,，使機(jī)器人能夠自主導(dǎo)航并避免障礙[29]。幾種類型的四足機(jī)器人被廣泛使用：Unitree Robotics,、Boston Dynamics Spot和ANYmal C,。Unitree Robotics的Unitree A1和Go1以其成本效益和靈活性而聞名。A1[30]和Go1[31]具有強(qiáng)大的機(jī)動(dòng)性和智能避障能力,，適用于各種應(yīng)用,。Boston Dynamics的Spot以其卓越的穩(wěn)定性和操作靈活性而聞名，通常用于工業(yè)檢查和救援任務(wù),。它具有強(qiáng)大的負(fù)載能力和適應(yīng)性,，能夠在惡劣環(huán)境中執(zhí)行復(fù)雜任務(wù)[32]。ANYbotics的ANYmal C以其模塊化設(shè)計(jì)和高耐用性而廣泛用于工業(yè)檢查和維護(hù),。ANYmal C配備了自主導(dǎo)航和遠(yuǎn)程操作能力,，適合長時(shí)間的戶外任務(wù)甚至極端的月球任務(wù)[33]。四足機(jī)器人的復(fù)雜設(shè)計(jì)和高制造成本導(dǎo)致了大量初始投資,，限制了它們在成本敏感領(lǐng)域的使用,。此外，它們在復(fù)雜環(huán)境中的電池續(xù)航能力有限，需要頻繁充電或更換電池以進(jìn)行長時(shí)間操作[34],。

D. 仿人機(jī)器人

仿人機(jī)器人以其類人形態(tài)而著稱,，在服務(wù)行業(yè)、醫(yī)療保健和協(xié)作環(huán)境中越來越普遍,。這些機(jī)器人可以模仿人類的動(dòng)作和行為模式,，提供個(gè)性化服務(wù)和支持。它們靈巧的手設(shè)計(jì)使它們能夠執(zhí)行復(fù)雜和復(fù)雜的任務(wù),，與其他類型的機(jī)器人區(qū)分開來,，如圖4(e)所示。這些手通常具有多個(gè)自由度和高精度傳感器,，使它們能夠模仿人類的抓握和操縱能力,，在醫(yī)療手術(shù)和精密制造等領(lǐng)域尤為重要[35]。在當(dāng)前的仿人機(jī)器人中,，Atlas（Boston Dynamics）以其卓越的機(jī)動(dòng)性和穩(wěn)定性而聞名。Atlas可以執(zhí)行跑步,、跳躍和滾動(dòng)等復(fù)雜動(dòng)態(tài)動(dòng)作,，展示了仿人機(jī)器人在高度動(dòng)態(tài)環(huán)境中的潛力[36]。HRP系列（AIST）在各種研究和工業(yè)應(yīng)用中得到應(yīng)用,，設(shè)計(jì)重點(diǎn)是高穩(wěn)定性和靈活性,，使其在復(fù)雜環(huán)境中特別有效，尤其是與人類的協(xié)作任務(wù)[37],。ASIMO（Honda）是最知名的仿人機(jī)器人之一,，能夠行走、跑步,、爬樓梯,，以及識(shí)別面部和手勢，使其適合接待和導(dǎo)游服務(wù)[38],。此外,，一種小型社交機(jī)器人Pepper（Softbank Robotics）能夠識(shí)別情緒并進(jìn)行自然語言交流，在客戶服務(wù)和教育環(huán)境中得到廣泛應(yīng)用[39],。然而,，仿人機(jī)器人在保持復(fù)雜環(huán)境中的操作穩(wěn)定性和可靠性方面面臨挑戰(zhàn)，由于其復(fù)雜的控制系統(tǒng),，包括健壯的雙足行走控制和靈巧的手部抓握[40],。此外，基于液壓系統(tǒng)的傳統(tǒng)仿人機(jī)器人以其龐大的結(jié)構(gòu)和高昂的維護(hù)成本為特點(diǎn),，正逐漸被電機(jī)驅(qū)動(dòng)系統(tǒng)所取代,。最近，特斯拉和Unitree Robotics推出了基于電機(jī)系統(tǒng)的仿人機(jī)器人。通過整合LLMs,，仿人機(jī)器人預(yù)計(jì)將智能地處理各種復(fù)雜任務(wù),，填補(bǔ)制造業(yè)、醫(yī)療保健和服務(wù)行業(yè)中的勞動(dòng)力缺口,，從而提高效率和安全性[41],。

E. 生物模擬機(jī)器人

不同地，生物模擬機(jī)器人通過模擬自然生物體的高效運(yùn)動(dòng)和功能,，在復(fù)雜和動(dòng)態(tài)的環(huán)境中執(zhí)行任務(wù),。通過模仿生物體的形式和運(yùn)動(dòng)機(jī)制，這些機(jī)器人在醫(yī)療保健,、環(huán)境監(jiān)測和生物研究等領(lǐng)域展示了巨大的潛力[21],。通常，它們使用柔性材料和結(jié)構(gòu)來實(shí)現(xiàn)逼真,、敏捷的運(yùn)動(dòng),，并最大限度地減少對環(huán)境的影響。重要的是,，生物模擬設(shè)計(jì)可以通過模仿生物體的高效運(yùn)動(dòng)機(jī)制顯著提高機(jī)器人的能效,，使它們在能源消耗方面更加經(jīng)濟(jì)[42]，[43],。這些生物模擬機(jī)器人包括魚形機(jī)器人[44],，[45]，昆蟲形機(jī)器人[46],，[47]和軟體機(jī)器人[48],，如圖4(f)所示。然而,，生物模擬機(jī)器人面臨幾個(gè)挑戰(zhàn),。首先，它們的設(shè)計(jì)和制造過程復(fù)雜且成本高,，限制了大規(guī)模生產(chǎn)和廣泛應(yīng)用,。其次，由于它們使用柔性材料和復(fù)雜的運(yùn)動(dòng)機(jī)制,，生物模擬機(jī)器人在極端環(huán)境中的耐用性和可靠性受到限制,。

III. 具身模擬器

具身模擬器對具身人工智能至關(guān)重要，因?yàn)樗鼈兲峁┝顺杀拘б娓叩膶?shí)驗(yàn),，通過模擬潛在的危險(xiǎn)場景來確保安全,，具有在不同環(huán)境中測試的可擴(kuò)展性、快速原型制作能力,、更廣泛的研究社區(qū)的可訪問性,、控制環(huán)境進(jìn)行精確研究、用于訓(xùn)練和評估的數(shù)據(jù)生成，以及用于算法比較的標(biāo)準(zhǔn)基準(zhǔn),。為了使智能體能夠與環(huán)境互動(dòng),，有必要構(gòu)建一個(gè)現(xiàn)實(shí)模擬的環(huán)境。這需要考慮環(huán)境的物理特性,、對象的屬性以及它們之間的互動(dòng),。本節(jié)將介紹兩部分常用的模擬平臺(tái)：基于底層模擬的通用模擬器和基于真實(shí)場景的模擬器。

A. 通用模擬器

真實(shí)環(huán)境中的物理互動(dòng)和動(dòng)態(tài)變化是不可替代的,。然而,，在物理世界中部署具身模型通常會(huì)帶來高昂的成本和面臨眾多挑戰(zhàn)。通用模擬器提供了一個(gè)與物理世界緊密相似的虛擬環(huán)境,，允許進(jìn)行算法開發(fā)和模型訓(xùn)練,，這在成本、時(shí)間和安全性方面提供了顯著的優(yōu)勢,。Isaac Sim [49] 是一個(gè)先進(jìn)的機(jī)器人和人工智能研究的模擬平臺(tái),。它具有高保真度的物理模擬、實(shí)時(shí)光線追蹤,、廣泛的機(jī)器人模型庫和深度學(xué)習(xí)支持,。它的應(yīng)用場景包括自動(dòng)駕駛、工業(yè)自動(dòng)化和人機(jī)交互,。Gazebo [60] 是一個(gè)用于機(jī)器人研究的開源模擬器。它擁有豐富的機(jī)器人庫,，并與ROS緊密集成,。它支持各種傳感器的模擬，并提供眾多預(yù)建的機(jī)器人模型和環(huán)境,。它主要用于機(jī)器人導(dǎo)航和控制以及多機(jī)器人系統(tǒng),。PyBullet [52] 是Bullet物理引擎的Python接口。它易于使用,，具有多樣化的傳感器模擬和深度學(xué)習(xí)集成,。PyBullet支持實(shí)時(shí)物理模擬，包括剛體動(dòng)力學(xué),、碰撞檢測和約束求解。表II展示了10個(gè)通用模擬器的關(guān)鍵特性和主要應(yīng)用場景。它們在具身人工智能領(lǐng)域各自提供獨(dú)特的優(yōu)勢,。研究人員可以根據(jù)具體的研究需求選擇最合適的模擬器,，從而加速具身人工智能技術(shù)的發(fā)展和應(yīng)用。圖5顯示了通用模擬器的可視化效果,。

B. 基于真實(shí)場景的模擬器

實(shí)現(xiàn)在家庭活動(dòng)中的通用具身智能體一直是具身人工智能研究的主要焦點(diǎn),。這些具身智能體需要深入理解人類日常生活，并執(zhí)行復(fù)雜的具身任務(wù)，如室內(nèi)環(huán)境中的導(dǎo)航和交互,。為了滿足這些復(fù)雜任務(wù)的需求,，模擬環(huán)境需要盡可能接近真實(shí)世界，這對模擬器的復(fù)雜性和現(xiàn)實(shí)性提出了高要求,。這導(dǎo)致了基于真實(shí)世界環(huán)境的模擬器的創(chuàng)建,。這些模擬器大多從真實(shí)世界收集數(shù)據(jù)，創(chuàng)建照片般逼真的3D資產(chǎn),，并使用像UE5和Unity這樣的3D游戲引擎構(gòu)建場景,。豐富和真實(shí)的場景使基于真實(shí)世界環(huán)境的模擬器成為家庭活動(dòng)中具身人工智能研究的首選。

AI2-THOR [61] 是由Allen人工智能研究所領(lǐng)導(dǎo)的基于Unity3D的室內(nèi)具身場景模擬器,。作為一個(gè)在真實(shí)世界中構(gòu)建的高保真模擬器,，AI2-THOR擁有豐富的交互場景對象，并且為它們分配了物理屬性（如打開/關(guān)閉甚至冷/熱）,。AI2-THOR由兩部分組成：iTHOR和RoboTHOR,。iTHOR包含120個(gè)房間，分為廚房,、臥室,、浴室和客廳，擁有2000多個(gè)獨(dú)特的交互對象,，并支持多智能體模擬,；

RoboTHOR包含89個(gè)模塊化公寓，這些公寓與真實(shí)世界中的真實(shí)場景相對應(yīng),。到目前為止,，已經(jīng)有超過一百篇基于AI2-THOR的作品發(fā)表。Matterport 3D [62] 在R2R [63]中提出,，通常用作大規(guī)模2D-3D視覺數(shù)據(jù)集,。Matterport3D數(shù)據(jù)集包括90個(gè)建筑室內(nèi)場景，包含10800個(gè)全景圖和194400個(gè)RGB-D圖像,，并提供表面重建,、相機(jī)姿態(tài)和2D和3D語義分割注釋。

Matterport3D將3D場景轉(zhuǎn)換為離散的“視點(diǎn)”,，具身智能體在Matterport3D場景中的相鄰“視點(diǎn)”之間移動(dòng),。在每個(gè)“視點(diǎn)”，具身智能體可以獲得一個(gè)1280x1024全景圖像（18× RGB-D）,。Matterport3D是最重要的具身導(dǎo)航基準(zhǔn)之一,。

Virtualhome [64] 是Puig等人帶來的家庭活動(dòng)具身AI模擬器。Virtualhome最特別的是其環(huán)境由環(huán)境圖表示,。環(huán)境圖表示場景中的對象及其相關(guān)關(guān)系,。用戶也可以自定義和修改環(huán)境圖以實(shí)現(xiàn)場景對象的自定義配置,。這種環(huán)境圖為具身智能體理解環(huán)境提供了一種新方式。與AI2-THOR類似,，Virtualhome還提供了大量的交互對象,，具身智能體可以與它們互動(dòng)并改變它們的狀態(tài)。Virtualhome的另一個(gè)特點(diǎn)是其簡單易用的API,。具身智能體的操作簡化為“操作+對象”的格式,。這一特點(diǎn)使Virtualhome在具身規(guī)劃、指令分解等研究領(lǐng)域得到廣泛應(yīng)用,。

Habitat [65] 是Meta推出的用于大規(guī)模人機(jī)交互的開源模擬器,。基于Bullet物理引擎,，Habitat實(shí)現(xiàn)了高性能,、高速、并行3D模擬,，并為具身智能體的強(qiáng)化學(xué)習(xí)提供了豐富的接口,。Habitat具有極高的開放度。研究人員可以在Habitat中導(dǎo)入和創(chuàng)建3D場景,，或者使用Habitat平臺(tái)上豐富的開放資源進(jìn)行擴(kuò)展,。Habitat有許多可定制的傳感器，并支持多智能體模擬,。來自開放資源或自定義的多個(gè)具身智能體（例如,，人類和機(jī)器狗）可以在模擬器中合作，自由移動(dòng),，并與場景進(jìn)行簡單交互,。因此，Habitat正在吸引越來越多的關(guān)注,。

與其它更關(guān)注場景的模擬器不同,，SAPIEN [66] 更加關(guān)注模擬對象之間的交互,?；赑hysX物理引擎，SAPIEN提供了細(xì)粒度的具身控制,，可以通過ROS接口通過力和扭矩實(shí)現(xiàn)基于關(guān)節(jié)的控制,。基于PartNet-Mobility數(shù)據(jù)集,，SAPIEN提供了室內(nèi)模擬場景,，包含豐富的交互對象，并支持自定義資源的導(dǎo)入,。與像AI2-THOR這樣的模擬器不同,，后者直接改變對象的狀態(tài),，SAPIEN支持模擬物理交互，具身智能體可以通過物理動(dòng)作控制對象的鉸接部分,，從而改變對象的狀態(tài),。這些功能使SAPIEN非常適合訓(xùn)練具身AI的細(xì)粒度對象操作。

iGibson [67] [68] 是斯坦福推出的開源模擬器,。構(gòu)建在Bullet物理引擎上,，iGibson提供了15個(gè)高質(zhì)量的室內(nèi)場景，并支持從其他數(shù)據(jù)集（如Gibson和Matterport3D）導(dǎo)入資產(chǎn),。作為一個(gè)面向?qū)ο蟮哪M器,，iGibson為對象分配了豐富的可變屬性，不僅限于對象的運(yùn)動(dòng)屬性（姿態(tài),、速度,、加速度等），還包括溫度,、濕度,、清潔度、開關(guān)狀態(tài)等,。此外,，除了其他模擬器中的標(biāo)準(zhǔn)深度和語義傳感器外，iGibson還為具身智能體提供了激光雷達(dá),，使智能體能夠輕松獲取場景中的3D點(diǎn)云,。關(guān)于具身智能體配置，iGibson支持連續(xù)動(dòng)作控制和細(xì)粒度關(guān)節(jié)控制,。這允許iGibson中的具身智能體在移動(dòng)時(shí)與對象進(jìn)行精細(xì)交互,。

TDW [69] 由MIT推出。作為最新的具身模擬器之一,，TDW結(jié)合了高保真視頻和音頻渲染,、逼真的物理效果和單一靈活的控制器，在模擬環(huán)境的感知和交互方面取得了一定的進(jìn)展,。TDW將多個(gè)物理引擎集成到一個(gè)框架中,，可以實(shí)現(xiàn)各種材料（如剛體、軟體,、織物和流體）的物理交互模擬,，并在與對象交互時(shí)提供情境聲音。因此,，TDW與其他模擬器相比邁出了重要的一步,。TDW支持部署多個(gè)智能代理，并為用戶提供了豐富的API庫和資產(chǎn)庫,，允許用戶根據(jù)需要自由定制場景和任務(wù),，甚至是戶外場景和相關(guān)任務(wù),。表III總結(jié)了上述所有基于真實(shí)場景的模擬器。

Sapien以其設(shè)計(jì)脫穎而出,，專門用于模擬與門,、櫥柜和抽屜等關(guān)節(jié)對象的交互。VirtualHome以其獨(dú)特的環(huán)境圖而著稱,，這有助于基于自然語言描述的環(huán)境的高級具身規(guī)劃,。雖然AI2Thor提供了豐富的交互場景，但這些交互與VirtualHome中的交互類似,，都是基于腳本的,，缺乏真實(shí)的物理交互。這種設(shè)計(jì)足以滿足不需要細(xì)粒度交互的具身任務(wù),。iGibson和TDW都提供了細(xì)粒度的具身控制和高度模擬的物理交互,。

IV. 具身感知

未來的具身感知的“北斗星”是具身中心的視覺推理和社會(huì)智能[74]。與傳統(tǒng)的圖像中的對象識(shí)別不同,，具有具身感知的智能體必須在物理世界中移動(dòng)并與環(huán)境互動(dòng),。這要求對3D空間和動(dòng)態(tài)環(huán)境有更深入的理解。具身感知需要視覺感知和推理,，理解場景中的3D關(guān)系,，并基于視覺信息預(yù)測和執(zhí)行復(fù)雜任務(wù)。

A. 主動(dòng)視覺感知

主動(dòng)視覺感知系統(tǒng)需要基本能力,，如狀態(tài)估計(jì),、場景感知和環(huán)境探索。如圖7所示,，這些能力已在視覺同時(shí)定位與地圖構(gòu)建（vSLAM）,、3D場景理解（3D Scene Understanding）和主動(dòng)探索（Active Exploration）等領(lǐng)域進(jìn)行了廣泛研究[118]，[119],。這些研究領(lǐng)域有助于開發(fā)魯棒的主動(dòng)視覺感知系統(tǒng),，促進(jìn)在復(fù)雜、動(dòng)態(tài)環(huán)境中改進(jìn)環(huán)境交互和導(dǎo)航,。我們簡要介紹這三個(gè)組成部分,，并在表IV中總結(jié)了每個(gè)部分中提到的方法。

圖7 展示了主動(dòng)視覺感知的示意圖,。視覺SLAM和3D場景理解為被動(dòng)視覺感知提供了基礎(chǔ),，而主動(dòng)探索可以為被動(dòng)感知系統(tǒng)提供主動(dòng)性,。這三個(gè)要素相輔相成,，對主動(dòng)視覺感知系統(tǒng)至關(guān)重要。

視覺同時(shí)定位與地圖構(gòu)建（Visual Simultaneous Localization and Mapping, vSLAM）：同時(shí)定位與地圖構(gòu)建（Simultaneous Localization and Mapping, SLAM）是一種技術(shù),，它可以在未知環(huán)境中確定移動(dòng)機(jī)器人的位置,，同時(shí)構(gòu)建該環(huán)境的地圖[121],，[122]?；诜秶腟LAM[123]–[125]使用測距儀（例如,，激光掃描儀、雷達(dá)和/或聲納）創(chuàng)建點(diǎn)云表示,，但成本高昂且提供的環(huán)境信息有限,。視覺SLAM（vSLAM）[118]，[119]使用機(jī)載攝像頭捕獲幀并構(gòu)建環(huán)境的表示,。由于其硬件成本低,、在小規(guī)模場景中精度高以及能夠捕獲豐富的環(huán)境信息，vSLAM已經(jīng)變得流行,。傳統(tǒng)的vSLAM技術(shù)可以分為傳統(tǒng)vSLAM和語義vSLAM[119],。傳統(tǒng)vSLAM系統(tǒng)使用圖像信息和多視圖幾何原理估計(jì)未知環(huán)境中機(jī)器人的姿態(tài)，構(gòu)建由點(diǎn)云組成的低級地圖（例如,，稀疏地圖,、半密集地圖和密集地圖），如基于濾波器的方法（例如,，MonoSLAM[75],，MSCKF[76]），基于關(guān)鍵幀的方法（例如,，PTAM[77],，ORB-SLAM[78]），和直接跟蹤方法（例如,，DTAM[79],，LSD-SLAM[80]）。由于低級地圖中的點(diǎn)云不直接對應(yīng)環(huán)境中的對象,，這使得它們難以被具身機(jī)器人解釋和利用,。然而，語義概念的出現(xiàn),，特別是與語義信息解決方案集成的語義vSLAM系統(tǒng),，顯著提高了機(jī)器人感知和導(dǎo)航未探索環(huán)境的能力。早期的工作,，如SLAM++[81],，使用實(shí)時(shí)3D對象識(shí)別和跟蹤創(chuàng)建高效的對象圖，實(shí)現(xiàn)了魯棒的閉環(huán),、重定位和對象檢測,。CubeSLAM[82]和HDP-SLAM[83]在地圖中引入了3D矩形，構(gòu)建了一個(gè)輕量級的語義地圖,。QuadricSLAM[84]采用語義3D橢球來實(shí)現(xiàn)復(fù)雜幾何環(huán)境中對象形狀和姿態(tài)的精確建模,。So-SLAM[85]在室內(nèi)環(huán)境中結(jié)合了完全耦合的空間結(jié)構(gòu)約束（共面,、共線和接近）。為了應(yīng)對動(dòng)態(tài)環(huán)境的挑戰(zhàn),，DS-SLAM[86],，DynaSLAM[87]和SG-SLAM[88]采用語義分割進(jìn)行運(yùn)動(dòng)一致性檢查和多視圖幾何算法來識(shí)別和過濾動(dòng)態(tài)對象，確保穩(wěn)定的定位和地圖構(gòu)建,。OVD-SLAM[89]利用語義,、深度和光流信息來區(qū)分動(dòng)態(tài)區(qū)域，無需預(yù)定義標(biāo)簽,，實(shí)現(xiàn)更準(zhǔn)確和魯棒的定位,。GSSLAM[90]利用3D高斯表示，通過實(shí)時(shí)可微的splatting渲染流水線和自適應(yīng)擴(kuò)展策略,，在效率和準(zhǔn)確性之間取得平衡,。
3D場景理解：3D場景理解旨在區(qū)分對象的語義、確定它們的位置,，并從3D場景數(shù)據(jù)中推斷幾何屬性,，這在自動(dòng)駕駛[126]、機(jī)器人導(dǎo)航[127]和人機(jī)交互[128]等方面是基礎(chǔ)性的,。場景可能使用3D掃描工具（如激光雷達(dá)或RGB-D傳感器）記錄為3D點(diǎn)云,。與圖像不同，點(diǎn)云是稀疏的,、無序的和不規(guī)則的[120],，這使得場景解釋極具挑戰(zhàn)性。近年來,，提出了許多深度學(xué)習(xí)方法用于3D場景理解,，可以分為基于投影的方法、基于體素的方法和基于點(diǎn)的方法,。具體來說,，基于投影的方法（例如，MV3D[91],，PointPillars[92],，MVCNN[93]）將3D點(diǎn)投影到各種圖像平面上，并使用2D CNN基礎(chǔ)結(jié)構(gòu)進(jìn)行特征提取,?；隗w素的方法將點(diǎn)云轉(zhuǎn)換為規(guī)則的體素網(wǎng)格，以便于3D卷積操作（例如,，VoxNet[94],，SSCNet[95]），一些工作通過稀疏卷積提高效率（例如，MinkowskiNet[96],，SSCNs[97]，Embodiedscan[98]）,。相比之下,，基于點(diǎn)的方法直接處理點(diǎn)云（例如，PointNet[99],，PointNet++[100],，PointMLP[101]）。最近,，為了實(shí)現(xiàn)模型的可擴(kuò)展性,，基于Transformers的（例如，PointTransformer[102],，Swin3d[103],，PT2[104]，PT3[105],，3D-VisTA[106],，LEO[107]，PQ3D[108]）和基于Mamba的（例如,，PointMamba[109],，PCM[110]，Mamba3D[111]）架構(gòu)已經(jīng)出現(xiàn),。值得注意的是,，除了直接使用點(diǎn)云的特征外，PQ3D[108]還無縫結(jié)合了多視圖圖像和體素的特征,，以增強(qiáng)場景理解能力,。
主動(dòng)探索：前面介紹的3D場景理解方法賦予了機(jī)器人以被動(dòng)方式感知環(huán)境的能力。在這種情況下,，感知系統(tǒng)的信息獲取和決策不會(huì)隨著場景的發(fā)展而適應(yīng),。然而，被動(dòng)感知為主動(dòng)探索提供了重要的基礎(chǔ),。鑒于機(jī)器人能夠移動(dòng)并與周圍環(huán)境頻繁互動(dòng),，它們也應(yīng)該能夠主動(dòng)探索和感知環(huán)境。圖7顯示了它們之間的關(guān)系,。當(dāng)前的方法通過與環(huán)境互動(dòng)或改變觀察方向來獲取更多視覺信息 [112],，[113]。例如,，Pinto等人[112]提出了一個(gè)好奇的機(jī)器人,，它通過與環(huán)境的物理互動(dòng)學(xué)習(xí)視覺表示，而不是僅僅依賴于數(shù)據(jù)集中的類別標(biāo)簽。為了解決不同形態(tài)機(jī)器人在交互對象感知中的挑戰(zhàn),，Tatiya等人[113]提出了一個(gè)多階段投影框架,，通過學(xué)習(xí)探索性互動(dòng)轉(zhuǎn)移隱含知識(shí)，使機(jī)器人能夠在不需要從頭開始學(xué)習(xí)的情況下有效識(shí)別對象屬性,。認(rèn)識(shí)到自動(dòng)捕獲信息性觀察的挑戰(zhàn),，Jayaraman等人[114]提出了一種強(qiáng)化學(xué)習(xí)方法，其中智能體學(xué)習(xí)通過減少對環(huán)境未觀察部分的不確定性來積極獲取信息性視覺觀察,，使用循環(huán)神經(jīng)網(wǎng)絡(luò)來完成全景場景和3D對象形狀的主動(dòng)完成,。NeU-NBV[115]引入了一個(gè)無地圖規(guī)劃框架，使用基于圖像的神經(jīng)渲染中的新穎不確定性估計(jì)來指導(dǎo)數(shù)據(jù)收集朝著最不確定的視圖,。Hu等人[116]開發(fā)了一種機(jī)器人探索算法,，使用狀態(tài)價(jià)值函數(shù)預(yù)測未來狀態(tài)，結(jié)合離線蒙特卡洛訓(xùn)練,、在線時(shí)間差分適應(yīng)和基于傳感器信息覆蓋的內(nèi)在獎(jiǎng)勵(lì)函數(shù),。為了解決開放世界環(huán)境中意外輸入的問題，F(xiàn)an等人[117]將主動(dòng)識(shí)別視為一個(gè)順序證據(jù)收集過程,，提供逐步不確定性量化和在證據(jù)組合理論下的可靠預(yù)測,，同時(shí)通過特別開發(fā)的獎(jiǎng)勵(lì)函數(shù)在開放世界環(huán)境中有效地表征行動(dòng)的優(yōu)點(diǎn)。

B. 3D視覺定位

與傳統(tǒng)的2D視覺定位不同,，它在平面圖像的限制下操作,，3D視覺定位結(jié)合了深度、透視和對象之間的空間關(guān)系,，為智能體與其環(huán)境的交互提供了更加強(qiáng)大的框架,。3D視覺定位的任務(wù)是使用自然語言描述在3D環(huán)境中定位對象。

圖8 展示了兩階段（上圖）和一階段（下圖）3D視覺定位方法的示意圖[141],。(a) 展示了3D視覺定位的示例,。(b) 兩階段方法包括可能會(huì)在檢測階段忽視目標(biāo)的稀疏提議和可能會(huì)在匹配階段引起混淆的密集提議。(c) 一階段方法可以根據(jù)語言描述的指導(dǎo)逐步選擇關(guān)鍵點(diǎn)（藍(lán)點(diǎn) → 紅點(diǎn) → 綠點(diǎn)）,。[129],，[130]。如表V所總結(jié),，3D視覺定位的最新方法大致可以分為兩類：兩階段和一階段方法[145],。

兩階段3D視覺定位方法：類似于對應(yīng)的2D任務(wù)[146]，早期的3D定位研究主要采用了兩階段檢測然后匹配的流程,。他們最初使用預(yù)訓(xùn)練的檢測器[147]或分割器[148]-[150]從3D場景中的許多對象提議中提取特征,，然后將這些特征與語言查詢特征融合以匹配目標(biāo)對象。兩階段研究的重點(diǎn)是第二階段,，例如探索對象提議特征與語言查詢特征之間的相關(guān)性以選擇最佳匹配對象,。ReferIt3D[130]和TGNN[131]不僅學(xué)習(xí)將提議特征與文本嵌入匹配,，還通過圖神經(jīng)網(wǎng)絡(luò)編碼對象之間的上下文關(guān)系。為了增強(qiáng)自由形式描述和不規(guī)則點(diǎn)云中的3D視覺定位,，F(xiàn)FL-3DOG[133]使用了語言場景圖進(jìn)行短語相關(guān)性,、多級3D提議關(guān)系圖以豐富視覺特征，以及描述引導(dǎo)的3D視覺圖以編碼全局上下文,。最近,，由于變換器架構(gòu)在自然語言處理[151]、[152]和計(jì)算機(jī)視覺任務(wù)[14],、[153]中展示了出色的性能,，研究越來越多地關(guān)注使用變換器提取和融合3D視覺定位任務(wù)中的視覺語言特征,。例如,，LanguageRefer[135]采用了基于變換器的架構(gòu)，結(jié)合3D空間嵌入,、語言描述和類標(biāo)簽嵌入來實(shí)現(xiàn)魯棒的3D視覺定位,。3DVG-Transformer[134]是一種面向關(guān)系的3D點(diǎn)云的視覺定位方法，具有坐標(biāo)引導(dǎo)的上下文聚合模塊,，用于關(guān)系增強(qiáng)的提議生成和多重注意力模塊用于跨模態(tài)提議消歧,。為了實(shí)現(xiàn)對3D對象和指代表達(dá)的更細(xì)粒度推理，TransRefer3D[154]使用實(shí)體和關(guān)系感知注意力增強(qiáng)跨模態(tài)特征表示,，結(jié)合自注意力,、實(shí)體感知注意力和關(guān)系感知注意力。GPS[140]提出了一個(gè)統(tǒng)一的學(xué)習(xí)框架,，利用三個(gè)層次的對比對齊學(xué)習(xí)和掩蔽語言建模目標(biāo)學(xué)習(xí),，從百萬規(guī)模的3D視覺-語言數(shù)據(jù)集（即SCENEVERSE[140]）中提取知識(shí)。大多數(shù)上述方法專注于特定視點(diǎn),，但學(xué)到的視覺-語言對應(yīng)關(guān)系在視點(diǎn)變化時(shí)可能會(huì)失敗,。為了學(xué)習(xí)更具視點(diǎn)魯棒性的視覺表示，MVT[137]提出了一種多視圖變換器,，學(xué)習(xí)獨(dú)立于視圖的多模態(tài)表示,。為了減輕稀疏、嘈雜和不完整點(diǎn)云的限制,，各種方法探索了結(jié)合捕獲的（例如,，SAT[132]或合成的（例如，LAR[136]）圖像的詳細(xì)2D視覺特征以增強(qiáng)3D視覺定位任務(wù)?，F(xiàn)有的3D VG方法通常依賴于大量標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,，或在處理復(fù)雜語言查詢時(shí)顯示局限性。受到LLMs令人印象深刻的語言理解能力的啟發(fā),，LLM-Grounder[138]提出了一個(gè)開放詞匯3D視覺定位流程,，不需要標(biāo)記數(shù)據(jù)，利用LLM分解查詢并生成對象識(shí)別的計(jì)劃，然后通過評估空間和常識(shí)關(guān)系來選擇最佳匹配對象,。為了捕獲視點(diǎn)依賴的查詢并解碼3D空間中的空間關(guān)系,，ZSVG3D[139]設(shè)計(jì)了一種零樣本開放詞匯3D視覺定位方法，使用LLM識(shí)別相關(guān)對象并執(zhí)行推理,，將此過程轉(zhuǎn)換為腳本化的視覺程序,，然后轉(zhuǎn)換為可執(zhí)行的Python代碼以預(yù)測對象位置。然而,，如圖8 (b)所示,，這些兩階段方法面臨著確定提議數(shù)量的困境，因?yàn)榈谝浑A段中的3D檢測器需要采樣關(guān)鍵點(diǎn)來表示整個(gè)3D場景,，并為每個(gè)關(guān)鍵點(diǎn)生成相應(yīng)的提議,。稀疏提議可能會(huì)在第一階段忽視目標(biāo)，使它們在第二階段無法匹配,。相反,，密集提議可能包含不可避免的冗余對象，導(dǎo)致由于過于復(fù)雜的提議間關(guān)系而在第二階段難以區(qū)分目標(biāo),。此外,，關(guān)鍵點(diǎn)采樣策略是與語言無關(guān)的，這增加了檢測器識(shí)別與語言相關(guān)的提議的難度,。
一階段3D視覺定位方法：如圖8 (c)所示,，與兩階段3D VG方法不同，一階段3D VG方法整合了由語言查詢指導(dǎo)的對象檢測和特征提取,，使定位對象變得更加容易,。3D-SPS[141]將3D VG任務(wù)視為關(guān)鍵點(diǎn)選擇問題，避免了檢測和匹配的分離,。具體來說,，3D-SPS最初通過描述感知關(guān)鍵點(diǎn)采樣模塊粗略采樣與語言相關(guān)的關(guān)鍵點(diǎn)。隨后,，它精細(xì)選擇目標(biāo)關(guān)鍵點(diǎn),，并使用目標(biāo)導(dǎo)向的逐步挖掘模塊預(yù)測基礎(chǔ)。受到MDETR[155]和GLIP[156]等2D圖像語言預(yù)訓(xùn)練模型的啟發(fā),，BUTD-DETR[142]提出了一種自下而上的自上而下的檢測變換器,，可以用于2D和3D VG。具體來說,，BUTD-DETR使用標(biāo)記的自下而上的框提議和自上而下的語言描述來指導(dǎo)通過預(yù)測頭解碼目標(biāo)對象和相應(yīng)的語言跨度,。

C. 視覺語言導(dǎo)航（Visual Language Navigation, VLN）

視覺語言導(dǎo)航是具身人工智能（Embodied AI）的關(guān)鍵研究問題，旨在使智能體能夠在未見環(huán)境中遵循語言指令進(jìn)行導(dǎo)航,。VLN要求機(jī)器人不僅要理解復(fù)雜多樣的視覺觀察,，而且還要解釋不同粒度的指令,。VLN的輸入通常由兩部分組成：視覺信息和自然語言指令。視覺信息可以是過去軌跡的視頻,，或者是一組歷史當(dāng)前觀察圖像,。自然語言指令包括具身智能體需要到達(dá)的目標(biāo)，或者是預(yù)期完成的任務(wù),。具身智能體必須使用上述信息從候選列表中選擇一個(gè)或一系列動(dòng)作來滿足自然語言指令的要求,。這個(gè)過程可以表示為：

其中Action是選擇的動(dòng)作或動(dòng)作候選列表，O是當(dāng)前觀察,，H是歷史信息,，I是自然語言指令。在VLN中最常用的指標(biāo)有SR（成功率）,、TL（軌跡長度）和SPL（由路徑長度加權(quán)的成功率）,。其中，SR直接反映了具身智能體的導(dǎo)航性能,，TL反映了導(dǎo)航效率,，SPL結(jié)合了兩者以指示具身智能體的整體性能,。下面,，我們將VLN分為兩部分進(jìn)行介紹：數(shù)據(jù)集和方法。

數(shù)據(jù)集：在VLN中,，自然語言指令可以是一系列詳細(xì)的動(dòng)作描述,、完整描述的目標(biāo)，或者只是粗略描述的任務(wù),，甚至是人類的要求,。具身智能體需要完成的任務(wù)可能只是單一導(dǎo)航，或者是需要交互的導(dǎo)航,，或者是需要依次完成的多個(gè)導(dǎo)航任務(wù),。這些差異給VLN帶來了不同的挑戰(zhàn)，并且已經(jīng)構(gòu)建了許多不同的數(shù)據(jù)集,?；谶@些差異，我們介紹一些重要的VLN數(shù)據(jù)集,。Room to Room (R2R) [63] 是基于Matterport3D的VLN數(shù)據(jù)集,。在R2R中，具身智能體根據(jù)逐步指令進(jìn)行導(dǎo)航,，根據(jù)視覺觀察選擇下一個(gè)相鄰的導(dǎo)航圖節(jié)點(diǎn),，直到到達(dá)目標(biāo)位置。具身智能體需要?jiǎng)討B(tài)跟蹤進(jìn)度,，以使導(dǎo)航過程與細(xì)粒度指令對齊,。Room-for-Room [157] 擴(kuò)展了R2R中的路徑到更長的軌跡,，這要求具身智能體具備更強(qiáng)的長距離指令和歷史對齊能力。VLN-CE [158] 擴(kuò)展了R2R和R4R到連續(xù)環(huán)境中,，具身智能體可以在場景中自由移動(dòng),。這使得具身智能體的動(dòng)作決策更加困難。與基于室內(nèi)場景的數(shù)據(jù)集不同,，TOUCHDOWN數(shù)據(jù)集 [159] 是基于Google Street View創(chuàng)建的,。在TOUCHDOWN中，具身智能體遵循指令,，在紐約市的街景渲染模擬中導(dǎo)航以找到指定的對象,。與R2R類似，REVERIE數(shù)據(jù)集 [160] 也是基于Matterport3D模擬器構(gòu)建的,。REVERIE要求具身智能體根據(jù)簡潔的,、人類注釋的高級自然語言指令準(zhǔn)確地定位遠(yuǎn)處不可見的目標(biāo)對象，這意味著具身智能體需要在場景中的大量對象中找到目標(biāo)對象,。在SOON [161]中,，代理接收從粗略到精細(xì)的長而復(fù)雜的指令，以在3D環(huán)境中找到目標(biāo)對象,。在導(dǎo)航過程中,，代理首先搜索較大的區(qū)域，然后根據(jù)視覺場景和指令逐漸縮小搜索范圍,。這使得DDN [162]在這些數(shù)據(jù)集中更進(jìn)一步,，只提供人類需求而不指定明確的對象。代理需要通過場景導(dǎo)航以找到滿足人類需求的對象,。ALFRED數(shù)據(jù)集 [163] 是基于AI2-THOR模擬器構(gòu)建的,。在ALFRED中，具身智能體需要理解環(huán)境觀察,，并根據(jù)粗粒度和細(xì)粒度指令在交互環(huán)境中完成家庭任務(wù),。OVMM [164] 的任務(wù)是在任何未見環(huán)境中挑選任何對象并將其放置在指定位置。代理需要在家庭環(huán)境中定位目標(biāo)對象,，導(dǎo)航并抓取它,，然后導(dǎo)航到目標(biāo)位置放下對象。OVMM提供了基于Habitat的模擬器和在真實(shí)世界中實(shí)現(xiàn)的框架,。Behavior-1K數(shù)據(jù)集 [165] 基于人類需求,，包含1000個(gè)長序列、復(fù)雜的,、技能依賴的日常任務(wù),，這些任務(wù)是在OmniGibson中設(shè)計(jì)的，OmniGibson是iGibson模擬環(huán)境的擴(kuò)展,。代理需要完成包含數(shù)千個(gè)低級動(dòng)作步驟的長跨度導(dǎo)航交互任務(wù),，這些任務(wù)基于視覺信息和語言指令,。這些復(fù)雜任務(wù)需要強(qiáng)大的理解和記憶能力。還有一些更特殊的數(shù)據(jù)集,。CVDN [166] 要求具身智能體根據(jù)對話歷史導(dǎo)航到目標(biāo),，并在不確定時(shí)提出問題以獲取幫助以決定下一個(gè)動(dòng)作。DialFRED [167] 是ALFRED的擴(kuò)展,，允許代理在導(dǎo)航和交互過程中提問以獲得幫助,。這些數(shù)據(jù)集都引入了額外的預(yù)言者，具身智能體需要通過提問獲取對導(dǎo)航有益的更多信息,。
方法：隨著LLMs的驚人表現(xiàn),，VLN的方向和焦點(diǎn)已經(jīng)發(fā)生了深刻的變化。盡管如此,，VLN方法可以分為兩個(gè)方向：基于記憶理解和基于未來預(yù)測,。基于記憶理解的方法側(cè)重于環(huán)境的感知和理解,，以及基于歷史觀察或軌跡的模型設(shè)計(jì),，這是一種基于過去學(xué)習(xí)的方法?；谖磥眍A(yù)測的方法更加關(guān)注建模,、預(yù)測和理解未來狀態(tài)，這是一種未來學(xué)習(xí)的方法,。由于VLN可以被視為部分可觀測的馬爾可夫決策過程,，其中未來的觀察依賴于當(dāng)前的環(huán)境和智能體的動(dòng)作,，歷史信息對導(dǎo)航?jīng)Q策具有重要意義,，尤其是長跨度導(dǎo)航?jīng)Q策，因此基于記憶理解的方法一直是VLN的主流,。然而,，基于未來預(yù)測的方法仍然具有重要意義。其對環(huán)境的基本理解在連續(xù)環(huán)境中的VLN具有巨大價(jià)值,，特別是隨著世界模型概念的興起,，基于未來預(yù)測的方法正受到越來越多的研究關(guān)注。

基于記憶理解的,。基于圖的學(xué)習(xí)是記憶理解方法的重要組成部分,。基于圖的學(xué)習(xí)通常以圖的形式表示導(dǎo)航過程,，其中具身智能體在每個(gè)時(shí)間步驟獲得的信息被編碼為圖的節(jié)點(diǎn),。具身智能體獲得全局或部分導(dǎo)航圖信息作為歷史軌跡的表示。LVERG [168] 分別對每個(gè)節(jié)點(diǎn)的語言信息和視覺信息進(jìn)行編碼,，設(shè)計(jì)了一個(gè)新的語言和視覺實(shí)體關(guān)系圖來模擬文本和視覺之間的跨模態(tài)關(guān)系以及視覺實(shí)體之間的內(nèi)模態(tài)關(guān)系,。LM-Nav [172] 使用目標(biāo)條件距離函數(shù)推斷原始觀察集之間的連接,，并構(gòu)建導(dǎo)航圖，并從指令中提取地標(biāo),，通過視覺語言模型將其與導(dǎo)航圖的節(jié)點(diǎn)匹配,。盡管HOP [173] 不是基于圖學(xué)習(xí)，但其方法類似于圖,，要求模型對不同粒度的時(shí)間有序信息進(jìn)行建模,，從而實(shí)現(xiàn)對歷史軌跡和記憶的深入理解。導(dǎo)航圖將環(huán)境離散化,，但同時(shí)理解和編碼環(huán)境也很重要,。FILM [171] 在導(dǎo)航過程中使用RGB-D觀察和語義分割從3D體素逐步構(gòu)建語義地圖。VER [178] 通過2D-3D采樣將物理世界量化為結(jié)構(gòu)化的3D單元,，提供細(xì)粒度的幾何細(xì)節(jié)和語義,。不同的學(xué)習(xí)方案探索了如何更好地利用歷史軌跡和記憶。通過對抗學(xué)習(xí),，CMG [169] 在模仿學(xué)習(xí)和探索鼓勵(lì)方案之間交替,，有效地加強(qiáng)了對指令和歷史軌跡的理解，縮短了訓(xùn)練和推理之間的差異,。GOAT [177] 直接通過后門調(diào)整因果學(xué)習(xí)（BACL）和前門調(diào)整因果學(xué)習(xí)（FACL）訓(xùn)練無偏模型,，并通過對視覺、導(dǎo)航歷史及其與指令的組合進(jìn)行對比學(xué)習(xí),，使智能體能夠更充分地利用信息,。RCM [170] 提出的增強(qiáng)跨模態(tài)匹配方法使用目標(biāo)導(dǎo)向的外部獎(jiǎng)勵(lì)和指令導(dǎo)向的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行全局和局部的跨模態(tài)定位，并通過自監(jiān)督模仿學(xué)習(xí)從其自身的歷史良好決策中學(xué)習(xí),。FSTT [175] 引入了TTA到VLN,，并在兩個(gè)時(shí)間步驟和任務(wù)的尺度上優(yōu)化了模型的梯度和模型參數(shù)，有效提高了模型性能,。在記憶理解方法中,，大型模型的具體應(yīng)用是理解歷史記憶的表示，并基于其廣泛的世界知識(shí)理解環(huán)境和任務(wù),。NaviLLM [174] 通過視覺編碼器將歷史觀察序列集成到嵌入空間,，將融合編碼的多模態(tài)信息輸入到大型模型并進(jìn)行微調(diào)，在多個(gè)基準(zhǔn)測試中達(dá)到了最先進(jìn)的水平,。NaVid [179] 在歷史信息編碼方面進(jìn)行了改進(jìn),，通過不同程度的池化在歷史觀察和當(dāng)前觀察之間實(shí)現(xiàn)了不同程度的信息保留。DiscussNav [176] 為大型模型專家分配了不同的角色,，驅(qū)動(dòng)大型模型在導(dǎo)航動(dòng)作前進(jìn)行討論以完成導(dǎo)航?jīng)Q策,，并在零樣本VLN中取得了優(yōu)異的性能。

基于未來預(yù)測的,。基于圖的學(xué)習(xí)也廣泛應(yīng)用于基于未來預(yù)測的方法中,。BGGL [182] 和 ETPNav [185] 使用了類似的設(shè)計(jì)方法,，設(shè)計(jì)了一個(gè)航點(diǎn)預(yù)測器，可以根據(jù)當(dāng)前導(dǎo)航圖節(jié)點(diǎn)的觀察在連續(xù)環(huán)境中預(yù)測可移動(dòng)路徑點(diǎn),。他們的目標(biāo)是將復(fù)雜環(huán)境中的導(dǎo)航從連續(xù)環(huán)境轉(zhuǎn)移到離散環(huán)境中的節(jié)點(diǎn)到節(jié)點(diǎn)導(dǎo)航,，從而彌合從離散環(huán)境到連續(xù)環(huán)境的性能差距。通過環(huán)境編碼提高對未來環(huán)境的理解和感知也是預(yù)測和探索未來狀態(tài)的研究方向之一,。NvEM [181] 使用主題模塊和參考模塊從全局和局部視角對鄰居視圖進(jìn)行融合編碼,。這實(shí)際上是對未來觀察的理解和學(xué)習(xí)。HNR [184] 使用大規(guī)模預(yù)訓(xùn)練的分層神經(jīng)輻射表示模型直接預(yù)測未來環(huán)境的視覺表示,，而不是像素級圖像,，使用三維特征空間編碼，并基于未來環(huán)境的表示構(gòu)建可導(dǎo)航的路徑樹,。他們從不同的層次預(yù)測未來環(huán)境,，為導(dǎo)航?jīng)Q策提供有效的參考。一些強(qiáng)化學(xué)習(xí)方法也被應(yīng)用于預(yù)測和探索未來狀態(tài),。LookBY [180] 采用強(qiáng)化預(yù)測,，使預(yù)測模塊能夠模仿世界并預(yù)測未來狀態(tài)和獎(jiǎng)勵(lì)。這允許智能體直接將“當(dāng)前觀察”和“未來觀察的預(yù)測”映射到動(dòng)作上,，在當(dāng)時(shí)達(dá)到了最先進(jìn)的性能,。大型模型的豐富世界知識(shí)和零樣本性能為基于未來預(yù)測的方法提供了許多可能性。MiC [183] 要求大型模型直接從指令中預(yù)測目標(biāo)及其可能的位置,，并通過場景感知的描述提供導(dǎo)航指令,。這種方法要求大型模型充分發(fā)揮其“想象力”，并通過提示構(gòu)建一個(gè)想象中的場景,。此外,，還有一些方法既從過去學(xué)習(xí)又為未來學(xué)習(xí)。MCR-Agent [186] 設(shè)計(jì)了一個(gè)三層動(dòng)作策略,，要求模型從指令中預(yù)測目標(biāo),，預(yù)測目標(biāo)的像素級掩模以進(jìn)行交互，并從以前的導(dǎo)航?jīng)Q策中學(xué)習(xí),；OVLM [187] 要求大型模型為指令預(yù)測相應(yīng)的操作和地標(biāo)序列。在導(dǎo)航過程中,，視覺語言地圖將不斷更新和維護(hù),，并將操作鏈接到地圖上的航點(diǎn)。

D. 非視覺感知：觸覺

觸覺傳感器為智能體提供了如紋理,、硬度和溫度等詳細(xì)信息,。對于相同的動(dòng)作，從視覺和觸覺傳感器中學(xué)到的知識(shí)可能是相關(guān)和互補(bǔ)的,，使機(jī)器人能夠充分掌握手中的高精度任務(wù),。因此,，觸覺感知對于物理世界中的智能體至關(guān)重要，并且無疑增強(qiáng)了人機(jī)交互[188]–[190],。對于觸覺感知任務(wù),，智能體需要從物理世界中收集觸覺信息，然后執(zhí)行復(fù)雜任務(wù),。在這一部分中,，如圖10所示，我們首先介紹現(xiàn)有的觸覺傳感器類型及其數(shù)據(jù)集,，然后討論觸覺感知中的三個(gè)主要任務(wù)：估計(jì),、識(shí)別和操縱。

1) 傳感器設(shè)計(jì)：人類觸覺的原理是皮膚在觸摸時(shí)發(fā)生形狀變化,，其豐富的神經(jīng)細(xì)胞發(fā)送電信號(hào),，這也為設(shè)計(jì)觸覺傳感器提供了基礎(chǔ)。觸覺傳感器設(shè)計(jì)方法可以分為三類：非視覺基礎(chǔ),、視覺基礎(chǔ)和多模態(tài),。非視覺基礎(chǔ)觸覺傳感器主要使用電力和機(jī)械原理，主要注冊基本的,、低維的感官輸出,，如力量、壓力,、振動(dòng)和溫度[191]–[196],。其中一個(gè)著名的代表是BioTac及其模擬器[197][198]?；谝曈X的觸覺傳感器基于光學(xué)原理,。使用凝膠變形的圖像作為觸覺信息，基于視覺的觸覺傳感器如GelSight,、Gelslim,、DIGIT、9DTact,、TacTip,、GelTip和AllSight已被用于眾多應(yīng)用。模擬器如TACTO和Taxim也很受歡迎,。最近的工作集中在降低成本[202]和集成到機(jī)器人手中[201][208][209],。多模態(tài)觸覺傳感器，受人類皮膚的啟發(fā),，結(jié)合了壓力,、接近度、加速度和溫度等多種模態(tài)信息，使用柔性材料和模塊化設(shè)計(jì),。

2) 數(shù)據(jù)集：非視覺傳感器的數(shù)據(jù)集主要由BioTac系列收集[197],，包含電極值、力量向量和接觸位置,。由于任務(wù)主要是力量和抓取細(xì)節(jié)的估計(jì),，數(shù)據(jù)集中的對象通常是力量和抓取樣本?；谝曈X的傳感器,，擁有高分辨率的變形凝膠圖像，更側(cè)重于更高的估計(jì),、紋理識(shí)別和操縱,。數(shù)據(jù)集由Geisight傳感器、DIGIT傳感器及其模擬器收集[199][201][202][206],，包括家庭對象,、野外環(huán)境、不同材料和抓取項(xiàng)目,。由于圖像信息可以很容易地與其他模態(tài)（圖像,、語言、音頻等）對齊和綁定[14][210],，具身代理中的觸覺感知主要圍繞基于視覺的傳感器,。我們介紹了十個(gè)主要的觸覺數(shù)據(jù)集，總結(jié)在表VIII中,。

3) 方法：觸覺感知有眾多應(yīng)用,，可以分為三類：估計(jì)、精確的機(jī)器人操縱和多模態(tài)識(shí)別任務(wù),。

a) 估計(jì)：早期的估計(jì)工作主要集中在基本算法的形狀,、力量和滑動(dòng)測量[202][220][221]。研究人員簡單地使用閾值或應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)來解決這些任務(wù),，基于觸覺圖像的顏色和標(biāo)記在不同幀中的分布變化,。估計(jì)工作的重點(diǎn)是第二階段，觸覺圖像的生成和對象的重建,。觸覺圖像的生成[222]–[225]旨在從視覺數(shù)據(jù)生成觸覺圖像,。起初應(yīng)用了深度學(xué)習(xí)模型，輸入RGB-D圖像并輸出觸覺圖像[222][223],。最近,，隨著圖像生成的快速發(fā)展，Higuera等人[224]和Yang等人[225]應(yīng)用了擴(kuò)散模型進(jìn)行觸覺生成,，并且表現(xiàn)良好。對象的重建可以分為2D重建[226][227]和3D重建[202][219][228]–[241]。2D重建主要關(guān)注對象的形狀和分割,，而3D重建關(guān)注表面和姿態(tài),，甚至是完整的場景感知。任務(wù)首先采用了數(shù)學(xué)方法,、自編碼器方法和神經(jīng)網(wǎng)絡(luò)方法來融合視覺（有時(shí)是點(diǎn)云）和觸覺特征,。最近，研究人員如Comi等人[236]和Dou等人[219]在觸覺重建工作中實(shí)現(xiàn)了基于神經(jīng)輻射場（NeRF）和3D高斯濺射（3DGS）的新方法,。

b) 機(jī)器人操縱：在觸覺任務(wù)中,，彌合仿真與現(xiàn)實(shí)之間的差距至關(guān)重要。提出了強(qiáng)化學(xué)習(xí)和基于GAN的方法來解決準(zhǔn)確,、及時(shí)的機(jī)器人操縱任務(wù)中的變異問題,。

強(qiáng)化學(xué)習(xí)方法。Visuotactile-RL[242]為現(xiàn)有RL方法提出了幾種方法,，包括觸覺門控,、觸覺數(shù)據(jù)增強(qiáng)和視覺退化。Rotateit[243]是一個(gè)系統(tǒng),，它利用多模態(tài)感官輸入實(shí)現(xiàn)基于指尖的對象旋轉(zhuǎn),，沿多個(gè)軸進(jìn)行。它通過網(wǎng)絡(luò)訓(xùn)練強(qiáng)化學(xué)習(xí)策略,，使用特權(quán)信息,，并啟用在線推理。[244]提出了一種使用觸覺感知進(jìn)行目標(biāo)推動(dòng)的深度RL方法,。它提出了一個(gè)目標(biāo)條件公式,，允許無模型和基于模型的RL獲得推動(dòng)對象到目標(biāo)的準(zhǔn)確策略。AnyRotate[245]專注于手內(nèi)操縱,。它是一個(gè)使用密集特征的觸覺反饋進(jìn)行重力不變多軸手內(nèi)對象旋轉(zhuǎn)的系統(tǒng),，在模擬中構(gòu)建了連續(xù)的接觸特征表示，以提供觸覺反饋,，用于訓(xùn)練策略,，并引入了一種通過訓(xùn)練觀察模型來執(zhí)行零樣本策略遷移的方法。

基于GAN的方法,。ACTNet[246]提出了一種無監(jiān)督對抗性領(lǐng)域適應(yīng)方法,，以縮小像素級觸覺感知任務(wù)的領(lǐng)域差距。引入了一種自適應(yīng)相關(guān)注意力機(jī)制來改進(jìn)生成器,，使其能夠利用全局信息并專注于顯著區(qū)域,。然而，像素級領(lǐng)域適應(yīng)導(dǎo)致誤差累積,、性能下降,、結(jié)構(gòu)復(fù)雜性和訓(xùn)練成本增加,。相比之下，STR-Net[247]提出了一種針對觸覺圖像的特征級無監(jiān)督框架,，縮小了特征級觸覺感知任務(wù)的領(lǐng)域差距,。此外，一些方法專注于仿真到現(xiàn)實(shí),。例如,，Tactile Gym 2.0[248]。然而,，由于其復(fù)雜性和高成本,，它在實(shí)際應(yīng)用中具有挑戰(zhàn)性。

c) 識(shí)別：觸覺表示學(xué)習(xí)側(cè)重于材料分類和多模態(tài)理解,，可以分為兩類：傳統(tǒng)方法和大型語言模型（LLMs）及視覺-語言模型（VLMs）方法,。

傳統(tǒng)方法：為了增強(qiáng)觸覺表示學(xué)習(xí)，采用了多種傳統(tǒng)方法,。自動(dòng)編碼器框架在開發(fā)緊湊的觸覺數(shù)據(jù)表示方面發(fā)揮了重要作用,。Polic等人[249]使用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)編碼器對基于光學(xué)的觸覺傳感器圖像進(jìn)行降維。Gao等人[250]創(chuàng)建了一個(gè)受監(jiān)督的循環(huán)自動(dòng)編碼器來處理異構(gòu)傳感器數(shù)據(jù)集,，而Cao等人[251]創(chuàng)建的TacMAE使用了一個(gè)掩蔽自動(dòng)編碼器來處理不完整的觸覺數(shù)據(jù),。Zhang等人[252]引入了MAE4GM，這是一個(gè)整合視覺和觸覺數(shù)據(jù)的多模態(tài)自動(dòng)編碼器,。由于觸覺作為其他模態(tài)的補(bǔ)充,，聯(lián)合訓(xùn)練方法被用來融合多個(gè)模態(tài)。Yuan等人[253]使用包括深度,、視覺和觸覺數(shù)據(jù)的模態(tài)訓(xùn)練CNN,。同樣，Lee等人[254]使用了變分貝葉斯方法來處理力傳感器系列和末端執(zhí)行器指標(biāo)等模態(tài),。為了更好地學(xué)習(xí)表示,，自監(jiān)督方法如對比學(xué)習(xí)也是將模態(tài)結(jié)合在一起的關(guān)鍵技術(shù)。在對比方法的研究中,，Lin等人[255]將觸覺輸入簡單地與多個(gè)視覺輸入配對,，而Yang等人[256]采用了視覺觸覺對比多視圖特征。Kerr等人[215]使用了InfoNCE損失,，Guzey等人[257]使用了BYOL,。這些傳統(tǒng)方法為觸覺表示學(xué)習(xí)奠定了堅(jiān)實(shí)的基礎(chǔ)。

LLMs和VLMs方法： LLM和VLM最近表現(xiàn)出對跨模態(tài)交互的驚人理解,，并展示了強(qiáng)大的零樣本性能,。最近的工作，如Yang等人[189],、Fu等人[218]和Yu等人[258],，通過對比預(yù)訓(xùn)練方法對觸覺數(shù)據(jù)進(jìn)行編碼和與視覺和語言模態(tài)對齊,。然后，像LLaMA這樣的大型模型將被應(yīng)用,，使用微調(diào)方法來適應(yīng)觸覺描述等任務(wù),。LLM和VLM技術(shù)的出現(xiàn)進(jìn)一步推進(jìn)了該領(lǐng)域,，使得跨模態(tài)觸覺表示更加全面和健壯,。

4) 困難：a) 不同傳感器類型的缺陷：傳統(tǒng)傳感器提供簡單和低維數(shù)據(jù)，對多模態(tài)學(xué)習(xí)構(gòu)成挑戰(zhàn),?；谝曈X的傳感器和電子皮膚雖然高度準(zhǔn)確，但成本昂貴,。b) 數(shù)據(jù)獲取挑戰(zhàn)：收集數(shù)據(jù),，特別是同時(shí)收集觸覺和視覺數(shù)據(jù)，盡管在開發(fā)簡化收集設(shè)備方面取得了一些進(jìn)展,，但仍然困難,。c) 標(biāo)準(zhǔn)不一致：觸覺傳感器以不一致的標(biāo)準(zhǔn)和原則運(yùn)作，阻礙了大規(guī)模學(xué)習(xí)和限制了公共數(shù)據(jù)集的有用性,。需要標(biāo)準(zhǔn)化和廣泛的數(shù)據(jù)集,。

V. 具身交互

具身交互任務(wù)指的是智能體在物理或模擬空間中與人類和環(huán)境進(jìn)行交互的場景。典型的具身交互任務(wù)包括具身問答（EQA）和具身抓取,。

A. 具身問答 (Embodied Question Answering)

對于EQA任務(wù),，智能體需要從第一人稱視角探索環(huán)境，以收集回答給定問題所需的信息,。具有自主探索和決策能力的智能體不僅要考慮采取哪些行動(dòng)來探索環(huán)境,，還要決定何時(shí)停止探索以回答問題。現(xiàn)有的工作集中在不同類型的問題上,，如圖11所示,。在這一部分中，我們將介紹現(xiàn)有的數(shù)據(jù)集,，討論相關(guān)的方法,，描述用于評估模型性能的指標(biāo)，并解決這項(xiàng)任務(wù)的剩余限制,。

1) 數(shù)據(jù)集：在真實(shí)環(huán)境中進(jìn)行機(jī)器人實(shí)驗(yàn)通常受到場景和機(jī)器人硬件的限制,。作為虛擬實(shí)驗(yàn)平臺(tái)，模擬器為構(gòu)建具身問答數(shù)據(jù)集提供了合適的環(huán)境條件,。在模擬器中創(chuàng)建的數(shù)據(jù)集上訓(xùn)練和測試模型顯著降低了實(shí)驗(yàn)成本,，并提高了在真實(shí)機(jī)器上部署模型的成功率。我們簡要介紹了幾個(gè)具身問答數(shù)據(jù)集,，總結(jié)在表IX中,。EQA v1 [259] 是為EQA設(shè)計(jì)的首個(gè)數(shù)據(jù)集,。它建立在House3D [269] 模擬器中基于SUNCG數(shù)據(jù)集 [95] 的合成3D室內(nèi)場景上，包含四種類型的問題：位置,、顏色,、顏色房間和介詞。它擁有超過5000個(gè)問題,，分布在750多個(gè)環(huán)境中,。這些問題是通過功能程序執(zhí)行構(gòu)建的，使用模板選擇和組合基本操作,。與EQA v1類似,，MT-EQA [260] 也是在House3D中使用SUNCG構(gòu)建的，但它將單對象問答任務(wù)擴(kuò)展到了多對象設(shè)置,。設(shè)計(jì)了六種類型的問題,，涉及多個(gè)對象之間的顏色、距離和大小比較,。數(shù)據(jù)集包含588個(gè)環(huán)境中的19,287個(gè)問題,。

2) 方法：具身問題回答任務(wù)主要涉及導(dǎo)航和問題回答子任務(wù)，實(shí)現(xiàn)方法大致分為兩類：基于神經(jīng)網(wǎng)絡(luò)的方法和基于大型語言模型(LLMs)/視覺-語言模型(VLMs)的方法,。

神經(jīng)網(wǎng)絡(luò)方法：在早期工作中,，研究人員主要通過構(gòu)建深度神經(jīng)網(wǎng)絡(luò)來解決具身問題回答任務(wù)。他們使用模仿學(xué)習(xí),、強(qiáng)化學(xué)習(xí)等技術(shù)來訓(xùn)練和微調(diào)這些模型,，以提高性能。Das等人[259]首次提出了EQA任務(wù),，其中智能體由四個(gè)主要模塊組成：視覺,、語言、導(dǎo)航和回答,。這些模塊主要使用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)構(gòu)建塊：卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),。它們分兩個(gè)階段進(jìn)行訓(xùn)練。最初,，導(dǎo)航和回答模塊獨(dú)立地在自動(dòng)生成的專家導(dǎo)航演示上使用模仿或監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,。隨后，在第二階段,，使用策略梯度對導(dǎo)航架構(gòu)進(jìn)行微調(diào),。一些后續(xù)工作[274]，[275]保留了Das等人[259]提出的問題回答模塊,，并改進(jìn)了模型,。此外，Wu等人[275]提出將導(dǎo)航和QA模塊整合到統(tǒng)一的SGD訓(xùn)練流程中進(jìn)行聯(lián)合訓(xùn)練,，從而避免了同時(shí)使用深度強(qiáng)化學(xué)習(xí)來訓(xùn)練分開訓(xùn)練的導(dǎo)航和問題回答模塊,。還有一些工作嘗試增加問題回答任務(wù)的復(fù)雜性和完整性,。從任務(wù)單一性的角度來看，一些工作[260],，[276]將任務(wù)擴(kuò)展到包括多個(gè)目標(biāo)和多智能體,，分別要求模型通過特征提取和場景重建等方法存儲(chǔ)和整合智能體探索過程中獲得的信息?？紤]到智能體與動(dòng)態(tài)環(huán)境的交互,，Gordon等人[262]引入了分層交互記憶網(wǎng)絡(luò)?？刂茩?quán)在規(guī)劃器和執(zhí)行任務(wù)的低級控制器之間交替,，在此過程中使用了一個(gè)以自我為中心的空間GRU(esGRU)來存儲(chǔ)空間記憶，使智能體能夠?qū)Ш讲⑻峁┐鸢?。之前工作中的一個(gè)限制是智能體無法使用外部知識(shí)回答復(fù)雜問題，并且缺乏對探索過的場景部分的知識(shí),。為了解決這個(gè)問題,，Tan等人[265]提出了一個(gè)框架，利用神經(jīng)程序合成方法和從知識(shí)和3D場景圖中轉(zhuǎn)換的表格,，允許動(dòng)作規(guī)劃器訪問與對象相關(guān)的信息,。此外，還使用了基于蒙特卡洛樹搜索(MCTS)的方法來確定智能體下一步移動(dòng)的位置,。

LLMs/VLMs方法：近年來,，LLMs和VLMs不斷取得進(jìn)展，并在各個(gè)領(lǐng)域展示了卓越的能力,。因此,，研究人員嘗試將這些模型應(yīng)用于解決具身問題回答任務(wù)，而無需任何額外的微調(diào),。

Majumdar等人[266]探索了使用LLMs和VLMs進(jìn)行情景記憶EQA(EM-EQA)任務(wù)和活躍EQA(AEQA)任務(wù),。對于EM-EQA任務(wù)，他們考慮了盲目LLMs,、具有情景記憶語言描述的蘇格拉底LLMs,、具有構(gòu)建場景圖描述的蘇格拉底LLMs，以及處理多個(gè)場景幀的VLMs,。AEQA任務(wù)擴(kuò)展了EM-EQA方法,，增加了基于前沿的探索(FBE)[277]，用于問題無關(guān)的環(huán)境探索,。一些其他工作[267],，[278]也采用了基于前沿的探索方法來識(shí)別后續(xù)探索的區(qū)域，并構(gòu)建語義地圖,。他們使用一致性預(yù)測或圖像-文本匹配提前結(jié)束探索,，以避免過度探索,。Patel等人[279]強(qiáng)調(diào)了任務(wù)的問題回答方面。他們利用多個(gè)基于LLM的智能體探索環(huán)境,，并使它們能夠獨(dú)立回答“是”或“否”的問題,。這些個(gè)別回答被用來訓(xùn)練一個(gè)中央答案模型，負(fù)責(zé)聚合回答并生成健壯的答案,。

3) 指標(biāo)：性能通?；趦蓚€(gè)方面進(jìn)行評估：導(dǎo)航和問題回答。在導(dǎo)航中,，許多工作遵循了Das等人[259]介紹的方法,，并使用指標(biāo)如完成導(dǎo)航時(shí)到達(dá)目標(biāo)對象的距離(dT)、從初始位置到最終位置目標(biāo)距離的變化(d?)以及在情節(jié)中的任何時(shí)候到達(dá)目標(biāo)的最小距離(dmin)來評估模型的性能,。它們在距離目標(biāo)10,、30或50個(gè)動(dòng)作時(shí)進(jìn)行測試。還有一些工作基于指標(biāo)如軌跡長度,、目標(biāo)對象的交并比分?jǐn)?shù)(IoU)等進(jìn)行測量,。對于問題回答，評估主要涉及答案列表中真實(shí)答案的平均排名(MR)和答案的準(zhǔn)確性,。最近,，Majumdar等人[266]引入了基于LLM的聚合正確性指標(biāo)(LLM-Match)的概念，以評估開放詞匯答案的準(zhǔn)確性,。此外,，他們通過將智能體路徑的規(guī)范化長度作為權(quán)重納入正確性指標(biāo)，來評估效率,。

VI. 具身智能體智能體被定義為能夠感知其環(huán)境并采取行動(dòng)以實(shí)現(xiàn)特定目標(biāo)的自主實(shí)體,。最近在多模態(tài)大型模型（MLMs）方面的進(jìn)展進(jìn)一步擴(kuò)展了智能體在實(shí)際場景中的應(yīng)用。當(dāng)這些基于MLM的智能體被具身化到物理實(shí)體中時(shí),，它們能夠有效地將它們的能力從虛擬空間轉(zhuǎn)移到物理世界,，從而成為具身智能體[298]。圖13顯示了具身智能體的時(shí)間線概述,。為了使具身智能體能夠在信息豐富且復(fù)雜的現(xiàn)實(shí)世界中操作,，具身智能體已經(jīng)被開發(fā)出強(qiáng)大的多模態(tài)感知、交互和規(guī)劃能力,，如圖14所示,。為了完成一個(gè)任務(wù)，具身智能體通常涉及以下過程：1）將抽象和復(fù)雜的任務(wù)分解為特定的子任務(wù),，這被稱為高水平的具身任務(wù)規(guī)劃,。2）通過有效利用具身感知和具身交互模型或利用基礎(chǔ)模型的策略功能逐步實(shí)施這些子任務(wù)，稱為低水平的具身動(dòng)作規(guī)劃。值得注意的是,，任務(wù)規(guī)劃涉及行動(dòng)前的思考,，因此通常被認(rèn)為是在網(wǎng)絡(luò)空間中進(jìn)行的。相比之下,，動(dòng)作規(guī)劃必須考慮與環(huán)境的有效交互以及將這些信息反饋給任務(wù)規(guī)劃者以調(diào)整任務(wù)規(guī)劃,。因此，對具身智能體來說,，將其能力從網(wǎng)絡(luò)空間對齊和概括到物理世界至關(guān)重要,。

A. 具身多模態(tài)基礎(chǔ)模型

具身智能體需要在視覺上識(shí)別其環(huán)境，通過聽覺理解指令,，并理解自身的狀態(tài),，以實(shí)現(xiàn)復(fù)雜的交互和操作。這要求一個(gè)模型整合多種感官模態(tài)和自然語言處理能力,，通過綜合不同類型的數(shù)據(jù)來增強(qiáng)智能體的理解和決策,。因此，出現(xiàn)了具身多模態(tài)基礎(chǔ)模型,。最近,，Google DeepMind發(fā)現(xiàn)利用基礎(chǔ)模型和大型、多樣化的數(shù)據(jù)集是最佳策略,。他們基于機(jī)器人變換器（RT）[11]開發(fā)了一系列工作，為未來具身智能體研究提供了重要見解,。在基礎(chǔ)機(jī)器人模型方面取得了顯著進(jìn)展,，從最初的SayCan [299]開始,，該模型使用三個(gè)獨(dú)立的模型進(jìn)行規(guī)劃,、可承受性和低級策略。Q-Transformer [300]后來統(tǒng)一了可承受性和低級策略,，PaLM-E [301]集成了規(guī)劃和可承受性,。然后,，RT-2 [302]通過將所有三個(gè)功能整合到一個(gè)單一模型中，實(shí)現(xiàn)了突破,，使聯(lián)合擴(kuò)展和正向遷移成為可能,。這代表了機(jī)器人基礎(chǔ)模型的顯著進(jìn)步。RT-2引入了視覺-語言-動(dòng)作（VLA）模型,，具有“思維鏈”推理能力,，能夠進(jìn)行多步驟的語義推理，如在各種情境中選擇替代工具或飲料,。最終,，RT-H [4]實(shí)現(xiàn)了具有動(dòng)作層次結(jié)構(gòu)的端到端機(jī)器人變換器，以細(xì)粒度推理任務(wù)規(guī)劃,。

為了解決具身模型的泛化限制,，Google與33個(gè)領(lǐng)先的學(xué)術(shù)機(jī)構(gòu)合作,，創(chuàng)建了全面的開放X-Embodiment數(shù)據(jù)集[303]，整合了22種不同的數(shù)據(jù)類型,。使用這個(gè)數(shù)據(jù)集,，他們訓(xùn)練了通用大型模型RT-X。這也促進(jìn)了更多的開源VLMs參與機(jī)器人領(lǐng)域,，如基于LLaVA的EmbodiedGPT [304]和基于FLAMINGO的RoboFlamingo [305],。盡管開放X-Embodiment提供了大量數(shù)據(jù)集，但考慮到具身機(jī)器人平臺(tái)的快速發(fā)展,，構(gòu)建數(shù)據(jù)集仍然是一個(gè)挑戰(zhàn),。為了解決這個(gè)問題，AutoRT [306]創(chuàng)建了一個(gè)系統(tǒng),，用于在新環(huán)境中部署機(jī)器人以收集訓(xùn)練數(shù)據(jù),，利用LLMs通過更全面和多樣化的數(shù)據(jù)來增強(qiáng)學(xué)習(xí)能力。

另外,，基于變換器的架構(gòu)面臨效率問題,，因?yàn)榫呱砟Ｐ托枰L上下文，包括來自視覺,、語言和具身狀態(tài)的信息,，以及與當(dāng)前執(zhí)行任務(wù)相關(guān)的內(nèi)存。例如,，盡管RT-2表現(xiàn)出色,，但其推理頻率僅為1-3Hz。已經(jīng)做出了一些努力,，如通過量化和蒸餾部署模型,。此外，改進(jìn)模型框架是另一種可行的方法,。SARA-RT [307]采用了更高效的線性注意力,，而RoboMamba [308]利用了更適合長序列任務(wù)的mamba架構(gòu)，使其推理速度比現(xiàn)有的機(jī)器人MLMs快七倍,?；谏赡Ｐ偷腞T擅長高層次任務(wù)理解和規(guī)劃，但在低層次動(dòng)作規(guī)劃方面存在局限性,，因?yàn)樯赡Ｐ蜔o法精確生成動(dòng)作參數(shù)以及高層次任務(wù)規(guī)劃與低層次動(dòng)作執(zhí)行之間的差距,。為了解決這個(gè)問題，Google引入了RT-Trajectory [309],，通過自動(dòng)添加機(jī)器人軌跡為學(xué)習(xí)機(jī)器人控制策略提供低層次視覺線索,。同樣，基于RT-2框架，機(jī)器人變換器動(dòng)作層次結(jié)構(gòu)（RT-H）通過中間語言動(dòng)作將高層次任務(wù)描述與低層次機(jī)器人動(dòng)作聯(lián)系起來[4],。此外,，VLA模型僅在與VLMs相關(guān)的高層次規(guī)劃和可承受性任務(wù)中表現(xiàn)出能力，它們未能在低層次物理交互中展示新技能,，并受到其數(shù)據(jù)集中技能類別的限制,，導(dǎo)致動(dòng)作笨拙。未來的研究應(yīng)該將強(qiáng)化學(xué)習(xí)整合到大型模型的訓(xùn)練框架中,，以提高泛化能力,，使VLA模型能夠在現(xiàn)實(shí)世界環(huán)境中自主學(xué)習(xí)和優(yōu)化低層次物理交互策略，從而更靈活,、更準(zhǔn)確地執(zhí)行各種物理動(dòng)作,。

B. 具身任務(wù)規(guī)劃

如前所述，對于任務(wù)“把蘋果放在盤子上”,，任務(wù)規(guī)劃器將其分解為子任務(wù)“找到蘋果,，拿起蘋果”和“找到盤子”、“放下蘋果”,。由于如何找到（導(dǎo)航任務(wù)）或拿起/放下動(dòng)作（抓取任務(wù)）不在任務(wù)規(guī)劃的范圍之內(nèi),。這些動(dòng)作通常在模擬器中預(yù)定義或使用預(yù)訓(xùn)練策略模型在真實(shí)場景中執(zhí)行，例如使用CLIPort [294]進(jìn)行抓取任務(wù),。傳統(tǒng)的具身任務(wù)規(guī)劃方法通?；陲@式規(guī)則和邏輯推理。例如,，使用符號(hào)規(guī)劃算法如STRIPS [310]和PDDL [311],，以及搜索算法如MCTS [312]和A* [313]來生成計(jì)劃。然而,，這些方法通常依賴于預(yù)定義的規(guī)則、約束和啟發(fā)式,，這些規(guī)則是固定的,，可能無法很好地適應(yīng)環(huán)境的動(dòng)態(tài)或不可預(yù)見的變化。隨著LLMs的普及,，許多工作嘗試使用LLMs進(jìn)行規(guī)劃或?qū)鹘y(tǒng)方法與LLMs結(jié)合,，利用它們內(nèi)部豐富的世界知識(shí)進(jìn)行推理和規(guī)劃，無需手工定義,，大大增強(qiáng)了模型的泛化能力,。

利用LLMs的緊急能力進(jìn)行規(guī)劃：在自然語言模型擴(kuò)大規(guī)模之前，任務(wù)規(guī)劃器通過訓(xùn)練像BERT這樣的模型在具身指令數(shù)據(jù)集上,，如Alfred [314]和Alfworld [315],，由FILM [316]展示。然而，這種方法受到訓(xùn)練集示例的限制,，無法有效與物理世界對齊?，F(xiàn)在，由于LLMs的緊急能力,，它們可以使用內(nèi)部世界知識(shí)進(jìn)行任務(wù)分解,，并通過思維鏈推理，類似于人類在行動(dòng)前的推理過程,。例如,，Translated LM [317]和Inner Monologue [318]可以將復(fù)雜任務(wù)分解為可管理的步驟，并使用內(nèi)部邏輯和知識(shí)體系制定解決方案,，無需額外訓(xùn)練,，如ReAct [319]。同樣,，多智能體協(xié)作框架ReAd [320]提出了通過不同提示進(jìn)行有效自我完善計(jì)劃的方法,。此外，一些方法將過去成功的示例抽象為一系列技能存儲(chǔ)在記憶庫中,，在推理期間考慮以提高規(guī)劃成功率[321]–[323],。一些工作使用代碼作為推理媒介而不是自然語言，任務(wù)規(guī)劃根據(jù)可用的API庫生成代碼[324]–[326],。此外,，多輪推理可以有效地糾正任務(wù)規(guī)劃中的潛在幻覺，這是許多基于LLM的智能體研究的重點(diǎn),。例如,，Socratic Models [327]和Socratic Planner [328]使用蘇格拉底式提問來得出可靠的計(jì)劃。然而,，在任務(wù)規(guī)劃期間,，執(zhí)行期間可能出現(xiàn)潛在故障，通常由于規(guī)劃器沒有完全考慮真實(shí)環(huán)境的復(fù)雜性和任務(wù)執(zhí)行的困難[318],，[329],。由于缺乏視覺信息，計(jì)劃的子任務(wù)可能與實(shí)際場景偏離,，導(dǎo)致任務(wù)失敗,。因此，將視覺信息整合到規(guī)劃或執(zhí)行期間的重新規(guī)劃中是必要的,。這種方法可以顯著提高任務(wù)規(guī)劃的準(zhǔn)確性和可行性,，更好地應(yīng)對真實(shí)世界環(huán)境的挑戰(zhàn)。
利用具身感知模型的視覺信息進(jìn)行規(guī)劃：基于上述討論,，將視覺信息進(jìn)一步整合到任務(wù)規(guī)劃（或重新規(guī)劃）中尤為重要,。在此過程中,，由視覺輸入提供的對象標(biāo)簽、位置或描述可以為LLMs的任務(wù)分解和執(zhí)行提供關(guān)鍵參考,。通過視覺信息,，LLMs可以更準(zhǔn)確地識(shí)別當(dāng)前環(huán)境中的目標(biāo)對象和障礙物，從而優(yōu)化任務(wù)步驟或修改子任務(wù)目標(biāo),。一些工作使用對象檢測器在任務(wù)執(zhí)行期間查詢環(huán)境中存在的對象,，并將此信息反饋給LLM，允許它修改當(dāng)前計(jì)劃中的不合理步驟[327],，[329],，[330]。RoboGPT考慮了同一任務(wù)中相似對象的不同名稱,，進(jìn)一步提高了重新規(guī)劃的可行性[10],。然而，標(biāo)簽提供的信息仍然過于有限,?？梢蕴峁└嗟膱鼍靶畔幔縎ayPlan [331]提出使用分層3D場景圖來表示環(huán)境,，有效緩解了在大型,、多層和多房間環(huán)境中進(jìn)行任務(wù)規(guī)劃的挑戰(zhàn)。同樣,，ConceptGraphs [332]也采用3D場景圖向LLMs提供環(huán)境信息,。與SayPlan相比，它提供了更詳細(xì)的開放世界對象檢測,，并將任務(wù)規(guī)劃以基于代碼的格式呈現(xiàn),，這更有效，更適合復(fù)雜任務(wù)的需求,。然而,，有限的視覺信息可能導(dǎo)致智能體對其環(huán)境的理解不足。雖然LLMs獲得了視覺提示,，但它們常常無法捕捉到環(huán)境的復(fù)雜性和動(dòng)態(tài)變化,，導(dǎo)致誤解和任務(wù)失敗。例如,，如果一條毛巾被鎖在浴室柜里，智能體可能會(huì)在浴室里反復(fù)搜尋而不考慮這種可能性[10],。為了解決這個(gè)問題,，必須開發(fā)更強(qiáng)大的算法來整合多種感官數(shù)據(jù)，增強(qiáng)智能體對環(huán)境的理解,。此外,，利用歷史數(shù)據(jù)和上下文推理,，即使在視覺信息有限的情況下，也可以幫助智能體做出合理的判斷和決策,。這種多模態(tài)整合和基于上下文的推理方法不僅提高了任務(wù)執(zhí)行的成功率,，而且為具身人工智能的發(fā)展提供了新的視角。
利用VLMs進(jìn)行規(guī)劃：與使用外部視覺模型將環(huán)境信息轉(zhuǎn)換為文本不同,，VLM模型可以在潛在空間中捕捉視覺細(xì)節(jié),，特別是難以用對象標(biāo)簽表示的上下文信息。VLM能夠識(shí)別視覺現(xiàn)象背后的規(guī)則,；例如,，即使毛巾在環(huán)境中不可見，也可以推斷毛巾可能存放在柜子里,。這個(gè)過程本質(zhì)上展示了如何在潛在空間中更有效地對齊抽象的視覺特征和結(jié)構(gòu)化的文本特征,。在EmbodiedGPT [304]中，Embodied-Former模塊對齊了具身的,、視覺的和文本的信息,，在任務(wù)規(guī)劃期間有效考慮了智能體的狀態(tài)和環(huán)境信息。與直接使用第三人稱視角圖像的EmbodiedGPT不同,，LEO [333]將2D自我中心圖像和3D場景編碼為視覺標(biāo)記,。這種方法有效地感知了3D世界信息并據(jù)此執(zhí)行任務(wù)。同樣,，EIF-Unknow模型使用從體素特征中提取的語義特征圖作為視覺標(biāo)記,，這些標(biāo)記與文本標(biāo)記一起輸入到訓(xùn)練有素的LLaVA模型中進(jìn)行任務(wù)規(guī)劃[334]。此外,，具身多模態(tài)基礎(chǔ)模型,，或VLA模型，已經(jīng)在RT系列[11],、[302],、PaLM-E [301]和Matcha [335]等研究中通過大型數(shù)據(jù)集進(jìn)行了廣泛訓(xùn)練，以實(shí)現(xiàn)在具身場景中視覺和文本特征的對齊,。然而,，任務(wù)規(guī)劃只是智能體完成指令任務(wù)的第一步；隨后的動(dòng)作規(guī)劃決定了任務(wù)是否可以完成,。在RoboGPT [10]的實(shí)驗(yàn)中,，任務(wù)規(guī)劃的準(zhǔn)確率達(dá)到了96%，但整體任務(wù)完成率僅為60%,，受到低級規(guī)劃器性能的限制,。因此，具身智能體能否從“想象任務(wù)如何完成”的網(wǎng)絡(luò)空間過渡到“與環(huán)境互動(dòng)并完成任務(wù)”的物理世界,，取決于有效動(dòng)作規(guī)劃,。

C. 具身動(dòng)作規(guī)劃

第VI-B節(jié)討論了任務(wù)規(guī)劃和動(dòng)作規(guī)劃的定義和區(qū)別,。顯然，動(dòng)作規(guī)劃必須解決現(xiàn)實(shí)世界的不確定性,，因?yàn)槿蝿?wù)規(guī)劃提供的子任務(wù)粒度不足以指導(dǎo)智能體在環(huán)境互動(dòng)中,。通常，智能體可以通過兩種方式實(shí)現(xiàn)動(dòng)作規(guī)劃：1) 使用預(yù)訓(xùn)練的具身感知和具身干預(yù)模型作為工具,，通過API逐步完成任務(wù)規(guī)劃指定的子任務(wù),，2) 利用VLA模型的固有能力派生動(dòng)作規(guī)劃。此外,，動(dòng)作規(guī)劃器的執(zhí)行結(jié)果反饋給任務(wù)規(guī)劃器以調(diào)整和改進(jìn)任務(wù)規(guī)劃,。

使用API的動(dòng)作：一種典型的方法是為LLMs提供各種訓(xùn)練有素的政策模型的定義和描述作為上下文，使它們能夠理解這些工具并決定如何以及何時(shí)為特定任務(wù)調(diào)用它們[299],，[329],。此外，通過生成代碼,，一系列更細(xì)粒度的工具可以抽象成一個(gè)函數(shù)庫以供調(diào)用,，而不是直接傳遞子任務(wù)所需的參數(shù)給導(dǎo)航和抓取模型[326]?？紤]到環(huán)境的不確定性,，Reflexion可以進(jìn)一步調(diào)整這些工具以實(shí)現(xiàn)更好的泛化[336]。優(yōu)化這些工具可以增強(qiáng)智能體的魯棒性,，并且可能需要新工具來完成未知任務(wù),。DEPS在零樣本學(xué)習(xí)的前提條件下，賦予LLMs各種角色設(shè)置,，以學(xué)習(xí)在與環(huán)境互動(dòng)時(shí)的各種技能,。在隨后的互動(dòng)中，LLMs可以學(xué)習(xí)選擇和組合這些技能以發(fā)展新技能[337],。這種分層規(guī)劃范式允許智能體專注于高層次任務(wù)規(guī)劃和決策,，同時(shí)將特定動(dòng)作執(zhí)行委托給策略模型，簡化了開發(fā)過程,。任務(wù)規(guī)劃器和動(dòng)作規(guī)劃器的模塊化使它們能夠獨(dú)立開發(fā),、測試和優(yōu)化，增強(qiáng)了系統(tǒng)的靈活性和可維護(hù)性,。這種方法允許智能體通過調(diào)用不同的動(dòng)作規(guī)劃器適應(yīng)各種任務(wù)和環(huán)境,，并促進(jìn)修改，而無需對智能體的結(jié)構(gòu)進(jìn)行重大更改,。然而,，調(diào)用外部策略模型可能會(huì)引入延遲，可能影響響應(yīng)時(shí)間和效率,，特別是在實(shí)時(shí)任務(wù)中,。智能體的性能嚴(yán)重依賴于策略模型的質(zhì)量。如果策略模型無效,，智能體的整體性能將受到影響,。
使用VLA模型的動(dòng)作：與之前在同一系統(tǒng)中執(zhí)行任務(wù)規(guī)劃和動(dòng)作執(zhí)行的方法不同，這種范式利用具身多模態(tài)基礎(chǔ)模型的能力進(jìn)行規(guī)劃和執(zhí)行動(dòng)作,，減少了通信延遲并提高了系統(tǒng)響應(yīng)速度和效率,。在VLA模型中，感知,、決策和執(zhí)行模塊的緊密整合使系統(tǒng)能夠更有效地處理復(fù)雜任務(wù)并適應(yīng)動(dòng)態(tài)環(huán)境的變化,。這種整合還有助于實(shí)時(shí)反饋，使智能體能夠自我調(diào)整策略,，從而增強(qiáng)任務(wù)執(zhí)行的魯棒性和適應(yīng)性[3],，[303]，[304],。然而,，這種范式無疑更加復(fù)雜和昂貴，特別是處理復(fù)雜或長期任務(wù)時(shí),。此外,，一個(gè)關(guān)鍵問題是，沒有具身世界模型的動(dòng)作規(guī)劃器,，僅憑LLM的內(nèi)部知識(shí)無法模擬物理定律,。這個(gè)限制阻礙了智能體在物理世界中準(zhǔn)確有效地完成各種任務(wù)，阻止了從網(wǎng)絡(luò)空間到物理世界的無縫轉(zhuǎn)移,。

VII. 仿真到現(xiàn)實(shí)適應(yīng)性（Sim-to-Real Adaptation）

在具身人工智能中,，仿真到現(xiàn)實(shí)適應(yīng)性指的是將學(xué)習(xí)能力或行為從模擬環(huán)境（網(wǎng)絡(luò)空間）轉(zhuǎn)移到現(xiàn)實(shí)世界場景（物理世界）的過程。它涉及驗(yàn)證和改進(jìn)在模擬中開發(fā)的算法,、模型和控制策略的有效性,，以確保它們在物理環(huán)境中表現(xiàn)出魯棒性和可靠性。為了實(shí)現(xiàn)仿真到現(xiàn)實(shí)適應(yīng)性,，具身世界模型,、數(shù)據(jù)收集和訓(xùn)練方法以及具身控制算法是三個(gè)基本組成部分。

A. 具身世界模型（Embodied World Model）

仿真到現(xiàn)實(shí)涉及創(chuàng)建與現(xiàn)實(shí)世界環(huán)境非常相似的模擬世界模型,，幫助算法在轉(zhuǎn)移時(shí)更好地泛化,。世界模型方法旨在構(gòu)建一個(gè)端到端的模型，通過生成或預(yù)測的方式,，將視覺映射到動(dòng)作,，甚至任何輸入到任何輸出，以做出決策,。這類世界模型與VLA模型的最大區(qū)別在于,，VLA模型首先是在大規(guī)?；ヂ?lián)網(wǎng)數(shù)據(jù)集上訓(xùn)練以獲得高水平的緊急能力，然后與現(xiàn)實(shí)世界的機(jī)器人數(shù)據(jù)共同微調(diào),。相比之下,，世界模型是從物理世界數(shù)據(jù)從頭開始訓(xùn)練的，隨著數(shù)據(jù)量的增加逐漸發(fā)展出高級能力,。然而,，它們?nèi)匀皇堑图壍奈锢硎澜缒Ｐ停悬c(diǎn)像人類神經(jīng)反射系統(tǒng)的工作機(jī)制,。這使它們更適合于輸入和輸出相對結(jié)構(gòu)化的場景,，如自動(dòng)駕駛（輸入：視覺，輸出：油門,、剎車,、方向盤）或物體排序（輸入：視覺、指令,、數(shù)值傳感器,，輸出：抓取目標(biāo)物體并將其放置在目標(biāo)位置）。它們不太適合于泛化到結(jié)構(gòu)化,、復(fù)雜的具身任務(wù),。在物理模擬領(lǐng)域，學(xué)習(xí)世界模型是有希望的,。與傳統(tǒng)的模擬方法相比,，它提供了顯著的優(yōu)勢，例如能夠在不完整信息下推理交互,、滿足實(shí)時(shí)計(jì)算需求,，并隨著時(shí)間的推移提高預(yù)測準(zhǔn)確性。這種世界模型的預(yù)測能力至關(guān)重要,，它使機(jī)器人能夠發(fā)展出在人類世界中操作所需的物理直覺,。如圖15所示，根據(jù)世界環(huán)境的學(xué)習(xí)流程,，它們可以分為基于生成的方法,、基于預(yù)測的方法和知識(shí)驅(qū)動(dòng)的方法。我們在表XI中簡要總結(jié)了提到的方法,。

基于生成的方法（Generation-based Methods）：隨著模型規(guī)模和數(shù)據(jù)的逐步增加,，生成模型已經(jīng)展示了理解和生成符合物理定律的圖像（例如，World Models [338]）,、視頻（例如,，Sora [17]、Pandora [339]）、點(diǎn)云（例如,，3D-VLA [340]）或其他格式數(shù)據(jù)（例如,，DWM [341]）的能力。這表明生成模型能夠?qū)W習(xí)并內(nèi)化世界知識(shí),。具體來說,，經(jīng)過大量數(shù)據(jù)的暴露后，生成模型不僅能捕捉數(shù)據(jù)的統(tǒng)計(jì)特性,，還能通過其內(nèi)在結(jié)構(gòu)和機(jī)制模擬真實(shí)世界的物理和因果關(guān)系。因此,，這些生成模型可以被視為不僅僅是簡單的模式識(shí)別工具：它們表現(xiàn)出世界模型的特征,。因此，生成模型中嵌入的世界知識(shí)可以被利用來提高其他模型的性能,。通過挖掘和利用生成模型中表示的世界知識(shí),，我們可以提高模型的泛化能力和魯棒性。這種方法不僅增強(qiáng)了模型對新環(huán)境的適應(yīng)性,，還提高了對未知數(shù)據(jù)的預(yù)測準(zhǔn)確性[339],、[340]。然而,，生成模型也有一些限制和缺點(diǎn),。例如，當(dāng)數(shù)據(jù)分布顯著偏斜或訓(xùn)練數(shù)據(jù)不足時(shí),，生成模型可能會(huì)產(chǎn)生不準(zhǔn)確或失真的輸出,。此外，這些模型的訓(xùn)練過程通常需要大量的計(jì)算資源和時(shí)間,，模型通常缺乏可解釋性,，這使得它們的實(shí)際應(yīng)用變得復(fù)雜?？偟膩碚f,，雖然生成模型在理解和生成符合物理定律的內(nèi)容方面展示了巨大的潛力，但要有效應(yīng)用它們,，必須解決幾個(gè)技術(shù)和實(shí)際挑戰(zhàn),。這些挑戰(zhàn)包括提高模型效率、增強(qiáng)可解釋性以及解決與數(shù)據(jù)偏差相關(guān)的問題,。隨著研究和發(fā)展的進(jìn)行,，預(yù)計(jì)生成模型在未來的應(yīng)用中將展示出更大的價(jià)值和潛力。
基于預(yù)測的方法（Prediction-based Methods）：基于預(yù)測的世界模型通過構(gòu)建和利用內(nèi)部表示來預(yù)測和理解環(huán)境,。通過根據(jù)給定條件在潛在空間重建相應(yīng)的特征,，它捕獲了更深層次的語義和相關(guān)的世界知識(shí)。這個(gè)模型將輸入信息映射到潛在空間，并在該空間內(nèi)操作,，提取和利用高級語義信息,，從而使機(jī)器人能夠更準(zhǔn)確地感知世界環(huán)境的基本表示（例如，I-JEPA [16],、MC-JEPA [342],、A-JEPA [343]、Point-JEPA [354],、IWM [344]）并更準(zhǔn)確地執(zhí)行具身下游任務(wù)（例如,，iVideoGPT [345]、IRASim [346],、STP [347],、MuDreamer [348]）。與傳統(tǒng)的像素級信息相比,，潛在特征可以抽象并解耦各種形式的知識(shí),，使模型能夠更有效地處理復(fù)雜任務(wù)和場景，并提高其泛化能力[355],。例如,，在時(shí)空建模中，世界模型需要根據(jù)對象的當(dāng)前狀態(tài)和交互的性質(zhì)預(yù)測其交互后的后狀態(tài),，將這些信息與其內(nèi)部知識(shí)結(jié)合起來,。
知識(shí)驅(qū)動(dòng)的方法（Knowledge-driven Methods）：知識(shí)驅(qū)動(dòng)的世界模型將人工構(gòu)建的知識(shí)注入模型中，賦予它們世界知識(shí),。這種方法在具身人工智能領(lǐng)域顯示出廣泛的應(yīng)用潛力,。例如，在real2sim2real方法[357]中,，使用真實(shí)世界知識(shí)構(gòu)建符合物理規(guī)則的模擬器,，然后使用這些模擬器訓(xùn)練機(jī)器人，增強(qiáng)模型的魯棒性和泛化能力,。此外,，人工構(gòu)建常識(shí)或符合物理規(guī)則的知識(shí)并將其應(yīng)用于生成模型或模擬器是一種常見策略（例如，ElastoGen[350],、One-2-3-45[351],、PLoT[349]）。這種方法對模型施加了更符合物理實(shí)際的約束,，增強(qiáng)了其在生成任務(wù)中的可靠性和可解釋性,。這些約束確保了模型的知識(shí)既準(zhǔn)確又一致，減少了訓(xùn)練和應(yīng)用過程中的不確定性,。一些方法將人工創(chuàng)建的物理規(guī)則與LLMs或MLMs結(jié)合起來,。通過利用LLMs和MLMs的常識(shí)能力,，這些方法（例如，Holodeck[71],、LEGENT[352],、GRUtopia[353]）通過自動(dòng)空間布局優(yōu)化生成了多樣化且語義豐富的場景。這極大地推進(jìn)了通用具身代理的發(fā)展,，通過在新穎和多樣化的環(huán)境中訓(xùn)練它們,。

B. 數(shù)據(jù)收集和訓(xùn)練（Data Collection and Training）

對于仿真到現(xiàn)實(shí)適應(yīng)性，高質(zhì)量數(shù)據(jù)非常重要,。傳統(tǒng)的數(shù)據(jù)收集方法涉及昂貴的設(shè)備,、精確的操作，并且耗時(shí),、勞動(dòng)密集,，通常缺乏靈活性。最近,，一些高效且成本效益高的方法被提出用于高質(zhì)量演示數(shù)據(jù)收集和訓(xùn)練。本節(jié)將討論真實(shí)世界和模擬環(huán)境中數(shù)據(jù)收集的各種方法,。圖16展示了真實(shí)世界和模擬環(huán)境中的演示數(shù)據(jù),。

真實(shí)世界數(shù)據(jù)（Real-World Data）：在大量、豐富的數(shù)據(jù)集上訓(xùn)練大型,、高容量模型已經(jīng)顯示出顯著的能力和顯著的成功,，有效地解決了下游應(yīng)用問題。例如,，像ChatGPT,、GPT-4和LLaMA這樣的LLMs不僅在NLP領(lǐng)域表現(xiàn)出色，而且為下游任務(wù)提供了出色的解決問題能力,。因此,，是否有可能在機(jī)器人領(lǐng)域訓(xùn)練一個(gè)具身大型模型，通過訓(xùn)練擁有強(qiáng)大的泛化能力,，并能夠適應(yīng)新場景和機(jī)器人任務(wù),。這需要大量的具身數(shù)據(jù)集為模型訓(xùn)練提供數(shù)據(jù)。Open X-Embodiment[303]是一個(gè)來自22種不同機(jī)器人的具身數(shù)據(jù)集,，包含527種技能和160,266個(gè)任務(wù),。收集的數(shù)據(jù)由機(jī)器人執(zhí)行操作的真實(shí)演示數(shù)據(jù)組成。該數(shù)據(jù)集主要關(guān)注家庭和廚房環(huán)境,，涉及家具,、食物和餐具等物品。操作主要圍繞拿起放置任務(wù),，一小部分涉及更復(fù)雜的操作,。在這個(gè)數(shù)據(jù)集上訓(xùn)練的高容量模型RT-X展示了出色的遷移能力。UMI[358]提出了一個(gè)數(shù)據(jù)收集和策略學(xué)習(xí)框架。他們設(shè)計(jì)了一個(gè)手持夾持器和優(yōu)雅的界面進(jìn)行數(shù)據(jù)收集,，實(shí)現(xiàn)了便攜,、低成本、信息豐富的數(shù)據(jù)收集,，用于挑戰(zhàn)性的雙手和動(dòng)態(tài)演示數(shù)據(jù),。通過簡單地修改訓(xùn)練數(shù)據(jù)，機(jī)器人可以實(shí)現(xiàn)零樣本泛化的雙手,、精確任務(wù),。Mobile ALOHA[359]是一個(gè)低成本的全身移動(dòng)操作系統(tǒng)。它可以用于收集全身移動(dòng)下的雙手操作任務(wù)數(shù)據(jù),，如炒蝦和上菜,。使用這個(gè)系統(tǒng)和靜態(tài)ALOHA收集的數(shù)據(jù)訓(xùn)練代理可以提高移動(dòng)操作任務(wù)的性能。這樣的代理可以作為家庭助手或工作助手,。在人類-代理協(xié)作[360]中,，人類和代理在數(shù)據(jù)收集過程中一起學(xué)習(xí)，減少人類工作量,，加快數(shù)據(jù)采集速度,，提高數(shù)據(jù)質(zhì)量。具體來說,，在具身場景中,，在數(shù)據(jù)收集期間，人類提供初始動(dòng)作輸入,。隨后,，代理通過迭代微調(diào)和去噪過程優(yōu)化這些動(dòng)作，逐步產(chǎn)生精確,、高質(zhì)量的操作演示,。整個(gè)過程可以總結(jié)如下：人類在操作中貢獻(xiàn)直覺和多樣性，而代理處理優(yōu)化和穩(wěn)定性,，減少對操作員的依賴,，使執(zhí)行更復(fù)雜的任務(wù)，收集更高質(zhì)量的數(shù)據(jù),。
模擬數(shù)據(jù)（Simulated Data）：前述的數(shù)據(jù)收集方法涉及直接在真實(shí)世界中收集演示數(shù)據(jù)以訓(xùn)練代理,。這種收集方法通常需要大量的人力、物力資源和時(shí)間,，導(dǎo)致效率低下,。因此，在大多數(shù)情況下,，研究人員可以選擇在模擬環(huán)境中收集數(shù)據(jù)集進(jìn)行模型訓(xùn)練,。在模擬環(huán)境中收集數(shù)據(jù)不需要大量資源,，通常可以由程序自動(dòng)化,，節(jié)省大量時(shí)間,。CLIPORT[294]和Transporter Networks[361]從Pybullet模擬器收集演示數(shù)據(jù)，用于端到端網(wǎng)絡(luò)模型訓(xùn)練,，并成功地將模型從模擬轉(zhuǎn)移到真實(shí)世界,。GAPartNet[362]構(gòu)建了一個(gè)以零件為中心的大規(guī)模交互數(shù)據(jù)集GAPartNet，為感知和交互任務(wù)提供了豐富的零件級注釋,。他們提出了一個(gè)用于領(lǐng)域泛化的3D零件分割和姿態(tài)估計(jì)的流程,，可以很好地泛化到模擬器和真實(shí)世界中未見過的物體類別。SemGrasp[289]構(gòu)建了一個(gè)大規(guī)模的抓取文本對齊數(shù)據(jù)集CapGrasp,，這是一個(gè)來自虛擬環(huán)境的語義豐富的靈巧手抓取數(shù)據(jù)集,。
仿真到現(xiàn)實(shí)范式（Sim-to-Real Paradigms）：最近，引入了幾個(gè)仿真到現(xiàn)實(shí)范式,，通過在模擬環(huán)境中進(jìn)行廣泛的學(xué)習(xí),，然后遷移到現(xiàn)實(shí)世界設(shè)置，以減少對廣泛且昂貴的真實(shí)世界演示數(shù)據(jù)的需求,。本節(jié)概述了五種仿真到現(xiàn)實(shí)轉(zhuǎn)移的范式,，如圖17所示。Real2Sim2real[363]通過在“數(shù)字孿生”模擬環(huán)境中利用強(qiáng)化學(xué)習(xí)（RL）增強(qiáng)了真實(shí)世界場景中的模仿學(xué)習(xí),。該方法涉及在模擬中通過廣泛的RL加強(qiáng)策略，然后將這些策略轉(zhuǎn)移到真實(shí)世界以解決數(shù)據(jù)稀缺問題,，并實(shí)現(xiàn)有效的機(jī)器人操作模仿學(xué)習(xí),。最初，使用NeRF和VR進(jìn)行場景掃描和重建,，并將構(gòu)建的場景資產(chǎn)導(dǎo)入模擬器以實(shí)現(xiàn)真實(shí)到模擬的保真度,。隨后，在模擬中進(jìn)行RL以微調(diào)從真實(shí)世界收集的稀疏專家演示得出的初始策略,。最后,，將經(jīng)過改進(jìn)的策略轉(zhuǎn)移到真實(shí)世界設(shè)置中。TRANSIC[364]通過實(shí)時(shí)人類干預(yù)來糾正真實(shí)世界場景中的機(jī)器人行為,，縮小了仿真到現(xiàn)實(shí)的差距,。它通過幾個(gè)步驟增強(qiáng)了仿真到現(xiàn)實(shí)的轉(zhuǎn)移性能：首先，機(jī)器人在模擬環(huán)境中使用RL訓(xùn)練以建立基礎(chǔ)策略,。然后,，這些策略在真實(shí)機(jī)器人上實(shí)施，人類通過遠(yuǎn)程控制實(shí)時(shí)干預(yù)和糾正錯(cuò)誤行為,。從這些干預(yù)中收集的數(shù)據(jù)用于訓(xùn)練殘差策略,。整合基礎(chǔ)和殘差策略確保了在仿真到現(xiàn)實(shí)轉(zhuǎn)移后,，真實(shí)世界應(yīng)用中的軌跡更平滑。這種方法顯著減少了對真實(shí)世界數(shù)據(jù)收集的需求,，從而減輕了負(fù)擔(dān),，同時(shí)實(shí)現(xiàn)了有效的仿真到現(xiàn)實(shí)轉(zhuǎn)移。Domain Randomization[365]–[367]通過在模擬期間引入?yún)?shù)隨機(jī)化,，增強(qiáng)了在模擬環(huán)境中訓(xùn)練的模型對真實(shí)世界場景的泛化,，涵蓋了可能在真實(shí)世界設(shè)置中發(fā)生的條件。這種方法提高了訓(xùn)練模型的魯棒性,，使其能夠從模擬環(huán)境部署到真實(shí)環(huán)境,。System Identification[368]，[369]構(gòu)建了真實(shí)世界環(huán)境中物理場景的準(zhǔn)確數(shù)學(xué)模型,，包括動(dòng)態(tài)和視覺渲染等參數(shù),。它的目標(biāo)是使模擬環(huán)境與真實(shí)世界設(shè)置非常相似，從而促進(jìn)在模擬中訓(xùn)練的模型順利過渡到真實(shí)環(huán)境,。Lang4sim2real[370]使用自然語言作為橋接,，通過使用圖像的文本描述作為跨域統(tǒng)一信號(hào)來解決仿真到現(xiàn)實(shí)的差距。這種方法有助于學(xué)習(xí)領(lǐng)域不變的圖像表示,，從而提高跨模擬和真實(shí)環(huán)境的泛化性能,。最初，一個(gè)編碼器在帶有跨域語言描述的圖像數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,。隨后,，使用領(lǐng)域不變表示，訓(xùn)練了一個(gè)多領(lǐng)域,、多任務(wù)的語言條件行為克隆策略,。這種方法通過從豐富的模擬數(shù)據(jù)中獲取額外信息來補(bǔ)償真實(shí)世界數(shù)據(jù)的稀缺性，從而增強(qiáng)了仿真到現(xiàn)實(shí)轉(zhuǎn)移,。

C. 具身控制（Embodied Control）

具身控制通過與環(huán)境的交互學(xué)習(xí),，并使用獎(jiǎng)勵(lì)機(jī)制優(yōu)化行為以獲得最優(yōu)策略，從而避免了傳統(tǒng)物理建模方法的缺點(diǎn),。具身控制方法可以分為兩類：1) 深度強(qiáng)化學(xué)習(xí)（DRL）,。DRL可以處理高維數(shù)據(jù)并學(xué)習(xí)復(fù)雜的行為模式，使其適合于決策和控制,?；旌虾蛣?dòng)態(tài)策略梯度（HDPG）[371]被提出用于雙足運(yùn)動(dòng)，允許控制策略根據(jù)多個(gè)標(biāo)準(zhǔn)動(dòng)態(tài)同時(shí)優(yōu)化,。DeepGait [372]是一個(gè)神經(jīng)網(wǎng)絡(luò)策略,，用于地形感知運(yùn)動(dòng)，它結(jié)合了基于模型的運(yùn)動(dòng)規(guī)劃和強(qiáng)化學(xué)習(xí)的方法,。它包括一個(gè)地形感知規(guī)劃器,，用于生成步態(tài)序列和基礎(chǔ)運(yùn)動(dòng),，引導(dǎo)機(jī)器人朝目標(biāo)方向前進(jìn)，以及一個(gè)步態(tài)和基礎(chǔ)運(yùn)動(dòng)控制器,，用于在保持平衡的同時(shí)執(zhí)行這些序列,。規(guī)劃器和控制器都使用神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器進(jìn)行參數(shù)化，并使用深度強(qiáng)化學(xué)習(xí)算法進(jìn)行優(yōu)化,。2) 模仿學(xué)習(xí),。DRL的一個(gè)缺點(diǎn)是需要大量數(shù)據(jù)來自眾多試驗(yàn)。為了解決這個(gè)問題,，引入了模仿學(xué)習(xí),，旨在通過收集高質(zhì)量的演示來最小化數(shù)據(jù)使用。為了提高數(shù)據(jù)效率,，提出了Offline RL + Online RL來降低交互成本并確保安全,。首先使用離線RL從靜態(tài)的、預(yù)先收集的大型數(shù)據(jù)集中學(xué)習(xí)策略,。然后將這些策略部署在真實(shí)環(huán)境中進(jìn)行實(shí)時(shí)交互和探索,，并根據(jù)反饋進(jìn)行調(diào)整。人類演示的代表性模仿學(xué)習(xí)方法是ALOHA [373]和Mobile ALOHA [359],。盡管具身AI包括高級算法,、模型和規(guī)劃模塊，但其最基礎(chǔ)和最關(guān)鍵的組成部分是具身控制,。因此,，必須考慮如何控制物理實(shí)體并賦予它們物理智能。具身控制與硬件密切相關(guān),，例如控制關(guān)節(jié)運(yùn)動(dòng),、末端執(zhí)行器位置和行走速度。對于機(jī)器人臂,，了解末端執(zhí)行器的位置，如何規(guī)劃關(guān)節(jié)軌跡以將手臂移動(dòng)到目標(biāo),？對于仿人機(jī)器人,，了解運(yùn)動(dòng)模式，如何控制關(guān)節(jié)以實(shí)現(xiàn)目標(biāo)姿勢,？這些是需要解決的關(guān)鍵問題,。一些工作集中在機(jī)器人控制上，增強(qiáng)了機(jī)器人動(dòng)作的靈活性,。[374]提出了一個(gè)基于視覺的全身控制框架,。通過連接一個(gè)機(jī)器人臂和一個(gè)機(jī)器狗，利用所有自由度（腿上有12個(gè)關(guān)節(jié),，臂上有6個(gè)關(guān)節(jié),，夾持器上有1個(gè)）,，它跟蹤機(jī)器狗的速度和機(jī)器人臂的末端執(zhí)行器位置，實(shí)現(xiàn)了更靈活的控制,。一些工作[375],，[376]采用傳統(tǒng)方法控制雙足機(jī)器人行走。MIT的Cheetah 3 [377],、ANYmal [378]和Atlas [379]使用了穩(wěn)健的行走控制器來管理機(jī)器人,。這些機(jī)器人可以用于更敏捷的運(yùn)動(dòng)任務(wù)，如跳躍或克服各種障礙[380]–[384],。其他工作[385],，[386]專注于仿人機(jī)器人的控制，以執(zhí)行各種動(dòng)作,，模仿人類行為,。圖18展示了一些例子。具身控制整合了RL和仿真到現(xiàn)實(shí)技術(shù),，通過環(huán)境交互優(yōu)化策略,，使未知領(lǐng)域的探索成為可能，可能超越人類能力,，并適應(yīng)非結(jié)構(gòu)化環(huán)境,。雖然機(jī)器人可以模仿許多人類行為，但有效的任務(wù)完成通常需要基于環(huán)境反饋的RL訓(xùn)練,。最具挑戰(zhàn)性的場景包括接觸密集型任務(wù),，其中操縱需要根據(jù)反饋進(jìn)行實(shí)時(shí)調(diào)整，例如被操縱對象的狀態(tài),、變形,、材料和力量。在這種情況下,，RL是不可或缺的,。在MLM時(shí)代，這些模型具有對場景語義的泛化理解,，為RL提供了強(qiáng)大的獎(jiǎng)勵(lì)函數(shù),。此外，RL對于將大型模型與預(yù)期任務(wù)對齊至關(guān)重要,。未來,，在預(yù)訓(xùn)練和微調(diào)之后，仍然需要RL來與物理世界對齊,，確保在真實(shí)世界環(huán)境中有效部署,。

VIII. 挑戰(zhàn)和未來方向

盡管具身AI取得了快速進(jìn)展，但它面臨幾個(gè)挑戰(zhàn),，并提出了激動(dòng)人心的未來方向,。高質(zhì)量機(jī)器人數(shù)據(jù)集：獲取足夠的真實(shí)世界機(jī)器人數(shù)據(jù)仍然是一個(gè)重大挑戰(zhàn),。收集這些數(shù)據(jù)既耗時(shí)又耗費(fèi)資源。僅依賴模擬數(shù)據(jù)會(huì)加劇仿真到現(xiàn)實(shí)的差距問題,。創(chuàng)建多樣化的真實(shí)世界機(jī)器人數(shù)據(jù)集需要各種機(jī)構(gòu)之間密切而廣泛的合作,。此外，開發(fā)更現(xiàn)實(shí)和高效的模擬器對于提高模擬數(shù)據(jù)的質(zhì)量至關(guān)重要,。當(dāng)前的工作RT-1 [11]使用基于機(jī)器人圖像和自然語言命令的預(yù)訓(xùn)練模型,。RT-1在導(dǎo)航和抓取任務(wù)中取得了良好的結(jié)果，但獲取真實(shí)世界機(jī)器人數(shù)據(jù)集非常具有挑戰(zhàn)性,。為了構(gòu)建能夠在機(jī)器人學(xué)中跨場景和跨任務(wù)應(yīng)用的通用具身模型,，必須構(gòu)建大規(guī)模數(shù)據(jù)集，利用高質(zhì)量的模擬環(huán)境數(shù)據(jù)協(xié)助真實(shí)世界數(shù)據(jù),。高效利用人類演示數(shù)據(jù)：高效利用人類演示數(shù)據(jù)涉及利用人類執(zhí)行的動(dòng)作和行為來訓(xùn)練和改進(jìn)機(jī)器人系統(tǒng),。這個(gè)過程包括收集、處理和從人類執(zhí)行機(jī)器人預(yù)期學(xué)習(xí)的任務(wù)的大型,、高質(zhì)量的數(shù)據(jù)集中學(xué)習(xí),。當(dāng)前的工作R3M [387]使用動(dòng)作標(biāo)簽和人類演示數(shù)據(jù)學(xué)習(xí)具有高成功率的通用表示，但復(fù)雜任務(wù)的效率仍需提高,。因此,，重要的是有效利用大量未結(jié)構(gòu)化、多標(biāo)簽和多模態(tài)的人類演示數(shù)據(jù),，結(jié)合動(dòng)作標(biāo)簽數(shù)據(jù),，訓(xùn)練能夠在短時(shí)間內(nèi)學(xué)習(xí)各種任務(wù)的具身模型。通過高效利用人類演示數(shù)據(jù),，機(jī)器人系統(tǒng)可以實(shí)現(xiàn)更高的性能和適應(yīng)性,，使它們更有能力在動(dòng)態(tài)環(huán)境中執(zhí)行復(fù)雜任務(wù)。復(fù)雜環(huán)境的認(rèn)知：復(fù)雜環(huán)境的認(rèn)知指的是具身智能體在物理或虛擬環(huán)境中感知,、理解和導(dǎo)航復(fù)雜真實(shí)世界環(huán)境的能力,。基于廣泛的常識(shí)知識(shí),，Say-Can [299]利用預(yù)訓(xùn)練的LLM模型的任務(wù)分解機(jī)制,，該機(jī)制嚴(yán)重依賴大量常識(shí)知識(shí)進(jìn)行簡單任務(wù)規(guī)劃，但缺乏對復(fù)雜環(huán)境中長期任務(wù)的理解,。對于非結(jié)構(gòu)化開放環(huán)境,，當(dāng)前的工作通常依賴于使用廣泛常識(shí)知識(shí)的預(yù)訓(xùn)練LLM模型的任務(wù)分解機(jī)制進(jìn)行簡單任務(wù)規(guī)劃,，而缺乏特定場景理解,。增強(qiáng)知識(shí)轉(zhuǎn)移和泛化能力在復(fù)雜環(huán)境中至關(guān)重要。一個(gè)真正多功能的機(jī)器人系統(tǒng)應(yīng)該能夠理解和執(zhí)行跨越多樣化和未見場景的自然語言指令,。這需要開發(fā)適應(yīng)性強(qiáng),、可擴(kuò)展的具身智能體架構(gòu),。長期任務(wù)執(zhí)行：執(zhí)行單個(gè)指令通常意味著機(jī)器人需要執(zhí)行長期任務(wù)，例如命令“清潔廚房”,，這涉及重新排列物體,、掃地、擦桌子等活動(dòng),。成功完成這些任務(wù)需要機(jī)器人能夠計(jì)劃并在較長時(shí)間內(nèi)執(zhí)行一系列低級動(dòng)作,。雖然當(dāng)前的高級任務(wù)規(guī)劃器已經(jīng)顯示出初步的成功，但它們在多樣化的場景中往往因?yàn)槿狈︶槍呱砣蝿?wù)的調(diào)整而不足,。解決這一挑戰(zhàn)需要開發(fā)配備有強(qiáng)大感知能力和豐富常識(shí)知識(shí)的高效規(guī)劃器,。因果關(guān)系發(fā)現(xiàn)：現(xiàn)有的數(shù)據(jù)驅(qū)動(dòng)具身智能體基于數(shù)據(jù)內(nèi)在的相關(guān)性做出決策。然而,，這種建模方法不允許模型真正理解知識(shí),、行為和環(huán)境之間的因果關(guān)系，導(dǎo)致策略存在偏見,。這使得確保它們能夠以可解釋,、魯棒和可靠的方式在真實(shí)世界環(huán)境中操作變得困難。因此,，重要的是讓具身智能體由世界知識(shí)驅(qū)動(dòng),，能夠進(jìn)行自主因果推理。通過交互和學(xué)習(xí)理解世界,，并通過推理進(jìn)一步增強(qiáng)多模態(tài)具身智能體在復(fù)雜真實(shí)世界環(huán)境中的適應(yīng)性,、決策可靠性和泛化能力。對于具身任務(wù),，需要通過交互指令和狀態(tài)預(yù)測建立跨模態(tài)的時(shí)空因果關(guān)系[388],。此外，智能體需要理解對象的可承受性,，以實(shí)現(xiàn)適應(yīng)性任務(wù)規(guī)劃和動(dòng)態(tài)場景中的長期自主導(dǎo)航,。為了優(yōu)化決策，需要結(jié)合反事實(shí)和因果干預(yù)策略[389],，從反事實(shí)和因果干預(yù)的角度追蹤因果關(guān)系,，減少探索迭代，并優(yōu)化決策,?；谑澜缰R(shí)構(gòu)建因果圖，并通過主動(dòng)因果推理驅(qū)動(dòng)仿真到現(xiàn)實(shí)轉(zhuǎn)移,，將為具身AI形成一個(gè)統(tǒng)一框架,。

持續(xù)學(xué)習(xí)：在機(jī)器人應(yīng)用中，持續(xù)學(xué)習(xí)[390]對于在多樣化環(huán)境中部署機(jī)器人學(xué)習(xí)策略至關(guān)重要，但目前這一領(lǐng)域尚未充分探索,。盡管一些近期研究已經(jīng)考察了持續(xù)學(xué)習(xí)的子主題——如增量學(xué)習(xí),、快速運(yùn)動(dòng)適應(yīng)和人在環(huán)路學(xué)習(xí)——但這些解決方案通常為單一任務(wù)或平臺(tái)設(shè)計(jì)，并未考慮基礎(chǔ)模型,。開放的研究問題和可行的方法包括：1) 在微調(diào)最新數(shù)據(jù)時(shí)混合不同比例的先前數(shù)據(jù)分布,，以減輕災(zāi)難性遺忘[391]；2) 開發(fā)從先前分布或課程中高效原型,，用于學(xué)習(xí)新任務(wù)時(shí)的任務(wù)推理,；3) 提高在線學(xué)習(xí)算法的訓(xùn)練穩(wěn)定性和樣本效率；4) 確定將大容量模型無縫整合到控制框架中的原則方法,，可能是通過分層學(xué)習(xí)或慢速-快速控制,，以實(shí)現(xiàn)實(shí)時(shí)推理。

統(tǒng)一評估基準(zhǔn)：盡管存在許多評估低級控制策略的基準(zhǔn),，但它們通常在評估的技能方面有顯著差異,。此外，這些基準(zhǔn)中包含的對象和場景通常受到模擬器限制,。為了全面評估具身模型,，需要基準(zhǔn)能夠使用現(xiàn)實(shí)模擬器涵蓋一系列多樣化的技能。關(guān)于高級任務(wù)規(guī)劃器,，許多基準(zhǔn)側(cè)重于通過問答任務(wù)評估規(guī)劃能力,。然而，更理想的方法包括評估高級任務(wù)規(guī)劃器和低級控制策略一起執(zhí)行長期任務(wù),，并測量成功率,，而不是僅依賴于規(guī)劃器的孤立評估。這種綜合方法為評估具身AI系統(tǒng)的能力提供了更全面的視角,。

IX. 結(jié)論

具身AI允許智能體感知,、感知并通過網(wǎng)絡(luò)空間和物理世界與各種對象互動(dòng)，這對其實(shí)現(xiàn)通用人工智能（AGI）至關(guān)重要,。本調(diào)查廣泛回顧了具身機(jī)器人,、模擬器、四個(gè)代表性的具身任務(wù)：視覺主動(dòng)感知,、具身交互,、具身智能體和仿真到現(xiàn)實(shí)機(jī)器人控制，以及未來的研究方向,。對具身機(jī)器人,、模擬器、數(shù)據(jù)集和方法的比較總結(jié)為最近在具身AI領(lǐng)域的發(fā)展提供了清晰的圖景,，這將極大地有利于未來沿著這一新興且有前景的研究方向進(jìn)行的研究,。

作者：張長旺,，圖源：旺知識(shí)

參考資料

標(biāo)題：Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

作者：Yang Liu, Weixing Chen, Yongjie Bai, Guanbin Li, Wen Gao, Fellow, IEEE, Liang Lin, Fellow, IEEE

單位：中山大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院，鵬城實(shí)驗(yàn)室,，北京大學(xué)數(shù)字媒體研究所

標(biāo)簽：具身人工智能，多模態(tài)大型模型,，世界模型,，智能體，機(jī)器人學(xué)

概述：本調(diào)查研究了具身AI的最新進(jìn)展,，探討了多模態(tài)大型模型和世界模型在實(shí)現(xiàn)具身智能體中的重要作用,。

鏈接：https:///pdf/2407.06886v6

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： taotao_2016 > 《AI》

舉報(bào)/認(rèn)領(lǐng)