具身人工智能(Embodied AI)對于實(shí)現(xiàn)通用人工智能(AGI)至關(guān)重要,并作為連接網(wǎng)絡(luò)空間和物理世界的各種應(yīng)用的基礎(chǔ),。最近,,多模態(tài)大型模型(MLMs)和世界模型(WMs)的出現(xiàn)因其卓越的感知、交互和推理能力而受到顯著關(guān)注,,使它們成為具身智能體大腦的有希望的架構(gòu),。然而,目前還沒有針對MLMs時(shí)代的具身AI的全面調(diào)查,。在這項(xiàng)調(diào)查中,,我們對具身AI的最新進(jìn)展進(jìn)行了全面探索。我們的分析首先通過具身機(jī)器人和模擬器的前沿代表性作品,,全面了解研究重點(diǎn)及其局限性,。然后,我們分析了四個(gè)主要研究目標(biāo):1)具身感知,,2)具身交互,,3)具身智能體,以及4)仿真到現(xiàn)實(shí)的適應(yīng)性,,涵蓋了最先進(jìn)的方法,、基本范式和綜合數(shù)據(jù)集。此外,,我們探討了虛擬和現(xiàn)實(shí)具身智能體中MLMs的復(fù)雜性,,強(qiáng)調(diào)了它們在促進(jìn)動(dòng)態(tài)數(shù)字和物理環(huán)境中的交互中的重要性。最后,,我們總結(jié)了具身AI的挑戰(zhàn)和局限性,,并討論了它們潛在的未來方向。我們希望這項(xiàng)調(diào)查能為研究社區(qū)提供基礎(chǔ)參考,,并激發(fā)持續(xù)的創(chuàng)新,。 我們翻譯解讀最新論文:關(guān)于嵌入式人工智能的全面調(diào)查,文末有論文鏈接,。作者:張長旺,,圖源:旺知識(shí) 關(guān)鍵詞: 具身AI,網(wǎng)絡(luò)空間,,物理世界,多模態(tài)大型模型,,世界模型,,智能體,機(jī)器人學(xué) I. 引言 具身AI最初由艾倫·圖靈在1950年提出的圖靈測試提出[1],,旨在確定智能體是否能夠展示不僅僅是在虛擬環(huán)境中解決抽象問題(網(wǎng)絡(luò)空間1),,而且也能夠?qū)Ш轿锢硎澜绲膹?fù)雜性和不可預(yù)測性。 圖1 展示了谷歌學(xué)術(shù)上關(guān)于具身AI主題的搜索結(jié)果。垂直軸和水平軸分別表示出版物數(shù)量和年份,。自2023年MLMs的突破以來,,出版物呈指數(shù)級增長。 網(wǎng)絡(luò)空間中的智能體通常被稱為無體AI,,而物理空間中的智能體則是具身AI(表I),。最近在多模態(tài)大型模型(MLMs)方面的進(jìn)步,為具身模型注入了強(qiáng)大的感知,、交互和規(guī)劃能力,,以開發(fā)通用的具身智能體和機(jī)器人,它們積極地與虛擬和物理環(huán)境進(jìn)行交互[2],。因此,,具身智能體被廣泛認(rèn)為是MLMs的最佳載體。最近的代表性具身模型是RT-2 [3]和RT-H [4],。然而,,當(dāng)前MLMs在長期記憶能力、理解復(fù)雜意圖以及復(fù)雜任務(wù)分解方面的能力是有限的,。為了實(shí)現(xiàn)通用人工智能(AGI),,具身AI的發(fā)展是一條基本途徑。與像ChatGPT [5]這樣的對話智能體不同,,具身AI認(rèn)為通過控制物理體現(xiàn)并與模擬和物理環(huán)境進(jìn)行交互,,可以實(shí)現(xiàn)真正的AGI [6]–[8]。隨著我們站在AGI驅(qū)動(dòng)創(chuàng)新的前沿,,深入探索具身AI領(lǐng)域,,解開它們的復(fù)雜性,評估它們當(dāng)前的發(fā)展階段,,并思考它們未來可能遵循的潛在軌跡至關(guān)重要,。如今,具身AI包含了計(jì)算機(jī)視覺(CV),、自然語言處理(NLP)和機(jī)器人技術(shù)等各種關(guān)鍵技術(shù),,最具代表性的是具身感知、具身交互,、具身智能體和仿真到現(xiàn)實(shí)機(jī)器人控制,。因此,通過全面調(diào)查捕捉具身AI的不斷發(fā)展的景觀,,以追求AGI是至關(guān)重要的,。具身智能體是具身AI最突出的基礎(chǔ)。對于一個(gè)具身任務(wù),,具身智能體必須充分理解語言指令中的人類意圖,,積極探索周圍環(huán)境,,全面感知來自虛擬和物理環(huán)境的多模態(tài)元素,并為復(fù)雜任務(wù)執(zhí)行適當(dāng)?shù)男袆?dòng)[12],,[13],,如圖2所示。多模態(tài)模型的快速發(fā)展在復(fù)雜環(huán)境中展示了優(yōu)越的多功能性,、靈活性和泛化能力,,與傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)方法相比。最先進(jìn)的視覺編碼器[14],,[15]提供的預(yù)訓(xùn)練視覺表示提供精確的對象類別,、姿態(tài)和幾何形狀估計(jì),使具身模型能夠徹底感知復(fù)雜和動(dòng)態(tài)的環(huán)境,。功能強(qiáng)大的大型語言模型(LLMs)使機(jī)器人更好地理解來自人類的語言指令,。有希望的MLMs為對齊來自具身機(jī)器人的視覺和語言表示提供了可行的方法。世界模型[16],,[17]展示了顯著的模擬能力和對物理法則的理解,,使具身模型能夠全面理解物理和真實(shí)環(huán)境。這些創(chuàng)新使具身智能體能夠全面感知復(fù)雜環(huán)境,,自然地與人類交互,,并可靠地執(zhí)行任務(wù)。 具身AI的進(jìn)步已經(jīng)取得了快速發(fā)展,,在研究社區(qū)中引起了顯著關(guān)注(圖1),,并被認(rèn)為是實(shí)現(xiàn)AGI的最可行路徑。谷歌學(xué)術(shù)報(bào)告稱,,具身AI出版物的數(shù)量很大,,僅在2023年就有大約10700篇論文發(fā)表。這相當(dāng)于平均每天29篇論文或每小時(shí)超過一篇論文,。盡管對從MLMs中獲取強(qiáng)大的感知和推理能力非常感興趣,,但研究社區(qū)缺乏一個(gè)全面的調(diào)查,可以幫助整理現(xiàn)有的具身AI研究,、面臨的挑戰(zhàn)以及未來的研究方向,。在MLMs時(shí)代,我們的目標(biāo)是通過對網(wǎng)絡(luò)空間到物理世界的具身AI進(jìn)行全面系統(tǒng)調(diào)查來填補(bǔ)這一空白,。我們從不同的角度進(jìn)行調(diào)查,,包括具身機(jī)器人、模擬器,、四個(gè)代表性的具身任務(wù)(視覺主動(dòng)感知,、具身交互、多模態(tài)智能體和仿真到現(xiàn)實(shí)的機(jī)器人控制)以及未來的研究方向,。我們相信這項(xiàng)調(diào)查將提供一個(gè)清晰的大局圖,,展示我們已經(jīng)取得的成就,以及我們可以沿著這一新興但非常有前景的研究方向進(jìn)一步取得的成就,。 與以往工作的不同之處:盡管已經(jīng)有幾篇關(guān)于具身AI的調(diào)查論文[6],,[18]–[20],但它們大多已經(jīng)過時(shí),,因?yàn)樗鼈兪窃?023年左右的MLMs時(shí)代之前發(fā)表的,。據(jù)我們所知,2023年之后只有一篇調(diào)查論文[8],,它只關(guān)注了視覺-語言-動(dòng)作具身AI模型,。然而,MLMs,、WMs和具身智能體并沒有被完全考慮,。此外,最近的具身機(jī)器人和模擬器的發(fā)展也被忽視了,。為了解決這一快速發(fā)展領(lǐng)域中全面調(diào)查論文的缺乏,,我們提出了這項(xiàng)全面調(diào)查,涵蓋了代表性的具身機(jī)器人,、模擬器和四個(gè)主要研究任務(wù):具身感知,、具身交互、具身智能體和仿真到現(xiàn)實(shí)的機(jī)器人控制,。 總之,,這項(xiàng)工作的主要貢獻(xiàn)有三個(gè)方面。首先,,它對具身AI進(jìn)行了系統(tǒng)回顧,,包括具身機(jī)器人、模擬器和四個(gè)主要研究任務(wù):視覺主動(dòng)感知,、具身交互,、具身智能體和仿真到現(xiàn)實(shí)的機(jī)器人控制。據(jù)我們所知,,這是第一次從網(wǎng)絡(luò)和物理空間對齊的角度,,基于MLMs和WMs,對具身AI進(jìn)行全面調(diào)查,,提供了一個(gè)廣泛的概述,,并對現(xiàn)有研究進(jìn)行了徹底的總結(jié)和分類。其次,,它檢查了具身AI的最新進(jìn)展,,為跨多個(gè)模擬器和數(shù)據(jù)集的當(dāng)前工作提供了全面的基準(zhǔn)測試和討論。第三,,它確定了未來研究的幾個(gè)研究挑戰(zhàn)和潛在方向,,以實(shí)現(xiàn)具身AI的AGI,。本文的其余部分組織如下。第2節(jié)介紹各種具身機(jī)器人,。第3節(jié)描述通用和真實(shí)場景的模擬器,。第4節(jié)介紹具身感知,包括主動(dòng)視覺感知,、3D視覺定位,、視覺語言導(dǎo)航和非視覺感知。第5節(jié)介紹具身交互,。第6節(jié)介紹具身智能體,,包括具身多模態(tài)基礎(chǔ)模型和具身任務(wù)規(guī)劃。第7節(jié)介紹仿真到現(xiàn)實(shí)的適應(yīng)性,,包括具身世界模型,、數(shù)據(jù)收集和訓(xùn)練以及具身控制。第8節(jié),,我們討論有希望的研究方向,。 II. 具身機(jī)器人 具身智能體積極與物理環(huán)境互動(dòng),包括廣泛的具身形式,,包括機(jī)器人,、智能家電、智能眼鏡,、自動(dòng)駕駛汽車等,。其中,機(jī)器人作為最突出的具身形式之一,。根據(jù)應(yīng)用的不同,,機(jī)器人被設(shè)計(jì)成各種形態(tài),利用其硬件特性來執(zhí)行特定任務(wù),,如圖4所示,。 A. 固定基機(jī)器人 如圖4(a)所示,固定基機(jī)器人廣泛應(yīng)用于實(shí)驗(yàn)室自動(dòng)化,、教育培訓(xùn)和工業(yè)制造,,因?yàn)樗鼈凅w積小巧且操作精度高。這些機(jī)器人具有堅(jiān)固的基座和結(jié)構(gòu),,確保了操作期間的穩(wěn)定性和高精度,。它們配備了高精度傳感器和執(zhí)行器,能夠?qū)崿F(xiàn)微米級精度,,使它們適合需要高精度和重復(fù)性的任務(wù)[21],。此外,固定基機(jī)器人具有高度的可編程性,,允許用戶適應(yīng)各種任務(wù)場景,,例如Franka(Franka Emika panda)[22],、Kuka iiwa(KUKA)[23]和Sawyer(Rethink Robotics)[24]。然而,,固定基機(jī)器人也有一定的缺點(diǎn),。它們的固定基座設(shè)計(jì)限制了它們的操作范圍和靈活性,阻礙了它們在大面積內(nèi)的移動(dòng)或調(diào)整位置,,導(dǎo)致它們與人類和其他機(jī)器人的協(xié)作受到限制[21]。 B. 輪式機(jī)器人和履帶式機(jī)器人 對于移動(dòng)機(jī)器人,,它們可以面對更復(fù)雜和多樣化的應(yīng)用場景,。如圖4(b)所示,輪式機(jī)器人以其高效的機(jī)動(dòng)性而聞名,,在物流,、倉儲(chǔ)和安全檢查中得到廣泛應(yīng)用。輪式機(jī)器人的優(yōu)點(diǎn)包括結(jié)構(gòu)簡單,、成本相對較低,、高能效和在平坦表面上快速移動(dòng)的能力[21]。這些機(jī)器人通常配備有高精度傳感器,,如激光雷達(dá)和攝像頭,,使其能夠自主導(dǎo)航和環(huán)境感知,使它們在自動(dòng)化倉庫管理和檢查任務(wù)中非常有效,,例如Kiva機(jī)器人(Kiva Systems)[25]和Jackal機(jī)器人(Clearpath Robotics)[26],。然而,輪式機(jī)器人在復(fù)雜地形和惡劣環(huán)境中的機(jī)動(dòng)性有限,,特別是在不平坦的地面上,。此外,它們的載重能力和機(jī)動(dòng)性也受到一定限制,。與此不同,,履帶式機(jī)器人具有強(qiáng)大的越野能力和機(jī)動(dòng)性,在農(nóng)業(yè),、建筑和災(zāi)難恢復(fù)中顯示出潛力,,如圖4(c)所示。履帶系統(tǒng)提供了更大的地面接觸面積,,分散了機(jī)器人的重量,,降低了在泥濘和沙灘等軟質(zhì)地形上沉陷的風(fēng)險(xiǎn)。此外,,履帶式機(jī)器人配備了強(qiáng)大的動(dòng)力和懸掛系統(tǒng),,以在復(fù)雜地形上保持穩(wěn)定性和牽引力[27]。因此,,履帶式機(jī)器人也用于軍事等敏感領(lǐng)域,。iRobot的PackBot是一種多才多藝的軍事履帶機(jī)器人,,能夠執(zhí)行偵察、爆炸物處理和救援任務(wù)[28],。然而,,由于履帶系統(tǒng)的高摩擦,履帶式機(jī)器人通常遭受低能效的困擾,。此外,,它們在平坦表面上的移動(dòng)速度比輪式機(jī)器人慢,以及它們的靈活性和機(jī)動(dòng)性也受到限制,。 C. 四足機(jī)器人 四足機(jī)器人以其穩(wěn)定性和適應(yīng)性而聞名,,非常適合復(fù)雜地形探索、救援任務(wù)和軍事應(yīng)用,。受四足動(dòng)物啟發(fā),,這些機(jī)器人能夠在不平坦的表面上保持平衡和機(jī)動(dòng)性,如圖4(d)所示,。多關(guān)節(jié)設(shè)計(jì)使它們能夠模仿生物運(yùn)動(dòng),,實(shí)現(xiàn)復(fù)雜的步態(tài)和姿勢調(diào)整。高可調(diào)性使機(jī)器人能夠自動(dòng)調(diào)整其姿態(tài)以適應(yīng)不斷變化的地形,,增強(qiáng)機(jī)動(dòng)性和穩(wěn)定性,。傳感系統(tǒng),如激光雷達(dá)和攝像頭,,提供環(huán)境感知,,使機(jī)器人能夠自主導(dǎo)航并避免障礙[29]。幾種類型的四足機(jī)器人被廣泛使用:Unitree Robotics,、Boston Dynamics Spot和ANYmal C,。Unitree Robotics的Unitree A1和Go1以其成本效益和靈活性而聞名。A1[30]和Go1[31]具有強(qiáng)大的機(jī)動(dòng)性和智能避障能力,,適用于各種應(yīng)用,。Boston Dynamics的Spot以其卓越的穩(wěn)定性和操作靈活性而聞名,通常用于工業(yè)檢查和救援任務(wù),。它具有強(qiáng)大的負(fù)載能力和適應(yīng)性,,能夠在惡劣環(huán)境中執(zhí)行復(fù)雜任務(wù)[32]。ANYbotics的ANYmal C以其模塊化設(shè)計(jì)和高耐用性而廣泛用于工業(yè)檢查和維護(hù),。ANYmal C配備了自主導(dǎo)航和遠(yuǎn)程操作能力,,適合長時(shí)間的戶外任務(wù)甚至極端的月球任務(wù)[33]。四足機(jī)器人的復(fù)雜設(shè)計(jì)和高制造成本導(dǎo)致了大量初始投資,,限制了它們在成本敏感領(lǐng)域的使用,。此外,它們在復(fù)雜環(huán)境中的電池續(xù)航能力有限,需要頻繁充電或更換電池以進(jìn)行長時(shí)間操作[34],。 D. 仿人機(jī)器人 仿人機(jī)器人以其類人形態(tài)而著稱,,在服務(wù)行業(yè)、醫(yī)療保健和協(xié)作環(huán)境中越來越普遍,。這些機(jī)器人可以模仿人類的動(dòng)作和行為模式,,提供個(gè)性化服務(wù)和支持。它們靈巧的手設(shè)計(jì)使它們能夠執(zhí)行復(fù)雜和復(fù)雜的任務(wù),,與其他類型的機(jī)器人區(qū)分開來,,如圖4(e)所示。這些手通常具有多個(gè)自由度和高精度傳感器,,使它們能夠模仿人類的抓握和操縱能力,,在醫(yī)療手術(shù)和精密制造等領(lǐng)域尤為重要[35]。在當(dāng)前的仿人機(jī)器人中,,Atlas(Boston Dynamics)以其卓越的機(jī)動(dòng)性和穩(wěn)定性而聞名。Atlas可以執(zhí)行跑步,、跳躍和滾動(dòng)等復(fù)雜動(dòng)態(tài)動(dòng)作,,展示了仿人機(jī)器人在高度動(dòng)態(tài)環(huán)境中的潛力[36]。HRP系列(AIST)在各種研究和工業(yè)應(yīng)用中得到應(yīng)用,,設(shè)計(jì)重點(diǎn)是高穩(wěn)定性和靈活性,,使其在復(fù)雜環(huán)境中特別有效,尤其是與人類的協(xié)作任務(wù)[37],。ASIMO(Honda)是最知名的仿人機(jī)器人之一,,能夠行走、跑步,、爬樓梯,,以及識(shí)別面部和手勢,使其適合接待和導(dǎo)游服務(wù)[38],。此外,,一種小型社交機(jī)器人Pepper(Softbank Robotics)能夠識(shí)別情緒并進(jìn)行自然語言交流,在客戶服務(wù)和教育環(huán)境中得到廣泛應(yīng)用[39],。然而,,仿人機(jī)器人在保持復(fù)雜環(huán)境中的操作穩(wěn)定性和可靠性方面面臨挑戰(zhàn),由于其復(fù)雜的控制系統(tǒng),,包括健壯的雙足行走控制和靈巧的手部抓握[40],。此外,基于液壓系統(tǒng)的傳統(tǒng)仿人機(jī)器人以其龐大的結(jié)構(gòu)和高昂的維護(hù)成本為特點(diǎn),,正逐漸被電機(jī)驅(qū)動(dòng)系統(tǒng)所取代,。最近,特斯拉和Unitree Robotics推出了基于電機(jī)系統(tǒng)的仿人機(jī)器人。通過整合LLMs,,仿人機(jī)器人預(yù)計(jì)將智能地處理各種復(fù)雜任務(wù),,填補(bǔ)制造業(yè)、醫(yī)療保健和服務(wù)行業(yè)中的勞動(dòng)力缺口,,從而提高效率和安全性[41],。 E. 生物模擬機(jī)器人 不同地,生物模擬機(jī)器人通過模擬自然生物體的高效運(yùn)動(dòng)和功能,,在復(fù)雜和動(dòng)態(tài)的環(huán)境中執(zhí)行任務(wù),。通過模仿生物體的形式和運(yùn)動(dòng)機(jī)制,這些機(jī)器人在醫(yī)療保健,、環(huán)境監(jiān)測和生物研究等領(lǐng)域展示了巨大的潛力[21],。通常,它們使用柔性材料和結(jié)構(gòu)來實(shí)現(xiàn)逼真,、敏捷的運(yùn)動(dòng),,并最大限度地減少對環(huán)境的影響。重要的是,,生物模擬設(shè)計(jì)可以通過模仿生物體的高效運(yùn)動(dòng)機(jī)制顯著提高機(jī)器人的能效,,使它們在能源消耗方面更加經(jīng)濟(jì)[42],[43],。這些生物模擬機(jī)器人包括魚形機(jī)器人[44],,[45],昆蟲形機(jī)器人[46],,[47]和軟體機(jī)器人[48],,如圖4(f)所示。然而,,生物模擬機(jī)器人面臨幾個(gè)挑戰(zhàn),。首先,它們的設(shè)計(jì)和制造過程復(fù)雜且成本高,,限制了大規(guī)模生產(chǎn)和廣泛應(yīng)用,。其次,由于它們使用柔性材料和復(fù)雜的運(yùn)動(dòng)機(jī)制,,生物模擬機(jī)器人在極端環(huán)境中的耐用性和可靠性受到限制,。 III. 具身模擬器 具身模擬器對具身人工智能至關(guān)重要,因?yàn)樗鼈兲峁┝顺杀拘б娓叩膶?shí)驗(yàn),,通過模擬潛在的危險(xiǎn)場景來確保安全,,具有在不同環(huán)境中測試的可擴(kuò)展性、快速原型制作能力,、更廣泛的研究社區(qū)的可訪問性,、控制環(huán)境進(jìn)行精確研究、用于訓(xùn)練和評估的數(shù)據(jù)生成,以及用于算法比較的標(biāo)準(zhǔn)基準(zhǔn),。為了使智能體能夠與環(huán)境互動(dòng),,有必要構(gòu)建一個(gè)現(xiàn)實(shí)模擬的環(huán)境。這需要考慮環(huán)境的物理特性,、對象的屬性以及它們之間的互動(dòng),。本節(jié)將介紹兩部分常用的模擬平臺(tái):基于底層模擬的通用模擬器和基于真實(shí)場景的模擬器。 A. 通用模擬器 真實(shí)環(huán)境中的物理互動(dòng)和動(dòng)態(tài)變化是不可替代的,。然而,,在物理世界中部署具身模型通常會(huì)帶來高昂的成本和面臨眾多挑戰(zhàn)。通用模擬器提供了一個(gè)與物理世界緊密相似的虛擬環(huán)境,,允許進(jìn)行算法開發(fā)和模型訓(xùn)練,,這在成本、時(shí)間和安全性方面提供了顯著的優(yōu)勢,。Isaac Sim [49] 是一個(gè)先進(jìn)的機(jī)器人和人工智能研究的模擬平臺(tái),。它具有高保真度的物理模擬、實(shí)時(shí)光線追蹤,、廣泛的機(jī)器人模型庫和深度學(xué)習(xí)支持,。它的應(yīng)用場景包括自動(dòng)駕駛、工業(yè)自動(dòng)化和人機(jī)交互,。Gazebo [60] 是一個(gè)用于機(jī)器人研究的開源模擬器。它擁有豐富的機(jī)器人庫,,并與ROS緊密集成,。它支持各種傳感器的模擬,并提供眾多預(yù)建的機(jī)器人模型和環(huán)境,。它主要用于機(jī)器人導(dǎo)航和控制以及多機(jī)器人系統(tǒng),。PyBullet [52] 是Bullet物理引擎的Python接口。它易于使用,,具有多樣化的傳感器模擬和深度學(xué)習(xí)集成,。PyBullet支持實(shí)時(shí)物理模擬,包括剛體動(dòng)力學(xué),、碰撞檢測和約束求解。表II展示了10個(gè)通用模擬器的關(guān)鍵特性和主要應(yīng)用場景。它們在具身人工智能領(lǐng)域各自提供獨(dú)特的優(yōu)勢,。研究人員可以根據(jù)具體的研究需求選擇最合適的模擬器,,從而加速具身人工智能技術(shù)的發(fā)展和應(yīng)用。圖5顯示了通用模擬器的可視化效果,。 B. 基于真實(shí)場景的模擬器 實(shí)現(xiàn)在家庭活動(dòng)中的通用具身智能體一直是具身人工智能研究的主要焦點(diǎn),。這些具身智能體需要深入理解人類日常生活,并執(zhí)行復(fù)雜的具身任務(wù),如室內(nèi)環(huán)境中的導(dǎo)航和交互,。為了滿足這些復(fù)雜任務(wù)的需求,,模擬環(huán)境需要盡可能接近真實(shí)世界,這對模擬器的復(fù)雜性和現(xiàn)實(shí)性提出了高要求,。這導(dǎo)致了基于真實(shí)世界環(huán)境的模擬器的創(chuàng)建,。這些模擬器大多從真實(shí)世界收集數(shù)據(jù),創(chuàng)建照片般逼真的3D資產(chǎn),,并使用像UE5和Unity這樣的3D游戲引擎構(gòu)建場景,。豐富和真實(shí)的場景使基于真實(shí)世界環(huán)境的模擬器成為家庭活動(dòng)中具身人工智能研究的首選。 AI2-THOR [61] 是由Allen人工智能研究所領(lǐng)導(dǎo)的基于Unity3D的室內(nèi)具身場景模擬器,。作為一個(gè)在真實(shí)世界中構(gòu)建的高保真模擬器,,AI2-THOR擁有豐富的交互場景對象,并且為它們分配了物理屬性(如打開/關(guān)閉甚至冷/熱),。AI2-THOR由兩部分組成:iTHOR和RoboTHOR,。iTHOR包含120個(gè)房間,分為廚房,、臥室,、浴室和客廳,擁有2000多個(gè)獨(dú)特的交互對象,,并支持多智能體模擬,; RoboTHOR包含89個(gè)模塊化公寓,這些公寓與真實(shí)世界中的真實(shí)場景相對應(yīng),。到目前為止,,已經(jīng)有超過一百篇基于AI2-THOR的作品發(fā)表。Matterport 3D [62] 在R2R [63]中提出,,通常用作大規(guī)模2D-3D視覺數(shù)據(jù)集,。Matterport3D數(shù)據(jù)集包括90個(gè)建筑室內(nèi)場景,包含10800個(gè)全景圖和194400個(gè)RGB-D圖像,,并提供表面重建,、相機(jī)姿態(tài)和2D和3D語義分割注釋。 Matterport3D將3D場景轉(zhuǎn)換為離散的“視點(diǎn)”,,具身智能體在Matterport3D場景中的相鄰“視點(diǎn)”之間移動(dòng),。在每個(gè)“視點(diǎn)”,具身智能體可以獲得一個(gè)1280x1024全景圖像(18× RGB-D),。Matterport3D是最重要的具身導(dǎo)航基準(zhǔn)之一,。 Virtualhome [64] 是Puig等人帶來的家庭活動(dòng)具身AI模擬器。Virtualhome最特別的是其環(huán)境由環(huán)境圖表示,。環(huán)境圖表示場景中的對象及其相關(guān)關(guān)系,。用戶也可以自定義和修改環(huán)境圖以實(shí)現(xiàn)場景對象的自定義配置,。這種環(huán)境圖為具身智能體理解環(huán)境提供了一種新方式。與AI2-THOR類似,,Virtualhome還提供了大量的交互對象,,具身智能體可以與它們互動(dòng)并改變它們的狀態(tài)。Virtualhome的另一個(gè)特點(diǎn)是其簡單易用的API,。具身智能體的操作簡化為“操作+對象”的格式,。這一特點(diǎn)使Virtualhome在具身規(guī)劃、指令分解等研究領(lǐng)域得到廣泛應(yīng)用,。 Habitat [65] 是Meta推出的用于大規(guī)模人機(jī)交互的開源模擬器,。基于Bullet物理引擎,,Habitat實(shí)現(xiàn)了高性能,、高速、并行3D模擬,,并為具身智能體的強(qiáng)化學(xué)習(xí)提供了豐富的接口,。Habitat具有極高的開放度。研究人員可以在Habitat中導(dǎo)入和創(chuàng)建3D場景,,或者使用Habitat平臺(tái)上豐富的開放資源進(jìn)行擴(kuò)展,。Habitat有許多可定制的傳感器,并支持多智能體模擬,。來自開放資源或自定義的多個(gè)具身智能體(例如,,人類和機(jī)器狗)可以在模擬器中合作,自由移動(dòng),,并與場景進(jìn)行簡單交互,。因此,Habitat正在吸引越來越多的關(guān)注,。 與其它更關(guān)注場景的模擬器不同,,SAPIEN [66] 更加關(guān)注模擬對象之間的交互,?;赑hysX物理引擎,SAPIEN提供了細(xì)粒度的具身控制,,可以通過ROS接口通過力和扭矩實(shí)現(xiàn)基于關(guān)節(jié)的控制,。基于PartNet-Mobility數(shù)據(jù)集,,SAPIEN提供了室內(nèi)模擬場景,,包含豐富的交互對象,并支持自定義資源的導(dǎo)入,。與像AI2-THOR這樣的模擬器不同,,后者直接改變對象的狀態(tài),,SAPIEN支持模擬物理交互,具身智能體可以通過物理動(dòng)作控制對象的鉸接部分,,從而改變對象的狀態(tài),。這些功能使SAPIEN非常適合訓(xùn)練具身AI的細(xì)粒度對象操作。 iGibson [67] [68] 是斯坦福推出的開源模擬器,。構(gòu)建在Bullet物理引擎上,,iGibson提供了15個(gè)高質(zhì)量的室內(nèi)場景,并支持從其他數(shù)據(jù)集(如Gibson和Matterport3D)導(dǎo)入資產(chǎn),。作為一個(gè)面向?qū)ο蟮哪M器,,iGibson為對象分配了豐富的可變屬性,不僅限于對象的運(yùn)動(dòng)屬性(姿態(tài),、速度,、加速度等),還包括溫度,、濕度,、清潔度、開關(guān)狀態(tài)等,。此外,,除了其他模擬器中的標(biāo)準(zhǔn)深度和語義傳感器外,iGibson還為具身智能體提供了激光雷達(dá),,使智能體能夠輕松獲取場景中的3D點(diǎn)云,。關(guān)于具身智能體配置,iGibson支持連續(xù)動(dòng)作控制和細(xì)粒度關(guān)節(jié)控制,。這允許iGibson中的具身智能體在移動(dòng)時(shí)與對象進(jìn)行精細(xì)交互,。 TDW [69] 由MIT推出。作為最新的具身模擬器之一,,TDW結(jié)合了高保真視頻和音頻渲染,、逼真的物理效果和單一靈活的控制器,在模擬環(huán)境的感知和交互方面取得了一定的進(jìn)展,。TDW將多個(gè)物理引擎集成到一個(gè)框架中,,可以實(shí)現(xiàn)各種材料(如剛體、軟體,、織物和流體)的物理交互模擬,,并在與對象交互時(shí)提供情境聲音。因此,,TDW與其他模擬器相比邁出了重要的一步,。TDW支持部署多個(gè)智能代理,并為用戶提供了豐富的API庫和資產(chǎn)庫,,允許用戶根據(jù)需要自由定制場景和任務(wù),,甚至是戶外場景和相關(guān)任務(wù),。表III總結(jié)了上述所有基于真實(shí)場景的模擬器。 Sapien以其設(shè)計(jì)脫穎而出,,專門用于模擬與門,、櫥柜和抽屜等關(guān)節(jié)對象的交互。VirtualHome以其獨(dú)特的環(huán)境圖而著稱,,這有助于基于自然語言描述的環(huán)境的高級具身規(guī)劃,。雖然AI2Thor提供了豐富的交互場景,但這些交互與VirtualHome中的交互類似,,都是基于腳本的,,缺乏真實(shí)的物理交互。這種設(shè)計(jì)足以滿足不需要細(xì)粒度交互的具身任務(wù),。iGibson和TDW都提供了細(xì)粒度的具身控制和高度模擬的物理交互,。 IV. 具身感知 未來的具身感知的“北斗星”是具身中心的視覺推理和社會(huì)智能[74]。與傳統(tǒng)的圖像中的對象識(shí)別不同,,具有具身感知的智能體必須在物理世界中移動(dòng)并與環(huán)境互動(dòng),。這要求對3D空間和動(dòng)態(tài)環(huán)境有更深入的理解。具身感知需要視覺感知和推理,,理解場景中的3D關(guān)系,,并基于視覺信息預(yù)測和執(zhí)行復(fù)雜任務(wù)。 A. 主動(dòng)視覺感知 主動(dòng)視覺感知系統(tǒng)需要基本能力,,如狀態(tài)估計(jì),、場景感知和環(huán)境探索。如圖7所示,,這些能力已在視覺同時(shí)定位與地圖構(gòu)建(vSLAM),、3D場景理解(3D Scene Understanding)和主動(dòng)探索(Active Exploration)等領(lǐng)域進(jìn)行了廣泛研究[118],[119],。這些研究領(lǐng)域有助于開發(fā)魯棒的主動(dòng)視覺感知系統(tǒng),,促進(jìn)在復(fù)雜、動(dòng)態(tài)環(huán)境中改進(jìn)環(huán)境交互和導(dǎo)航,。我們簡要介紹這三個(gè)組成部分,,并在表IV中總結(jié)了每個(gè)部分中提到的方法。 圖7 展示了主動(dòng)視覺感知的示意圖,。視覺SLAM和3D場景理解為被動(dòng)視覺感知提供了基礎(chǔ),,而主動(dòng)探索可以為被動(dòng)感知系統(tǒng)提供主動(dòng)性,。這三個(gè)要素相輔相成,,對主動(dòng)視覺感知系統(tǒng)至關(guān)重要。
B. 3D視覺定位 與傳統(tǒng)的2D視覺定位不同,,它在平面圖像的限制下操作,,3D視覺定位結(jié)合了深度、透視和對象之間的空間關(guān)系,,為智能體與其環(huán)境的交互提供了更加強(qiáng)大的框架,。3D視覺定位的任務(wù)是使用自然語言描述在3D環(huán)境中定位對象。 圖8 展示了兩階段(上圖)和一階段(下圖)3D視覺定位方法的示意圖[141],。(a) 展示了3D視覺定位的示例,。(b) 兩階段方法包括可能會(huì)在檢測階段忽視目標(biāo)的稀疏提議和可能會(huì)在匹配階段引起混淆的密集提議。(c) 一階段方法可以根據(jù)語言描述的指導(dǎo)逐步選擇關(guān)鍵點(diǎn)(藍(lán)點(diǎn) → 紅點(diǎn) → 綠點(diǎn)),。[129],,[130]。如表V所總結(jié),,3D視覺定位的最新方法大致可以分為兩類:兩階段和一階段方法[145],。
C. 視覺語言導(dǎo)航(Visual Language Navigation, VLN) 視覺語言導(dǎo)航是具身人工智能(Embodied AI)的關(guān)鍵研究問題,旨在使智能體能夠在未見環(huán)境中遵循語言指令進(jìn)行導(dǎo)航,。VLN要求機(jī)器人不僅要理解復(fù)雜多樣的視覺觀察,,而且還要解釋不同粒度的指令,。VLN的輸入通常由兩部分組成:視覺信息和自然語言指令。視覺信息可以是過去軌跡的視頻,,或者是一組歷史當(dāng)前觀察圖像,。自然語言指令包括具身智能體需要到達(dá)的目標(biāo),或者是預(yù)期完成的任務(wù),。具身智能體必須使用上述信息從候選列表中選擇一個(gè)或一系列動(dòng)作來滿足自然語言指令的要求,。這個(gè)過程可以表示為: 其中Action是選擇的動(dòng)作或動(dòng)作候選列表,O是當(dāng)前觀察,,H是歷史信息,,I是自然語言指令。在VLN中最常用的指標(biāo)有SR(成功率),、TL(軌跡長度)和SPL(由路徑長度加權(quán)的成功率),。其中,SR直接反映了具身智能體的導(dǎo)航性能,,TL反映了導(dǎo)航效率,,SPL結(jié)合了兩者以指示具身智能體的整體性能,。下面,,我們將VLN分為兩部分進(jìn)行介紹:數(shù)據(jù)集和方法。
基于記憶理解的,。基于圖的學(xué)習(xí)是記憶理解方法的重要組成部分,。基于圖的學(xué)習(xí)通常以圖的形式表示導(dǎo)航過程,,其中具身智能體在每個(gè)時(shí)間步驟獲得的信息被編碼為圖的節(jié)點(diǎn),。具身智能體獲得全局或部分導(dǎo)航圖信息作為歷史軌跡的表示。LVERG [168] 分別對每個(gè)節(jié)點(diǎn)的語言信息和視覺信息進(jìn)行編碼,,設(shè)計(jì)了一個(gè)新的語言和視覺實(shí)體關(guān)系圖來模擬文本和視覺之間的跨模態(tài)關(guān)系以及視覺實(shí)體之間的內(nèi)模態(tài)關(guān)系,。LM-Nav [172] 使用目標(biāo)條件距離函數(shù)推斷原始觀察集之間的連接,,并構(gòu)建導(dǎo)航圖,并從指令中提取地標(biāo),,通過視覺語言模型將其與導(dǎo)航圖的節(jié)點(diǎn)匹配,。盡管HOP [173] 不是基于圖學(xué)習(xí),但其方法類似于圖,,要求模型對不同粒度的時(shí)間有序信息進(jìn)行建模,,從而實(shí)現(xiàn)對歷史軌跡和記憶的深入理解。導(dǎo)航圖將環(huán)境離散化,,但同時(shí)理解和編碼環(huán)境也很重要,。FILM [171] 在導(dǎo)航過程中使用RGB-D觀察和語義分割從3D體素逐步構(gòu)建語義地圖。VER [178] 通過2D-3D采樣將物理世界量化為結(jié)構(gòu)化的3D單元,,提供細(xì)粒度的幾何細(xì)節(jié)和語義,。不同的學(xué)習(xí)方案探索了如何更好地利用歷史軌跡和記憶。通過對抗學(xué)習(xí),,CMG [169] 在模仿學(xué)習(xí)和探索鼓勵(lì)方案之間交替,,有效地加強(qiáng)了對指令和歷史軌跡的理解,縮短了訓(xùn)練和推理之間的差異,。GOAT [177] 直接通過后門調(diào)整因果學(xué)習(xí)(BACL)和前門調(diào)整因果學(xué)習(xí)(FACL)訓(xùn)練無偏模型,,并通過對視覺、導(dǎo)航歷史及其與指令的組合進(jìn)行對比學(xué)習(xí),,使智能體能夠更充分地利用信息,。RCM [170] 提出的增強(qiáng)跨模態(tài)匹配方法使用目標(biāo)導(dǎo)向的外部獎(jiǎng)勵(lì)和指令導(dǎo)向的內(nèi)部獎(jiǎng)勵(lì)進(jìn)行全局和局部的跨模態(tài)定位,并通過自監(jiān)督模仿學(xué)習(xí)從其自身的歷史良好決策中學(xué)習(xí),。FSTT [175] 引入了TTA到VLN,,并在兩個(gè)時(shí)間步驟和任務(wù)的尺度上優(yōu)化了模型的梯度和模型參數(shù),有效提高了模型性能,。在記憶理解方法中,,大型模型的具體應(yīng)用是理解歷史記憶的表示,并基于其廣泛的世界知識(shí)理解環(huán)境和任務(wù),。NaviLLM [174] 通過視覺編碼器將歷史觀察序列集成到嵌入空間,,將融合編碼的多模態(tài)信息輸入到大型模型并進(jìn)行微調(diào),在多個(gè)基準(zhǔn)測試中達(dá)到了最先進(jìn)的水平,。NaVid [179] 在歷史信息編碼方面進(jìn)行了改進(jìn),,通過不同程度的池化在歷史觀察和當(dāng)前觀察之間實(shí)現(xiàn)了不同程度的信息保留。DiscussNav [176] 為大型模型專家分配了不同的角色,,驅(qū)動(dòng)大型模型在導(dǎo)航動(dòng)作前進(jìn)行討論以完成導(dǎo)航?jīng)Q策,,并在零樣本VLN中取得了優(yōu)異的性能。 基于未來預(yù)測的,。基于圖的學(xué)習(xí)也廣泛應(yīng)用于基于未來預(yù)測的方法中,。BGGL [182] 和 ETPNav [185] 使用了類似的設(shè)計(jì)方法,,設(shè)計(jì)了一個(gè)航點(diǎn)預(yù)測器,可以根據(jù)當(dāng)前導(dǎo)航圖節(jié)點(diǎn)的觀察在連續(xù)環(huán)境中預(yù)測可移動(dòng)路徑點(diǎn),。他們的目標(biāo)是將復(fù)雜環(huán)境中的導(dǎo)航從連續(xù)環(huán)境轉(zhuǎn)移到離散環(huán)境中的節(jié)點(diǎn)到節(jié)點(diǎn)導(dǎo)航,,從而彌合從離散環(huán)境到連續(xù)環(huán)境的性能差距。通過環(huán)境編碼提高對未來環(huán)境的理解和感知也是預(yù)測和探索未來狀態(tài)的研究方向之一,。NvEM [181] 使用主題模塊和參考模塊從全局和局部視角對鄰居視圖進(jìn)行融合編碼,。這實(shí)際上是對未來觀察的理解和學(xué)習(xí)。HNR [184] 使用大規(guī)模預(yù)訓(xùn)練的分層神經(jīng)輻射表示模型直接預(yù)測未來環(huán)境的視覺表示,,而不是像素級圖像,,使用三維特征空間編碼,并基于未來環(huán)境的表示構(gòu)建可導(dǎo)航的路徑樹,。他們從不同的層次預(yù)測未來環(huán)境,,為導(dǎo)航?jīng)Q策提供有效的參考。一些強(qiáng)化學(xué)習(xí)方法也被應(yīng)用于預(yù)測和探索未來狀態(tài),。LookBY [180] 采用強(qiáng)化預(yù)測,,使預(yù)測模塊能夠模仿世界并預(yù)測未來狀態(tài)和獎(jiǎng)勵(lì)。這允許智能體直接將“當(dāng)前觀察”和“未來觀察的預(yù)測”映射到動(dòng)作上,,在當(dāng)時(shí)達(dá)到了最先進(jìn)的性能,。大型模型的豐富世界知識(shí)和零樣本性能為基于未來預(yù)測的方法提供了許多可能性。MiC [183] 要求大型模型直接從指令中預(yù)測目標(biāo)及其可能的位置,,并通過場景感知的描述提供導(dǎo)航指令,。這種方法要求大型模型充分發(fā)揮其“想象力”,并通過提示構(gòu)建一個(gè)想象中的場景,。此外,,還有一些方法既從過去學(xué)習(xí)又為未來學(xué)習(xí)。MCR-Agent [186] 設(shè)計(jì)了一個(gè)三層動(dòng)作策略,,要求模型從指令中預(yù)測目標(biāo),,預(yù)測目標(biāo)的像素級掩模以進(jìn)行交互,并從以前的導(dǎo)航?jīng)Q策中學(xué)習(xí),;OVLM [187] 要求大型模型為指令預(yù)測相應(yīng)的操作和地標(biāo)序列。在導(dǎo)航過程中,,視覺語言地圖將不斷更新和維護(hù),,并將操作鏈接到地圖上的航點(diǎn)。 D. 非視覺感知:觸覺 觸覺傳感器為智能體提供了如紋理,、硬度和溫度等詳細(xì)信息,。對于相同的動(dòng)作,從視覺和觸覺傳感器中學(xué)到的知識(shí)可能是相關(guān)和互補(bǔ)的,,使機(jī)器人能夠充分掌握手中的高精度任務(wù),。因此,,觸覺感知對于物理世界中的智能體至關(guān)重要,并且無疑增強(qiáng)了人機(jī)交互[188]–[190],。對于觸覺感知任務(wù),,智能體需要從物理世界中收集觸覺信息,然后執(zhí)行復(fù)雜任務(wù),。在這一部分中,,如圖10所示,我們首先介紹現(xiàn)有的觸覺傳感器類型及其數(shù)據(jù)集,,然后討論觸覺感知中的三個(gè)主要任務(wù):估計(jì),、識(shí)別和操縱。 1) 傳感器設(shè)計(jì):人類觸覺的原理是皮膚在觸摸時(shí)發(fā)生形狀變化,,其豐富的神經(jīng)細(xì)胞發(fā)送電信號(hào),,這也為設(shè)計(jì)觸覺傳感器提供了基礎(chǔ)。觸覺傳感器設(shè)計(jì)方法可以分為三類:非視覺基礎(chǔ),、視覺基礎(chǔ)和多模態(tài),。非視覺基礎(chǔ)觸覺傳感器主要使用電力和機(jī)械原理,主要注冊基本的,、低維的感官輸出,,如力量、壓力,、振動(dòng)和溫度[191]–[196],。其中一個(gè)著名的代表是BioTac及其模擬器[197][198]?;谝曈X的觸覺傳感器基于光學(xué)原理,。使用凝膠變形的圖像作為觸覺信息,基于視覺的觸覺傳感器如GelSight,、Gelslim,、DIGIT、9DTact,、TacTip,、GelTip和AllSight已被用于眾多應(yīng)用。模擬器如TACTO和Taxim也很受歡迎,。最近的工作集中在降低成本[202]和集成到機(jī)器人手中[201][208][209],。多模態(tài)觸覺傳感器,受人類皮膚的啟發(fā),,結(jié)合了壓力,、接近度、加速度和溫度等多種模態(tài)信息,使用柔性材料和模塊化設(shè)計(jì),。 2) 數(shù)據(jù)集:非視覺傳感器的數(shù)據(jù)集主要由BioTac系列收集[197],,包含電極值、力量向量和接觸位置,。由于任務(wù)主要是力量和抓取細(xì)節(jié)的估計(jì),,數(shù)據(jù)集中的對象通常是力量和抓取樣本?;谝曈X的傳感器,,擁有高分辨率的變形凝膠圖像,更側(cè)重于更高的估計(jì),、紋理識(shí)別和操縱,。數(shù)據(jù)集由Geisight傳感器、DIGIT傳感器及其模擬器收集[199][201][202][206],,包括家庭對象,、野外環(huán)境、不同材料和抓取項(xiàng)目,。由于圖像信息可以很容易地與其他模態(tài)(圖像,、語言、音頻等)對齊和綁定[14][210],,具身代理中的觸覺感知主要圍繞基于視覺的傳感器,。我們介紹了十個(gè)主要的觸覺數(shù)據(jù)集,總結(jié)在表VIII中,。 3) 方法:觸覺感知有眾多應(yīng)用,,可以分為三類:估計(jì)、精確的機(jī)器人操縱和多模態(tài)識(shí)別任務(wù),。 a) 估計(jì):早期的估計(jì)工作主要集中在基本算法的形狀,、力量和滑動(dòng)測量[202][220][221]。研究人員簡單地使用閾值或應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)來解決這些任務(wù),,基于觸覺圖像的顏色和標(biāo)記在不同幀中的分布變化,。估計(jì)工作的重點(diǎn)是第二階段,觸覺圖像的生成和對象的重建,。觸覺圖像的生成[222]–[225]旨在從視覺數(shù)據(jù)生成觸覺圖像,。起初應(yīng)用了深度學(xué)習(xí)模型,輸入RGB-D圖像并輸出觸覺圖像[222][223],。最近,,隨著圖像生成的快速發(fā)展,Higuera等人[224]和Yang等人[225]應(yīng)用了擴(kuò)散模型進(jìn)行觸覺生成,,并且表現(xiàn)良好。對象的重建可以分為2D重建[226][227]和3D重建[202][219][228]–[241]。2D重建主要關(guān)注對象的形狀和分割,,而3D重建關(guān)注表面和姿態(tài),,甚至是完整的場景感知。任務(wù)首先采用了數(shù)學(xué)方法,、自編碼器方法和神經(jīng)網(wǎng)絡(luò)方法來融合視覺(有時(shí)是點(diǎn)云)和觸覺特征,。最近,研究人員如Comi等人[236]和Dou等人[219]在觸覺重建工作中實(shí)現(xiàn)了基于神經(jīng)輻射場(NeRF)和3D高斯濺射(3DGS)的新方法,。 b) 機(jī)器人操縱:在觸覺任務(wù)中,,彌合仿真與現(xiàn)實(shí)之間的差距至關(guān)重要。提出了強(qiáng)化學(xué)習(xí)和基于GAN的方法來解決準(zhǔn)確,、及時(shí)的機(jī)器人操縱任務(wù)中的變異問題,。 強(qiáng)化學(xué)習(xí)方法。Visuotactile-RL[242]為現(xiàn)有RL方法提出了幾種方法,,包括觸覺門控,、觸覺數(shù)據(jù)增強(qiáng)和視覺退化。Rotateit[243]是一個(gè)系統(tǒng),,它利用多模態(tài)感官輸入實(shí)現(xiàn)基于指尖的對象旋轉(zhuǎn),,沿多個(gè)軸進(jìn)行。它通過網(wǎng)絡(luò)訓(xùn)練強(qiáng)化學(xué)習(xí)策略,,使用特權(quán)信息,,并啟用在線推理。[244]提出了一種使用觸覺感知進(jìn)行目標(biāo)推動(dòng)的深度RL方法,。它提出了一個(gè)目標(biāo)條件公式,,允許無模型和基于模型的RL獲得推動(dòng)對象到目標(biāo)的準(zhǔn)確策略。AnyRotate[245]專注于手內(nèi)操縱,。它是一個(gè)使用密集特征的觸覺反饋進(jìn)行重力不變多軸手內(nèi)對象旋轉(zhuǎn)的系統(tǒng),,在模擬中構(gòu)建了連續(xù)的接觸特征表示,以提供觸覺反饋,,用于訓(xùn)練策略,,并引入了一種通過訓(xùn)練觀察模型來執(zhí)行零樣本策略遷移的方法。 基于GAN的方法,。ACTNet[246]提出了一種無監(jiān)督對抗性領(lǐng)域適應(yīng)方法,,以縮小像素級觸覺感知任務(wù)的領(lǐng)域差距。引入了一種自適應(yīng)相關(guān)注意力機(jī)制來改進(jìn)生成器,,使其能夠利用全局信息并專注于顯著區(qū)域,。然而,像素級領(lǐng)域適應(yīng)導(dǎo)致誤差累積,、性能下降,、結(jié)構(gòu)復(fù)雜性和訓(xùn)練成本增加,。相比之下,STR-Net[247]提出了一種針對觸覺圖像的特征級無監(jiān)督框架,,縮小了特征級觸覺感知任務(wù)的領(lǐng)域差距,。此外,一些方法專注于仿真到現(xiàn)實(shí),。例如,,Tactile Gym 2.0[248]。然而,,由于其復(fù)雜性和高成本,,它在實(shí)際應(yīng)用中具有挑戰(zhàn)性。 c) 識(shí)別: 觸覺表示學(xué)習(xí)側(cè)重于材料分類和多模態(tài)理解,,可以分為兩類:傳統(tǒng)方法和大型語言模型(LLMs)及視覺-語言模型(VLMs)方法,。 傳統(tǒng)方法: 為了增強(qiáng)觸覺表示學(xué)習(xí),采用了多種傳統(tǒng)方法,。自動(dòng)編碼器框架在開發(fā)緊湊的觸覺數(shù)據(jù)表示方面發(fā)揮了重要作用,。Polic等人[249]使用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)編碼器對基于光學(xué)的觸覺傳感器圖像進(jìn)行降維。Gao等人[250]創(chuàng)建了一個(gè)受監(jiān)督的循環(huán)自動(dòng)編碼器來處理異構(gòu)傳感器數(shù)據(jù)集,,而Cao等人[251]創(chuàng)建的TacMAE使用了一個(gè)掩蔽自動(dòng)編碼器來處理不完整的觸覺數(shù)據(jù),。Zhang等人[252]引入了MAE4GM,這是一個(gè)整合視覺和觸覺數(shù)據(jù)的多模態(tài)自動(dòng)編碼器,。由于觸覺作為其他模態(tài)的補(bǔ)充,,聯(lián)合訓(xùn)練方法被用來融合多個(gè)模態(tài)。Yuan等人[253]使用包括深度,、視覺和觸覺數(shù)據(jù)的模態(tài)訓(xùn)練CNN,。同樣,Lee等人[254]使用了變分貝葉斯方法來處理力傳感器系列和末端執(zhí)行器指標(biāo)等模態(tài),。為了更好地學(xué)習(xí)表示,,自監(jiān)督方法如對比學(xué)習(xí)也是將模態(tài)結(jié)合在一起的關(guān)鍵技術(shù)。在對比方法的研究中,,Lin等人[255]將觸覺輸入簡單地與多個(gè)視覺輸入配對,,而Yang等人[256]采用了視覺觸覺對比多視圖特征。Kerr等人[215]使用了InfoNCE損失,,Guzey等人[257]使用了BYOL,。這些傳統(tǒng)方法為觸覺表示學(xué)習(xí)奠定了堅(jiān)實(shí)的基礎(chǔ)。 LLMs和VLMs方法: LLM和VLM最近表現(xiàn)出對跨模態(tài)交互的驚人理解,,并展示了強(qiáng)大的零樣本性能,。最近的工作,如Yang等人[189],、Fu等人[218]和Yu等人[258],,通過對比預(yù)訓(xùn)練方法對觸覺數(shù)據(jù)進(jìn)行編碼和與視覺和語言模態(tài)對齊,。然后,像LLaMA這樣的大型模型將被應(yīng)用,,使用微調(diào)方法來適應(yīng)觸覺描述等任務(wù),。LLM和VLM技術(shù)的出現(xiàn)進(jìn)一步推進(jìn)了該領(lǐng)域,,使得跨模態(tài)觸覺表示更加全面和健壯,。 4) 困難:a) 不同傳感器類型的缺陷:傳統(tǒng)傳感器提供簡單和低維數(shù)據(jù),對多模態(tài)學(xué)習(xí)構(gòu)成挑戰(zhàn),?;谝曈X的傳感器和電子皮膚雖然高度準(zhǔn)確,但成本昂貴,。b) 數(shù)據(jù)獲取挑戰(zhàn):收集數(shù)據(jù),,特別是同時(shí)收集觸覺和視覺數(shù)據(jù),盡管在開發(fā)簡化收集設(shè)備方面取得了一些進(jìn)展,,但仍然困難,。c) 標(biāo)準(zhǔn)不一致:觸覺傳感器以不一致的標(biāo)準(zhǔn)和原則運(yùn)作,阻礙了大規(guī)模學(xué)習(xí)和限制了公共數(shù)據(jù)集的有用性,。需要標(biāo)準(zhǔn)化和廣泛的數(shù)據(jù)集,。 V. 具身交互 具身交互任務(wù)指的是智能體在物理或模擬空間中與人類和環(huán)境進(jìn)行交互的場景。典型的具身交互任務(wù)包括具身問答(EQA)和具身抓取,。 A. 具身問答 (Embodied Question Answering) 對于EQA任務(wù),,智能體需要從第一人稱視角探索環(huán)境,以收集回答給定問題所需的信息,。具有自主探索和決策能力的智能體不僅要考慮采取哪些行動(dòng)來探索環(huán)境,,還要決定何時(shí)停止探索以回答問題。現(xiàn)有的工作集中在不同類型的問題上,,如圖11所示,。在這一部分中,我們將介紹現(xiàn)有的數(shù)據(jù)集,,討論相關(guān)的方法,,描述用于評估模型性能的指標(biāo),并解決這項(xiàng)任務(wù)的剩余限制,。 1) 數(shù)據(jù)集:在真實(shí)環(huán)境中進(jìn)行機(jī)器人實(shí)驗(yàn)通常受到場景和機(jī)器人硬件的限制,。作為虛擬實(shí)驗(yàn)平臺(tái),模擬器為構(gòu)建具身問答數(shù)據(jù)集提供了合適的環(huán)境條件,。在模擬器中創(chuàng)建的數(shù)據(jù)集上訓(xùn)練和測試模型顯著降低了實(shí)驗(yàn)成本,,并提高了在真實(shí)機(jī)器上部署模型的成功率。我們簡要介紹了幾個(gè)具身問答數(shù)據(jù)集,,總結(jié)在表IX中,。EQA v1 [259] 是為EQA設(shè)計(jì)的首個(gè)數(shù)據(jù)集,。它建立在House3D [269] 模擬器中基于SUNCG數(shù)據(jù)集 [95] 的合成3D室內(nèi)場景上,包含四種類型的問題:位置,、顏色,、顏色房間和介詞。它擁有超過5000個(gè)問題,,分布在750多個(gè)環(huán)境中,。這些問題是通過功能程序執(zhí)行構(gòu)建的,使用模板選擇和組合基本操作,。與EQA v1類似,,MT-EQA [260] 也是在House3D中使用SUNCG構(gòu)建的,但它將單對象問答任務(wù)擴(kuò)展到了多對象設(shè)置,。設(shè)計(jì)了六種類型的問題,,涉及多個(gè)對象之間的顏色、距離和大小比較,。數(shù)據(jù)集包含588個(gè)環(huán)境中的19,287個(gè)問題,。 2) 方法:具身問題回答任務(wù)主要涉及導(dǎo)航和問題回答子任務(wù),實(shí)現(xiàn)方法大致分為兩類:基于神經(jīng)網(wǎng)絡(luò)的方法和基于大型語言模型(LLMs)/視覺-語言模型(VLMs)的方法,。 神經(jīng)網(wǎng)絡(luò)方法: 在早期工作中,,研究人員主要通過構(gòu)建深度神經(jīng)網(wǎng)絡(luò)來解決具身問題回答任務(wù)。他們使用模仿學(xué)習(xí),、強(qiáng)化學(xué)習(xí)等技術(shù)來訓(xùn)練和微調(diào)這些模型,,以提高性能。Das等人[259]首次提出了EQA任務(wù),,其中智能體由四個(gè)主要模塊組成:視覺,、語言、導(dǎo)航和回答,。這些模塊主要使用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)構(gòu)建塊:卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),。它們分兩個(gè)階段進(jìn)行訓(xùn)練。最初,,導(dǎo)航和回答模塊獨(dú)立地在自動(dòng)生成的專家導(dǎo)航演示上使用模仿或監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,。隨后,在第二階段,,使用策略梯度對導(dǎo)航架構(gòu)進(jìn)行微調(diào),。一些后續(xù)工作[274],[275]保留了Das等人[259]提出的問題回答模塊,,并改進(jìn)了模型,。此外,Wu等人[275]提出將導(dǎo)航和QA模塊整合到統(tǒng)一的SGD訓(xùn)練流程中進(jìn)行聯(lián)合訓(xùn)練,,從而避免了同時(shí)使用深度強(qiáng)化學(xué)習(xí)來訓(xùn)練分開訓(xùn)練的導(dǎo)航和問題回答模塊,。還有一些工作嘗試增加問題回答任務(wù)的復(fù)雜性和完整性,。從任務(wù)單一性的角度來看,一些工作[260],,[276]將任務(wù)擴(kuò)展到包括多個(gè)目標(biāo)和多智能體,,分別要求模型通過特征提取和場景重建等方法存儲(chǔ)和整合智能體探索過程中獲得的信息??紤]到智能體與動(dòng)態(tài)環(huán)境的交互,,Gordon等人[262]引入了分層交互記憶網(wǎng)絡(luò)??刂茩?quán)在規(guī)劃器和執(zhí)行任務(wù)的低級控制器之間交替,,在此過程中使用了一個(gè)以自我為中心的空間GRU(esGRU)來存儲(chǔ)空間記憶,使智能體能夠?qū)Ш讲⑻峁┐鸢?。之前工作中的一個(gè)限制是智能體無法使用外部知識(shí)回答復(fù)雜問題,并且缺乏對探索過的場景部分的知識(shí),。為了解決這個(gè)問題,,Tan等人[265]提出了一個(gè)框架,利用神經(jīng)程序合成方法和從知識(shí)和3D場景圖中轉(zhuǎn)換的表格,,允許動(dòng)作規(guī)劃器訪問與對象相關(guān)的信息,。此外,還使用了基于蒙特卡洛樹搜索(MCTS)的方法來確定智能體下一步移動(dòng)的位置,。 LLMs/VLMs方法: 近年來,,LLMs和VLMs不斷取得進(jìn)展,并在各個(gè)領(lǐng)域展示了卓越的能力,。因此,,研究人員嘗試將這些模型應(yīng)用于解決具身問題回答任務(wù),而無需任何額外的微調(diào),。 Majumdar等人[266]探索了使用LLMs和VLMs進(jìn)行情景記憶EQA(EM-EQA)任務(wù)和活躍EQA(AEQA)任務(wù),。對于EM-EQA任務(wù),他們考慮了盲目LLMs,、具有情景記憶語言描述的蘇格拉底LLMs,、具有構(gòu)建場景圖描述的蘇格拉底LLMs,以及處理多個(gè)場景幀的VLMs,。AEQA任務(wù)擴(kuò)展了EM-EQA方法,,增加了基于前沿的探索(FBE)[277],用于問題無關(guān)的環(huán)境探索,。一些其他工作[267],,[278]也采用了基于前沿的探索方法來識(shí)別后續(xù)探索的區(qū)域,并構(gòu)建語義地圖,。他們使用一致性預(yù)測或圖像-文本匹配提前結(jié)束探索,,以避免過度探索,。Patel等人[279]強(qiáng)調(diào)了任務(wù)的問題回答方面。他們利用多個(gè)基于LLM的智能體探索環(huán)境,,并使它們能夠獨(dú)立回答“是”或“否”的問題,。這些個(gè)別回答被用來訓(xùn)練一個(gè)中央答案模型,負(fù)責(zé)聚合回答并生成健壯的答案,。 3) 指標(biāo): 性能通?;趦蓚€(gè)方面進(jìn)行評估:導(dǎo)航和問題回答。在導(dǎo)航中,,許多工作遵循了Das等人[259]介紹的方法,,并使用指標(biāo)如完成導(dǎo)航時(shí)到達(dá)目標(biāo)對象的距離(dT)、從初始位置到最終位置目標(biāo)距離的變化(d?)以及在情節(jié)中的任何時(shí)候到達(dá)目標(biāo)的最小距離(dmin)來評估模型的性能,。它們在距離目標(biāo)10,、30或50個(gè)動(dòng)作時(shí)進(jìn)行測試。還有一些工作基于指標(biāo)如軌跡長度,、目標(biāo)對象的交并比分?jǐn)?shù)(IoU)等進(jìn)行測量,。對于問題回答,評估主要涉及答案列表中真實(shí)答案的平均排名(MR)和答案的準(zhǔn)確性,。最近,,Majumdar等人[266]引入了基于LLM的聚合正確性指標(biāo)(LLM-Match)的概念,以評估開放詞匯答案的準(zhǔn)確性,。此外,,他們通過將智能體路徑的規(guī)范化長度作為權(quán)重納入正確性指標(biāo),來評估效率,。 VI. 具身智能體智能體被定義為能夠感知其環(huán)境并采取行動(dòng)以實(shí)現(xiàn)特定目標(biāo)的自主實(shí)體,。最近在多模態(tài)大型模型(MLMs)方面的進(jìn)展進(jìn)一步擴(kuò)展了智能體在實(shí)際場景中的應(yīng)用。當(dāng)這些基于MLM的智能體被具身化到物理實(shí)體中時(shí),,它們能夠有效地將它們的能力從虛擬空間轉(zhuǎn)移到物理世界,,從而成為具身智能體[298]。圖13顯示了具身智能體的時(shí)間線概述,。為了使具身智能體能夠在信息豐富且復(fù)雜的現(xiàn)實(shí)世界中操作,,具身智能體已經(jīng)被開發(fā)出強(qiáng)大的多模態(tài)感知、交互和規(guī)劃能力,,如圖14所示,。為了完成一個(gè)任務(wù),具身智能體通常涉及以下過程:1)將抽象和復(fù)雜的任務(wù)分解為特定的子任務(wù),,這被稱為高水平的具身任務(wù)規(guī)劃,。2)通過有效利用具身感知和具身交互模型或利用基礎(chǔ)模型的策略功能逐步實(shí)施這些子任務(wù),稱為低水平的具身動(dòng)作規(guī)劃。值得注意的是,,任務(wù)規(guī)劃涉及行動(dòng)前的思考,,因此通常被認(rèn)為是在網(wǎng)絡(luò)空間中進(jìn)行的。相比之下,,動(dòng)作規(guī)劃必須考慮與環(huán)境的有效交互以及將這些信息反饋給任務(wù)規(guī)劃者以調(diào)整任務(wù)規(guī)劃,。因此,對具身智能體來說,,將其能力從網(wǎng)絡(luò)空間對齊和概括到物理世界至關(guān)重要,。 A. 具身多模態(tài)基礎(chǔ)模型 具身智能體需要在視覺上識(shí)別其環(huán)境,通過聽覺理解指令,,并理解自身的狀態(tài),,以實(shí)現(xiàn)復(fù)雜的交互和操作。這要求一個(gè)模型整合多種感官模態(tài)和自然語言處理能力,,通過綜合不同類型的數(shù)據(jù)來增強(qiáng)智能體的理解和決策,。因此,出現(xiàn)了具身多模態(tài)基礎(chǔ)模型,。最近,,Google DeepMind發(fā)現(xiàn)利用基礎(chǔ)模型和大型、多樣化的數(shù)據(jù)集是最佳策略,。他們基于機(jī)器人變換器(RT)[11]開發(fā)了一系列工作,為未來具身智能體研究提供了重要見解,。在基礎(chǔ)機(jī)器人模型方面取得了顯著進(jìn)展,,從最初的SayCan [299]開始,,該模型使用三個(gè)獨(dú)立的模型進(jìn)行規(guī)劃,、可承受性和低級策略。Q-Transformer [300]后來統(tǒng)一了可承受性和低級策略,,PaLM-E [301]集成了規(guī)劃和可承受性,。然后,,RT-2 [302]通過將所有三個(gè)功能整合到一個(gè)單一模型中,實(shí)現(xiàn)了突破,,使聯(lián)合擴(kuò)展和正向遷移成為可能,。這代表了機(jī)器人基礎(chǔ)模型的顯著進(jìn)步。RT-2引入了視覺-語言-動(dòng)作(VLA)模型,,具有“思維鏈”推理能力,,能夠進(jìn)行多步驟的語義推理,如在各種情境中選擇替代工具或飲料,。最終,,RT-H [4]實(shí)現(xiàn)了具有動(dòng)作層次結(jié)構(gòu)的端到端機(jī)器人變換器,以細(xì)粒度推理任務(wù)規(guī)劃,。 為了解決具身模型的泛化限制,,Google與33個(gè)領(lǐng)先的學(xué)術(shù)機(jī)構(gòu)合作,,創(chuàng)建了全面的開放X-Embodiment數(shù)據(jù)集[303],整合了22種不同的數(shù)據(jù)類型,。使用這個(gè)數(shù)據(jù)集,,他們訓(xùn)練了通用大型模型RT-X。這也促進(jìn)了更多的開源VLMs參與機(jī)器人領(lǐng)域,,如基于LLaVA的EmbodiedGPT [304]和基于FLAMINGO的RoboFlamingo [305],。盡管開放X-Embodiment提供了大量數(shù)據(jù)集,但考慮到具身機(jī)器人平臺(tái)的快速發(fā)展,,構(gòu)建數(shù)據(jù)集仍然是一個(gè)挑戰(zhàn),。為了解決這個(gè)問題,AutoRT [306]創(chuàng)建了一個(gè)系統(tǒng),,用于在新環(huán)境中部署機(jī)器人以收集訓(xùn)練數(shù)據(jù),,利用LLMs通過更全面和多樣化的數(shù)據(jù)來增強(qiáng)學(xué)習(xí)能力。 另外,,基于變換器的架構(gòu)面臨效率問題,,因?yàn)榫呱砟P托枰L上下文,包括來自視覺,、語言和具身狀態(tài)的信息,,以及與當(dāng)前執(zhí)行任務(wù)相關(guān)的內(nèi)存。例如,,盡管RT-2表現(xiàn)出色,,但其推理頻率僅為1-3Hz。已經(jīng)做出了一些努力,,如通過量化和蒸餾部署模型,。此外,改進(jìn)模型框架是另一種可行的方法,。SARA-RT [307]采用了更高效的線性注意力,,而RoboMamba [308]利用了更適合長序列任務(wù)的mamba架構(gòu),使其推理速度比現(xiàn)有的機(jī)器人MLMs快七倍,?;谏赡P偷腞T擅長高層次任務(wù)理解和規(guī)劃,但在低層次動(dòng)作規(guī)劃方面存在局限性,,因?yàn)樯赡P蜔o法精確生成動(dòng)作參數(shù)以及高層次任務(wù)規(guī)劃與低層次動(dòng)作執(zhí)行之間的差距,。為了解決這個(gè)問題,Google引入了RT-Trajectory [309],,通過自動(dòng)添加機(jī)器人軌跡為學(xué)習(xí)機(jī)器人控制策略提供低層次視覺線索,。同樣,基于RT-2框架,機(jī)器人變換器動(dòng)作層次結(jié)構(gòu)(RT-H)通過中間語言動(dòng)作將高層次任務(wù)描述與低層次機(jī)器人動(dòng)作聯(lián)系起來[4],。此外,,VLA模型僅在與VLMs相關(guān)的高層次規(guī)劃和可承受性任務(wù)中表現(xiàn)出能力,它們未能在低層次物理交互中展示新技能,,并受到其數(shù)據(jù)集中技能類別的限制,,導(dǎo)致動(dòng)作笨拙。未來的研究應(yīng)該將強(qiáng)化學(xué)習(xí)整合到大型模型的訓(xùn)練框架中,,以提高泛化能力,,使VLA模型能夠在現(xiàn)實(shí)世界環(huán)境中自主學(xué)習(xí)和優(yōu)化低層次物理交互策略,從而更靈活,、更準(zhǔn)確地執(zhí)行各種物理動(dòng)作,。 B. 具身任務(wù)規(guī)劃 如前所述,對于任務(wù)“把蘋果放在盤子上”,,任務(wù)規(guī)劃器將其分解為子任務(wù)“找到蘋果,,拿起蘋果”和“找到盤子”、“放下蘋果”,。由于如何找到(導(dǎo)航任務(wù))或拿起/放下動(dòng)作(抓取任務(wù))不在任務(wù)規(guī)劃的范圍之內(nèi),。這些動(dòng)作通常在模擬器中預(yù)定義或使用預(yù)訓(xùn)練策略模型在真實(shí)場景中執(zhí)行,例如使用CLIPort [294]進(jìn)行抓取任務(wù),。傳統(tǒng)的具身任務(wù)規(guī)劃方法通?;陲@式規(guī)則和邏輯推理。例如,,使用符號(hào)規(guī)劃算法如STRIPS [310]和PDDL [311],,以及搜索算法如MCTS [312]和A* [313]來生成計(jì)劃。然而,,這些方法通常依賴于預(yù)定義的規(guī)則、約束和啟發(fā)式,,這些規(guī)則是固定的,,可能無法很好地適應(yīng)環(huán)境的動(dòng)態(tài)或不可預(yù)見的變化。隨著LLMs的普及,,許多工作嘗試使用LLMs進(jìn)行規(guī)劃或?qū)鹘y(tǒng)方法與LLMs結(jié)合,,利用它們內(nèi)部豐富的世界知識(shí)進(jìn)行推理和規(guī)劃,無需手工定義,,大大增強(qiáng)了模型的泛化能力,。
C. 具身動(dòng)作規(guī)劃 第VI-B節(jié)討論了任務(wù)規(guī)劃和動(dòng)作規(guī)劃的定義和區(qū)別,。顯然,動(dòng)作規(guī)劃必須解決現(xiàn)實(shí)世界的不確定性,,因?yàn)槿蝿?wù)規(guī)劃提供的子任務(wù)粒度不足以指導(dǎo)智能體在環(huán)境互動(dòng)中,。通常,智能體可以通過兩種方式實(shí)現(xiàn)動(dòng)作規(guī)劃:1) 使用預(yù)訓(xùn)練的具身感知和具身干預(yù)模型作為工具,,通過API逐步完成任務(wù)規(guī)劃指定的子任務(wù),,2) 利用VLA模型的固有能力派生動(dòng)作規(guī)劃。此外,,動(dòng)作規(guī)劃器的執(zhí)行結(jié)果反饋給任務(wù)規(guī)劃器以調(diào)整和改進(jìn)任務(wù)規(guī)劃,。
VII. 仿真到現(xiàn)實(shí)適應(yīng)性(Sim-to-Real Adaptation) 在具身人工智能中,,仿真到現(xiàn)實(shí)適應(yīng)性指的是將學(xué)習(xí)能力或行為從模擬環(huán)境(網(wǎng)絡(luò)空間)轉(zhuǎn)移到現(xiàn)實(shí)世界場景(物理世界)的過程。它涉及驗(yàn)證和改進(jìn)在模擬中開發(fā)的算法,、模型和控制策略的有效性,,以確保它們在物理環(huán)境中表現(xiàn)出魯棒性和可靠性。為了實(shí)現(xiàn)仿真到現(xiàn)實(shí)適應(yīng)性,,具身世界模型,、數(shù)據(jù)收集和訓(xùn)練方法以及具身控制算法是三個(gè)基本組成部分。 A. 具身世界模型(Embodied World Model) 仿真到現(xiàn)實(shí)涉及創(chuàng)建與現(xiàn)實(shí)世界環(huán)境非常相似的模擬世界模型,,幫助算法在轉(zhuǎn)移時(shí)更好地泛化,。世界模型方法旨在構(gòu)建一個(gè)端到端的模型,通過生成或預(yù)測的方式,,將視覺映射到動(dòng)作,,甚至任何輸入到任何輸出,以做出決策,。這類世界模型與VLA模型的最大區(qū)別在于,,VLA模型首先是在大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)集上訓(xùn)練以獲得高水平的緊急能力,然后與現(xiàn)實(shí)世界的機(jī)器人數(shù)據(jù)共同微調(diào),。相比之下,,世界模型是從物理世界數(shù)據(jù)從頭開始訓(xùn)練的,隨著數(shù)據(jù)量的增加逐漸發(fā)展出高級能力,。然而,,它們?nèi)匀皇堑图壍奈锢硎澜缒P停悬c(diǎn)像人類神經(jīng)反射系統(tǒng)的工作機(jī)制,。這使它們更適合于輸入和輸出相對結(jié)構(gòu)化的場景,,如自動(dòng)駕駛(輸入:視覺,輸出:油門,、剎車,、方向盤)或物體排序(輸入:視覺、指令,、數(shù)值傳感器,,輸出:抓取目標(biāo)物體并將其放置在目標(biāo)位置)。它們不太適合于泛化到結(jié)構(gòu)化,、復(fù)雜的具身任務(wù),。在物理模擬領(lǐng)域,學(xué)習(xí)世界模型是有希望的,。與傳統(tǒng)的模擬方法相比,,它提供了顯著的優(yōu)勢,例如能夠在不完整信息下推理交互,、滿足實(shí)時(shí)計(jì)算需求,,并隨著時(shí)間的推移提高預(yù)測準(zhǔn)確性。這種世界模型的預(yù)測能力至關(guān)重要,,它使機(jī)器人能夠發(fā)展出在人類世界中操作所需的物理直覺,。如圖15所示,根據(jù)世界環(huán)境的學(xué)習(xí)流程,,它們可以分為基于生成的方法,、基于預(yù)測的方法和知識(shí)驅(qū)動(dòng)的方法。我們在表XI中簡要總結(jié)了提到的方法,。
B. 數(shù)據(jù)收集和訓(xùn)練(Data Collection and Training) 對于仿真到現(xiàn)實(shí)適應(yīng)性,高質(zhì)量數(shù)據(jù)非常重要,。傳統(tǒng)的數(shù)據(jù)收集方法涉及昂貴的設(shè)備,、精確的操作,并且耗時(shí),、勞動(dòng)密集,,通常缺乏靈活性。最近,,一些高效且成本效益高的方法被提出用于高質(zhì)量演示數(shù)據(jù)收集和訓(xùn)練。本節(jié)將討論真實(shí)世界和模擬環(huán)境中數(shù)據(jù)收集的各種方法,。圖16展示了真實(shí)世界和模擬環(huán)境中的演示數(shù)據(jù),。
C. 具身控制(Embodied Control) 具身控制通過與環(huán)境的交互學(xué)習(xí),,并使用獎(jiǎng)勵(lì)機(jī)制優(yōu)化行為以獲得最優(yōu)策略,從而避免了傳統(tǒng)物理建模方法的缺點(diǎn),。具身控制方法可以分為兩類:1) 深度強(qiáng)化學(xué)習(xí)(DRL),。DRL可以處理高維數(shù)據(jù)并學(xué)習(xí)復(fù)雜的行為模式,使其適合于決策和控制,?;旌虾蛣?dòng)態(tài)策略梯度(HDPG)[371]被提出用于雙足運(yùn)動(dòng),允許控制策略根據(jù)多個(gè)標(biāo)準(zhǔn)動(dòng)態(tài)同時(shí)優(yōu)化,。DeepGait [372]是一個(gè)神經(jīng)網(wǎng)絡(luò)策略,,用于地形感知運(yùn)動(dòng),它結(jié)合了基于模型的運(yùn)動(dòng)規(guī)劃和強(qiáng)化學(xué)習(xí)的方法,。它包括一個(gè)地形感知規(guī)劃器,,用于生成步態(tài)序列和基礎(chǔ)運(yùn)動(dòng),,引導(dǎo)機(jī)器人朝目標(biāo)方向前進(jìn),以及一個(gè)步態(tài)和基礎(chǔ)運(yùn)動(dòng)控制器,,用于在保持平衡的同時(shí)執(zhí)行這些序列,。規(guī)劃器和控制器都使用神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器進(jìn)行參數(shù)化,并使用深度強(qiáng)化學(xué)習(xí)算法進(jìn)行優(yōu)化,。2) 模仿學(xué)習(xí),。DRL的一個(gè)缺點(diǎn)是需要大量數(shù)據(jù)來自眾多試驗(yàn)。為了解決這個(gè)問題,,引入了模仿學(xué)習(xí),,旨在通過收集高質(zhì)量的演示來最小化數(shù)據(jù)使用。為了提高數(shù)據(jù)效率,,提出了Offline RL + Online RL來降低交互成本并確保安全,。首先使用離線RL從靜態(tài)的、預(yù)先收集的大型數(shù)據(jù)集中學(xué)習(xí)策略,。然后將這些策略部署在真實(shí)環(huán)境中進(jìn)行實(shí)時(shí)交互和探索,,并根據(jù)反饋進(jìn)行調(diào)整。人類演示的代表性模仿學(xué)習(xí)方法是ALOHA [373]和Mobile ALOHA [359],。盡管具身AI包括高級算法,、模型和規(guī)劃模塊,但其最基礎(chǔ)和最關(guān)鍵的組成部分是具身控制,。因此,,必須考慮如何控制物理實(shí)體并賦予它們物理智能。具身控制與硬件密切相關(guān),,例如控制關(guān)節(jié)運(yùn)動(dòng),、末端執(zhí)行器位置和行走速度。對于機(jī)器人臂,,了解末端執(zhí)行器的位置,如何規(guī)劃關(guān)節(jié)軌跡以將手臂移動(dòng)到目標(biāo),?對于仿人機(jī)器人,,了解運(yùn)動(dòng)模式,如何控制關(guān)節(jié)以實(shí)現(xiàn)目標(biāo)姿勢,?這些是需要解決的關(guān)鍵問題,。一些工作集中在機(jī)器人控制上,增強(qiáng)了機(jī)器人動(dòng)作的靈活性,。[374]提出了一個(gè)基于視覺的全身控制框架,。通過連接一個(gè)機(jī)器人臂和一個(gè)機(jī)器狗,利用所有自由度(腿上有12個(gè)關(guān)節(jié),,臂上有6個(gè)關(guān)節(jié),,夾持器上有1個(gè)),,它跟蹤機(jī)器狗的速度和機(jī)器人臂的末端執(zhí)行器位置,實(shí)現(xiàn)了更靈活的控制,。一些工作[375],,[376]采用傳統(tǒng)方法控制雙足機(jī)器人行走。MIT的Cheetah 3 [377],、ANYmal [378]和Atlas [379]使用了穩(wěn)健的行走控制器來管理機(jī)器人,。這些機(jī)器人可以用于更敏捷的運(yùn)動(dòng)任務(wù),如跳躍或克服各種障礙[380]–[384],。其他工作[385],,[386]專注于仿人機(jī)器人的控制,以執(zhí)行各種動(dòng)作,,模仿人類行為,。圖18展示了一些例子。具身控制整合了RL和仿真到現(xiàn)實(shí)技術(shù),,通過環(huán)境交互優(yōu)化策略,,使未知領(lǐng)域的探索成為可能,可能超越人類能力,,并適應(yīng)非結(jié)構(gòu)化環(huán)境,。雖然機(jī)器人可以模仿許多人類行為,但有效的任務(wù)完成通常需要基于環(huán)境反饋的RL訓(xùn)練,。最具挑戰(zhàn)性的場景包括接觸密集型任務(wù),,其中操縱需要根據(jù)反饋進(jìn)行實(shí)時(shí)調(diào)整,例如被操縱對象的狀態(tài),、變形,、材料和力量。在這種情況下,,RL是不可或缺的,。在MLM時(shí)代,這些模型具有對場景語義的泛化理解,,為RL提供了強(qiáng)大的獎(jiǎng)勵(lì)函數(shù),。此外,RL對于將大型模型與預(yù)期任務(wù)對齊至關(guān)重要,。未來,,在預(yù)訓(xùn)練和微調(diào)之后,仍然需要RL來與物理世界對齊,,確保在真實(shí)世界環(huán)境中有效部署,。 VIII. 挑戰(zhàn)和未來方向 盡管具身AI取得了快速進(jìn)展,但它面臨幾個(gè)挑戰(zhàn),,并提出了激動(dòng)人心的未來方向,。高質(zhì)量機(jī)器人數(shù)據(jù)集:獲取足夠的真實(shí)世界機(jī)器人數(shù)據(jù)仍然是一個(gè)重大挑戰(zhàn),。收集這些數(shù)據(jù)既耗時(shí)又耗費(fèi)資源。僅依賴模擬數(shù)據(jù)會(huì)加劇仿真到現(xiàn)實(shí)的差距問題,。創(chuàng)建多樣化的真實(shí)世界機(jī)器人數(shù)據(jù)集需要各種機(jī)構(gòu)之間密切而廣泛的合作,。此外,開發(fā)更現(xiàn)實(shí)和高效的模擬器對于提高模擬數(shù)據(jù)的質(zhì)量至關(guān)重要,。當(dāng)前的工作RT-1 [11]使用基于機(jī)器人圖像和自然語言命令的預(yù)訓(xùn)練模型,。RT-1在導(dǎo)航和抓取任務(wù)中取得了良好的結(jié)果,但獲取真實(shí)世界機(jī)器人數(shù)據(jù)集非常具有挑戰(zhàn)性,。為了構(gòu)建能夠在機(jī)器人學(xué)中跨場景和跨任務(wù)應(yīng)用的通用具身模型,,必須構(gòu)建大規(guī)模數(shù)據(jù)集,利用高質(zhì)量的模擬環(huán)境數(shù)據(jù)協(xié)助真實(shí)世界數(shù)據(jù),。高效利用人類演示數(shù)據(jù):高效利用人類演示數(shù)據(jù)涉及利用人類執(zhí)行的動(dòng)作和行為來訓(xùn)練和改進(jìn)機(jī)器人系統(tǒng),。這個(gè)過程包括收集、處理和從人類執(zhí)行機(jī)器人預(yù)期學(xué)習(xí)的任務(wù)的大型,、高質(zhì)量的數(shù)據(jù)集中學(xué)習(xí),。當(dāng)前的工作R3M [387]使用動(dòng)作標(biāo)簽和人類演示數(shù)據(jù)學(xué)習(xí)具有高成功率的通用表示,但復(fù)雜任務(wù)的效率仍需提高,。因此,,重要的是有效利用大量未結(jié)構(gòu)化、多標(biāo)簽和多模態(tài)的人類演示數(shù)據(jù),,結(jié)合動(dòng)作標(biāo)簽數(shù)據(jù),,訓(xùn)練能夠在短時(shí)間內(nèi)學(xué)習(xí)各種任務(wù)的具身模型。通過高效利用人類演示數(shù)據(jù),,機(jī)器人系統(tǒng)可以實(shí)現(xiàn)更高的性能和適應(yīng)性,,使它們更有能力在動(dòng)態(tài)環(huán)境中執(zhí)行復(fù)雜任務(wù)。復(fù)雜環(huán)境的認(rèn)知:復(fù)雜環(huán)境的認(rèn)知指的是具身智能體在物理或虛擬環(huán)境中感知,、理解和導(dǎo)航復(fù)雜真實(shí)世界環(huán)境的能力,。基于廣泛的常識(shí)知識(shí),,Say-Can [299]利用預(yù)訓(xùn)練的LLM模型的任務(wù)分解機(jī)制,,該機(jī)制嚴(yán)重依賴大量常識(shí)知識(shí)進(jìn)行簡單任務(wù)規(guī)劃,但缺乏對復(fù)雜環(huán)境中長期任務(wù)的理解,。對于非結(jié)構(gòu)化開放環(huán)境,,當(dāng)前的工作通常依賴于使用廣泛常識(shí)知識(shí)的預(yù)訓(xùn)練LLM模型的任務(wù)分解機(jī)制進(jìn)行簡單任務(wù)規(guī)劃,,而缺乏特定場景理解,。增強(qiáng)知識(shí)轉(zhuǎn)移和泛化能力在復(fù)雜環(huán)境中至關(guān)重要。一個(gè)真正多功能的機(jī)器人系統(tǒng)應(yīng)該能夠理解和執(zhí)行跨越多樣化和未見場景的自然語言指令,。這需要開發(fā)適應(yīng)性強(qiáng),、可擴(kuò)展的具身智能體架構(gòu),。長期任務(wù)執(zhí)行:執(zhí)行單個(gè)指令通常意味著機(jī)器人需要執(zhí)行長期任務(wù),例如命令“清潔廚房”,,這涉及重新排列物體,、掃地、擦桌子等活動(dòng),。成功完成這些任務(wù)需要機(jī)器人能夠計(jì)劃并在較長時(shí)間內(nèi)執(zhí)行一系列低級動(dòng)作,。雖然當(dāng)前的高級任務(wù)規(guī)劃器已經(jīng)顯示出初步的成功,但它們在多樣化的場景中往往因?yàn)槿狈︶槍呱砣蝿?wù)的調(diào)整而不足,。解決這一挑戰(zhàn)需要開發(fā)配備有強(qiáng)大感知能力和豐富常識(shí)知識(shí)的高效規(guī)劃器,。因果關(guān)系發(fā)現(xiàn):現(xiàn)有的數(shù)據(jù)驅(qū)動(dòng)具身智能體基于數(shù)據(jù)內(nèi)在的相關(guān)性做出決策。然而,,這種建模方法不允許模型真正理解知識(shí),、行為和環(huán)境之間的因果關(guān)系,導(dǎo)致策略存在偏見,。這使得確保它們能夠以可解釋,、魯棒和可靠的方式在真實(shí)世界環(huán)境中操作變得困難。因此,,重要的是讓具身智能體由世界知識(shí)驅(qū)動(dòng),,能夠進(jìn)行自主因果推理。通過交互和學(xué)習(xí)理解世界,,并通過推理進(jìn)一步增強(qiáng)多模態(tài)具身智能體在復(fù)雜真實(shí)世界環(huán)境中的適應(yīng)性,、決策可靠性和泛化能力。對于具身任務(wù),,需要通過交互指令和狀態(tài)預(yù)測建立跨模態(tài)的時(shí)空因果關(guān)系[388],。此外,智能體需要理解對象的可承受性,,以實(shí)現(xiàn)適應(yīng)性任務(wù)規(guī)劃和動(dòng)態(tài)場景中的長期自主導(dǎo)航,。為了優(yōu)化決策,需要結(jié)合反事實(shí)和因果干預(yù)策略[389],,從反事實(shí)和因果干預(yù)的角度追蹤因果關(guān)系,,減少探索迭代,并優(yōu)化決策,?;谑澜缰R(shí)構(gòu)建因果圖,并通過主動(dòng)因果推理驅(qū)動(dòng)仿真到現(xiàn)實(shí)轉(zhuǎn)移,,將為具身AI形成一個(gè)統(tǒng)一框架,。 持續(xù)學(xué)習(xí): 在機(jī)器人應(yīng)用中,持續(xù)學(xué)習(xí)[390]對于在多樣化環(huán)境中部署機(jī)器人學(xué)習(xí)策略至關(guān)重要,但目前這一領(lǐng)域尚未充分探索,。盡管一些近期研究已經(jīng)考察了持續(xù)學(xué)習(xí)的子主題——如增量學(xué)習(xí),、快速運(yùn)動(dòng)適應(yīng)和人在環(huán)路學(xué)習(xí)——但這些解決方案通常為單一任務(wù)或平臺(tái)設(shè)計(jì),并未考慮基礎(chǔ)模型,。開放的研究問題和可行的方法包括:1) 在微調(diào)最新數(shù)據(jù)時(shí)混合不同比例的先前數(shù)據(jù)分布,,以減輕災(zāi)難性遺忘[391];2) 開發(fā)從先前分布或課程中高效原型,,用于學(xué)習(xí)新任務(wù)時(shí)的任務(wù)推理,;3) 提高在線學(xué)習(xí)算法的訓(xùn)練穩(wěn)定性和樣本效率;4) 確定將大容量模型無縫整合到控制框架中的原則方法,,可能是通過分層學(xué)習(xí)或慢速-快速控制,,以實(shí)現(xiàn)實(shí)時(shí)推理。 統(tǒng)一評估基準(zhǔn): 盡管存在許多評估低級控制策略的基準(zhǔn),,但它們通常在評估的技能方面有顯著差異,。此外,這些基準(zhǔn)中包含的對象和場景通常受到模擬器限制,。為了全面評估具身模型,,需要基準(zhǔn)能夠使用現(xiàn)實(shí)模擬器涵蓋一系列多樣化的技能。關(guān)于高級任務(wù)規(guī)劃器,,許多基準(zhǔn)側(cè)重于通過問答任務(wù)評估規(guī)劃能力,。然而,更理想的方法包括評估高級任務(wù)規(guī)劃器和低級控制策略一起執(zhí)行長期任務(wù),,并測量成功率,,而不是僅依賴于規(guī)劃器的孤立評估。這種綜合方法為評估具身AI系統(tǒng)的能力提供了更全面的視角,。 IX. 結(jié)論 具身AI允許智能體感知,、感知并通過網(wǎng)絡(luò)空間和物理世界與各種對象互動(dòng),這對其實(shí)現(xiàn)通用人工智能(AGI)至關(guān)重要,。本調(diào)查廣泛回顧了具身機(jī)器人,、模擬器、四個(gè)代表性的具身任務(wù):視覺主動(dòng)感知,、具身交互,、具身智能體和仿真到現(xiàn)實(shí)機(jī)器人控制,以及未來的研究方向,。對具身機(jī)器人,、模擬器、數(shù)據(jù)集和方法的比較總結(jié)為最近在具身AI領(lǐng)域的發(fā)展提供了清晰的圖景,,這將極大地有利于未來沿著這一新興且有前景的研究方向進(jìn)行的研究,。 作者:張長旺,,圖源:旺知識(shí) 參考資料 |
|