久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

具身智能與強化學(xué)習(xí)前沿進展 | 2023智源大會精彩回顧

 奧莉芙小異 2023-07-22 發(fā)布于江西

導(dǎo)讀

今年是具身智能值得紀(jì)念的一年,,從谷歌發(fā)布具身多模態(tài)大模型,展示了智能體與環(huán)境智能交互的能力,;再到特斯拉的人形機器人引發(fā)人們對具身智能和未來通用機器人的想象,。那么,具身智能究竟“走”到哪里了,?

在2023北京智源大會“具身智能與強化學(xué)習(xí)”論壇中,,我們邀請了領(lǐng)域內(nèi)頂尖學(xué)者,包括 北京大學(xué)助理教授王鶴,、美國UCSD的助理教授蘇昊,、北京大學(xué)的助理教授盧宗青、清華大學(xué)的副教授眭亞楠和中科院計算所的研究員蔣樹強,,共同探討具身智能的前沿進展,,以及從當(dāng)今大模型到未來的通用人工智能的過程中,具身智能與強化學(xué)習(xí)將扮演怎樣的角色,。

圖片

本論壇由王鶴主持,,下文是精彩回顧。 

蘇昊:Modeling the 3D Physical World for Embodied AI

圖片
UCSD助理教授蘇昊帶來題為“Modeling the 3D Physical World for Embodied AI”的演講,,介紹具身智能在三維物理世界中的建模思路,。他提到,,具身智能是人工智能中不可或缺的一環(huán),核心問題是概念涌現(xiàn)和表征學(xué)習(xí),,基礎(chǔ)框架是耦合感知,、認知和行動。具身智能的最終目標(biāo)是構(gòu)建像人一樣聰明,、能夠自主學(xué)習(xí)的智能機器人,。
具身智能是遙遠的目標(biāo),涵蓋了人工智能的大部分領(lǐng)域,,繼承了控制論,、信息論、博弈論,、認知科學(xué)等多個領(lǐng)域的研究成果,,代表著人工智能的下一個里程碑式目標(biāo)。蘇昊表示,,目前具身智能的實現(xiàn)方法主要基于技能訓(xùn)練(skill training),,這些基本技能是短時任務(wù)解決方案,時間尺度為2-3秒,,最多4-5秒,。通過將這些基本技能串聯(lián)起來,可以完成復(fù)雜任務(wù),。然而,,這些基本技能卻是瓶頸,挑戰(zhàn)涉及到視覺,、摩擦力,、轉(zhuǎn)動慣量變化、物體的硬度和形狀變化等問題,。
蘇昊認為,,物體操作技能學(xué)習(xí)是具身智能的基石任務(wù),地位類似于計算機視覺中的物體識別,。如果這個任務(wù)能夠完成,,其他許多問題都不會那么困難。他提到,,如果將大模型與具身智能相結(jié)合,,需要大量數(shù)據(jù)。數(shù)據(jù)來源可以是真實世界或生成的合成數(shù)據(jù),,如模擬器,。模擬器在數(shù)據(jù)收集方面具有一些真實世界數(shù)據(jù)無法比擬的優(yōu)勢,例如具有可擴展性、可復(fù)現(xiàn)性以及快速原型(prototyping),。
受到自然語言處理領(lǐng)域中基于 Transformer結(jié)構(gòu)模型的啟發(fā),,蘇昊正在嘗試用類似的方法處理控制信號,最近的工作是基于思維鏈的預(yù)測控制,,將終端控制器的速度控制信號視為像語言一樣的 Token 進行建模,。與之前的序列建模方法相比,在一些具有挑戰(zhàn)性的精細控制任務(wù)上,,基于思維鏈的預(yù)測控制取得了較大的提升,。
最后,蘇昊強調(diào)了 3D 的 AIGC 和具身智能之間的密切關(guān),,前者可以為后者生成大量的幾何數(shù)據(jù),。另外,他認為將圖形學(xué)和機器學(xué)習(xí)統(tǒng)一起來將是具身智能未來發(fā)展的重要方向,。 
圖片

盧宗青:從視頻,、文本到智能體策略學(xué)習(xí)


圖片
針對強化學(xué)習(xí)樣本效率低、學(xué)習(xí)簡單游戲需要大量步驟等難題,,北京大學(xué)助理教授,,智源學(xué)者盧宗青在報告《從視頻、文本到智能體策略學(xué)習(xí)》中介紹了利用視頻和文本數(shù)據(jù)幫助強化學(xué)習(xí)算法學(xué)習(xí)策略,。他提到,,傳統(tǒng)的離線強化學(xué)習(xí)方法需要「狀態(tài)-動作-下一個狀態(tài)-獎勵數(shù)據(jù)」,但視頻中最多只有狀態(tài)序列,。因此,,需要賦予機器人僅通過觀看視頻,就能大致了解如何執(zhí)行任務(wù),,并能通過嘗試學(xué)習(xí)策略的能力。
盧宗青提到,,這種視覺觀察學(xué)習(xí)的本質(zhì)問題是要學(xué)習(xí)一個策略,,使得該策略在狀態(tài)和下一個狀態(tài)的聯(lián)合概率分布與專家的概率分布一致。此外,,他們還嘗試?yán)萌蝿?wù)提示,,通過將文本與圖像關(guān)聯(lián)起來,幫助智能體更好地學(xué)習(xí),。這可以通過 微調(diào)CLIP實現(xiàn),,讓它關(guān)聯(lián)文本與圖像,并為智能體提供獎勵函數(shù),。
盧宗青討論了如何改進獎勵函數(shù)以適應(yīng)強化學(xué)習(xí)任務(wù),,并嘗試解決 《我的世界》游戲中的分割問題、復(fù)雜任務(wù)處理問題。例如,,面向復(fù)雜任務(wù),,可以通過定義技能和分解策略來簡化任務(wù)。為了完成復(fù)雜數(shù)字任務(wù),,需要一套高層次的結(jié)構(gòu),。他探索了大語言模型(如 ChatGPT)在高層次上進行規(guī)劃的能力。同時強調(diào),,底層技能需要精心學(xué)習(xí)或從數(shù)據(jù)和視頻中獲得,。對于稀疏獎勵的長期任務(wù),他強調(diào)了需要分層結(jié)構(gòu),,建議使用具有強推理能力的語言模型進行規(guī)劃,。關(guān)于泛化性,他認為策略泛化需要依賴視覺和語言的泛化能力,,視覺和語言具有統(tǒng)一的表示,,因此可以實現(xiàn)策略層面的泛化。

眭亞楠:交互式建模與學(xué)習(xí):重建人類運動功能

圖片
在報告《交互式建模與學(xué)習(xí):重建人類運動功能》中,,清華大學(xué)副教授眭亞楠介紹了AI在重建人類運動功能時,,從模型學(xué)習(xí)(model-free learning)基于模型學(xué)習(xí)(model-based learning)的轉(zhuǎn)變,以及在現(xiàn)實世界中如何確保安全性和提高采樣效率,。他提到,,早期的技術(shù)路線從無模型學(xué)習(xí)出發(fā)針對物理世界的控制問題進行無模型的在線強化學(xué)習(xí),,技術(shù)上主要關(guān)注安全性(safety),、偏好(preference)、以及采樣效率(sample efficiency),。
在線強化學(xué)習(xí)非常有潛力,,但需要面對未知安全風(fēng)險:在線安全強化學(xué)習(xí),可以歸約為一個約束優(yōu)化問題,。需要在每一步采樣時滿足約束條件,,需要確保在整個優(yōu)化過程中,安全約束都不被破壞,。未知的安全約束可能會破壞評估過程,,進而影響整個強化學(xué)習(xí)的循環(huán)。為了解決安全約束問題,,需要引入安全探索的概念,。在安全邊界內(nèi)進行探索和利用,并盡量擴大已知的安全邊界,。
在實際應(yīng)用中,,利用人類偏好反饋是一個重要問題。通過引入兩兩比較和貝葉斯偏好模型等方法,可以在在線強化學(xué)習(xí)中更好地處理這些問題,。兩兩比較可以讓用戶在給定兩個選項時選擇哪個更好,;通過貝葉斯偏好模型,可以構(gòu)建空間的連續(xù)性和輸入空間或動作空間之間的關(guān)聯(lián)性,。
眭亞楠在報告中進一步討論了在線優(yōu)化過程的應(yīng)用,,以及如何在實際場景中解決神經(jīng)控制和運動功能問題。他提到,,通過神經(jīng)系統(tǒng)的調(diào)控,,可以幫助截癱患者站起來,以及恢復(fù)高位截癱患者的手部抓握能力,。
具身智能從構(gòu)建世界模型(world model)延伸到構(gòu)建人類自身模型(self model),,通過神經(jīng)-肌肉-骨骼系統(tǒng)建模,可以更準(zhǔn)確地描述,、理解和控制人的運動功能,,為人類運動功能的重建帶來更多可能性。

蔣樹強:具身智能中的視覺導(dǎo)航

圖片
中科院計算技術(shù)研究所研究員蔣樹強在報告《具身智能中的視覺導(dǎo)航》中,,討論了具身智能中的視覺導(dǎo)航技術(shù)前沿進展,,強調(diào)了具身智能的重要性和挑戰(zhàn)。他表示,,具身智能與互聯(lián)網(wǎng)AI(Internet AI)并駕齊驅(qū),,具有更大的未來空間和挑戰(zhàn)。具身智能才剛剛開始發(fā)展,,許多任務(wù)剛剛被設(shè)定或處于初步階段,。要讓智能滿足人類需求,還有很多工作需要完成,。同時提到,,具身智能需要智能體支撐,如人形機器人,、機械臂等,。這些支撐技術(shù)已得到越來越多的關(guān)注,為具身智能的發(fā)展提供了基礎(chǔ),。真正的智能不是一個點上的智能,而是各種能力相結(jié)合的智能,,包括感知,、認知和行為等方面。
蔣樹強談到了視覺導(dǎo)航在機器人領(lǐng)域的應(yīng)用和挑戰(zhàn),。傳統(tǒng)的導(dǎo)航方法,,如SLAM,需要構(gòu)建地圖,而視覺導(dǎo)航則更注重位置和環(huán)境,。視覺導(dǎo)航主要通過視覺信息,、機器學(xué)習(xí)和強化學(xué)習(xí)來實現(xiàn)自動導(dǎo)航能力。其基本架構(gòu)包括視覺編碼,、動作輸出和獎懲機制(reward),。為了實現(xiàn)視覺導(dǎo)航,需要考慮諸多因素,,如充足的數(shù)據(jù),、強大的視覺表示能力、預(yù)訓(xùn)練模型和多任務(wù)訓(xùn)練方式等,。他還提到了他們在視覺導(dǎo)航領(lǐng)域的一些研究成果,,如基于場景圖的導(dǎo)航、多目標(biāo)導(dǎo)航,、實例級導(dǎo)航和零樣本導(dǎo)航等,。這些研究突破了一些黑箱操作的問題,但仍然面臨著如何構(gòu)建先驗知識,、自動更新和學(xué)習(xí)物體關(guān)系等挑戰(zhàn),。
此外,蔣樹強講述了場景圖的建立和更新,,以及如何利用場景圖進行自適應(yīng)的導(dǎo)航,。他表示,導(dǎo)航任務(wù)的難度和挑戰(zhàn)仍然很大,,盡管目前可能還處于研究階段,,但未來的發(fā)展值得期待。大模型在這方面也是一個重要工具,,但如何將其應(yīng)用于具身智能仍有很多需要考慮的地方,。

圓桌論壇

圖片從左到右依次為:北京大學(xué)助理教授,智源學(xué)者王鶴,、UCSD助理教授蘇昊,、北京大學(xué)助理教授,智源學(xué)者盧宗青,、清華大學(xué)副教授眭亞楠,、中科院計算技術(shù)研究所研究員蔣樹強。
王鶴:與之前的離身智能,、互聯(lián)網(wǎng)智能相比,,具身智能引入了哪些新的研究問題和挑戰(zhàn)?
蘇昊:最大挑戰(zhàn)是如何將感知,、認知和行動耦合起來,。耦合的核心問題在于如何對世界進行最有效的建模,,尤其是在涉及新概念涌現(xiàn)的情況下。
雖然可以使用傳統(tǒng)的梯度下降方法,,但問題在于這種分布式表示在多大程度上能夠支持推理實現(xiàn)良好的組合泛化,?換句話說,這些涌現(xiàn)的概念在多大程度上需要變成符號化,?
盧宗青:基礎(chǔ)模型(Foundation Model)比較熱門,,尤其是大型語言模型,這類模型可以將數(shù)據(jù)轉(zhuǎn)化為知識,。但是,,由于它們是基于語言的抽象表示,泛化能力強,,但對具體事物的描述可能不夠細致,。
因此挑戰(zhàn)在于:如何將大型語言模型融入具身智能,并讓模型適應(yīng)環(huán)境,,在環(huán)境中積累關(guān)于環(huán)境的具體表象和具身知識,。
另一個挑戰(zhàn)是:如何從抽象的物理世界轉(zhuǎn)化為具體的物理世界。具體而言,,具身智能中,,如何學(xué)習(xí)一個輸入式視覺模型,并將其與文本或符號表示結(jié)合起來,,以便具體到每一個像素,,也是一個需要解決的問題。
王鶴:提到具身智能與機器人學(xué)習(xí),,世界模型變得非常重要,。請問它為具身智能帶來了哪些研究問題?
盧宗青:世界模型(World Model)是一個廣泛的概念,,在強化學(xué)習(xí)中對應(yīng)基于模型的強化學(xué)習(xí)(Model-based RL),。在之前的互聯(lián)網(wǎng)AI時代,例如計算機視覺任務(wù),,研究重點并沒有涉及決策部分,。然而,在具身智能領(lǐng)域,,需要考慮每一步的動作決策,。這時,可以借助基于世界模型的方法或者基于模型的強化學(xué)習(xí)來進行規(guī)劃,。
蘇昊:在互聯(lián)網(wǎng) AI 時代,,研究者主要關(guān)注前向預(yù)測,預(yù)測結(jié)果的正確與否很難判斷,。而在具身智能領(lǐng)域,,基于世界模型的方法面臨一個重要挑戰(zhàn):誤差積累。
當(dāng)模型進行多步預(yù)測時,,誤差可能逐漸累積,。因此,世界模型必須是一個具有長視野,、具備不確定性的生成模型,,并且其分布應(yīng)該是正確的。在具身智能之前,,這幾乎是無法驗證的,。但在具身智能領(lǐng)域,這是可行的,,因為模型的好壞最終會決定任務(wù)的成功率,。這些特點使得世界模型在具身智能研究中具有重要意義。
王鶴:人類學(xué)習(xí)的本質(zhì)是一個感知-行動循環(huán)(Perception-Action Loop),。在這個循環(huán)中,,個體根據(jù)感知進行有效的行動,進一步改變世界狀態(tài),,并重新進行感知,。在具身智能中,如果能對世界進行建模,,就可以預(yù)先知道采取某種行動的可能結(jié)果,,從而在復(fù)雜的場景中做出正確的交互決策。
換個問題,,請談?wù)劸呱碇悄芘c安全性之間的關(guān)系,,它引入了哪些新安全問題?
眭亞楠:具身智能在很多時候需要與環(huán)境或人類進行交互,。在與人類交互的過程中,,安全性問題尤為重要。如果具身智能只在無人環(huán)境中運行,,例如自動碼頭或工廠,,那么安全性問題相對較小,更多的是經(jīng)濟成本問題,。但在與人交互的環(huán)境中,,其中的算法問題和倫理問題會變得更加嚴(yán)重。在一些實際應(yīng)用中,,人們對智能系統(tǒng)的信任程度遠低于對其他人和專業(yè)專家的信任程度,。因此,在具身智能系統(tǒng)能力逐漸提高的同時,,需要特別關(guān)注與人交互過程中的問題,。
王鶴:在學(xué)術(shù)研究角度,,除了導(dǎo)航之外,還有哪些值得研究的問題,?
蔣樹強:有很多問題值得探討,,例如,在具身場景下,,傳統(tǒng)人工智能研究任務(wù)會發(fā)生什么變化,?具身智能如何與計算機視覺、自然語言處理和運動控制等領(lǐng)域結(jié)合,?
此外,,大家逐漸開始關(guān)注大模型。然而,,在具身智能場景下,,由于存在動態(tài)環(huán)境和上下文,大模型可能并不適用,。這也給具身智能研究帶來了新的挑戰(zhàn),。
王鶴:在具身智能領(lǐng)域,除了導(dǎo)航和移動能力之外,,操縱技能,、場景交互和物理交互等方面的研究也非常重要。
大型模型(如 GPT-4)之所以成功,,是因為依賴了大量的互聯(lián)網(wǎng)上的圖文對和文字材料,。然而,對于具身智能來說,,如何獲得這樣的具身大數(shù)據(jù)仍然是一個問題,。可能的途徑包括從人類操作中采集示范數(shù)據(jù),、通過模擬器中進行強化學(xué)習(xí)等,。
王鶴:請問如何獲取更多數(shù)據(jù)?
蘇昊:具身大數(shù)據(jù)是具身學(xué)習(xí)領(lǐng)域的一個重要瓶頸,。在缺乏具身大數(shù)據(jù)的情況下,,很難談?wù)撍^的具身基礎(chǔ)模型。具身大數(shù)據(jù)的獲取面臨兩個問題:人力搖操作采集和模擬器,。對于人力搖操作,,一些復(fù)雜的操作可能難度非常大。對于模擬器,,雖然有一些優(yōu)勢,,但也面臨著如何構(gòu)建豐富的3D內(nèi)容、如何設(shè)置合適的獎勵等問題,。
雖然有難題,,但進展仍在發(fā)生,。不少公司和團隊在研究如何構(gòu)建底層和上層模擬器。
盧宗青:以利用大量的視頻數(shù)據(jù),,尤其是第一人稱視角的視頻,。從學(xué)術(shù)角度來看,如何從視頻中學(xué)習(xí)一個世界模型是具有挑戰(zhàn)性的任務(wù),,但值得研究者們?nèi)L試。
王鶴:總結(jié)一下,,有四類數(shù)據(jù)可用:視頻數(shù)據(jù),、遙操作數(shù)據(jù)、模擬器數(shù)據(jù),、強化學(xué)習(xí)數(shù)據(jù),。
其中,在發(fā)展通用具身機器人方面,,強化學(xué)習(xí)可能發(fā)揮重要作用,。我們可以在模擬器中進行強化學(xué)習(xí),也可以在真實世界中進行強化學(xué)習(xí),,盡管后者可能存在風(fēng)險,。 
眭亞楠:像《我的世界》此類游戲可能會在算力提高后具有更強的真實性和物理交互性。現(xiàn)在的大規(guī)模3C游戲已經(jīng)在交互性和模擬方面做得非常好,。這些數(shù)據(jù)來源于對動物和人體的實際樣本,,例如肌肉的彈性系數(shù)、皮膚組織,、骨強度以及神經(jīng)系統(tǒng)參數(shù),。
此外,從模擬到真實世界仍然是一個困難的過程,。在真實世界中,,我們需要結(jié)合基于模型的學(xué)習(xí)進行在線調(diào)整和適應(yīng)。早期的研究工作,,如神經(jīng)調(diào)控和外骨骼或機器人交互,,可能需要從零開始進行模型的在線強化學(xué)習(xí)。然而,,隨著我們逐步構(gòu)建現(xiàn)實世界中人和機器人的模型,,將模型從模擬轉(zhuǎn)移到現(xiàn)實世界,可能是強化學(xué)習(xí)在現(xiàn)實通用機器人中發(fā)揮作用的主要途徑,。
王鶴:從模擬到真實的差距有多大,?強化學(xué)習(xí)等相關(guān)方法是否存在局限性?
蔣樹強:差距很大,,局限也有,。在模擬器中使用強化學(xué)習(xí)訓(xùn)練模型可能效果不錯,,但一旦環(huán)境改變,強化學(xué)習(xí)模型在真實環(huán)境中可能不太好用,。
強化學(xué)習(xí)需要足夠多的數(shù)據(jù),,或者其泛化能力要足夠強。為了提高泛化能力,,可能需要更多真實環(huán)境的反饋,。在具身智能中,強化學(xué)習(xí)是一個非常重要的工具,,但它需要與其他方法相輔相成,。這包括數(shù)據(jù)和結(jié)合其他領(lǐng)域的知識,例如知識學(xué)習(xí),。目前有一個觀點是數(shù)據(jù)驅(qū)動和知識引導(dǎo)的學(xué)習(xí),,但具身智能的發(fā)展不能僅僅依賴于數(shù)據(jù)驅(qū)動,還需要有知識引導(dǎo),,可能包括人的反饋,。
蘇昊:強化學(xué)習(xí)可能在三個層面有用:
1.底層層面:強化學(xué)習(xí)最初來源于控制領(lǐng)域。通過強化學(xué)習(xí),,可以在底層控制和操作技能方面學(xué)習(xí)到一個可靠的控制器,。
2.上層層面:將強化學(xué)習(xí)視為一種在反饋中學(xué)習(xí)的方法,而非僅限于控制工具,。將其作為一種探索工具,,用于在錯誤中調(diào)整上層的規(guī)劃策略。
3.模擬到真實:在操作技能方面,,強化學(xué)習(xí)的空間可能更大,。因為在導(dǎo)航問題中,不使用強化學(xué)習(xí),,通過直接建模也可以解決問題,,強化學(xué)習(xí)的必要性可能并不大。然而,,在操縱任務(wù)中,,尤其是在經(jīng)典機器人、軟體機器人,、摩擦較復(fù)雜或嵌入式驅(qū)動系統(tǒng)等場景下,,傳統(tǒng)方法可能無法得出可靠的控制器。在這種情況下,,強化學(xué)習(xí)的必要性會更大,。
王鶴:在技能學(xué)習(xí)中,操縱任務(wù)非常復(fù)雜,試錯是一種重要的學(xué)習(xí)方法,。同時,,如Google的搖操作系統(tǒng)所示,模仿學(xué)習(xí)也是一種重要方法,。在未來,,具身機器人的技能學(xué)習(xí)可能會成為通用機器人的一個瓶頸。機器人需要通過泛化的,、低成本的方式學(xué)習(xí)各種技能,,才能在真實世界中具有更多應(yīng)用。
請談?wù)劶寄軐W(xué)習(xí),。
盧宗青:基于大型語言模型(如GPT-4)和視覺信息輸入的模型,,可以與技能庫(skill library)進行結(jié)合以完成一些簡單任務(wù),如游戲《我的世界》中的任務(wù),。
同時,在環(huán)境中持續(xù)學(xué)習(xí)技能也非常重要,;基于視覺的世界模型是必不可少的,。如何將視覺世界模型與更抽象的語言模型(具有更強推理能力)結(jié)合起來也是一個需要考慮的問題。
王鶴:關(guān)于具身大模型發(fā)展方向,,有兩種可能的發(fā)展道路:
1. 類似于現(xiàn)有的GPT-4,,具身大模型接收圖像和語言命令,然后直接輸出機器人底層的控制信號,,例如如何移動腿或手,。
2.具身大模型輸出的是機器人的技能,而不是底層的控制信號,。
各位如何看待具身大模型的發(fā)展,?
盧宗青:具身大模型的發(fā)展中,技能層面的學(xué)習(xí)是非常重要的,。人在成長過程中需要學(xué)習(xí)很多技能,,例如學(xué)走路等,所以具身智能需要構(gòu)建一個技能庫(skill library)來進行技能層面的規(guī)劃(planning),。
強化學(xué)習(xí)在技能學(xué)習(xí)中的重要性不容忽視,。例如,在練習(xí)打網(wǎng)球,、乒乓球等技能時,,無論采用無模型(model-free)還是基于模型(model-based)的方法,都需要不斷嘗試和實踐才能掌握技能,。
蔣樹強:實現(xiàn)通用的大模型仍有很長的路要走,。大模型的訓(xùn)練數(shù)據(jù)決定了它的性能,而現(xiàn)實世界中的具身智能場景和任務(wù)非常廣泛,因此想要實現(xiàn)一個真正通用的大模型是非常困難的,。即使是針對特定任務(wù)的大模型,,數(shù)據(jù)采集也是一個復(fù)雜的過程。
大模型可能會從特定任務(wù)的成功開始發(fā)展,,逐步擴展到更多領(lǐng)域,。在某些特定任務(wù)下,大模型可能表現(xiàn)優(yōu)秀,,但是否能滿足實際需求和任務(wù)仍需時間來證明,。
學(xué)術(shù)界可能無法承擔(dān)大規(guī)模數(shù)據(jù)采集的成本。盡管企業(yè)有可能出資進行數(shù)據(jù)采集,,但他們開發(fā)的大模型是否能滿足實際應(yīng)用需求仍然存在疑問,。
蘇昊:具身大模型不是一個單一的模型,而是多個模型的集合,,包括感知模型,、世界模型和決策模型等。際的發(fā)展路徑可能需要對這些模型進行解耦,,這樣每個模型所需的數(shù)據(jù)量就相對較少,。引入規(guī)模的概念后,就不需要那么多的低層次序列和控制序列,。
具身大模型遇到的挑戰(zhàn)是如何將其分解為若干個較小的大模型,,并組織起來。以人類學(xué)習(xí)新事物為例,,當(dāng)我們第一次嘗試新事物時,,需要花費大量時間去思考和學(xué)習(xí)基礎(chǔ)知識,但隨著經(jīng)驗的積累,,這些知識和技能逐漸變得自然而然,。這說明既需要規(guī)模,也需要在反復(fù)實踐后融合規(guī)模,。 
王鶴:如何實現(xiàn)人與智能機器人的共融共生,?
眭亞楠:我們已經(jīng)與機器系統(tǒng)實現(xiàn)了共融共生,例如手機已經(jīng)成為我們生活中不可或缺的部分,。但人機交互依然分為物理層面的硬交互和虛擬交互,。虛擬交互的設(shè)備已經(jīng)非常普及,而物理世界中的硬交互,,特別是與人產(chǎn)生直接物理接觸的機器人,,仍然面臨很大挑戰(zhàn)。
人形機器人在現(xiàn)實應(yīng)用中需要解決的一個問題是平衡,。雖然癱瘓的人可以借助力量站起來,,但保持平衡仍然是一個難題,。這個問題同樣存在于機器人身上,特別是雙足機器人系統(tǒng)的傳感器和控制器與健康人相比仍有很大差距,。與我們實現(xiàn)共融共生的機器人不一定是雙足的,。例如許多輪式機器人已經(jīng)在酒店等場所與人實現(xiàn)了較好的交互。
盧宗青:在談?wù)撊伺c機器人共融共生之前,,機器人需要具備智能,。有些問題聽起來有些可怕,但我們還沒有達到那個階段,。
目前來看,,只要機器人能夠為人類提供服務(wù),幫助人類更好地生活,,不管是什么形狀的機器人都是可以接受的,。
觀眾A:傳統(tǒng)多模態(tài)和現(xiàn)在的大模型下多模態(tài)之間有什么區(qū)別?
蔣樹強:在之前的研究中,,多模態(tài)主要涉及圖像,、文本和視頻等不同類型的數(shù)據(jù),將它們聯(lián)合學(xué)習(xí),,以實現(xiàn)多模態(tài)信息的融合?,F(xiàn)在的多模態(tài)大模型主要采用 Transformer 架構(gòu),試圖建立視覺和語言之間的對齊關(guān)系,。
實現(xiàn)這種對齊仍然非常具有挑戰(zhàn)性。盡管在語言層面上實現(xiàn)詞與詞之間的對齊可能相對容易,,但要在圖像或視頻中實現(xiàn)對齊則更為困難,。
王鶴:具身多模態(tài)大模型與一般多模態(tài)大模型之間有本質(zhì)區(qū)別。具身多模態(tài)大模型植根于具體的機器人形態(tài),,因此會受到形態(tài)特點的影響,。例如,機器人可以執(zhí)行什么任務(wù),?它有幾條胳膊,、幾條腿?以及它如何進行運動和與環(huán)境交互,。 
觀眾B:讓一個大型語言模型學(xué)習(xí)金融數(shù)據(jù)并進行操作,,與使用具身代理的方法有何區(qū)別?
盧宗青:大型語言模型可能并沒有操作記錄的數(shù)據(jù),,如果數(shù)據(jù)中包含操作記錄(如交易記錄),,那么可能是可行的。否則,,這種方法可能不太行,,具體情況取決于數(shù)據(jù)本身。
金融領(lǐng)域的任務(wù)有時涉及交易,有時涉及投資組合管理,。對于宏觀任務(wù),,大型語言模型可以作為規(guī)劃器;而對于涉及高頻交易的微觀任務(wù),,可能使用強化學(xué)習(xí)會更好,。
王鶴:在金融領(lǐng)域談?wù)摼呱泶砜赡懿惶线m,因為金融操作屬于抽象操作,。強化學(xué)習(xí)和具身思想可以幫助金融交易,,因為它們都涉及到?jīng)Q策??梢試L試建立一個交易模擬器,,先在模擬器中學(xué)習(xí)交易策略,再將策略應(yīng)用到真實市場,,并進行實際適應(yīng),。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多