"多模態(tài)大模型"等同于“大腦”,,人形機(jī)器人本體廠商多專注做本體和“小腦”,“大腦”則與外部合作,。大模型給人形機(jī)器人帶來(lái)的改變?cè)谟诜夯?,具體則用于人形機(jī)器人動(dòng)作的決策規(guī)劃。不同于算法固定編程,,泛化性可理解為“舉一反三”的能力,。。 “機(jī)器人有三層泛化,,第一層偏向感知,,即認(rèn)識(shí)第一個(gè)東西后能不能認(rèn)識(shí)第二個(gè)東西。第二層偏向動(dòng)作,,即做出第一個(gè)動(dòng)作后如果環(huán)境有所調(diào)整,,能不能適應(yīng)做出第二個(gè)動(dòng)作。第三層偏向任務(wù),,即完成第一個(gè)任務(wù)后相關(guān)的任務(wù)能否完成,。”來(lái)杰表示,,大模型帶來(lái)更多地在于任務(wù)上的泛化,。分揀場(chǎng)景舉例:人形機(jī)器人要識(shí)別幾百上千種物料,需要用到高性能且泛化性好或者能快速訓(xùn)練而成的模型,,還需要多模態(tài)大模型的感知能力,。 大腦做感知理解,小腦做具體動(dòng)作執(zhí)行,。小腦向大腦提供接口,,小腦執(zhí)行腿部移動(dòng)、手部運(yùn)動(dòng),,負(fù)責(zé)“向上或向下擰一厘米”和抓握等動(dòng)作,,大腦則負(fù)責(zé)動(dòng)作分配、遇到異常情況如何打斷重組動(dòng)作的部分,。 分揀場(chǎng)景舉例:人形機(jī)器人要識(shí)別幾百上千種物料,需要用到高性能且泛化性好或者能快速訓(xùn)練而成的模型,,還需要多模態(tài)大模型的感知能力,。機(jī)器人識(shí)別并計(jì)算出物料的6D位姿后給到運(yùn)動(dòng)控制模塊,端到端的小模型(小腦)則判斷要從什么部位抓起不同物料,,這種小模型用到了強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí),。 模仿學(xué)習(xí)可認(rèn)為是機(jī)器在模仿人類行為中學(xué)習(xí),好處是,,模仿學(xué)習(xí)不像大模型,,無(wú)需極大量數(shù)據(jù)訓(xùn)練就能學(xué)習(xí)并完成某些任務(wù),。強(qiáng)化學(xué)習(xí)則能理解為人為給機(jī)器人設(shè)立一個(gè)目標(biāo),讓機(jī)器人在不斷試錯(cuò)過(guò)程中通過(guò)獎(jiǎng)勵(lì)和懲罰,,學(xué)會(huì)作出正確決策,。 技術(shù)需要不斷迭代,先有硬件,,然后有數(shù)據(jù),,建模型形成閉環(huán)。 人形機(jī)器人身上負(fù)責(zé)執(zhí)行動(dòng)作的小模型可以由大模型蒸餾(輕量化)而成 今年兩大人形機(jī)器人盛會(huì)上,,業(yè)內(nèi)關(guān)于人形機(jī)器人的評(píng)價(jià)似乎分成兩極——世界人工智能大會(huì)“十八金剛”才藝展示引發(fā)觀眾駐足,,但也有參展者“抱怨”一些機(jī)器人還得吊著、站都站不起來(lái),;上周剛結(jié)束的世界機(jī)器人大會(huì)上,,人形機(jī)器人熱度空前,27款展出的人形機(jī)器人數(shù)量為歷年之最,,有人形機(jī)器人從業(yè)者向第一財(cái)經(jīng)記者感慨今年人形機(jī)器人“能動(dòng)得更多了”,,但也有從業(yè)者稱“各家演示視頻拍得挺好,但實(shí)際上能(像視頻)走起來(lái)演示的很少”,。 兩種評(píng)價(jià)背后,,是人形機(jī)器人已有明顯進(jìn)步,但還遠(yuǎn)未達(dá)到人們的最終期待,。無(wú)論如何,,即便并不完美,人形機(jī)器人今年已在加快走向商用,。 近日“稚暉君”彭志輝的智元機(jī)器人一口氣發(fā)布了五款商用人形機(jī)器人新品,,并透露工廠進(jìn)入量產(chǎn)最后準(zhǔn)備階段,今年公司雙足人形機(jī)器人出貨200臺(tái)左右,;港股“人形機(jī)器人第一股”優(yōu)必選副總裁,、研究院執(zhí)行院長(zhǎng)焦繼超告訴記者,公司人形機(jī)器人在汽車行業(yè)的意向訂單大約500臺(tái),。 樂(lè)聚(蘇州)機(jī)器人技術(shù)有限公司總經(jīng)理王松近日向記者表示,,“公司人形機(jī)器人的合作伙伴已包括海爾、華為,、蔚來(lái)等,。”星塵智能CEO來(lái)杰也告訴記者,,“上次發(fā)布視頻后,,找我們的訂單非常多。” 特斯拉CEO馬斯克則在前段時(shí)間透露,,明年特斯拉將開始“限量生產(chǎn)”O(jiān)ptimus人形機(jī)器人,,屆時(shí)特斯拉將有超過(guò)1000臺(tái)乃至數(shù)千臺(tái)在運(yùn)行的Optimus。 雖然距離“好用”尚遠(yuǎn),但人形機(jī)器人加快邁向“能用”已是事實(shí),。站在量產(chǎn)的起始點(diǎn),,人形機(jī)器人的實(shí)操能力到底如何?可以期待具身智能像大模型般一夜間智能涌現(xiàn)嗎,?第一財(cái)經(jīng)記者近日與多名人形機(jī)器人從業(yè)者交流,,嘗試還原人形機(jī)器人得以走向量產(chǎn)的過(guò)程,并探討AI如何讓人形機(jī)器人繼續(xù)迭代,。 “機(jī)器人動(dòng)起來(lái)了” “人形機(jī)器人已經(jīng)從以往的demo秀,、靜態(tài)展示走向應(yīng)用落地。去年大部分廠商放了一個(gè)硬件來(lái)展示,,動(dòng)都不能動(dòng),,應(yīng)用更不用談了。而今年大家都非常重視應(yīng)用,,能動(dòng)的機(jī)型越來(lái)越多,。應(yīng)用也越來(lái)越聚焦,基本聚焦在工業(yè)場(chǎng)景,?!苯估^超告訴記者。另有參加世界機(jī)器人大會(huì)的人形機(jī)器人從業(yè)者向記者提到,,過(guò)去行業(yè)更講究人形機(jī)器人的移動(dòng)能力,,這次明顯更強(qiáng)調(diào)操作能力。 機(jī)器人能動(dòng),、能操作指向了應(yīng)用落地,。不論是特斯拉、優(yōu)必選還是樂(lè)聚等,,落地初站都選擇了工業(yè),,其中又聚焦汽車工業(yè)。高工機(jī)器人產(chǎn)業(yè)研究所(GGII)所長(zhǎng)盧瀚宸告訴第一財(cái)經(jīng)記者,,制造業(yè)細(xì)分行業(yè)中,,汽車是行業(yè)基底最大的行業(yè),且自動(dòng)化程度最高,,導(dǎo)入機(jī)器人的意愿相對(duì)強(qiáng)烈。業(yè)內(nèi)人士則告訴記者,,從機(jī)器人的發(fā)展階段看,,初期導(dǎo)入工業(yè)最容易,。 “汽車、3C制造等工廠對(duì)人形機(jī)器人都有強(qiáng)烈需求,,問(wèn)題是人形機(jī)器人行業(yè)的硬軟件能力還無(wú)法完全滿足制造業(yè)的所有需求,。目前很多制造業(yè)工廠愿意開放跟機(jī)器人能力匹配的工位,如搬運(yùn),、質(zhì)檢,。”焦繼超告訴記者,,人形機(jī)器人應(yīng)用可分為工業(yè),、商業(yè)服務(wù)和家庭場(chǎng)景三個(gè)階段,三個(gè)階段漸趨復(fù)雜,,對(duì)產(chǎn)品的性能要求和對(duì)價(jià)格的敏感度越來(lái)越高,。人形機(jī)器人廠商選擇先落地工業(yè),是因?yàn)槟茉诠I(yè)場(chǎng)景將底層核心基礎(chǔ)技術(shù)如定位導(dǎo)航,、感知,、目標(biāo)識(shí)別先打磨好,同時(shí)在高負(fù)載高頻率的工作環(huán)境中測(cè)試,、優(yōu)化硬件結(jié)構(gòu)與機(jī)器人系統(tǒng)穩(wěn)定性,,為未來(lái)進(jìn)入其他場(chǎng)景做鋪墊。 在過(guò)去一年多時(shí)間,,不只有新生的大模型為人形機(jī)器人產(chǎn)業(yè)帶來(lái)改變,,上游供應(yīng)鏈形成、硬件成本下降也是人形機(jī)器人撞開量產(chǎn)大門的推手,。 “在大模型出來(lái)前,,硬件相關(guān)供應(yīng)鏈生產(chǎn)水平到了一個(gè)階段,再有一些商業(yè)化落地場(chǎng)景被大家看到,,關(guān)注度一下子就起來(lái)了,。”王松告訴記者,,近一年多供應(yīng)鏈變化明顯,,例如以前找不到專門的人形機(jī)器人零部件,只能從別的行業(yè)如協(xié)作臂的供應(yīng)鏈拿,,拿到的部件技術(shù)路線跟人形機(jī)器人的技術(shù)要求不同,,導(dǎo)致人形機(jī)器人集成度不高、精度不夠,、穩(wěn)定性不佳,,核心零部件只能公司自己做。而現(xiàn)在,雖然談?dòng)布?biāo)準(zhǔn)化尚早,,但供應(yīng)鏈已經(jīng)起來(lái)了,。 “我們?cè)谏钲诮佑|的供應(yīng)商非常多,發(fā)現(xiàn)供應(yīng)商不一定是沒有能力(進(jìn)入人形機(jī)器人領(lǐng)域),,而是沒有形成完整市場(chǎng)鏈條時(shí)不愿投入,,只要供應(yīng)商開始轉(zhuǎn)型,行業(yè)就會(huì)發(fā)展,?!眮?lái)杰表示,很多上游供應(yīng)商已在考慮技術(shù)如何應(yīng)用于機(jī)器人并做內(nèi)部轉(zhuǎn)型,,預(yù)計(jì)兩年內(nèi)市場(chǎng)就能形成完整鏈條,。 UniX AI創(chuàng)始人兼首席執(zhí)行官楊豐瑜對(duì)記者表示,機(jī)器人產(chǎn)品能夠起量取決于產(chǎn)品研發(fā),、工程能力,、供應(yīng)鏈優(yōu)勢(shì)。 從耶魯大學(xué)計(jì)算機(jī)專業(yè)獲得博士學(xué)位后,,年僅23歲的楊豐瑜在去年開始了自己的具身智能機(jī)器人事業(yè),。楊豐瑜認(rèn)為,國(guó)內(nèi)獨(dú)有的供應(yīng)鏈優(yōu)勢(shì)讓機(jī)器人產(chǎn)業(yè)具備了極強(qiáng)的供應(yīng)鏈資源,,只要融合國(guó)內(nèi)優(yōu)質(zhì)產(chǎn)能,,目前進(jìn)行大批量的產(chǎn)品交付已經(jīng)不是問(wèn)題。 焦繼超告訴記者,,研發(fā)迭代和上游供應(yīng)鏈規(guī)模起來(lái)后,,今年人形機(jī)器人價(jià)格整體比去年下降了40%~50%。隨著人形機(jī)器人在工業(yè)場(chǎng)景的性能逐漸穩(wěn)定,、數(shù)量增多,,預(yù)計(jì)整機(jī)成本還將繼續(xù)下降。 2022年年底ChatGPT出世,在隨后的一年多時(shí)間大模型則給人形機(jī)器人安上了“大腦”,。多名人形機(jī)器人廠商告訴記者,,在人形機(jī)器人語(yǔ)境下,大模型等同于“大腦”,,人形機(jī)器人本體廠商多專注做本體和“小腦”,,“大腦”則與外部合作。大模型給人形機(jī)器人帶來(lái)的改變?cè)谟诜夯?,具體則用于人形機(jī)器人動(dòng)作的決策規(guī)劃,。不同于算法固定編程,,泛化性可理解為“舉一反三”的能力。有了“大腦”,,人形機(jī)器人進(jìn)工廠“打工”也成為可能,。 “機(jī)器人有三層泛化,第一層偏向感知,,即認(rèn)識(shí)第一個(gè)東西后能不能認(rèn)識(shí)第二個(gè)東西。第二層偏向動(dòng)作,,即做出第一個(gè)動(dòng)作后如果環(huán)境有所調(diào)整,,能不能適應(yīng)做出第二個(gè)動(dòng)作。第三層偏向任務(wù),,即完成第一個(gè)任務(wù)后相關(guān)的任務(wù)能否完成,。”來(lái)杰表示,,大模型帶來(lái)更多地在于任務(wù)上的泛化,。 王松形容,大模型在機(jī)器人身上的泛化性更多體現(xiàn)在工程層面,,例如“能抓一瓶可樂(lè),,變成雪碧時(shí)也能抓取”,雪碧或可樂(lè)在工業(yè)場(chǎng)景中可替換成各種物料,。大模型泛化性體現(xiàn)在任務(wù)流程安排以及對(duì)不同物品的理解,。在大模型智能涌現(xiàn)之前,業(yè)界不太知道如何實(shí)現(xiàn)泛化,,而若不依賴泛化能力,、靠專業(yè)化編程完成各種任務(wù),對(duì)應(yīng)工作量很大,。大模型給機(jī)器人提供了一種新的任務(wù)規(guī)劃思路,,行業(yè)“見到了希望的曙光”。現(xiàn)在人形機(jī)器人有了“大腦”,,大小腦便能配合,,由大腦做感知理解,小腦做具體動(dòng)作執(zhí)行,。 在工廠中,,一臺(tái)人形機(jī)器人是這樣運(yùn)行的:王松告訴記者,小腦向大腦提供接口,,小腦執(zhí)行腿部移動(dòng),、手部運(yùn)動(dòng),負(fù)責(zé)“向上或向下擰一厘米”和抓握等動(dòng)作,,大腦則負(fù)責(zé)動(dòng)作分配,、遇到異常情況如何打斷重組動(dòng)作的部分,。 焦繼超以物料分揀場(chǎng)景舉例:人形機(jī)器人要識(shí)別幾百上千種物料,需要用到高性能且泛化性好或者能快速訓(xùn)練而成的模型,,還需要多模態(tài)大模型的感知能力,。當(dāng)工作流程出現(xiàn)異常情況,例如抓取,、分揀的物料沒有抓住,,大模型應(yīng)該知道下一步如何做,這體現(xiàn)了大模型的決策能力,。此外,,機(jī)器人識(shí)別并計(jì)算出物料的6D位姿后給到運(yùn)動(dòng)控制模塊,端到端的小模型(小腦)則判斷要從什么部位抓起不同物料,,這種小模型用到了強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí),。 人類經(jīng)過(guò)漫長(zhǎng)進(jìn)化時(shí)間學(xué)會(huì)的簡(jiǎn)單動(dòng)作,對(duì)人形機(jī)器人而言卻是復(fù)雜的,,等到大模型出現(xiàn),,人形機(jī)器人才開始學(xué)會(huì)用大腦思考并進(jìn)入工作崗位。 大模型做不到的 雖然大模型給了人形機(jī)器人一束“曙光”,,但人形機(jī)器人的AI能力絕非來(lái)自大模型一種,。作為AI技術(shù)的集大成者,人形機(jī)器人受到各種技術(shù)的牽引和羈絆,。拆開看這些技術(shù)進(jìn)展,,或能更好理解目前人形機(jī)器人的能力和局限。 今年與人形機(jī)器人相關(guān)的細(xì)碎事件中,,藏著一些重要進(jìn)展,。年初斯坦福大學(xué)炒菜機(jī)器人Mobile ALOHA機(jī)器人亮相。這臺(tái)機(jī)器人可通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)人類雙手操作,,經(jīng)過(guò)學(xué)習(xí)數(shù)十次演示,,機(jī)器人可完成自主煮蝦、擦桌子,、洗盤子等任務(wù),。業(yè)界將其視為模仿學(xué)習(xí)的突破。年內(nèi),,還有機(jī)器人廠商展示了雙足機(jī)器人走出實(shí)驗(yàn)環(huán)境,、在自然環(huán)境行走的能力。以逐際動(dòng)力的雙足機(jī)器人為例,,該公司創(chuàng)始人張巍介紹,,機(jī)器人背后有強(qiáng)化學(xué)習(xí)技術(shù)的突破,該技術(shù)“開關(guān)”是在最近一年左右時(shí)間發(fā)現(xiàn)的,。 模仿學(xué)習(xí)可認(rèn)為是機(jī)器在模仿人類行為中學(xué)習(xí),,好處是,,模仿學(xué)習(xí)不像大模型,無(wú)需極大量數(shù)據(jù)訓(xùn)練就能學(xué)習(xí)并完成某些任務(wù),。強(qiáng)化學(xué)習(xí)則能理解為人為給機(jī)器人設(shè)立一個(gè)目標(biāo),,讓機(jī)器人在不斷試錯(cuò)過(guò)程中通過(guò)獎(jiǎng)勵(lì)和懲罰,學(xué)會(huì)作出正確決策,。 焦繼超認(rèn)為,,過(guò)去一年與人形機(jī)器人有關(guān)的主要技術(shù)突破正是基于模仿學(xué)習(xí)或強(qiáng)化學(xué)習(xí)的端到端操作?;趶?qiáng)化學(xué)習(xí)的運(yùn)動(dòng)控制步態(tài)能讓機(jī)器人在實(shí)際場(chǎng)景更多應(yīng)用起來(lái),。模仿學(xué)習(xí)則在特定環(huán)境下機(jī)器人的雙臂靈巧操作有較好表現(xiàn),且可較快落地,,減輕復(fù)雜任務(wù)操作上的一些困難?!暗?/span>不論是強(qiáng)化學(xué)習(xí)還是模仿學(xué)習(xí),,泛化性都是比較大的挑戰(zhàn)。且模仿學(xué)習(xí)在很大程度上還依賴人工遙操作采集數(shù)據(jù),,對(duì)數(shù)據(jù)質(zhì)量要求較高,,這些數(shù)據(jù)很難在模擬環(huán)境中生成?!?/span> 楊豐瑜則對(duì)記者表示,,人形機(jī)器人是系統(tǒng)的工程,,既涉及硬件也涉及軟件,目前硬件和軟件發(fā)展速度上顯然有一些不匹配,。大模型能思考,,但是指揮不動(dòng)本體,指揮不動(dòng)硬件,。而對(duì)人形機(jī)器人來(lái)說(shuō),,本身身體還不夠結(jié)實(shí),能完成的任務(wù)很少,,在這個(gè)基礎(chǔ)上做具身智能開發(fā)相對(duì)難度比較大,。當(dāng)然本體和大腦是互相制約的,本體開發(fā)很好,,大腦沒有達(dá)到水準(zhǔn),,應(yīng)用場(chǎng)景也會(huì)受到制約。 “先從本體迭代切入點(diǎn),,再加入基本應(yīng)用,,達(dá)到一定程度后,,本體做比較大的收斂,然后應(yīng)用才會(huì)開始蓬勃發(fā)展?,F(xiàn)在大模型技術(shù)路線還是依靠海量的數(shù)據(jù),,像ChatGPT3.5、ChatGPT4,,基本把人類所有數(shù)據(jù)讀了一遍,,數(shù)據(jù)在具身智能里毋庸置疑是非常關(guān)鍵的?!睏钬S瑜表示,,技術(shù)需要不斷迭代,先有硬件,,然后有數(shù)據(jù),,建模型形成閉環(huán)。 “近一年AI的主要技術(shù)進(jìn)展除了大模型帶來(lái)的機(jī)器人決策能力提升,,還包括深度強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的突破,。王松告訴記者,強(qiáng)化學(xué)習(xí)解決了人形機(jī)器人的動(dòng)作問(wèn)題,,增強(qiáng)了對(duì)復(fù)雜環(huán)境的適應(yīng)能力,。模仿學(xué)習(xí)則與大模型的相關(guān)技術(shù)架構(gòu)比較像,它提供了一套機(jī)器人端到端的控制思路,,其背后也是一套針對(duì)特定場(chǎng)景任務(wù)的模型,,但參數(shù)量不是很大?!蓖跛煞Q,,模仿學(xué)習(xí)還是有走向通用泛化的可能,屆時(shí)參數(shù)量一定會(huì)非常大,。下一步,,模仿學(xué)習(xí)將集中解決泛化能力較差的問(wèn)題。例如,,斯坦福炒菜機(jī)器人一個(gè)小模型一次只能完成一個(gè)任務(wù),,現(xiàn)在出現(xiàn)了新的思路,如谷歌的相關(guān)模型在一個(gè)模型中能完成多種任務(wù),。 大模型方面,,除了在決策規(guī)劃層面發(fā)揮作用,年內(nèi)多家廠商還展示了人形機(jī)器人結(jié)合大模型后的互動(dòng)能力,。例如,,F(xiàn)igure AI人形機(jī)器人接入OpenAI模型后,能伸手拿起桌上的蘋果并解釋這么做的原因,。優(yōu)必選則展示了人形機(jī)器人接入百度文心大模型后的表現(xiàn),,該機(jī)器人也能與人類對(duì)話,。 不過(guò),交互能力在工業(yè)等場(chǎng)景并非必需,,實(shí)際上,,大模型在人形機(jī)器人身上的應(yīng)用還不夠廣泛,本身也有頗多局限,。 例如,,人形機(jī)器人身上負(fù)責(zé)執(zhí)行動(dòng)作的小模型可以由大模型蒸餾(輕量化)而成,但這并無(wú)必要,。王松稱,,蒸餾后的小模型效率和執(zhí)行精度比不上傳統(tǒng)的運(yùn)動(dòng)控制,簡(jiǎn)單的正逆運(yùn)動(dòng)學(xué)算法已很準(zhǔn)確,,用模型求解更像走彎路,。 此外,大模型作為“大腦”,,把大模型參數(shù)量做大,、以此提升模型能力也不太可能。大模型推理需要耗用算力,,背后也需要充足的電力支持。 優(yōu)必選人形機(jī)器人搭載的大模型最早是70億參數(shù),,目前參數(shù)則是10億左右,。焦繼超表示,大模型推理對(duì)硬件CPU,、GPU要求較高,,而人形機(jī)器人硬件算力水平與桌面級(jí)服務(wù)器相比還有較大差距,如果大模型不做輕量化就難以在端側(cè)運(yùn)行,?!埃ǘ藗?cè)算力限制背后)算力芯片、電池兩個(gè)原因都有,,目前小型化算力板不多,,且雙足人形機(jī)器人結(jié)構(gòu)空間受限,不能搭載太大的電池(以供給計(jì)算),?!蓖跛煞Q。 往后看,,業(yè)界對(duì)大模型的期盼遠(yuǎn)不止讓它作為“大腦”提供任務(wù)規(guī)劃決策,,而更希望大模型能更“順滑”地整合機(jī)器人全身,這可以簡(jiǎn)單理解為用整套神經(jīng)網(wǎng)絡(luò)控制機(jī)器人,,體現(xiàn)為與人類相近的具身智能,。多名業(yè)界人士向記者表達(dá)了類似的觀點(diǎn),,即希望未來(lái)大模型能集成小模型,做到真正的端到端(End to End),,例如機(jī)器人在了解周圍環(huán)境后能“天然”地知道該怎么做,,而無(wú)需機(jī)械地將機(jī)器人運(yùn)作過(guò)程分層為感知、規(guī)劃,、控制等模塊,,對(duì)機(jī)器人施加太多控制。端到端神經(jīng)網(wǎng)絡(luò)是一種類似人腦的工作模式,,在自動(dòng)駕駛領(lǐng)域已經(jīng)過(guò)一定驗(yàn)證,。 但端到端要在人形機(jī)器人身上實(shí)現(xiàn)并不容易。 真實(shí)數(shù)據(jù)缺少 焦繼超表示,,目前行業(yè)還無(wú)法實(shí)現(xiàn)用純端到端的方式完成某項(xiàng)任務(wù),,例如抓取任務(wù)中的識(shí)別、感知等由同一個(gè)模型輸出,,但希望未來(lái)用端到端能力,,讓人形機(jī)器人能根據(jù)突發(fā)情況自主完成任務(wù)。 “現(xiàn)在自動(dòng)駕駛做端到端,,(達(dá)到)L4級(jí)別無(wú)人駕駛,,而在十年前智能駕駛也是分為感知、預(yù)測(cè),、規(guī)劃,、控制四個(gè)部分,后續(xù)才逐漸合并,,積累到足夠數(shù)據(jù)量時(shí)才嘗試端到端訓(xùn)練,,獲得能力上很大的提升?!眮?lái)杰稱,,機(jī)器人應(yīng)該也是這個(gè)路徑,當(dāng)數(shù)據(jù)積累到足夠大時(shí),,自然會(huì)解答“是否合并”等問(wèn)題,。有人形機(jī)器人從業(yè)者告訴記者,目前做不到完全端到端,,一大原因是訓(xùn)練所需數(shù)據(jù)量不夠,。 與大語(yǔ)言模型的數(shù)據(jù)瓶頸相似,數(shù)據(jù)量不足成為人形機(jī)器人智能化發(fā)展的一大掣肘,。不同之處在于,,大語(yǔ)言模型數(shù)據(jù)瓶頸源于互聯(lián)網(wǎng)可用的文字資料逼近極限,人形機(jī)器人的數(shù)據(jù)瓶頸則在于真實(shí)數(shù)據(jù)難以獲取。 焦繼超稱,,在VLA(visual language action)數(shù)據(jù)缺少的情況下,,大模型參數(shù)量如果較大,訓(xùn)練很難收斂,。目前visual language數(shù)據(jù)量較多,,但加上action運(yùn)控?cái)?shù)據(jù),數(shù)據(jù)量少,,而運(yùn)控?cái)?shù)據(jù)無(wú)法通過(guò)模擬的方式生成,,因?yàn)檫@類數(shù)據(jù)需要通過(guò)硬件收集,且需要在真實(shí)環(huán)境下收集,,如果采用仿真數(shù)據(jù),,會(huì)出現(xiàn)過(guò)擬合問(wèn)題。 “特斯拉做無(wú)人駕駛也是在一開始采集大量真實(shí)數(shù)據(jù),,逐漸構(gòu)建世界模型,再(從用戶開車的實(shí)踐中)采集真實(shí)數(shù)據(jù),。前提是要有足夠的真實(shí)數(shù)據(jù),。”焦繼超稱,,優(yōu)必選通過(guò)搭建真實(shí)場(chǎng)景采集數(shù)據(jù),,與用戶合作采集并使用部分仿真數(shù)據(jù),,真實(shí)數(shù)據(jù)量需要遠(yuǎn)高于仿真數(shù)據(jù)。要在有足夠好的模型能描述物理世界,,甚至與物理世界運(yùn)行規(guī)律完全一樣的情況下,所使用的仿真數(shù)據(jù)才能超過(guò)真實(shí)數(shù)據(jù),。 “我們用仿真數(shù)據(jù),、人體動(dòng)捕數(shù)據(jù),、機(jī)器人實(shí)操數(shù)據(jù)?!眮?lái)杰稱,,硬件是數(shù)據(jù)的來(lái)源,這也是為什么人形機(jī)器人硬件和AI需要同步發(fā)展,。最有價(jià)值的是從機(jī)器人本體而來(lái)的數(shù)據(jù),搭建數(shù)據(jù)工廠、行業(yè)共建數(shù)據(jù)集是值得嘗試的辦法,。 “最后還是要靠大規(guī)模的真機(jī)數(shù)據(jù)來(lái)完成的,,只有真正使用之后,有真實(shí)的數(shù)據(jù),,技術(shù)才能不斷演進(jìn)?!睏钬S瑜說(shuō),。 騰訊首席科學(xué)家、騰訊Robotics X實(shí)驗(yàn)室主任張正友在7月底“AI時(shí)代的人機(jī)關(guān)系展望”論壇中也指出具身智能數(shù)據(jù)稀缺的挑戰(zhàn),。他表示,Open AI最初希望直接通過(guò)機(jī)器人達(dá)到AGI(通用人工智能),,由于數(shù)據(jù)的缺乏后面放棄了,,數(shù)據(jù)問(wèn)題還是需要解決。 具有啟發(fā)性的是,,在數(shù)據(jù)層面人形機(jī)器人已體現(xiàn)的軟硬件強(qiáng)耦合,可能還會(huì)繼續(xù)體現(xiàn)在人形機(jī)器人后續(xù)的發(fā)展中,。焦繼超告訴記者,,機(jī)器人自主能力的體現(xiàn)還需關(guān)聯(lián)硬件,如果硬件性能達(dá)不到,,軟件再?gòu)?qiáng)也只是停留在仿真環(huán)境,。王松稱,人形機(jī)器人的軟件和硬件是強(qiáng)耦合關(guān)系,,彼此需經(jīng)過(guò)相互迭代過(guò)程。 “大模型時(shí)代有人認(rèn)為大模型很厲害,,放到機(jī)器人上馬上就能夠?qū)崿F(xiàn)(AGI),,實(shí)際上不是?!睆堈驯硎荆騻€(gè)比喻,,現(xiàn)在相當(dāng)于20歲大腦放在3歲的身體上,,機(jī)器人雖然擁有一定的移動(dòng)能力,但操作能力非常弱,。而真正的具身智能要能自主學(xué)習(xí)和處理問(wèn)題,對(duì)環(huán)境變化和面對(duì)不確定時(shí)能自動(dòng)調(diào)整和規(guī)劃,這是具身智能通往AGI或打造通用智能機(jī)器人非常重要的過(guò)程,。張正友表示,,將大模型“塞到”機(jī)器人頭中,只能達(dá)到部分智能,,還要待智能與本體有機(jī)融合,機(jī)器人與環(huán)境交互中才能涌現(xiàn)真正的智能,。 (本文來(lái)自第一財(cái)經(jīng)) |
|
來(lái)自: 張先民 > 《Advanced 概念》