2021年8月,,在特斯拉第一屆人工智能日上,,當特斯拉創(chuàng)始人馬斯克用“皮套人”偽裝的人形機器人登上舞臺的那一刻,機器人產業(yè)迎來了一個全新的開端,,尤其是人形機器人,,進入到了一個資本紅利期。
與此同時,,隨著2022年11月ChatGPT的面世,,以生成式AI為代表的人工智能技術浪潮的來臨,為機器人產業(yè)再添一把火,,具身智能涌現,,機器人產業(yè)隨之也迎來了一個技術紅利期。
在過去兩年里,,僅僅是在國內,,就涌入了數十家人形機器人初創(chuàng)團隊,而在這波由人工智能,、具身智能催生的人形機器人熱潮中,,數據成了機器人進化的一大難題。
以全球矚目的ChatGPT為例,,其背后的大模型早在2022年6月迭代到GPT-3時,,參數規(guī)模就已經達到1750億,而據中國信通院分析數據顯示,,大模型的知識密度還在以平均每8個月翻一番的速度增強,。
正因如此,才有了GPT系列大模型展現出的越來越超乎想象的知識問答,、圖文生成能力,。
相較于基于海量互聯網數據訓練出的圖文大模型,具身大模型可用的數據量,,尤其是聚焦到機器人領域,,就顯得有些捉襟見肘,以至于不少機器人企業(yè)內部都組建了數據采集部門,,通過遙操作方式為機器人采集來自真實世界中的數據,。
例如,,谷歌DeepMind團隊與斯坦福團隊在2024年1月共同推出的Mobile ALOHA,就是一套基于遙操作模式進行數據采集的低成本開源機器人,。
與此同時,,特斯拉2024年在大量招聘機器人“數據采集員”,這些“數據采集員”通過穿戴動捕設備和VR設備來為Optimus采集數據,,國內智元機器人也于2024年在上海臨港區(qū)投建了數據采集超級工廠,,而出自這一工廠的機器人百萬真機數據集AgiBot World在2024年年底由智元機器人對外開源。
不過,,由人類“數據采集員”從真實世界中采集數據,,這一模式往往費時又費力。
在近日的NVIDIA媒體研討會上,,銀河通用創(chuàng)始人兼CTO王鶴將機器人與汽車作對比指出,,“對于用戶而言,開車是剛需,,將車賣給用戶后,,用戶會自愿駕駛汽車,這些汽車廠商數據采集的成本可以是負數,,但是對于人形機器人而言,,如果沒有功能,就沒人愿意購買,,更沒人愿意遙操作機器人采集數據,,人形機器人公司在這方面只能冷啟動?!?/span>
谷歌曾經就組建過一支16人的機器人研究團隊,,這支團隊在谷歌山景城辦公室的3個廚房中,,用13個機器人,,花了17個月的時間,采集到了13萬條來自真實世界的數據,,為了采集這些數據,,谷歌花費了上千萬美元。
那么,,是否還有其它更高效率,、更低成本的方法,可以破解人形機器人的數據難題,?
NVIDIA給出的答案是,,通過仿真環(huán)境提供合成數據。
仿真并不是什么新概念,,在芯片設計領域,,芯片在制造之前都需要進行仿真,,以確保最終制造出的芯片功能完美無缺。
NVIDIA機器人與邊緣計算副總裁Deepu Talla指出,,“由于仿真技術的精度不足,,導致仿真技術過往這些年里并沒有在機器人領域得到很好的應用,Omniverse的出現,,縮小了仿真與真實世界之間的差距,。”
Omniverse是NVIDIA專為虛擬協作和物理級準確實時模擬打造的開放式3D仿真平臺,,這一平臺在2021年發(fā)布后,,就因高精度真實世界仿真能力被《時代》周刊評選為2021年最佳發(fā)明之一。
而就在剛剛過去的CES 2025上,,繼在GTC 2024上發(fā)布Project GR00T人形機器人基礎模型后,,NVIDIA創(chuàng)始人黃仁勛再次對外發(fā)布了世界基礎模型Cosmos。
據Deepu Talla介紹,,“NVIDIA Cosmos是一個'世界基礎模型’,,可以生成高度逼真、類似視頻游戲的環(huán)境,,用于機器人訓練,,通過將少量的現實世界數據與使用像NVIDIA Cosmos這樣的工具生成的大規(guī)模合成數據相結合,我們可以克服機器人技術中數據稀缺的問題,?!?/span>
不過,在CES 2025上,,黃仁勛面向機器人領域對外發(fā)布的,,不僅僅有世界基礎模型Cosmos,還有面向機器人研發(fā)的一套完整的工作流,。
2012年,,是ImageNet挑戰(zhàn)賽舉辦的第三年,這一年,,多倫多大學教授Geoffrey Hinton帶著他的兩位學生Alex Krizhevsky和Ilya Sutskever參加了這場比賽,,并憑借AlexNet模型一舉拿下了這屆大賽的冠軍。
計算機圖像識別是人工智能領域一個重要分支,,AlexNet模型之所以能在這屆大賽中拿下冠軍,,是因為它以當時大家都不看好的卷積神經網絡結構為基礎,獨辟蹊徑地摒棄了逐層無監(jiān)督方法,,通過有監(jiān)督學習方法大大提升了圖像識別的準確率,。
在2012年的ImageNet挑戰(zhàn)賽中,AlexNet模型圖像識別準確率達到了驚人的84%,。
當然,,AlexNet模型還有另一個獨特之處,,那就是摒棄了當時主流的通用處理器,換上了兩個更適合深度學習模型訓練場景的NVIDIA GTX 580,,盡管當時的GTX 580主流應用場景依然是電子游戲,。
這一年之后,卷積神經網絡在學術界重回主流視野,,以深度學習為代表的人工智能技術開始成為全球科技領域的焦點,。
NVIDIA是在2016年的GTC大會上,正式對外發(fā)布了首款針對深度學習場景的GPU,,DGX-1,,也是在這一年,NVIDIA首次將GTC大會帶到了中國,,黃仁勛在發(fā)布會現場宣布,,“我們不再是一個半導體公司,而是一個人工智能計算公司,?!?/span>
值得注意的是,NVIDIA的第一臺DGX-1 AI超級計算機,,是由黃仁勛捐贈給了當時剛剛成立不久的OpenAI,。
鮮為人知的是,OpenAI成立之初內部就有設立機器人研發(fā)團隊,,OpenAI CEO Sam Altman相信人形機器人是通用人工智能的未來,,也希望通過機器人推動通用人工智能技術落地。
實際上,,DGX后來也成了NVIDIA進軍機器人領域的第一臺計算機,。
1月7日,CES 2025的開幕主題演講中,,機器人成了NVIDIA重點關注領域之一,,為此,黃仁勛還在演講中正式發(fā)布了面向包括人形機器人在內的物理AI領域打造的三臺計算機,。
人形機器人在開發(fā)過程中,,由于涉及包括AI模型訓練,、機器人運動仿真在內的大量計算,,為此,NVIDIA面向物理AI和機器人訓練,、仿真,、運行構建了三臺計算機,這三臺計算機分別為:
用于AI模型訓練的超級計算機NVIDIA NeMo,、用于軟件開發(fā)和仿真測試運行在NVIDIA OVX服務器上的Omniverse和Isaac Sim,,以及用于機器人本地部署的機器人專用計算平臺Jetson Thor,。
這其中,NVIDIA針對具有智能大腦的計算平臺的布局可以追溯至10年前,。
2014年,,NVIDIA面向嵌入式場景推出了Jetson TK1,自那時起,,Jetson系列計算平臺開始成為機器人端側算力的重要支撐,。
2018年又推出了Jetson Xavier,2022年推出的Jetson Orin性能更是較上一代Xavier提升了10倍,。
而即將推出的Jetson Thor是為滿足人形機器人對算力的巨大需求而設計,,可以說是目前最強嵌入式AI計算平臺。
Isaac Sim則是NVIDIA在2019年對外發(fā)布的,,基于Omniverse的仿真平臺,,用于在物理的虛擬環(huán)境中仿真和測試AI驅動的機器人。
在今年的CES上,,針對機器人的合成運動生成,,NVIDIA再次發(fā)布了一個名為NVIDIA Isaac GR00T Blueprint的仿真工作流,基于此,,機器人可以從少量人類示范中生成大量合成運動數據集,,極大降低了在真實世界中收集廣泛、高質量數據的難度和成本,。
這套工作流共分為四步:
第一步,,GR00T-Teleop借助Apple Vision Pro在數字孿生環(huán)境中捕捉人類動作,這些人類動作被記錄下來作為金標準,,并在仿真環(huán)境中由機器人模仿學習,;
第二步,GR00T-Mimic將捕捉到的人類示范動作擴展為更大的合成運動數據集,;
第三步,,基于Omniverse和Cosmos平臺構建的GR00T-Gen通過域隨機化和3D提升技術,指數級擴增這個數據集,;
第四步,,擴增后的數據集作為機器人策略的輸入,在Isaac Lab中教會機器人如何在其環(huán)境中高效且安全地移動和互動,。
作為國內人形機器人領域明星企業(yè)銀河通用的創(chuàng)始人,,王鶴同樣相信合成數據是推動人形機器人智能發(fā)展的關鍵,他們也是最早基于NVIDIA Isaac Sim和Omniverse合成機器人操作數據,,并研發(fā)出了機器人VLA模型的團隊,。
據王鶴透露,“銀河通用已經訓練出了全球第一個10億級參數規(guī)模的端到端具身抓取基礎大模型GraspVLA,,基于這一模型的機器人具備泛化抓取能力,,即使面對一些特殊零件抓取任務,,只需要采集100條數據并掌握零件名稱后,就能實現對這一零件的泛化抓取,?!?/span>
不過,對于NVIDIA而言,,通過這樣三臺計算機和一套工作流并不是為了制造人形機器人,,Deepu Talla解釋稱,“我們的目標是打造一個平臺,,讓每個人都能創(chuàng)建自己的機器人,。”
通用機器人的ChatGPT時刻
據《中國人形機器人創(chuàng)新發(fā)展報告 2025》統(tǒng)計數據顯示,,2024年中國人形機器人整機企業(yè)有79家,,市場規(guī)模約為27.6億元,預計2025年將翻倍至53億元,,2029年有望達750億元,。
市場規(guī)模階躍式增長,是人形機器人產業(yè)熱潮的真實寫照,。
為什么我們需要機器人,,尤其是人形機器人?
Deepu Talla認為,,現在至少有三個原因正在讓機器人變得不可或缺:
第一,,危險工作,,例如礦工或其它在危險環(huán)境中工作的人員,機器人可以替代人類承擔這些危險任務;
第二,,勞動力短缺,,人口短缺已經成為一個全球趨勢,,未來將會由機器人彌補因人口短缺帶來的勞動力不足的問題,;
第三,養(yǎng)老需求,,人口老齡化是如今另一個社會問題,,尤其是伴隨著人類壽命越來越長,我們未來將需要一個機器人來幫助解決老年人護理和陪伴問題,。
然而,,作為全球科技領域終極難題,人形機器人一直難以在養(yǎng)老看護,、社會服務,,以及更多商用場景中得到落地,。
以生成式AI,、大模型為代表的人工智能技術的突破和迅猛發(fā)展,,讓機器人運動控制能力有了泛化的可能,也讓我們看到了人形機器人在現實場景落地的可能,。
于是,,在GTC 2024上,黃仁勛將來自全球不同國家的9款明星人形機器人請到了舞臺上,,讓全世界看到了人形機器人正在加速照進現實,,彼時一并發(fā)布的,還有NVIDIA首個人形機器人通用基礎模型 Project GR00T,。
而在過去一年里,,我們看到,國內包括宇樹,、傅利葉、銀河通用,、智元機器人在內的多家團隊的機器人進入工業(yè)、零售等場景中,,開始測試人形機器人的實際應用能力。
然而,,在人形機器人進入真實場景后,,由于訓練數據不足,數據越發(fā)成為機器人突破的瓶頸,,NVIDIA Isaac GR00T Blueprint的發(fā)布,,從根本上解決了這一問題。
正是在解決了這一問題后,,在CES 2025上,,當再次將來自全球不同國家的14款人形機器人請到舞臺上時,黃仁勛給出了他的斷言,,“通用機器人的ChatGPT時刻即將到來,。”
也是在這時,,特斯拉官宣將在2025年量產數千臺人形機器人,,國內多家明星企業(yè)更是早在2024年相繼對外公布了人形機器人量產計劃。
2025年,,我們迎來了人形機器人第一個量產之年,,也將迎來通用機器人的ChatGPT時刻。