AI發(fā)展的下一站在哪里,?“算力霸主”英偉達創(chuàng)始人兼首席執(zhí)行官黃仁勛給出了答案:具身智能/具身人工智能,。 01 特斯拉與英偉達站臺,“具身智能”爆火 兩大科技巨頭齊齊站臺,,“具身智能”成為繼ChatGPT后最火爆的存在,。日前,Optimus和NVIDIAVIMA在海外科技巨頭布局人形機器人賽道掀起 “人形機器人”浪潮,。 5月16日,,特斯拉2023股東大會展示了Optimus人形機器人最新進展,包括撿起物品,、環(huán)境發(fā)現(xiàn)和記憶,,基于AI模仿人類動作,能完成分類物品的復(fù)雜任務(wù),。從視頻中能夠看到,,特斯拉機器人取得全方位進展,運動控制能力持續(xù)進化,,AI能力大幅提升,。 5月17日,NVIDIA創(chuàng)始人黃仁勛在ITF2023年半導(dǎo)體大會上向觀眾介紹了多模態(tài)人工智能技術(shù)NVIDIAVIMA,,VIMA能根據(jù)視覺,、文本提示執(zhí)行任務(wù)。除此之外,,其他海外科技巨頭也加快布局人形機器人,,谷歌PaLM-E作為多模態(tài)具身視覺語言模型,不僅能夠理解圖像,,還能理解,、生成語言,執(zhí)行各種機器人指令而無需重新訓(xùn)練,;微軟持續(xù)探索將ChatGPT擴展到機器人領(lǐng)域,,從而運用語言直觀控制機械臂、無人機等,,而早在3月28日,,Ope-nAI領(lǐng)投挪威機器人制造商1XTechnolo-giesA2輪投資,,以創(chuàng)造具有實際應(yīng)用價值的機器人。 NVIDIA創(chuàng)始人黃仁勛 NVIDIA創(chuàng)始人黃仁勛認為,,下一波人工智能浪潮是“具身人工智能”,,即能夠理解、推理并與物理世界互動的智能系統(tǒng),;不同于傳統(tǒng)機器人僅具有“物理”執(zhí)行力,,大模型可通過將圖像、文字,、具身數(shù)據(jù)聯(lián)合訓(xùn)練,,引入多模態(tài)輸入,進而提升大模型和環(huán)境的交互能力和學(xué)習(xí)能力,,為機器人注入了“靈魂”,。 02 何為“具身智能”,賦予機器人靈魂 具身智能指的是智能體通過與環(huán)境產(chǎn)生交互后,,通過自身的學(xué)習(xí),,產(chǎn)生對于客觀世界的理解和改造能力。換言之,,一個具身智能機器人需要:首先聽懂人類語言,,之后分解任務(wù)、規(guī)劃子任務(wù),,移動中識別物體,,與環(huán)境交互,最終完成相應(yīng)任務(wù),。正如斯坦福大學(xué)計算機科學(xué)教授李飛飛所說,,“具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能,?!?/div> “具身智能”最初可追溯到1950年,當時圖靈在論文《Computing Machinery and Intelligence》中首次提出了這一概念,。但在之后的幾十年中,,具身智能都沒有取得特別顯著的進展,大多數(shù)機器人的行動依舊仰賴人類的手寫指令與代碼,。 這也是為何上文那個谷歌“史上最大'通才’AI模型”能引起業(yè)內(nèi)轟動——它無需預(yù)先處理的場景,,因此也不用人類對相關(guān)數(shù)據(jù)進行預(yù)處理或注釋。只需要一句簡單的指令,,便可實現(xiàn)更為自主的機器人控制,。更重要的是,PaLM-E生成的行動計劃還具有“彈性”,,即可對周圍環(huán)境變化做出相應(yīng)反應(yīng),。 谷歌PaLM-E以多模態(tài)為主要特征,,切實地與物理世界產(chǎn)生交互 從這點來看,“具身”所指代的,,便是客觀物理存在的“身體”,對于身體所承載的“認知” 帶來的各種影響,。認知不能脫離身體單獨存在,。與"具身 相對的概念是“離身”(Disembodiment),指的是認知與身體解耦,。 “智能”粗略定義為智能體(生物或機械)與環(huán)境交互后,,通過自身的學(xué)習(xí),產(chǎn)生對于客觀世界的理解和改造能力,。具身智能機器人,,可以簡單理解為各種不同形態(tài)的機器人,讓它們在真實的物理環(huán)境下執(zhí)行各種各樣的任務(wù),,來完成人工智能的進化過程,。這種“具身智能”的進化,是純軟件系統(tǒng)當中的進化替代不了的,。 最新的人工智能研究發(fā)現(xiàn),,智能生物的智能化程度,和它的身體結(jié)構(gòu)之間,,存在很強的正相關(guān)性,。也就是說,對于智能生物來說,,身體不是一部等待加載“智能算法”的機器,,而是身體本身就參與了算法的進化。今天地球上所有的智力活動,,都是生物通過自己的身體,,直直切切地與環(huán)境產(chǎn)生交與之后,同時自身的學(xué)習(xí)和進化所遺留下來的“智力遺產(chǎn)”,。這個過程,,已經(jīng)被大型的計算機模擬實驗所證實。 而在具體應(yīng)用中以掃地機器人為例,,有了具身智能的掃地機器人,,能夠自我學(xué)習(xí)之后,把以前它掃不到掃不干凈的地方,,慢慢找到好的方法掃得更有效率和成果,,因為你的掃在機在更熟悉自己身體的情況下,慢慢變聰明了,。還有你如果用路徑規(guī)劃,,其被你點播得多了自己也更熟悉這個環(huán)境,,下次自己可能就能找到一條更有效率的行動軌跡了,并且真正做到無死角,,只要它能進去就能掃好,。整個過程如同一個老家政,來你家十幾次后干得那樣,,明顯讓用戶感到有進步,。 如果將AI其具象化,給這個大腦賦予“身體”,,那么就會是另一種形態(tài),,比如AI+汽車=智能汽車,AI+機器人=具身智能機器人,,再或者,,在未來某個時點AI+汽車+機器人=變形金剛也是有可能的。隨著技術(shù)更迭,,具身智能的出現(xiàn)會持續(xù)引領(lǐng)“大模型+機器人”潮流,,而馬斯克推出的人形機器人Optimus無疑是其中極具代表性的作品。 現(xiàn)有機器人的學(xué)習(xí)模式為“旁觀型學(xué)習(xí)”,,訓(xùn)練數(shù)據(jù)來自互聯(lián)網(wǎng),,只能學(xué)到數(shù)據(jù)中心的固定模式而非現(xiàn)實世界的第一人稱視角,無法從真實世界中直接學(xué)習(xí),,也無法適應(yīng)真實的世界,。具身智能是通往通用人工智能的關(guān)鍵鑰匙,賦予機器人實踐學(xué)習(xí)的能力,,而實踐性學(xué)習(xí)使得機器人像人一樣,,通過物理身體與環(huán)境的互動來學(xué)習(xí),主動感知或通過做任務(wù)的方式來感知世界,,具身智能機器人將是人工智能的終極形態(tài),。 03 科技巨頭各展所長 探尋具身智能的實現(xiàn)路徑 對于極具潛力的成長潛力的居身智能市場,各大科技巨頭也是鉚足了勁兒想要爭奪更多市場話語權(quán),。除了前面提到特斯拉與英偉達外,,目前谷歌、微軟等技術(shù)團隊,、眾多頂尖研究院所和高校已探索具身智能的發(fā)展落地,。 微軟,ChatGPT for Robotics:在微軟研究院發(fā)布“ChatGPT for Robotics” 文章中,,研究者使用ChatGPT大型語言模型 (LLM) 將人的語言快速轉(zhuǎn)換為機器人的高層控制代碼,,從而控制機械臂、無人機等機器人,ChatGPT帶來了一種新的機器人應(yīng)用范例,。 微軟ChatGPT for Robotics研究者使用ChatGPT大型語言模型 (LLM) 將人的語言快速轉(zhuǎn)換為機器人的高層控制代碼 在Microsoft Research 的 ChatGPT for Robotics 文章中,,研究者使用 ChatGPT生成機器人的高層控制代碼,從而可以通過自然語言和ChatGPT交流,,使用 ChatGPT來控制機械臂,、無人機、移動機器人等機器人,。 目前實驗已經(jīng)能夠通過給 ChatGPT的對話框輸入指令,,讓其控制機器人在房間中找到“健康飲料”“有糖和紅色標志的東西”(可樂),以及一面供無人機自拍的鏡子,。 谷歌,視覺語言大模型PaLM-E:今年3月,,谷歌與德國柏林工業(yè)大學(xué)的一組人工智能研究人員公布了視覺語言模型PaLM-E(Pathways Language Model with Embodied),,集成了5400億參數(shù)量的PaLM模型和220億參數(shù)量的視覺ViT(Vison Transformer)模型,總參數(shù)量達到5620億,,是目前已知的最大的視覺-語言模型,。 谷歌PaLM-E是目前已知的最大的視覺-語言模型 PaLM-E模型具備多模態(tài)能力,能夠觀察物理實體世界的信息,,由大模型進行分析理解,,再將決策結(jié)果反饋至物理世界,由此溝通物理和虛擬兩個世界,。該模型在多任務(wù)中表現(xiàn)了強大的感知能力,,機器人可以在要求下從抽屜里拿東西,然后走過去遞給人,;研究人員要求機器人將“綠色色塊推到烏龜旁邊”的指令,,即便機器人之前沒有見過這只烏龜擺件,也能完成任務(wù),。 同時,,PaLM-E通過分析來自機器人攝像頭的數(shù)據(jù)來實現(xiàn)對高級命令的執(zhí)行,而無需對場景進行預(yù)處理,,這消除了人類對數(shù)據(jù)進行預(yù)處理或注釋的需要,,并允許更自主的機器人控制。 Meta,,SAM分割模型:2023年4月6日,,Meta 推出一個AI模型 Segment Anything Model(SAM分割一切模型),能夠根據(jù)文本指令等方式實現(xiàn)圖像分割,。SAM 任務(wù)目的:零樣本( zero-shot)或者簡單 prompt 下,,就對任意圖片進行精細分割。 SAM證明,多種多樣的分割任務(wù)是可以被一個通用大模型涵蓋的,。SAM 做到的分割切并不是 CV大模型的終點,,我們期待一個模型可以無監(jiān)督完成分割、檢測,、識別,、跟蹤等所有 CV 任務(wù),屆時視覺大模型應(yīng)用會得到極大發(fā)展,。 伯克利的LM-Nav模型:UC Berkeley,、波蘭華沙大學(xué)聯(lián)合谷歌機器人團隊發(fā)表論文《LM-Nav:具有大型預(yù)訓(xùn)練語言、視覺和動作模型的機器人導(dǎo)航系統(tǒng)》,,該模型結(jié)合了三種預(yù)訓(xùn)練模型,,從而無需用戶注釋即可執(zhí)行自然語言指令。 其中,,大語言模型(LLM)用于完成自然語言處理的任務(wù),;視覺和語言模型(VLM )將圖像和文本信息進行關(guān)聯(lián),即用戶指令和機器人視覺感知的外部環(huán)境進行關(guān)聯(lián),;視覺導(dǎo)航模型(VNM)用于從其觀察到的信息中直接進行導(dǎo)航將圖像和將要執(zhí)行的任務(wù)按時間進行關(guān)聯(lián),。 04 政策驅(qū)動,AI+機器人快速落地 人形機器人應(yīng)用需求大,,在智能制造,、智能服務(wù)、人機協(xié)作等方面都將有廣闊的應(yīng)用場景,。特斯拉股東大會上,,馬斯克稱特斯拉的長期價值將主要來自人形機器人,并預(yù)測人形機器人需求將達100億臺,,遠超汽車,,如果機器人與人的比例為2:1,需求將達到200億臺,。 據(jù)麥肯錫報告,,到2030年,全球約有4億個工作崗位將被自動化機器人取代,,按20%滲透率和15萬-20萬人形機器人單價來測算,,全球人形機器人市場空間可達到12萬億—16萬億元。中性預(yù)測下,,2030年全球人形機器人市場規(guī)模855億元,,2021—2030年市場規(guī)模CAGR可達到71%。根據(jù)中國電子學(xué)會數(shù)據(jù),,國內(nèi)機器人2024年有望達251億美元市場規(guī)模,,2020—2024年CAGR約22%,。 面對如此高成長的市場,我國發(fā)布了不少行業(yè)扶持政策,。2023年1月,,工信部等十七部門發(fā)布《“機器人+”應(yīng)用行動實施方案》,該政策明晰了“十四五”期間機器人行業(yè)的發(fā)展目標,。5月19日,,科技部部長王志剛在2023第七屆世界智能大會開幕式暨創(chuàng)新發(fā)展高峰會上表示,將加大人工智能基礎(chǔ)理論和前沿技術(shù)研發(fā)布局,,打造一批人工智能區(qū)域高地和技術(shù)平臺,。 此外,地方政府出臺具體行動方案,,落實頂層設(shè)計,。4月下旬以來,北京市印發(fā)《北京市機器人產(chǎn)業(yè)創(chuàng)新發(fā)展行動方案(2023—2025年)(征求意見稿)》,,明確指出,,成立人形機器人產(chǎn)業(yè)開放聯(lián)盟,到2025年,,建成人形機器人通用行為控制大模型服務(wù)開發(fā)平臺、共性技術(shù)服務(wù)平臺,、后陸續(xù)印發(fā)《北京市促進通用人工智能創(chuàng)新發(fā)展的若干措施(2023—2025年)(征求意見稿)》和《北京市加快建設(shè)具有全球影響力的人工智能創(chuàng)新策源地實施方案(2023—2025年)》,,以推動人工智能發(fā)展取得變革性、顛覆性突破,。 而在諸多利好政策的推動下,,整個具身智能領(lǐng)域也有望進入爆發(fā)式發(fā)展階段。 編輯|張毅 審核|吳新
|
|