一,、深度學(xué)習(xí)應(yīng)該在和外界實(shí)時(shí)的交互和迭代中完成
近日,,在以“農(nóng)業(yè)無人農(nóng)場(chǎng)”為主題的中國(guó)工程科技論壇上,中國(guó)工程院院士,,歐亞科學(xué)院院士,,中國(guó)人工智能學(xué)會(huì)和中國(guó)指揮與控制學(xué)會(huì)名譽(yù)理事長(zhǎng),中科原動(dòng)力首席科學(xué)家李德毅院士應(yīng)邀做題為《機(jī)器具身交互智能》的演講,。李德毅院士表示,,智能機(jī)器不但把人從繁重的、重復(fù)性勞動(dòng)中解脫出來,,更好地符合相應(yīng)工作崗位規(guī)范化要求,,更重要的是可以暴力計(jì)算,人機(jī)交互協(xié)同創(chuàng)新,。他認(rèn)為,,智能農(nóng)機(jī)的硬核已經(jīng)躍過了算力、算法和數(shù)據(jù)階段,,可交互,、會(huì)學(xué)習(xí)、自成長(zhǎng)是新一代智能機(jī)器的硬核,。未來,,教機(jī)器學(xué)習(xí)、作業(yè),,和機(jī)器一同學(xué)習(xí),、作業(yè),將成為人們生活和工作的常態(tài),。機(jī)器和科學(xué)家,、工程師可一同作出發(fā)明發(fā)現(xiàn)和創(chuàng)造,。 中國(guó)工程科技論壇是中國(guó)工程院創(chuàng)辦的高端學(xué)術(shù)交流平臺(tái),主要針對(duì)工程科技面臨的關(guān)鍵技術(shù)問題,、前沿問題,,組織跨學(xué)科領(lǐng)域的院士、專家進(jìn)行交流研討,,以提高水平、培養(yǎng)人才,、推動(dòng)創(chuàng)新,。本次農(nóng)業(yè)無人農(nóng)場(chǎng)專題論壇,邀請(qǐng)了國(guó)際國(guó)內(nèi)相關(guān)領(lǐng)域院士,、專家及企業(yè)界代表,,探討數(shù)字化感知、智能化決策,、精準(zhǔn)化作業(yè),、智慧化管理等關(guān)鍵技術(shù),探索不同農(nóng)業(yè)應(yīng)用場(chǎng)景中的無人農(nóng)場(chǎng)發(fā)展路徑,、技術(shù)標(biāo)準(zhǔn),、建設(shè)規(guī)范,促進(jìn)我國(guó)農(nóng)業(yè)無人農(nóng)場(chǎng)領(lǐng)域快速發(fā)展,。 本次報(bào)告的主要內(nèi)容是將“具身智能”結(jié)合農(nóng)機(jī)展開,,分為以下三個(gè)部分: 1、深度學(xué)習(xí)應(yīng)該在和外界實(shí)時(shí)的交互和迭代中完成,。 2,、通過具身控制和自動(dòng)調(diào)節(jié)確保機(jī)器行為與環(huán)境的協(xié)同。 3,、可交互,、會(huì)學(xué)習(xí)、自成長(zhǎng)是智能農(nóng)機(jī)的硬核,。 以下為李德毅院士現(xiàn)場(chǎng)發(fā)言實(shí)錄: 具身智能來源于英語Embodied Intelligence,,由人工智能之父艾倫·麥席森·圖靈(Alan Mathison Turing)于1948年提出,embodied即人體的,,intelligence即智能,,結(jié)合在一起即具身的、離不開人體的智能,。同時(shí),,圖靈還提出了另一個(gè)與其相對(duì)的概念Disembodied Intelligence,即體外智能,、離開人體的智能,,克勞德·艾爾伍德·香農(nóng)(Claude Elwood Shannon)等人在1956年的達(dá)特茅斯會(huì)議上把該概念定義為人工智能(Artificial Intelligence),。 本次報(bào)告的題目——機(jī)器具身交互智能(Interactive Embodied Intelligence of Machines),即在具身智能的基礎(chǔ)上加上交互(interactive)一詞,,以體現(xiàn)交互的重要性,。 近日,OpenAI發(fā)布的ChatGPT人工智能模型能以對(duì)話的形式與人類進(jìn)行互動(dòng),,其能否替代Google搜索引起了科研人員的激烈討論,。其實(shí),Chat就是談話,、聊天,,麥拉賓法則指出,人的交互過程中有55%的信息通過視覺傳達(dá),,如儀表,、姿態(tài)、肢體語言等,;有38%的信息通過聽覺傳達(dá),,如說話的語氣、情感,、語調(diào),、語速等;剩下只有7%來自純粹的語義,,而ChatGPT還是靠語義輸入的,,這部分僅占人類交互中的7%。 因此,,交互在具身認(rèn)知當(dāng)中起很大的作用,,具身智能是人類認(rèn)知的源泉和歸宿。人類認(rèn)知始于行為和模仿,,最早的肌體語言導(dǎo)致形象思維,,行為是智能的外化表現(xiàn),稱為具身智能,。肢體動(dòng)作是無聲的語言,,舞者用行為表現(xiàn)藝術(shù),機(jī)器用行為體現(xiàn)互動(dòng),,汽車防抱死剎車系統(tǒng)(ABS)能夠使車體動(dòng)力學(xué)行為更快更準(zhǔn),,智能靈巧手給老人端茶喂飯,表現(xiàn)出行為的溫柔,;無人駕駛的輪式機(jī)器人進(jìn)入城市交通流中,,如果行為動(dòng)作怪異,不能識(shí)別交警手語和路人請(qǐng)求打車手勢(shì),人們是不會(huì)允許它上路的,;車身必須體現(xiàn)出良好的位置感,、方向感和地理認(rèn)知能力,有良好的空間運(yùn)動(dòng)學(xué)行為,,表現(xiàn)出的具身智能和駕駛員開車類似才能被認(rèn)可,,智能農(nóng)機(jī)亦然。 一,、深度學(xué)習(xí)應(yīng)該在和外界實(shí)時(shí)的交互和迭代中完成
學(xué)習(xí)的結(jié)果是記憶,,記憶智能優(yōu)先于計(jì)算智能。深度學(xué)習(xí)的貢獻(xiàn)在于使人工智能走上了一個(gè)新的臺(tái)階,,打破了“算法長(zhǎng)期被困在程序里”的封閉局面,,打破了需要預(yù)寫程序通過編譯才能獲得智能的傳統(tǒng)方法,用標(biāo)注代替記憶,,從大數(shù)據(jù)中直接獲得分類知識(shí),用數(shù)據(jù)修改算法中的參數(shù),,開辟了機(jī)器學(xué)習(xí)的新紀(jì)元,。 但深度學(xué)習(xí)存在先天的不可解釋性,因此具有一定的局限性,,目前主要體現(xiàn)在以下7個(gè)方面: 1,、所有訓(xùn)練樣本都是第三、第四等多方視角發(fā)散提供的,,不具有時(shí)間序貫性,,不是從機(jī)器本體的“我”出發(fā)、同一視角的主動(dòng)感知,; 2,、鮮有多通道跨模態(tài)感知,,尤其是視覺,、語言和肢體行為的跨模態(tài)感知; 3,、標(biāo)注不可或缺且成本高,,被戲說為“有多少人工,,才有多少智能”; 4,、沒有體現(xiàn)注意力選擇,,沒有得到當(dāng)前工作記憶和長(zhǎng)期記憶對(duì)新觀察的指導(dǎo); 5,、通用性和魯棒性差,,存在數(shù)據(jù)偏見,容易受到對(duì)抗樣本的欺騙; 6,、采用超大模型,、超大參數(shù)預(yù)訓(xùn)練大型神經(jīng)網(wǎng)絡(luò),計(jì)算成本昂貴,; 7,、一旦部署于應(yīng)用,就無法在運(yùn)行時(shí)在線學(xué)習(xí)新知識(shí),。如果要求機(jī)器視覺識(shí)別新的圖像對(duì)象,,必須對(duì)模型修改并在新的數(shù)據(jù)上重新訓(xùn)練,智能難以自成長(zhǎng),。 圖靈獎(jiǎng)獲得者楊立昆(Yann LeCun)對(duì)深度學(xué)習(xí)的未來提出了一個(gè)工作設(shè)想,,如圖所示:模型含配置器、感知,、世界模型,、成本函數(shù)、短時(shí)記憶,、行為者6個(gè)模塊,。核心是配置器的生成和調(diào)度,感知模塊接收物理世界的傳感器信號(hào),,估計(jì)當(dāng)前系統(tǒng)狀態(tài),;成本模塊以能量最小為目標(biāo)評(píng)價(jià)機(jī)器的行為;短時(shí)記憶負(fù)責(zé)提取世界模型的記憶,,同時(shí)可加強(qiáng)或者微修飾世界模型,,行為者模塊根據(jù)當(dāng)前系統(tǒng)狀態(tài)計(jì)算動(dòng)作指令并執(zhí)行。這個(gè)模型很好,,但缺少了人對(duì)機(jī)器的控制和交互,,深度學(xué)習(xí)應(yīng)該在和外界實(shí)時(shí)的交互和迭代中完成。 二,、通過具身控制和自動(dòng)調(diào)節(jié)確保機(jī)器行為與環(huán)境的協(xié)同
農(nóng)機(jī)在田間耕作時(shí)要跟土地協(xié)同,、田埂協(xié)同、植物協(xié)同,。那么,,怎樣通過具身控制和自動(dòng)調(diào)節(jié),確保機(jī)器行為與環(huán)境的協(xié)同,? “圖靈可計(jì)算”開創(chuàng)了機(jī)器暴力計(jì)算的先河,。公元前200年,阿基米德把1700年前的圓周率精度從3.1提升到3.14,,公元500年,,祖沖之求得π值為3.141592,,總計(jì)用了2400年,按圖靈可計(jì)算模型設(shè)計(jì)的計(jì)算機(jī)把圓周率提升到小數(shù)點(diǎn)1012位,,僅僅用了70年,。算力的提升體現(xiàn)出圖靈的偉大、暴力計(jì)算的偉大,、暴力思維的偉大,,但圖靈機(jī)也有自身的局限。 機(jī)器具身智能中不可或缺的是多通道的跨模態(tài)交互,。行為交互最能體現(xiàn)機(jī)器認(rèn)知的試探和反饋,,認(rèn)知的機(jī)器要能在與環(huán)境的互動(dòng)過程中學(xué)習(xí)和成長(zhǎng)。但馮諾依曼計(jì)算機(jī)架構(gòu)中只有輸入/輸出,,且輸出相比輸入具有一定的時(shí)滯性,,沒有多通道跨模態(tài)的感知交互,這成為用計(jì)算機(jī)做智能機(jī)器的一個(gè)致命弱點(diǎn),,人類到了發(fā)明認(rèn)知機(jī)的時(shí)候了,。 認(rèn)知的全部活動(dòng)是“感知-認(rèn)知-行為”的螺旋上升過程,認(rèn)知不可能獨(dú)立于感知和行為,,我們要克服圖靈機(jī)的兩個(gè)局限:(1)孤立了認(rèn)知,,忽視了機(jī)器具身與環(huán)境的交互;(2)孤立了計(jì)算,,忽視了記憶。 學(xué)習(xí)是一個(gè)交互的過程,,其中有指導(dǎo)學(xué)習(xí),,還有自主學(xué)習(xí)。自然進(jìn)化使人類具有了豐富的瞬時(shí)記憶,,工作記憶和長(zhǎng)期記憶的生物學(xué)基礎(chǔ),,使人類有了時(shí)間的概念。時(shí)間是人類認(rèn)知的奠基石,,記憶保持了認(rèn)知的連續(xù)和累積,,人類才有了文明,才有了歷史,。人類靠記憶形成邊界來約束思維,,記憶先于計(jì)算、優(yōu)于計(jì)算,;因此,,各智其智、智人之智,、智智與共,、多元認(rèn)知、兼容并包,才是常態(tài),。我們不應(yīng)該總是停留在“智能就是計(jì)算”的奇點(diǎn)上,。 圖靈24歲之后18年的學(xué)術(shù)思想使他成為“人工智能之父”。在42年的生命中,,他24歲時(shí)寫了圖靈機(jī),,然后從24歲到42歲的18年間,他都在研究人工智能,。他在1950年發(fā)表的歷史文獻(xiàn)《計(jì)算機(jī)械與智能》中,,開宗明義地要大家考慮機(jī)器能否思維,他分析并駁斥了9種對(duì)思維機(jī)器的反對(duì)意見,,主張教機(jī)器學(xué)習(xí),,只要機(jī)器在語言行為(對(duì)話)上和人沒有明顯差別,就是能思維或有智能了,,這就是后來所稱的“圖靈測(cè)試”,。他認(rèn)為可以編制一個(gè)“兒童程序”,然后對(duì)其進(jìn)行教育,,以達(dá)到成人的智力水平,。 但圖靈的這一主張?jiān)谌虬ㄖ袊?guó),都沒有得到足夠的重視,。以“兒童程序”為例,,如何才能使其體現(xiàn)基因遺傳的“幼兒認(rèn)知核”?如何對(duì)機(jī)器進(jìn)行教育,,怎樣指導(dǎo)機(jī)器的學(xué)習(xí),,如何讓它自主學(xué)習(xí)?目前的研究還很不夠,。如果回顧圖靈的9種反對(duì)思維機(jī)器意見的駁斥,,會(huì)發(fā)現(xiàn)其與對(duì)當(dāng)前人們對(duì)機(jī)器的恐懼的批評(píng)基本是同樣的。 控制論之父諾伯特·維納于1948年提出《控制論:動(dòng)物和機(jī)器中控制與交互的科學(xué)》,,他認(rèn)為:“如果我們使用一臺(tái)機(jī)器來實(shí)現(xiàn)我們的目標(biāo),,但又不能有效地干預(yù)其運(yùn)作方式......那么我們最好能確定輸入給機(jī)器的目標(biāo)是我們真正所預(yù)期的?!?因此,,麥卡錫認(rèn)為:“人工智能本應(yīng)該叫控制論,就是智能的自動(dòng)化,?!?諾伯特·維納強(qiáng)調(diào):“控制就是追求熵減,通過負(fù)反饋來確保機(jī)器具身行為智能的穩(wěn)定性,?!弊詣?dòng)控制是強(qiáng)化學(xué)習(xí)的發(fā)源地,,任何獎(jiǎng)罰函數(shù),可以與偏差為零的反饋控制等價(jià),。 我的團(tuán)隊(duì)十幾年來一直致力于實(shí)現(xiàn)機(jī)器駕駛腦,,其架構(gòu)與圖靈獎(jiǎng)獲得者楊立昆提出的架構(gòu)實(shí)際上具有異曲同工之妙,如圖所示,。 在瞬時(shí)記憶里我們強(qiáng)調(diào):定位傳感器,,特別是北斗&GPS等定位設(shè)備,要求能夠達(dá)到厘米級(jí)導(dǎo)航,;車姿傳感器包括車身的加速度,,速度;視覺傳感器看圖像,,雷達(dá)傳感器看距離,、看路權(quán)。把這些信息進(jìn)行跨模態(tài)的交互融合,,形成當(dāng)前的駕駛態(tài)勢(shì)圖,,送入工作記憶。在人腦中還有長(zhǎng)期記憶,,即要有駕駛地圖,、交通規(guī)則、各類記憶棒,。除此以外,,還要有人機(jī)交互,要完成路徑規(guī)劃,,要通過學(xué)習(xí)思維完成自主決策,,要通過汽車的控制平臺(tái)、三個(gè)總線執(zhí)行汽車的運(yùn)動(dòng)行為,。我們認(rèn)為:深度學(xué)習(xí)將來要在實(shí)時(shí)的交互和迭代中完善和成長(zhǎng),,不能僅僅是預(yù)訓(xùn)練,、預(yù)編程,。 ChatGPT在訓(xùn)練過程中高薪聘請(qǐng)了“提示工程師”,同理在農(nóng)業(yè)機(jī)械自動(dòng)駕駛中也需要“指導(dǎo)工程師”,,即讓農(nóng)業(yè)技術(shù)專家來教授農(nóng)業(yè)機(jī)械進(jìn)行無人化作業(yè),。如圖所示,物理空間用藍(lán)色表示,,認(rèn)知空間用淺咖色表示,,整個(gè)學(xué)習(xí)、推理過程都在物理空間和認(rèn)知空間中進(jìn)行,。 在認(rèn)知空間中,,進(jìn)行情境感知,、跨模態(tài)融合形成瞬時(shí)記憶,在工作記憶中,,通過當(dāng)前態(tài)勢(shì)的“判斷黑板”,,在記憶約束下進(jìn)行計(jì)算,進(jìn)而在當(dāng)前環(huán)境下進(jìn)行推理,,如路口等待,、超車換道等行為決策,同時(shí)在長(zhǎng)期記憶里進(jìn)行記憶提取,,使用注意力選擇,、路權(quán)來改變當(dāng)前的駕駛態(tài)勢(shì)。而在物理空間中要實(shí)現(xiàn)車身控制,,則由運(yùn)動(dòng)姿態(tài)傳感器進(jìn)行數(shù)據(jù)反饋,,通過作業(yè)行為的反饋,使車身能夠按決策行動(dòng),,同時(shí)也感知周邊環(huán)境數(shù)據(jù),,根據(jù)環(huán)境變化動(dòng)態(tài)調(diào)整認(rèn)知空間的輸入。 因此,,上圖實(shí)際上是“感知-認(rèn)知-行為”的物理模型架構(gòu)圖,,通過嵌套的控制回路,人與機(jī)器能有效溝通完成預(yù)設(shè)任務(wù),,即“指導(dǎo)工程師”的任務(wù)——人教機(jī)器學(xué),,機(jī)器自主學(xué),機(jī)器逐漸地理解人設(shè)定的任務(wù)目標(biāo),,其統(tǒng)一的過程可稱為使命對(duì)齊,,精準(zhǔn)完成作業(yè),具身體現(xiàn)智能,。 三,、可交互、會(huì)學(xué)習(xí),、自成長(zhǎng)是智能農(nóng)機(jī)的硬核
智能農(nóng)機(jī)的硬核已經(jīng)躍過了算力,、算法和數(shù)據(jù)階段,更重要的是交互,、學(xué)習(xí)和自成長(zhǎng),。可交互,、會(huì)學(xué)習(xí),、自成長(zhǎng)是新一代智能機(jī)器的硬核。 回顧一下,,農(nóng)耕時(shí)代的工具和工業(yè)時(shí)代的機(jī)器為什么不會(huì)思維,? 農(nóng)耕時(shí)代工具的二要素說,。工具里有實(shí)體物質(zhì)和虛體結(jié)構(gòu),結(jié)構(gòu)直接寄生在物質(zhì)上,,形成硬構(gòu)體,。什么是結(jié)構(gòu)寄生在物質(zhì)上?以農(nóng)耕時(shí)代的輪子為例,,輪子取自于天然的樹干,,人們用煣的工藝把它彎曲,使其符合圓的標(biāo)準(zhǔn),,并固定它的結(jié)構(gòu),。這樣一來它就不是一個(gè)簡(jiǎn)單的物質(zhì)材料,而是一個(gè)工具,,叫做輪子,。在人類歷史上,輪子的作用是可以跟火的發(fā)明相提并論的,。 工業(yè)時(shí)代機(jī)器的三要素說,。機(jī)器里有物質(zhì)、能量和結(jié)構(gòu),,結(jié)構(gòu)直接寄生在物質(zhì)和能量上,,形成硬構(gòu)體。以時(shí)鐘為例,,揮動(dòng)的鐘擺是一個(gè)結(jié)構(gòu),,它直接寄生在物質(zhì)和能量上,可以實(shí)現(xiàn)精準(zhǔn)地走,;蒸汽機(jī),、發(fā)動(dòng)機(jī)的發(fā)明,都是把結(jié)構(gòu)寄生在物質(zhì),、能量上,。可惜的是,,工業(yè)時(shí)代的機(jī)器沒有利用時(shí)間,,以鐘表為例,鐘表的時(shí)間僅僅是其表面上一個(gè)讀數(shù),。所以,,愛因斯坦對(duì)時(shí)間的定義非常重要:時(shí)間僅是鐘表表面的一個(gè)讀數(shù),,因?yàn)槠鋵?duì)鐘表本身精致的運(yùn)作沒有做出貢獻(xiàn),。 智能時(shí)代機(jī)器的四要素說。智能時(shí)代發(fā)生了重要的變化,,智能時(shí)代機(jī)器的生命觀可分為認(rèn)知和行為兩個(gè)層面來理解,。智能時(shí)代的機(jī)器里有物質(zhì),、能量、結(jié)構(gòu)和時(shí)間,;物質(zhì)和能量是物理層面的真實(shí)存在,,結(jié)構(gòu)和時(shí)間是認(rèn)知層面的抽象思維,用結(jié)構(gòu)思維物質(zhì)在空間的拓?fù)洌◣缀危╆P(guān)系,,用時(shí)間思維物質(zhì)的運(yùn)動(dòng)與變化,、能量的流動(dòng)與轉(zhuǎn)換。結(jié)構(gòu)和時(shí)間寄生在物質(zhì)和能量上成為硬構(gòu)體,,機(jī)器里中信息是大量的軟構(gòu)體,,體現(xiàn)了精神,它們寄生在硬構(gòu)體或者已有的其他軟構(gòu)體之上,,可自舉和自我復(fù)用,,機(jī)器的秩序顯示出維持自身和產(chǎn)生有序事件的能力,體現(xiàn)出思維和行為兩個(gè)方面,。以自動(dòng)駕駛汽車為例,,其硬構(gòu)體包括車的底盤、集成電路芯片,、駕駛腦,,軟構(gòu)體(軟件)包括駕駛腦程序、地圖,、交通規(guī)則等,。因?yàn)橛辛藭r(shí)間,所以有了維持秩序的能力,,機(jī)器能夠?qū)崿F(xiàn)自舉的自動(dòng)化工作,,所以思維得以進(jìn)行。 上圖體現(xiàn)了物質(zhì),、能量,、結(jié)構(gòu)和時(shí)間的關(guān)系:上半部分是認(rèn)知空間,表示思維,;下半部分是物理空間,,表示行為。中間部分很重要,,表示結(jié)構(gòu)和時(shí)間寄生在物質(zhì)和能量上形成硬構(gòu)體,。如輪子就是這樣的硬構(gòu)體,硬構(gòu)體填補(bǔ)了物質(zhì)和能量之間的鴻溝,,使得信息和物質(zhì)難舍難分,。當(dāng)前的集成電路芯片就是硬構(gòu)體的爆品,成為人工智能“卡脖子”的代表,。軟構(gòu)體非常豐富,,有底層的,,有上層的。軟構(gòu)體是思維的要素,,支撐形象思維,、邏輯(語言)思維和直覺思維,體現(xiàn)人的想象力和創(chuàng)造力,,體現(xiàn)精神世界,,有空間感、時(shí)間感和層次感,。如果要為底層軟構(gòu)體命名,,可稱為符號(hào)、字母,、筆劃,、數(shù)字、前后,、左右,、上下、順序,、快慢等,。軟構(gòu)體不是自然語言,因?yàn)楹⒆記]有學(xué)會(huì)語言之間已經(jīng)有了思維,,語言學(xué)家稱之為“心語”,。而概念、消息,、信息和知識(shí)都是上層軟構(gòu)體,,是物理世界在認(rèn)知空間的鏡像和上層建筑,是虛擬的現(xiàn)實(shí),。語言是人類思維的上層工具或常用載體,。當(dāng)前,人們把認(rèn)知空間中想象的現(xiàn)實(shí)稱為虛擬世界,,把認(rèn)知空間稱為元宇宙,。這樣一來,我們用硬構(gòu)體,、軟構(gòu)體的思想填補(bǔ)了物質(zhì),、能量和信息之間的鴻溝,物質(zhì),、能量,、結(jié)構(gòu)和時(shí)間之間的糾纏狀態(tài),可類比為“薛定諤的貓”。 那么,,智能到底是物質(zhì)的還是精神的?以音樂為例:作曲家創(chuàng)造的樂譜是軟構(gòu)體,,表達(dá)的是信息,、情感、技巧,、藝術(shù),、風(fēng)格和人文;同一首樂譜可在不同硬構(gòu)體(樂器)上表現(xiàn)出來,,可用小提琴,、二胡、鋼琴,、架子鼓等多種硬構(gòu)體來支撐,,不變的卻是這個(gè)樂譜。樂譜是精神的,、虛擬的,、非物質(zhì)的;人們?cè)谖锢砜臻g聽到的樂曲是物質(zhì)的,、具身的,,是客觀存在的聲音藝術(shù),蘊(yùn)含了物質(zhì),、能量,、結(jié)構(gòu)和時(shí)間,這四要素的組合體現(xiàn)了美,,也體現(xiàn)了知行合一,。同時(shí),硬構(gòu)體可以局部軟化成軟構(gòu)體,,如虛擬機(jī)器人,、虛擬主持人等;軟構(gòu)體也可以局部固化成硬構(gòu)體,,如圖所示的實(shí)體機(jī)器人,,中科原動(dòng)力公司研發(fā)的可交互、會(huì)學(xué)習(xí),、自成長(zhǎng)的輪式機(jī)器人等,。物質(zhì)和精神是互通的,但軟件不能定義一切,。 按照薛定諤的觀點(diǎn),,用活細(xì)胞的物理觀來解釋什么是生命,他認(rèn)為生命是機(jī)器。按照他的思路,,我們來解釋機(jī)器為什么可以當(dāng)做生命,,稱之為機(jī)器的生命觀。如上圖所示,,生命的物理層對(duì)應(yīng)機(jī)器的物質(zhì)層,,生命的生化層對(duì)應(yīng)機(jī)器的能量和時(shí)鐘,生命的生理層對(duì)應(yīng)機(jī)器的電子電路和機(jī)器指令,,生命的心理層對(duì)于機(jī)器的操作系統(tǒng)和中間件,,生命的認(rèn)知層對(duì)應(yīng)機(jī)器的高層軟件和數(shù)據(jù)。這就體現(xiàn)出物質(zhì),、能量,、結(jié)構(gòu)、時(shí)間四要素的重要性:時(shí)鐘依賴能量,,時(shí)間依賴時(shí)鐘,,秩序依賴時(shí)間,軟構(gòu)體寄生在硬構(gòu)體上,,機(jī)器自舉實(shí)現(xiàn)思維自動(dòng)化,,自我復(fù)用實(shí)現(xiàn)認(rèn)知自成長(zhǎng)。機(jī)器運(yùn)行靠程序,,程序靠時(shí)序,,軟件靠交互,時(shí)序和交互產(chǎn)生負(fù)熵,,機(jī)器賴負(fù)熵為生,。時(shí)鐘不停,與外界交互不息,,思維和認(rèn)知不會(huì)停止,。 通過查詢了200多種關(guān)于“智能”的定義,我認(rèn)為,,對(duì)于智能的定義可以放寬一些,,不論是智能、認(rèn)知或者思維,,都可籠統(tǒng)地定義為:培養(yǎng)和傳承解釋解決預(yù)設(shè)問題的學(xué)習(xí)能力,,以及解釋解決現(xiàn)實(shí)問題的能力。 在認(rèn)知空間里,,能夠?qū)崿F(xiàn)認(rèn)知思維能力,,要通過計(jì)算智能和記憶智能;在物理空間里,,能夠?qū)崿F(xiàn)具身交互能力,,要通過感知智能和行為智能,。感知與認(rèn)知之間是不斷地循環(huán)往復(fù)的。感知智能中的時(shí)空識(shí)別代表位置,、導(dǎo)航和時(shí)間同步,,以及還包括目標(biāo)識(shí)別、人臉識(shí)別等,。培養(yǎng)和傳承解釋解決預(yù)設(shè)問題的能力,,其本質(zhì)就是學(xué)習(xí)。學(xué)習(xí)是現(xiàn)實(shí)問題的一個(gè)子集,,當(dāng)問題得到解決后可形成知識(shí),,機(jī)器可以接受指導(dǎo)學(xué)習(xí),,同時(shí)自主學(xué)習(xí),。只有解釋、解決了預(yù)設(shè)問題后,,解決,、解釋現(xiàn)實(shí)問題能力才會(huì)增強(qiáng),因此要解決在哪里,、怎么做,、為什么、是什么這四個(gè)問題,。 智能農(nóng)機(jī)在田間的學(xué)習(xí)和作業(yè),,包括先入為主、賦予任務(wù),、引導(dǎo),、釋疑、解惑,、交互認(rèn)知,、監(jiān)督等有指導(dǎo)的學(xué)習(xí)。而自主學(xué)習(xí)是把指導(dǎo)學(xué)習(xí)的結(jié)果轉(zhuǎn)為長(zhǎng)期記憶的重要環(huán)節(jié),,例如復(fù)習(xí)功課,、消化理解。如果簡(jiǎn)單地把指導(dǎo)學(xué)習(xí)稱為有監(jiān)督學(xué)習(xí),,自主學(xué)習(xí)稱為無監(jiān)督學(xué)習(xí)就過于簡(jiǎn)單化了,。 因此,智能農(nóng)機(jī)的學(xué)習(xí)應(yīng)當(dāng)包括三個(gè)環(huán)節(jié):(1)農(nóng)機(jī)手操作,、機(jī)器人學(xué)習(xí),;(2)機(jī)器人操作,農(nóng)機(jī)手干預(yù),;(3)機(jī)器人作業(yè),、機(jī)器人自學(xué)習(xí),。這三個(gè)過程不斷循環(huán)迭代,實(shí)現(xiàn)有指導(dǎo)學(xué)習(xí),、半/弱指導(dǎo)學(xué)習(xí),、自主學(xué)習(xí)。事實(shí)上,,所有的機(jī)器學(xué)習(xí)過程都應(yīng)如此,,過去的研究過分看重了L0到L5自動(dòng)化的實(shí)現(xiàn),而忽視了學(xué)習(xí),、交互和成長(zhǎng),。 以商湯公司的“元蘿卜”象棋博弈機(jī)器人為例,胡榮華,、謝靖,、顧博文三代象棋冠軍與“元蘿卜”博弈,機(jī)器人內(nèi)置26關(guān)難度的棋力對(duì)戰(zhàn),,設(shè)有100多個(gè)殘局應(yīng)對(duì),,自主觀察棋局變化,推算走棋招數(shù),,取棋落子,,擁有毫米級(jí)操作精度,秒級(jí)時(shí)間響應(yīng),,“手眼”協(xié)同,,走法干凈,節(jié)奏緊湊,,“三秦棋王”李小龍稱贊“元蘿卜”是一個(gè)非常好的對(duì)手和陪練,。“元蘿卜”已不再是一個(gè)”AlphaGo“的程序了,,它是一個(gè)實(shí)體機(jī)器人,,有手臂可以放棋子,有眼睛可以看棋盤,,它最近打敗了很多冠軍,,而它每下一盤棋實(shí)際上就接受了一次圖靈測(cè)試。那么,,有感知,、有認(rèn)知、有行為,、可交互的“元蘿卜”博弈機(jī)器人為什么沒有語音交互呢,?它會(huì)學(xué)習(xí)嗎?如果把它放到一個(gè)象棋研究院,,或跟象棋高手學(xué)習(xí),,它能夠?qū)崿F(xiàn)自成長(zhǎng),、自創(chuàng)造嗎? 具身智能在一次次圖靈對(duì)話測(cè)試中迭代成長(zhǎng),。圖靈對(duì)話測(cè)試具有多樣化和常態(tài)化的特點(diǎn),,而所有機(jī)器工作語言的原語言都是自然語言,因此圖靈提出用對(duì)話來做圖靈測(cè)試是非常有見解的,。語言能力是機(jī)器智能的杰出表現(xiàn),,而特定領(lǐng)域機(jī)器工作語言的語音、文字,、符號(hào)具有限制性,,用自然語言表達(dá)的公理來約束,其在一定程度上可以被形式化,,以數(shù)學(xué)為甚,、物理學(xué)次之,均服從哥德爾的不完備定理,。因此機(jī)器思維先要把其工作語言形式化,,只有形式化才可機(jī)械化,,而后自動(dòng)化,。一旦自動(dòng)化,思維的深度就一定會(huì)超越人,。 如上圖所示,,圖靈測(cè)試可應(yīng)用于多個(gè)學(xué)科和領(lǐng)域。在社區(qū)聊天,,可以做對(duì)話的圖靈測(cè)試,;在文學(xué)語言中,可以做虛擬演員的圖靈測(cè)試,;在游戲語言中可以做圍棋的圖靈測(cè)試,;在數(shù)學(xué)語言中可以做機(jī)器定理證明;在美術(shù)語言中可以做機(jī)器作畫的圖靈測(cè)試,;在唐詩宋詞中可以做機(jī)器寫作圖靈測(cè)試,;在法律語言可以做機(jī)器律師咨詢的圖靈測(cè)試;那么,,在物理學(xué)語言里我們可以做智能農(nóng)機(jī)的圖靈測(cè)試,,因此智能農(nóng)機(jī)要一定要有語音交互,未來圖靈對(duì)話測(cè)試一定會(huì)多樣化,、常態(tài)化,。 思維的本質(zhì)是抽象和聯(lián)想,更多的是軟構(gòu)體的創(chuàng)立和連接,。智能機(jī)器在常態(tài)化的圖靈測(cè)試中學(xué)習(xí),,變?yōu)榫呱淼闹悄?。機(jī)器越來越多地取代人類曾經(jīng)的許多智力和技巧工作,對(duì)各行各業(yè)特定崗位上的機(jī)器的教育訓(xùn)練是個(gè)并不輕松的任務(wù),。教機(jī)器學(xué)習(xí),、作業(yè),和機(jī)器一同學(xué)習(xí),、作業(yè),,將成為人們生活和工作的常態(tài)。學(xué)習(xí)的結(jié)果是去微調(diào)機(jī)器里的長(zhǎng)期記憶,,即微調(diào)人工智痕細(xì)胞的網(wǎng)絡(luò)拓?fù)?,自主學(xué)習(xí)是把工作記憶轉(zhuǎn)化為長(zhǎng)期記憶的重要環(huán)節(jié),可喜的是機(jī)器可以大批量復(fù)制,,而且機(jī)器自身又可以持續(xù)學(xué)習(xí),。與機(jī)器交互,人教機(jī)器,,機(jī)器教人,,協(xié)同創(chuàng)新,總有一天出現(xiàn)機(jī)器工程師創(chuàng)造出新材料的配方,,機(jī)器科學(xué)家提出新的假設(shè),,驅(qū)動(dòng)產(chǎn)生新的科學(xué)發(fā)現(xiàn)。 機(jī)器具身交互智能,,是從學(xué)習(xí)到創(chuàng)造的智能,。智能機(jī)器之于人類智能,就如同曾經(jīng)的望遠(yuǎn)鏡之于天文學(xué)家,、顯微鏡之于生物學(xué)家,。機(jī)器延伸和拓展了人的記憶智能和計(jì)算智能,不但把人從繁重的,、重復(fù)性勞動(dòng)中解脫出來,,更好地符合相應(yīng)工作崗位規(guī)范化要求,更重要的是可以暴力計(jì)算,,人機(jī)交互協(xié)同創(chuàng)新,,機(jī)器和科學(xué)家、工程師可一同作出發(fā)明,、發(fā)現(xiàn)和創(chuàng)造,,至于是不是機(jī)器做出的創(chuàng)造,人們已經(jīng)不再計(jì)較,。 李德毅 中國(guó)工程院院士,,歐亞科學(xué)院院士,中國(guó)人工智能學(xué)會(huì)和中國(guó)指揮與控制學(xué)會(huì)名譽(yù)理事長(zhǎng),,北京中科原動(dòng)力科技有限公司首席科學(xué)家,,吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)最高成就獎(jiǎng)獲得者,,我國(guó)不確定性人工智能領(lǐng)域的主要開拓者、無人駕駛的積極引領(lǐng)者和人工智能產(chǎn)學(xué)研發(fā)展的重要推動(dòng)者,。長(zhǎng)期從事不確定性人工智能,、計(jì)算機(jī)工程、數(shù)據(jù)挖掘和智能駕駛領(lǐng)域研究,,最早提出'控制流-數(shù)據(jù)流'圖對(duì)理論,,證明了關(guān)系數(shù)據(jù)庫(kù)模式和謂詞邏輯的對(duì)等性。提出云模型,、云變換,、數(shù)據(jù)場(chǎng)、云水印等認(rèn)知形式化理論,,用于解決定性概念生成,、相似度計(jì)算、不確定推理,、復(fù)雜系統(tǒng)涌現(xiàn),、智能控制等問題,成功控制三級(jí)倒立擺各種動(dòng)平衡姿態(tài),。提出基于路權(quán)構(gòu)建駕駛態(tài)勢(shì)認(rèn)知圖,,研發(fā)機(jī)器駕駛腦,領(lǐng)導(dǎo)了中國(guó)最大的智能車聯(lián)合開發(fā)團(tuán)隊(duì),。 |
|