文章下載 陸峰, 趙沁平. 共身智能: 概念及8個科學(xué)技術(shù)問題. 中國科學(xué):信息科學(xué), 2025, 55(2): 444-448, doi: 10.1360/SSI-2024-0219 在過去十年中, 人工智能 (artificial intelligence, AI) 領(lǐng)域取得了巨大成功, 特別是深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用, 極大地推動了計算機(jī)視覺,、自然語言處理等多個研究領(lǐng)域的技術(shù)突破. 然而, 盡管取得了諸多成就, 當(dāng)前人工智能技術(shù)仍面臨重要挑戰(zhàn). 例如, 以 GPT-4 為代表的大規(guī)模預(yù)訓(xùn)練模型, 仍然屬于離身智能 (disembodied AI) 范疇, 即不包含有物理實(shí)體的執(zhí)行模塊, 僅依靠軟件,、算力,、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施來處理數(shù)據(jù)、進(jìn)行學(xué)習(xí)和作出決策. 因此, 雖然大規(guī)模預(yù)訓(xùn)練模型在學(xué)術(shù)界與產(chǎn)業(yè)界獲得了廣泛認(rèn)可, 但在尋找應(yīng)用場景,、落地現(xiàn)實(shí)世界等方面仍然問題突出.另一方面, 具身智能 (embodied AI) 近年來已成為新的研究熱點(diǎn). 與離身智能相比, 這類技術(shù)通過將機(jī)器人作為執(zhí)行模塊, 試圖將 AI 的計算和學(xué)習(xí)能力與機(jī)器人的物理交互能力相結(jié)合, 以期解決傳統(tǒng) AI 算法在現(xiàn)實(shí)環(huán)境中的局限. 具身智能技術(shù)不僅為 AI 的學(xué)習(xí)進(jìn)化提供了重要的身體感知交互回路, 更為 AI 落地真實(shí)世界提供了途徑, 因此獲得了學(xué)術(shù)界和產(chǎn)業(yè)界的認(rèn)可和巨大投入. 當(dāng)前, 具身智能面臨的主要問題包括如何使 AI 高效地自主感知與學(xué)習(xí),、如何提升機(jī)器人的機(jī)動性與執(zhí)行力, 以及如何確保機(jī)器人行為滿足安全與倫理要求等.容易看到, 無論是離身智能還是機(jī)器人形態(tài)的具身智能, 它們都將人類或用戶作為互動的對象和客體, 也就是說獨(dú)立于人類視角, 試圖從 AI 視角提供解決方案. 因而, 無論是從獨(dú)立決策和執(zhí)行難度層面, 還是從可信 AI 的理論與法規(guī)層面, 這兩種智能形態(tài)都面臨著長遠(yuǎn)的發(fā)展道路. 更重要的是, 它們不可避免地會對人類社會的現(xiàn)有運(yùn)行模式進(jìn)行重塑, 與生產(chǎn)生活中的現(xiàn)存參與者形成競爭替代關(guān)系. 這些問題都對當(dāng)下 AI 技術(shù)的實(shí)際應(yīng)用帶來了巨大挑戰(zhàn).因此, 本文嘗試重新思考 AI 與人類的關(guān)系, 并在此基礎(chǔ)上提出一種新的技術(shù)概念 — 共身智能. 如圖 1 所示, 這一概念主張基于人類主體地位, 將人類與 AI 的雙視角進(jìn)行整合, 實(shí)現(xiàn)認(rèn)知決策層面的對齊與協(xié)同, 以及物理層面的共身與反饋. 在不取代人類本體地位的前提下, 通過 AI 能力的展現(xiàn)和發(fā)展, 幫助人類更好地感知和適應(yīng)環(huán)境, 實(shí)現(xiàn)人類意圖, 構(gòu)建更易控制、更快落地,、更加安全可信的 AI 形態(tài). 定義1 共身智能是指通過技術(shù)手段將人類智能與人工智能以人類視角為基準(zhǔn)進(jìn)行深度對齊和融合, 同時整合各自物理載體 (人體 + AI 硬件) 與環(huán)境動態(tài)交互, 形成以人為中心的協(xié)同感知,、高效決策與交互執(zhí)行能力. 這種智能形式不僅強(qiáng)調(diào)人類與 AI 之間在信息層面的雙視角協(xié)同, 還包括在物理層面的整合.共身智能的概念區(qū)別于學(xué)術(shù)界已有的增強(qiáng)智能 (augmented intelligence) 和混合智能 (hybrid intell- igence) 等理論. 這些理論雖然也強(qiáng)調(diào)人與 AI 之間的協(xié)作, 但大多著眼于利用人與 AI 各自的優(yōu)勢, 通過任務(wù)分工來完成特定的任務(wù). 它們通常通過某些模式將人類與 AI 納入到同一個執(zhí)行流程中, 以實(shí)現(xiàn)智能的互補(bǔ). 尤其在某些場景下, 希望 AI 比人類更加高效, 進(jìn)行獨(dú)立決策與執(zhí)行. 它們并不要求兩種智能必須在人類主視角下深度協(xié)同, 也不要求在物理層面的 “共身” 執(zhí)行.與此相對, 共身智能不單純追求完成任務(wù), 而是更加關(guān)注 AI 在現(xiàn)實(shí)活動中的展現(xiàn)和發(fā)展方式, 是達(dá)成廣義 “具身” 目標(biāo)的差異化新方案. 其核心在于 “雙腦一體” 的深度整合, 包括在認(rèn)知決策層面實(shí)現(xiàn) “雙腦融合”, 即人腦與 AI 的深度對齊與協(xié)同, 以及在物理層面實(shí)現(xiàn) “雙腦共身”, 即以人體為核心的環(huán)境互動與感知反饋. 因此, 共身智能探索如何更好地依托人類, 實(shí)現(xiàn) AI 在現(xiàn)實(shí)世界中的展現(xiàn)與發(fā)展, 這體現(xiàn)了與混合智能等人機(jī)協(xié)作技術(shù)在理念上的區(qū)別.對比共身智能與當(dāng)前的具身智能, 二者均實(shí)現(xiàn)了 AI 在環(huán)境中的感知、決策,、執(zhí)行與學(xué)習(xí). 差別在于具身智能通過機(jī)器身體與環(huán)境直接交互, 基于環(huán)境交互反饋數(shù)據(jù)進(jìn)行 AI 學(xué)習(xí), 最終由 AI 獨(dú)立驅(qū)動機(jī)器身體執(zhí)行任務(wù); 而共身智能通過人體 (及 AI 硬件輔助) 與環(huán)境互動, 基于環(huán)境和人的雙側(cè)反饋數(shù)據(jù)進(jìn)行 AI 學(xué)習(xí), 最終由人和 AI 共同決策并通過人體執(zhí)行任務(wù).共身智能技術(shù)發(fā)展可以粗略劃分為技術(shù)前期與技術(shù)成熟期. 在技術(shù)前期, 共身智能的主要目標(biāo)是實(shí)現(xiàn)其基本形態(tài), 即 “雙腦融合” 和 “人機(jī)共身”. 這一階段的共身智能, 英文可被稱為 “cobodied AI”, 強(qiáng)調(diào)的是智能系統(tǒng)與人類在信息層面的初步整合, 具備智能 “共身” 特性. 進(jìn)入技術(shù)成熟期, 人與 AI 的關(guān)系將演變?yōu)楦由羁痰?“共生” 模式, 這種深度融合超越了單純的信息互通, 涉及到情感,、記憶、認(rèn)知,、決策過程的全面參與, 以及人體與 AI 硬件的深度整合, 英文亦可被稱為 “symbodied AI”, 體現(xiàn)從 “共身” 到 “共生” 的深層次演變.因此, 共身智能面臨獨(dú)特的關(guān)鍵科學(xué)技術(shù)挑戰(zhàn), 以及技術(shù)實(shí)現(xiàn)路徑, 預(yù)示著對現(xiàn)實(shí)世界的接口和應(yīng)用方式將發(fā)生根本性變革. 共身智能具有極強(qiáng)的學(xué)科交叉特性, 除人工智能外, 可能涉及腦科學(xué)與認(rèn)知科學(xué),、神經(jīng)科學(xué)與生命科學(xué)、人機(jī)交互與虛擬現(xiàn)實(shí), 以及機(jī)器人與控制科學(xué)等多個領(lǐng)域的交叉, 因此具有極高的復(fù)雜性和挑戰(zhàn)性. 本文旨在提出和探討共身智能在發(fā)展初期需要突破的 8 個關(guān)鍵科學(xué)技術(shù)問題, 以推動該方向研究和產(chǎn)業(yè)應(yīng)用的進(jìn)展.8 個關(guān)鍵科學(xué)技術(shù)問題 (1) 共身智能的基礎(chǔ)理論與實(shí)現(xiàn)路徑. 針對共身智能 “雙腦融合”,、“人機(jī)共身” 的技術(shù)特點(diǎn), 深入探討人腦,、AI、人體,、環(huán)境等關(guān)鍵要素的概念范疇與相互關(guān)系, 明確所涉及的關(guān)鍵技術(shù)要點(diǎn), 規(guī)劃近期,、中期和遠(yuǎn)期分別需要解決的關(guān)鍵問題和擬實(shí)現(xiàn)的目標(biāo).進(jìn)一步, 探索和建立共身智能的完整理論模型與研究方法, 涵蓋從感知到?jīng)Q策,、決策到執(zhí)行,、執(zhí)行到反饋、反饋到進(jìn)化等關(guān)鍵步驟與階段, 綜合認(rèn)知心理學(xué)等學(xué)科理論, 規(guī)劃相關(guān)理論研究和技術(shù)發(fā)展的具體路徑.(2) “雙腦融合” 的基礎(chǔ)理論與方法. 為構(gòu)建雙腦融合理論, 需要在認(rèn)知與腦科學(xué),、AI 智能算法兩個方面形成突破. 針對前者, 主要回答人腦認(rèn)知決策的過程是什么,、包含哪些關(guān)鍵步驟,、如何利用直接或間接手段實(shí)現(xiàn)可觀測和可計算等問題.針對 AI 算法, 綜合考慮感知、理解,、決策等關(guān)鍵算法類型, 以及視,、聽、語,、力,、觸等數(shù)據(jù)通道, 確保與人腦認(rèn)知決策過程對齊. 此外, 共身智能要求以人類的第一視角進(jìn)行 AI 計算, 可能需要探索新型計算和交互模式.(3) “雙腦融合” 的分歧處理與決策. 人腦與 AI 之間存在根本性差異, 其協(xié)同決策過程必定會產(chǎn)生分歧. 當(dāng)前, 解決這些分歧的有效方法是以可解釋性為基礎(chǔ), 以人腦為決策主體, 進(jìn)行深度對齊與理解. 為此, 需要雙腦在認(rèn)知決策過程中保持實(shí)時同步, 在多個通道上實(shí)現(xiàn)有效交互.此外, 雙腦決策機(jī)制至關(guān)重要. 針對任務(wù)特點(diǎn), 需要探索人腦與 AI 的分工模式及意見權(quán)重, 實(shí)現(xiàn)優(yōu)勢互補(bǔ), 并制定有效的應(yīng)急處理機(jī)制. 進(jìn)一步, 如何基于歷史決策過程及其效果數(shù)據(jù)來優(yōu)化決策策略, 也是重點(diǎn)研究方向.未來, 隨著 AI 技術(shù)的進(jìn)一步發(fā)展, 以及倫理、法規(guī)方面問題的解決, “雙腦融合” 的模式是否可能從 “以人為中心” 走向真正的共生, 即人腦不再作為決策主導(dǎo), 是值得探討的遠(yuǎn)期問題.(4) 基于人體的環(huán)境交互與智能展現(xiàn). 雙腦智能如何通過人體與環(huán)境高效互動, 是共身智能需要回答的基本問題. 一方面, 雙腦認(rèn)知決策需要通過人體對外展現(xiàn), 另一方面, 環(huán)境反作用于人體并向雙腦提供反饋. 相比于高度可控的機(jī)器人執(zhí)行與傳感技術(shù), 基于人體的環(huán)境交互與感知如何與 AI 結(jié)合, 仍然有待探索. 此外, 如何保證雙腦決策不超出人體能力與承受力, 避免各類安全隱患, 是必須首先解決的問題.此外, 廣義的共身智能還可以包括多種呈現(xiàn)形態(tài), 例如外骨骼增強(qiáng),、人車共駕,、機(jī)器人助手等. 這些方面的研究有望進(jìn)一步提升人類適應(yīng)和改造環(huán)境的能力.(5) 共身智能的關(guān)鍵設(shè)備與交互技術(shù). 探索共身智能的硬軟件集成方案, 研究和開發(fā)各類以人為中心的穿戴設(shè)備 (如智能眼鏡、手環(huán),、外骨骼),、虛擬現(xiàn)實(shí)設(shè)備 (如沉浸式頭盔、混合現(xiàn)實(shí)眼鏡) 和神經(jīng)植入式腦機(jī)接口設(shè)備 (如皮層電極,、神經(jīng)植入芯片) 等, 以及非穿戴式的機(jī)械臂,、機(jī)器人等智能執(zhí)行系統(tǒng). 共身智能設(shè)備應(yīng)當(dāng)支持多種信息獲取、感知,、交互與呈現(xiàn)通道, 實(shí)現(xiàn)與用戶和外界環(huán)境的同步互通.在此基礎(chǔ)上, 應(yīng)針對不同環(huán)境和需求提供適合的硬軟件方案. 此外, 如何評估和保障設(shè)備的可用性,、有效性以及安全性, 是需要解決的重點(diǎn)問題.(6) 共身智能如何推動 AI 學(xué)習(xí)進(jìn)化. 共身智能將 AI 與人體整合, 構(gòu)建了 AI 學(xué)習(xí)所需的身體反饋回路. 與 AI 完全控制機(jī)器身體的具身智能不同, 共身智能具有雙腦共存、人體參與執(zhí)行等特點(diǎn), 顯著提升了與環(huán)境交互的智能性和復(fù)雜性. 這既拓寬了 AI 的進(jìn)化空間, 又極大提高了 AI 的學(xué)習(xí)難度.為實(shí)現(xiàn)共身智能下的 AI 學(xué)習(xí), 需探索共身智能與環(huán)境交互反饋數(shù)據(jù)的收集和建模方法, 研究雙腦認(rèn)知決策過程的記錄與推演機(jī)制, 為 AI 學(xué)習(xí)進(jìn)化提供所需數(shù)據(jù)支持. 針對 AI 模型訓(xùn)練, 設(shè)計基于人與環(huán)境雙路反饋的 AI 模型訓(xùn)練優(yōu)化方法.(7) 共身智能體驗(yàn)如何影響人類智能. 共身智能技術(shù)一旦形成應(yīng)用, 將為用戶提供前所未有的 AI 共身體驗(yàn), 對于特定人群的影響可能更為顯著. 例如, 全盲者由于無法接收光視覺信號, 眼動控制功能會逐步退化. 通過建立 AI 共身回路, 利用眼球跟蹤與語音播報技術(shù), 有望重建眼球運(yùn)動與視覺信息獲取的關(guān)聯(lián)通路, 對全盲者大腦皮層的相應(yīng)區(qū)域功能產(chǎn)生影響, 為神經(jīng)科學(xué)和認(rèn)知科學(xué)領(lǐng)域帶來新的研究議題.另一方面, 隨著共身智能體驗(yàn)的不斷積累, 其對人類智能和習(xí)慣的長期影響存在不確定性, 可能包含多方面的積極前景, 以及安全風(fēng)險與挑戰(zhàn).(8) 共身智能與具身智能的深層結(jié)合. 相較于以機(jī)器人為載體的具身智能, 共身智能以一種差異模式實(shí)現(xiàn)了 AI 在物理世界的展示與發(fā)展, 兩者有望在更大的基礎(chǔ)理論框架下實(shí)現(xiàn)統(tǒng)一.隨著相關(guān)技術(shù)的發(fā)展成熟, 共身智能和具身智能將在實(shí)際應(yīng)用中日益結(jié)合. 例如, 以人類為主體的共身智能和以機(jī)器人為載體的具身智能可以形成協(xié)作, 共同在物理世界中完成任務(wù), 其本質(zhì)是 “雙腦” 與 “多體” 的進(jìn)一步整合. 在此背景下, 需要重新審視和深入探討上述各項(xiàng)科學(xué)技術(shù)問題, 及時識別和解決潛在的風(fēng)險與挑戰(zhàn), 為提升人類能力開辟新的可能性.以上內(nèi)容是本文通過分析和研究, 對共身智能這一新概念給出的定義和討論, 包括迫切需要解決的 8 個關(guān)鍵科學(xué)技術(shù)問題. 實(shí)際上, 共身智能作為一個全新的技術(shù)概念, 還面臨著諸多的未知難題與挑戰(zhàn). 這些問題可能涉及用戶體驗(yàn)與感受,、成本與效益,、倫理與法律、隱私與安全,、文化與社會等多個方面, 需要學(xué)術(shù)界的多學(xué)科合作, 以及產(chǎn)業(yè)界和管理部門的共同努力來解決, 以促進(jìn)共身智能技術(shù)更早,、更有效、更安全地服務(wù)于人類社會, 推動人類文明向新的高度發(fā)展.
|