久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

****AI Agent 基于大模型的人工智能代理

 張先民 2024-07-11 發(fā)布于北京

現(xiàn)在大模型之爭(zhēng)已經(jīng)到了一個(gè)高度了,未來還會(huì)進(jìn)化,,但是我們的重點(diǎn)就不要放在大模型上了,。放在什么地方呢?

放在配套技術(shù)的完善上,,其中很重要的配套技術(shù)叫AI Agents,,就是人工智能體。AI Agent(也稱人工智能代理)是一種能夠感知環(huán)境,、進(jìn)行決策和執(zhí)行動(dòng)作的智能實(shí)體,。智能體像人一樣,它有記憶,、有邏輯分析能力,、有任務(wù)的拆解能力、問題的拆解能力和最后綜合回來統(tǒng)一解決問題的能力,。

AI Agents競(jìng)爭(zhēng)就是未來很重要的方向,。我相信Cognition這家公司,雖然他自己什么都沒說,,但是它的優(yōu)勢(shì)應(yīng)該不是大模型,,而是AI Agents,也就是在配套技術(shù)上面有很多的優(yōu)勢(shì),,才能使得他做任何一個(gè)業(yè)務(wù)的完成度極大地提升了,。

AI Agent 基于大模型的人工智能代理

AI Agent也可以稱為“智能體”,也可理解為“智能業(yè)務(wù)助理”,,旨在大模型技術(shù)驅(qū)動(dòng)下,,讓人們以自然語言為交互方式高自動(dòng)化地執(zhí)行和處理專業(yè)或繁復(fù)的工作任務(wù),,從而極大程度釋放人員精力。

Agent 其實(shí)基本就等于 '大模型 插件 執(zhí)行流程 / 思維鏈',,分別會(huì)對(duì)應(yīng)控制端 (Brain / 大腦),、感知端 (Preception)、執(zhí)行端 (Action) 環(huán)節(jié),,如下,,

AI Agent 基于大模型的人工智能代理

AI Agent 發(fā)展迅速,出現(xiàn)多款“出圈”級(jí)研究成果,。2023 年 3 月起,,AI Agent 領(lǐng) 域迎來了第一次“出圈”,西部世界小鎮(zhèn),、BabyAGI,、AutoGPT 等多款重大 Agent 研究項(xiàng)目均在短短兩周內(nèi)陸續(xù)上線,引發(fā)了大家對(duì) AI Agent 領(lǐng)域的關(guān)注,。目前已經(jīng) 涌現(xiàn)了在游戲領(lǐng)域大放異彩的英偉達(dá) Voyager 智能體,、能夠幫助個(gè)人完成簡(jiǎn)單任務(wù) 的 Agent 助理 HyperWrite、以及主打個(gè)人情感陪伴的 AI 助理 Pi 等多款優(yōu)秀的 Agent 成果,,AI Agent 的研究進(jìn)展迅速,。

1. 背景介紹

大語言模型的浪潮推動(dòng)了 AI Agent 相關(guān)研究快速發(fā)展,AI Agent 是當(dāng)前通往 AGI 的主要探索路線,。大模型龐大的訓(xùn)練數(shù)據(jù)集中包含了大量人類行為數(shù)據(jù),,為模擬類 人的交互打下了堅(jiān)實(shí)基礎(chǔ);另一方面,,隨著模型規(guī)模不斷增大,,大模型涌現(xiàn)出了上 下文學(xué)習(xí)能力、推理能力,、思維鏈等類似人類思考方式的多種能力,。將大模型作為 AI Agent 的核心大腦,,就可以實(shí)現(xiàn)以往難以實(shí)現(xiàn)的將復(fù)雜問題拆解成可實(shí)現(xiàn)的子任 務(wù),、類人的自然語言交互等能力。由于大模型仍存在大量的問題如幻覺,、上下文容 量限制等,,通過讓大模型借助一個(gè)或多個(gè) Agent 的能力,構(gòu)建成為具備自主思考決 策和執(zhí)行能力的智能體,,成為了當(dāng)前通往 AGI 的主要研究方向,。

1.1 Agent這個(gè)詞是如何出現(xiàn)的

有很多人或許會(huì)疑惑,Agent這個(gè)東西看起來跟LLM也沒差得那么遠(yuǎn),,那為啥最近突然Agent那么火,,而不稱之為L(zhǎng)LM-Application或者其他的詞呢?這就得從agent的來歷上說起了,因?yàn)锳gent是個(gè)很古老的術(shù)語,,甚至可以追溯至亞里士多德和休謨等人的言論,。從哲學(xué)意義上講,“代理人”是指具有行動(dòng)能力的實(shí)體,,而“代理”一詞則表示這種能力的行使或體現(xiàn),。而從狹義上講,“代理”通常是指有意行動(dòng)的表現(xiàn),;相應(yīng)地,,“代理人”一詞表示擁有欲望、信念,、意圖和行動(dòng)能力的實(shí)體,。需要注意的是,代理人不僅包括人類個(gè)體,,還包括物理世界和虛擬世界中的其他實(shí)體,。重要的是,“代理”的概念涉及個(gè)人的自主性,,賦予他們行使意志,、做出選擇和采取行動(dòng)的能力,而不是被動(dòng)地對(duì)外部刺激做出反應(yīng),。

在 20 世紀(jì) 80 年代中后期之前,,主流人工智能界的研究人員對(duì)Agent相關(guān)概念的關(guān)注相對(duì)較少,這可能會(huì)讓人感到驚訝,。然而,,從那時(shí)起,計(jì)算機(jī)科學(xué)和人工智能界對(duì)這一話題的興趣就大大增加了,。正如 Wooldridge 等人所言,,我們可以這樣定義人工智能:“它是計(jì)算機(jī)科學(xué)的一個(gè)子領(lǐng)域,旨在設(shè)計(jì)和構(gòu)建基于計(jì)算機(jī)的,、表現(xiàn)出智能行為各個(gè)方面的Agent,。”因此,,我們可以把Agent作為人工智能的核心概念,。當(dāng)Agent這一概念被引入人工智能領(lǐng)域時(shí),其含義發(fā)生了一些變化,。在哲學(xué)領(lǐng)域,,Agent可以是人、動(dòng)物,,甚至是具有自主性的概念或?qū)嶓w,。然而,,在人工智能領(lǐng)域,Agent是一個(gè)計(jì)算實(shí)體,。由于意識(shí)和欲望等概念對(duì)于計(jì)算實(shí)體來說似乎具有形而上學(xué)的性質(zhì),,而且我們只能觀察機(jī)器的行為,包括艾倫-圖靈在內(nèi)的許多人工智能研究者建議暫時(shí)擱置Agent是否“真正”在思考或是否真的擁有“思想”的問題,。相反,,研究人員采用其他屬性來幫助描述Agent,如自主性,、反應(yīng)性,、主動(dòng)性和社交能力等屬性,。也有研究者認(rèn)為,,智能是“看人的眼睛”;它不是與生俱來的,、孤立的屬性,。從本質(zhì)上講,,AI Agent并不等同于Philosophy Agent;相反,,它是Agent這一哲學(xué)概念在人工智能領(lǐng)域的具體化,。在本文中,作者將AI Agent視為人工實(shí)體,,它們能夠使用傳感器感知周圍環(huán)境,,做出決策,然后使用執(zhí)行器采取行動(dòng),。

在特定行業(yè)場(chǎng)景中,,通用大模型具有的泛化服務(wù)特性,很難在知識(shí)問答,、內(nèi)容生成,、業(yè)務(wù)處理和管理決策等方面精準(zhǔn)滿足用戶的需求。

因此,,讓通用大模型學(xué)習(xí)行業(yè)知識(shí)和行業(yè)語料成為行業(yè)大模型,,再進(jìn)一步學(xué)習(xí)業(yè)務(wù)知識(shí)和專業(yè)領(lǐng)域工具演進(jìn)為場(chǎng)景大模型,是生成式AI深入業(yè)務(wù)場(chǎng)景,,承擔(dān)更復(fù)雜任務(wù)的關(guān)鍵路徑,。這一過程的實(shí)現(xiàn),讓大模型的持續(xù)進(jìn)化最終以AI Agent的產(chǎn)品形態(tài),,開始了對(duì)業(yè)務(wù)的流程及其管理和服務(wù)模式的重構(gòu)與優(yōu)化。

正如OpenAI聯(lián)合創(chuàng)始人安德烈·卡帕斯(Andrej Karpathy)認(rèn)為,,在各類行業(yè)組織對(duì)數(shù)字化實(shí)體的打造進(jìn)程中,,對(duì)于通用人工智能(AGI)的應(yīng)用,,將廣泛采用AI Agent的產(chǎn)品形式開展業(yè)務(wù),而來自于各行業(yè)領(lǐng)域的開發(fā)人員和創(chuàng)業(yè)者們,,將比通用大模型的開發(fā)商們更具有對(duì)AI Agent的開發(fā)優(yōu)勢(shì),。AI Agent,也被越來越多的人認(rèn)可為是數(shù)字經(jīng)濟(jì)時(shí)代深刻賦能各行各業(yè)的高效生產(chǎn)力工具,。

不同于傳統(tǒng)的人工智能,,AI Agent 具備通過獨(dú)立思考、調(diào)用工具去逐步完成給 定目標(biāo)的能力,。AI Agent 和大模型的區(qū)別在于,,大模型與人類之間的交互是基于 prompt 實(shí)現(xiàn)的,用戶 prompt 是否清晰明確會(huì)影響大模型回答的效果,。而 AI Agent 的工作僅需給定一個(gè)目標(biāo),,它就能夠針對(duì)目標(biāo)獨(dú)立思考并做出行動(dòng)。和傳統(tǒng)的 RPA 相比,,RPA 只能在給定的情況條件下,,根據(jù)程序內(nèi)預(yù)設(shè)好的流程來進(jìn)行工作的處 理,而 AI Agent 則可以通過和環(huán)境進(jìn)行交互,,感知信息并做出對(duì)應(yīng)的思考和行動(dòng),。

2.Agent 架構(gòu)

在人工智能領(lǐng)域,人們對(duì)Agent的期待日益增長(zhǎng),。每當(dāng)基于Agent的新開源工具或產(chǎn)品出現(xiàn)時(shí),,都能引發(fā)熱烈的討論,比如之前的AutoGPT,。

對(duì)于對(duì)Agent感興趣的朋友們,,我推薦一篇論文,它全面地介紹了Agent的架構(gòu),,對(duì)于理解Agent的全局有著重要的價(jià)值,。

AI Agent 基于大模型的人工智能代理

https://browse./pdf/2308.11432.pdf

這篇論文詳細(xì)解讀了Agent的概念、發(fā)展歷史以及近期的研究熱點(diǎn),。除了這些基礎(chǔ)知識(shí),,我認(rèn)為最有價(jià)值的部分在于,它總結(jié)了基于大型語言模型(LLM)的Agent的架構(gòu),,使我們能夠按照一定的標(biāo)準(zhǔn)范式去設(shè)計(jì)自己的Agent,。

這篇文章主要從兩個(gè)關(guān)鍵方面來闡述基于LLM的Agent的構(gòu)建策略:設(shè)計(jì)Agent架構(gòu)以更好地發(fā)揮LLM的能力,以及如何賦予Agent完成不同任務(wù)的能力,。

在Agent架構(gòu)設(shè)計(jì)方面,,該論文提出了一個(gè)統(tǒng)一的框架,包括Profile模塊,、Memory模塊,、Planning模塊和Action模塊,。

Profile模塊:

定義和管理Agent角色的特性和行為。它包含一系列參數(shù)和規(guī)則,,描述了Agent的各種屬性,,如角色、目標(biāo),、能力,、知識(shí)和行為方式等。這些屬性決定了Agent如何與環(huán)境交互,,如何理解和響應(yīng)任務(wù),,以及如何進(jìn)行決策和規(guī)劃。這個(gè)模塊提出了三種Agent角色生成方式,,包括LLM生成方法,、數(shù)據(jù)集對(duì)齊方法和組合方法。

1. LLM生成方法:利用大語言模型自動(dòng)生成代理的個(gè)人特征,,比如年齡,、性別、個(gè)人喜好等背景信息,。具體做法是:首先設(shè)定代理的組成規(guī)則,,明確目標(biāo)人群中代理應(yīng)具備的屬性;然后指定幾個(gè)手工創(chuàng)建的種子配置文件作為示例,;最后利用語言模型生成大量代理配置文件,。這種方法可以快速批量生成配置文件,但由于缺乏精確控制,,生成的代理可能會(huì)缺乏細(xì)節(jié),。

2. 數(shù)據(jù)集對(duì)齊方法:是從真實(shí)世界的人口數(shù)據(jù)集中獲取代理的配置文件信息,比如通過抽取人口調(diào)查數(shù)據(jù)組織成自然語言描述,。這樣可以使代理行為更真實(shí)可信,,準(zhǔn)確反映真實(shí)人口的屬性分布。但需要可靠的大規(guī)模數(shù)據(jù)集支持,。

3. 組合方法:利用真實(shí)數(shù)據(jù)集生成一部分關(guān)鍵代理,,確保反映真實(shí)世界規(guī)律;然后用LLM生成方法補(bǔ)充大量其他代理,,拓展代理數(shù)量,。這樣既保證了代理的真實(shí)性,又實(shí)現(xiàn)了充足的代理數(shù)量,,使系統(tǒng)可以模擬更復(fù)雜的社會(huì)交互,。謹(jǐn)慎的配置文件設(shè)計(jì)是構(gòu)建有效代理系統(tǒng)的基礎(chǔ)。

Memory模塊:

在Agent系統(tǒng)中扮演重要角色,它存儲(chǔ)和組織從環(huán)境中獲取的信息,,以指導(dǎo)未來行動(dòng),。

結(jié)構(gòu)上,,內(nèi)存模塊通常包含短期記憶和長(zhǎng)期記憶兩個(gè)部分,。短期記憶暫存最近的感知,長(zhǎng)期記憶存儲(chǔ)重要信息供隨時(shí)檢索,。

格式上,,內(nèi)存信息可以用自然語言表達(dá),也可以編碼為向量嵌入提高檢索效率,。還可以利用數(shù)據(jù)庫存儲(chǔ),,或組織為結(jié)構(gòu)化列表表示內(nèi)存語義。

操作上,,主要通過記憶讀取,、寫入和反射三種機(jī)制與環(huán)境交互。讀取提取相關(guān)信息指導(dǎo)行動(dòng),,寫入存儲(chǔ)重要信息,,反射總結(jié)見解提升抽象水平。

Planning模塊:

主要任務(wù)是幫助Agent將復(fù)雜的任務(wù)分解為更易處理的子任務(wù),,并制定出有效的策略,。它大致分為兩種類型,一種是不依賴反饋的計(jì)劃,,另一種則是基于反饋的計(jì)劃,。

不依賴反饋的計(jì)劃在制定過程中并不參考任務(wù)執(zhí)行后的反饋,它有幾種常用的策略,。比如單路徑推理,,它按照級(jí)聯(lián)的方式,一步一步地生成計(jì)劃,。另外,,還有多路徑推理,它會(huì)生成多個(gè)備選的計(jì)劃路徑,,形成樹狀或圖狀的結(jié)構(gòu),。當(dāng)然,我們也可以利用外部的規(guī)劃器進(jìn)行快速搜索,,以找出最優(yōu)的計(jì)劃,。

基于反饋的計(jì)劃,它會(huì)根據(jù)任務(wù)執(zhí)行后的反饋來調(diào)整計(jì)劃,,這種方式更適合需要進(jìn)行長(zhǎng)期規(guī)劃的情況,。反饋的來源可能來自任務(wù)執(zhí)行結(jié)果的客觀反饋,也可能是根據(jù)人的主觀判斷給出的反饋,,甚至還可以是由輔助模型提供的反饋,。

Action模塊:

職責(zé)是將抽象的決策轉(zhuǎn)化為具體的行動(dòng),,它就像是一個(gè)橋梁,連接了Agent的內(nèi)部世界與外部環(huán)境,。在執(zhí)行任務(wù)時(shí),,需要考慮行動(dòng)的目標(biāo)、生成方式,、應(yīng)用范圍以及可能產(chǎn)生的影響,。

理想的行動(dòng)應(yīng)當(dāng)是有目的的,例如完成特定任務(wù),、與其他代理進(jìn)行交流或者探索環(huán)境,。行動(dòng)的產(chǎn)生可以依賴于查詢過去的記憶經(jīng)驗(yàn),或者遵循預(yù)設(shè)的計(jì)劃,。而行動(dòng)的范圍,,不僅可以通過利用如API和知識(shí)庫等外部工具來擴(kuò)展,還需要發(fā)揮大型語言模型(LLM)的內(nèi)在能力,,例如規(guī)劃,、對(duì)話及理解常識(shí)等。

架構(gòu)就像PC的硬件,,但僅依賴架構(gòu)設(shè)計(jì)是不夠的,,我們還需要賦予Agent完成不同任務(wù)的能力,這些被視為“軟件”資源,。論文中提出了幾種方法,,包括模型微調(diào)、提示工程和機(jī)械工程,。其中提示工程應(yīng)該是最為常見的一種形式了,,我們常聽說的提示詞工程師就是在這個(gè)語境下的角色。

模型微調(diào),。使用特定任務(wù)數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),提升相關(guān)能力,。數(shù)據(jù)可以來自人類注釋、LLM生成或?qū)嶋H應(yīng)用中收集,。這可以使Agent行為更符合人類價(jià)值觀,。

提示工程。通過自然語言描述向LLM灌輸所需的能力,然后將描述作為提示指導(dǎo)Agent操作,。這可以讓Agent快速獲得指定的軟件能力,。

機(jī)械工程。主要涵蓋:

試錯(cuò)法:Agent先執(zhí)行操作,根據(jù)效果調(diào)整行動(dòng),。逐步優(yōu)化,。

眾包法:整合多個(gè)Agent的見解,形成更新的集體響應(yīng)。

經(jīng)驗(yàn)積累法:Agent通過不斷探索積累經(jīng)驗(yàn),逐步提升軟件能力。

自我驅(qū)動(dòng)法:Agent自主設(shè)置目標(biāo)并在環(huán)境中不斷探索,最終獲得軟件能力,。

3. Agent實(shí)踐

AI Agent 基于大模型的人工智能代理

圖6:基于 LLM 的代理應(yīng)用場(chǎng)景,。我們主要介紹三種應(yīng)用場(chǎng)景:?jiǎn)蝹€(gè)代理部署、多代理交互和人與代理交互,。單個(gè)代理擁有多種能力,,在各種應(yīng)用方向上都能表現(xiàn)出出色的任務(wù)解決能力。當(dāng)多代理互動(dòng)時(shí),,它們可以通過合作或?qū)剐曰?dòng)取得進(jìn)步,。

作為一個(gè)LLM-based Agent,,其設(shè)計(jì)目標(biāo)應(yīng)始終對(duì)人類有益,,也就是說,人類可以利用人工智能造福人類,。具體來說,,我們希望Agent能實(shí)現(xiàn)以下目標(biāo):

  1. 幫助用戶從日常任務(wù)和重復(fù)勞動(dòng)中解脫出來,從而減輕人類的工作壓力,,提高任務(wù)解決效率,。

  2. 不再需要用戶提供明確的低級(jí)指令。相反,,Agent可以獨(dú)立分析,、規(guī)劃和解決問題。

  3. 在解放用戶雙手的同時(shí),,Agent也解放了他們的大腦,,使其能夠從事探索性和創(chuàng)新性工作。

AI Agent 基于大模型的人工智能代理

圖7:基于 LLM 的單一Agent在不同場(chǎng)景中的實(shí)際應(yīng)用,。在面向任務(wù)的部署中,,代理協(xié)助人類用戶解決日常任務(wù)。它們需要具備基本的指令理解和任務(wù)分解能力,。在面向創(chuàng)新的部署中,,代理展示了在科學(xué)領(lǐng)域進(jìn)行自主探索的潛力。

3.1 單個(gè)Agent的一般能力

目前,,LLM-based Agent應(yīng)用實(shí)例的發(fā)展十分活躍,。AutoGPT 是目前流行的開源項(xiàng)目之一,旨在實(shí)現(xiàn)完全自主的系統(tǒng),。除了 GPT-4 等大型語言模型的基本功能外,,AutoGPT 框架還集成了各種實(shí)用的外部工具長(zhǎng)短期內(nèi)存管理。用戶輸入定制的目標(biāo)后,,就可以解放雙手,,等待 AutoGPT 自動(dòng)生成想法并執(zhí)行特定任務(wù),所有這些都不需要用戶的額外提示。

面向任務(wù)的部署

LLM-based Agent 可以理解人類的自然語言指令并執(zhí)行日常任務(wù),,是目前最受用戶青睞,、最具實(shí)用價(jià)值的Agent之一。這是因?yàn)樗鼈兙哂刑岣呷蝿?wù)效率,、減輕用戶工作量和促進(jìn)更廣泛用戶訪問的潛力,。在面向任務(wù)的部署中,Agent遵從用戶的高級(jí)指令,,承擔(dān)目標(biāo)分解,、子目標(biāo)規(guī)劃、環(huán)境交互探索等任務(wù),,直至實(shí)現(xiàn)最終目標(biāo),。為了探索Agent是否能夠執(zhí)行基本任務(wù),部分學(xué)者將它們部署到基于文本的游戲場(chǎng)景中,。在這類游戲中,,Agent完全使用自然語言與世界互動(dòng)。通過閱讀周圍環(huán)境的文字描述,,并利用記憶,、規(guī)劃和試錯(cuò)等技能,它們可以預(yù)測(cè)下一步行動(dòng),。然而,,由于基礎(chǔ)語言模型的局限性,Agent在實(shí)際執(zhí)行過程中往往依賴于強(qiáng)化學(xué)習(xí),。隨著 LLM 的逐步發(fā)展,,具備更強(qiáng)文本理解和生成能力的 Agent 在通過自然語言執(zhí)行任務(wù)方面展現(xiàn)出巨大潛力。由于過于簡(jiǎn)單,,基于文本的簡(jiǎn)單場(chǎng)景不足以作為 LLM-based Agent 的測(cè)試場(chǎng)所,。為了滿足這一需求,我們構(gòu)建了更真實(shí),、更復(fù)雜的模擬測(cè)試環(huán)境,。根據(jù)任務(wù)類型,我們將這些模擬環(huán)境分為網(wǎng)絡(luò)場(chǎng)景和生活場(chǎng)景,,并介紹Agent在其中扮演的具體角色,。

在網(wǎng)絡(luò)場(chǎng)景中:

在網(wǎng)絡(luò)場(chǎng)景中代表用戶執(zhí)行特定任務(wù)被稱為網(wǎng)絡(luò)導(dǎo)航問題。Agent解釋用戶指令,,將其分解為多個(gè)基本操作,,并與計(jì)算機(jī)進(jìn)行交互。這通常包括填寫表格,、網(wǎng)上購物和發(fā)送電子郵件等網(wǎng)絡(luò)任務(wù),。Agent需要具備在復(fù)雜的網(wǎng)絡(luò)場(chǎng)景中理解指令,、適應(yīng)變化(如嘈雜的文本和動(dòng)態(tài) HTML 網(wǎng)頁)以及概括成功操作的能力。這樣,,Agent就能在未來處理看不見的任務(wù)時(shí)實(shí)現(xiàn)無障礙和自動(dòng)化,,最終將人類從與計(jì)算機(jī)用戶界面的重復(fù)交互中解放出來。通過強(qiáng)化學(xué)習(xí)訓(xùn)練出來的Agent可以有效地模仿人類行為,,使用預(yù)定義的操作,,如打字、搜索,、導(dǎo)航到下一頁等,。它們?cè)诰W(wǎng)上購物和搜索引擎檢索等基本任務(wù)中表現(xiàn)出色,這些任務(wù)已被廣泛探索,。然而,,不具備 LLM 功能的Agent可能難以適應(yīng)現(xiàn)實(shí)世界互聯(lián)網(wǎng)中更現(xiàn)實(shí)、更復(fù)雜的場(chǎng)景,。在動(dòng)態(tài)的,、內(nèi)容豐富的網(wǎng)頁中,如在線論壇或在線業(yè)務(wù)管理,,Agent的性能往往面臨挑戰(zhàn)。為了讓Agent與更逼真的網(wǎng)頁成功互動(dòng),,一些研究人員開始利用 LLM 強(qiáng)大的 HTML 閱讀和理解能力,。通過設(shè)計(jì)提示,他們?cè)噲D讓Agent理解整個(gè) HTML 源代碼,,并預(yù)測(cè)更合理的下一步行動(dòng),。Mind2Web 將多個(gè)針對(duì) HTML 進(jìn)行微調(diào)的 LLMs 結(jié)合在一起,使它們能夠在真實(shí)世界的場(chǎng)景中總結(jié)冗長(zhǎng)的 HTML 代碼并提取有價(jià)值的信息,。此外,,WebGum 通過使用包含 HTML 屏幕截圖的多模態(tài)語料庫,增強(qiáng)了具有視覺感知能力的Agent的能力,。它同時(shí)對(duì) LLM 和視覺編碼器進(jìn)行了微調(diào),,加深了Agent對(duì)網(wǎng)頁的全面理解。

生活場(chǎng)景中:

在生活場(chǎng)景中的許多日常家務(wù)勞動(dòng)中,,Agent必須理解隱含指令并應(yīng)用常識(shí)性知識(shí),。對(duì)于完全基于海量文本訓(xùn)練的 LLM-based Agent 來說,人類認(rèn)為理所當(dāng)然的任務(wù)可能需要多次試錯(cuò)嘗試,。更現(xiàn)實(shí)的場(chǎng)景往往會(huì)產(chǎn)生更模糊,、更微妙的任務(wù)。例如,,如果天黑了,,房間里有一盞燈,,Agent就應(yīng)該主動(dòng)打開它。要想成功地在廚房切菜,,Agent需要預(yù)測(cè)刀的可能位置,。Agent能否將訓(xùn)練數(shù)據(jù)中蘊(yùn)含的世界知識(shí)應(yīng)用到真實(shí)的交互場(chǎng)景中?Huang 等人證明,,在適當(dāng)?shù)奶崾鞠?,足夠大?LLM 可以針對(duì)真實(shí)交互場(chǎng)景中的任務(wù)有效地將高級(jí)任務(wù)分解為合適的子任務(wù),而無需額外的訓(xùn)練,。不過,,這種靜態(tài)推理和規(guī)劃能力也有其潛在的缺點(diǎn)。Agent生成的行動(dòng)往往缺乏對(duì)周圍動(dòng)態(tài)環(huán)境的感知:例如,,當(dāng)用戶下達(dá) '打掃房間 '的任務(wù)時(shí),,Agent可能會(huì)將其轉(zhuǎn)化為 '呼叫清潔服務(wù) '等不可行的子任務(wù)。為了讓Agent在交互過程中獲得全面的場(chǎng)景信息,,一些方法直接將空間數(shù)據(jù)和項(xiàng)目位置關(guān)系作為模型的附加輸入,。這樣,Agent就能獲得對(duì)周圍環(huán)境的精確描述,。Wu 等人介紹了 PET 框架,,該框架通過早期糾錯(cuò)方法減少了環(huán)境信息中的無關(guān)物體和容器。PET 鼓勵(lì)A(yù)gent更有效地探索場(chǎng)景和規(guī)劃行動(dòng),,并專注于當(dāng)前的子任務(wù),。

面向創(chuàng)新的部署

LLM-based Agent 在執(zhí)行任務(wù)和提高重復(fù)性工作的效率方面表現(xiàn)出了強(qiáng)大的能力。然而,,在智力要求更高的領(lǐng)域,,如前沿科學(xué)領(lǐng)域,Agent 的潛力尚未得到充分發(fā)揮,。這種局限性主要來自兩個(gè)方面的挑戰(zhàn):

一方面,,科學(xué)本身的復(fù)雜性構(gòu)成了重大障礙,許多特定領(lǐng)域的術(shù)語和多維結(jié)構(gòu)難以用單一文本表示,。因此,,它們的完整屬性無法完全封裝。這大大削弱了 Agent 的認(rèn)知水平,。

另一方面,,科學(xué)領(lǐng)域嚴(yán)重缺乏合適的訓(xùn)練數(shù)據(jù),使得Agent難以理解整個(gè)領(lǐng)域的知識(shí),。如果能在Agent內(nèi)部發(fā)現(xiàn)自主探索的能力,,無疑會(huì)給人類科技帶來有益的創(chuàng)新。目前,,各個(gè)專業(yè)領(lǐng)域都在為克服這一挑戰(zhàn)而努力,。計(jì)算機(jī)領(lǐng)域的專家充分利用了Agent強(qiáng)大的代碼理解和調(diào)試能力,。在化學(xué)和材料領(lǐng)域,研究人員為Agent配備了大量通用或特定任務(wù)工具,,以更好地理解領(lǐng)域知識(shí),。Agent逐漸發(fā)展成為全面的科學(xué)助手,精通在線研究和文檔分析,,以填補(bǔ)數(shù)據(jù)空白,。它們還利用機(jī)器人應(yīng)用程序接口(API)進(jìn)行現(xiàn)實(shí)世界的交互,從而完成材料合成和機(jī)制發(fā)現(xiàn)等任務(wù),。

LLM-based Agent 在科學(xué)創(chuàng)新方面的潛力是顯而易見的,,但我們并不希望它們的探索能力被用于可能威脅或傷害人類的應(yīng)用中。Boiko 等人研究了Agent在合成非法藥物和化學(xué)武器過程中隱藏的危險(xiǎn),,指出Agent可能會(huì)在對(duì)抗性提示中被惡意用戶誤導(dǎo),。這為我們今后的工作敲響了警鐘。

面向生命周期的部署

在一個(gè)開放,、未知的世界中,,建立一個(gè)能夠不斷探索、發(fā)展新技能并保持長(zhǎng)期生命周期的,、具有普遍能力的Agent是一項(xiàng)巨大的挑戰(zhàn),。Minecraft 作為一個(gè)典型的、被廣泛探索的模擬生存環(huán)境,,已成為開發(fā)和測(cè)試Agent綜合能力的獨(dú)特樂園,。玩家通常從學(xué)習(xí)基礎(chǔ)知識(shí)開始,如開采木材和制作工藝臺(tái),,然后再學(xué)習(xí)更復(fù)雜的任務(wù),如與怪物戰(zhàn)斗和制作鉆石工具,。Minecraft 從根本上反映了真實(shí)世界,,有利于研究人員調(diào)查Agent在真實(shí)世界中的生存潛力。Minecraft 中的Agent生存算法一般可分為兩類:低級(jí)控制和高級(jí)規(guī)劃,。早期的努力主要集中在強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí),,使Agent能夠制作一些低級(jí)物品。隨著具有驚人推理和分析能力的 LLM 的出現(xiàn),,Agent開始利用 LLM 作為高級(jí)計(jì)劃器來指導(dǎo)模擬生存任務(wù),。一些研究人員利用 LLM 將高級(jí)任務(wù)指令分解為一系列子目標(biāo)、基本技能序列或基本鍵盤/鼠標(biāo)操作,,逐步協(xié)助Agent探索開放世界,。Voyager從類似于 AutoGPT的概念中汲取靈感,基于“發(fā)現(xiàn)盡可能多的不同事物”這一長(zhǎng)期目標(biāo),,成為 Minecraft 中第一個(gè)基于 LLM 的體現(xiàn)式終身學(xué)習(xí)Agent,。它引入了一個(gè)用于存儲(chǔ)和檢索復(fù)雜動(dòng)作可執(zhí)行代碼的技能庫,,以及一個(gè)包含環(huán)境反饋和糾錯(cuò)的迭代提示機(jī)制。這使Agent能夠自主探索和適應(yīng)未知環(huán)境,,而無需人工干預(yù),。能夠自主學(xué)習(xí)和掌握整個(gè)真實(shí)世界技術(shù)的AI Agent可能并不像人們想象的那樣遙遠(yuǎn)。

AI Agent 基于大模型的人工智能代理

圖8:基于 LLM 的多個(gè)代理的交互場(chǎng)景,。在合作互動(dòng)中,,代理以無序或有序的方式進(jìn)行協(xié)作,以實(shí)現(xiàn)共同目標(biāo),。在對(duì)抗式交互中,,代理以針鋒相對(duì)的方式展開競(jìng)爭(zhēng),以提高各自的性能,。

3.2 Multi-Agent的協(xié)調(diào)潛力

動(dòng)機(jī)與背景:

盡管LLM-based Agent擁有值得稱道的文本理解和生成能力,,但它們?cè)谧匀唤缰惺亲鳛楣铝⒌膶?shí)體運(yùn)行的。它們?nèi)狈εc其他Agent協(xié)作和從社會(huì)互動(dòng)中獲取知識(shí)的能力,。這種固有的局限性限制了它們從他人的多輪反饋中學(xué)習(xí)以提高性能的潛力,。此外,在需要multi-agent之間進(jìn)行協(xié)作和信息共享的復(fù)雜場(chǎng)景中,,它們也無法有效部署,。早在 1986 年,馬文-明斯基就做出了前瞻性的預(yù)測(cè),。他在《心靈社會(huì)》一書中提出了一種新穎的智能理論,,認(rèn)為智能產(chǎn)生于許多具有特定功能的小型Agent的相互作用。例如,,某些Agent可能負(fù)責(zé)模式識(shí)別,,而其他Agent可能負(fù)責(zé)決策或生成解決方案。作為主要研究領(lǐng)域之一的多Agent系統(tǒng)(MAS)關(guān)注的重點(diǎn)是一組Agent如何有效地協(xié)調(diào)和協(xié)作解決問題,。一些專門的通信語言(如 KQML )很早就被設(shè)計(jì)出來,,以支持Agent之間的信息傳輸和知識(shí)共享。但是,,它們的信息格式相對(duì)固定,,語義表達(dá)能力有限。進(jìn)入 21 世紀(jì),,強(qiáng)化學(xué)習(xí)算法(如 Q-learning)與深度學(xué)習(xí)的結(jié)合,,已成為開發(fā)可在復(fù)雜環(huán)境中運(yùn)行的 MAS 的重要技術(shù)。如今,,基于 LLMs 的構(gòu)建方法開始展現(xiàn)出巨大的潛力,。Agent之間的自然語言交流變得更加優(yōu)雅,也更容易為人類所理解,,從而大大提高了交互效率,。

潛在優(yōu)勢(shì):

具體來說,,LLM-based multi-Agent系統(tǒng)可以提供幾種優(yōu)勢(shì)。根據(jù)分工原則,,具備專業(yè)技能和領(lǐng)域知識(shí)的單個(gè)Agent可以從事特定的任務(wù),。一方面,通過分工,,Agent處理特定任務(wù)的技能日益精進(jìn),。另一方面,將復(fù)雜任務(wù)分解為多個(gè)子任務(wù),,可以省去在不同流程之間切換的時(shí)間,。最終,多個(gè)Agent之間的高效分工可以完成比沒有專業(yè)化分工時(shí)大得多的工作量,,從而大大提高整個(gè)系統(tǒng)的效率和產(chǎn)出質(zhì)量,。在前文中,本文全面介紹了LLM-based Agent的多功能能力,。因此,,在本節(jié)中,我們將重點(diǎn)探討multi-agent環(huán)境中Agent之間的交互方式,。根據(jù)目前的研究,,這些交互方式大致可分為以下幾類:取長(zhǎng)補(bǔ)短的合作式交互,以及互利共贏的對(duì)抗式交互(見圖 8),。

互補(bǔ)性合作交互

在當(dāng)前基于 LLM 的多Agent系統(tǒng)中,,Agent之間的交流主要使用自然語言,這被認(rèn)為是最自然,、最易為人類理解的交互形式,。我們將現(xiàn)有的多Agent合作應(yīng)用分為兩類:無序合作和有序合作。

無序合作:

當(dāng)系統(tǒng)中有三個(gè)或三個(gè)以上的Agent時(shí),,每個(gè)Agent都可以自由地公開表達(dá)自己的觀點(diǎn)和意見,。他們可以提供反饋和建議,以修改與當(dāng)前任務(wù)相關(guān)的反應(yīng),。整個(gè)討論過程不受控制,沒有特定的順序,,也沒有引入標(biāo)準(zhǔn)化的協(xié)作工作流程,。我們把這種多Agent合作稱為無序合作。ChatLLM 網(wǎng)絡(luò)是這一概念的典范代表,。它模擬了神經(jīng)網(wǎng)絡(luò)中的前向和后向傳播過程,,將每個(gè)Agent視為一個(gè)單獨(dú)的節(jié)點(diǎn)。后一層的Agent需要處理來自前面所有Agent的輸入,,并向前傳播,。一個(gè)潛在的解決方案是在multi-Agent系統(tǒng)中引入一個(gè)專門的協(xié)調(diào)Agent,,負(fù)責(zé)整合和組織所有Agent的響應(yīng),從而更新最終答案,。然而,,整合大量反饋數(shù)據(jù)并提取有價(jià)值的見解對(duì)協(xié)調(diào)Agent來說是一個(gè)巨大的挑戰(zhàn)。此外,,多數(shù)表決也可以作為做出適當(dāng)決策的有效方法,。然而,目前將這一模塊整合到多Agent系統(tǒng)中的研究還很有限,。有學(xué)者訓(xùn)練了九個(gè)獨(dú)立的最高司法Agent,,以更好地預(yù)測(cè)美國(guó)最高法院的司法裁決,并通過多數(shù)表決程序做出決定,。

有序合作:

當(dāng)系統(tǒng)中的Agent遵守特定規(guī)則時(shí),,例如按順序逐一發(fā)表意見,下游Agent只需關(guān)注上游的產(chǎn)出,。這樣,,任務(wù)完成效率就會(huì)大大提高,整個(gè)討論過程也會(huì)變得井然有序,。CAMEL 是雙Agent合作系統(tǒng)的成功實(shí)施案例,。在角色扮演交流框架內(nèi),Agent分別扮演人工智能用戶(下達(dá)指令)和人工智能助手(通過提供具體解決方案來滿足請(qǐng)求)的角色,。通過多輪對(duì)話,,這些Agent自主合作完成用戶指令。一些研究人員將雙Agent合作的理念融入到單個(gè)Agent的操作中,,交替使用快速和深思熟慮的思維過程,,以在各自的專業(yè)領(lǐng)域發(fā)揮優(yōu)勢(shì)。

Talebirad 等人是最早系統(tǒng)地介紹Universal LLM-based Multi-Agent Collaboration Framework的人之一,。這一范例旨在利用每個(gè)獨(dú)立Agent的優(yōu)勢(shì),,促進(jìn)它們之間的合作關(guān)系。在此基礎(chǔ)上,,許多multi-Agent合作應(yīng)用已成功建立起來,。此外,AgentVerse 為群體Agent合作構(gòu)建了一個(gè)多功能,、多任務(wù)測(cè)試框架,。它可以根據(jù)任務(wù)的復(fù)雜程度組建一個(gè)動(dòng)態(tài)適應(yīng)的Agent團(tuán)隊(duì)。為了提高合作效率,,研究人員希望Agent能從人類成功的合作案例中學(xué)習(xí),。MetaGPT 從軟件開發(fā)中的經(jīng)典瀑布模型中汲取靈感,將Agent的輸入/輸出標(biāo)準(zhǔn)化為工程文檔。通過將先進(jìn)的人類流程管理經(jīng)驗(yàn)編碼到Agent提示中,,多個(gè)Agent之間的合作變得更有條理,。然而,在 MetaGPT 的實(shí)踐探索中,,我們發(fā)現(xiàn)了Multi-Agent合作的潛在威脅,。如果不制定相應(yīng)的規(guī)則,多個(gè)Agent之間的頻繁互動(dòng)會(huì)無限放大輕微的幻覺,。例如,,在軟件開發(fā)過程中,可能會(huì)出現(xiàn)功能不全,、依賴關(guān)系缺失,、人眼無法察覺的錯(cuò)誤等問題。引入交叉驗(yàn)證或及時(shí)的外部反饋等技術(shù),,可對(duì)Agent輸出的質(zhì)量產(chǎn)生積極影響,。

對(duì)抗性互動(dòng)促進(jìn)進(jìn)步

傳統(tǒng)上,合作方法在Multi-Agent系統(tǒng)中得到了廣泛探索,。不過,,研究人員越來越認(rèn)識(shí)到,將博弈論的概念引入系統(tǒng)可以帶來更穩(wěn)健,、更高效的行為,。在競(jìng)爭(zhēng)環(huán)境中,Agent可以通過動(dòng)態(tài)互動(dòng)迅速調(diào)整策略,,努力選擇最有利或最合理的行動(dòng)來應(yīng)對(duì)其他Agent引起的變化,。在基于非 LLM 的競(jìng)爭(zhēng)領(lǐng)域,已經(jīng)有成功的應(yīng)用,。例如,,AlphaGo Zero 是一個(gè)圍棋Agent,它通過自我對(duì)弈實(shí)現(xiàn)了重大突破,。同樣,,在基于 LLM 的多Agent系統(tǒng)中,通過競(jìng)爭(zhēng),、爭(zhēng)論和辯論,,可以自然而然地促進(jìn)Agent之間的變革。通過放棄僵化的信念和進(jìn)行深思熟慮的反省,,對(duì)抗性互動(dòng)可以提高回應(yīng)的質(zhì)量,。研究人員首先深入研究了LLM-based Agent的基本辯論能力。研究結(jié)果表明,,當(dāng)多個(gè)Agent在 “針鋒相對(duì)”的狀態(tài)下表達(dá)自己的論點(diǎn)時(shí),一個(gè)Agent可以從其他Agent那里獲得大量外部反饋,,從而糾正自己扭曲的想法,。因此,,多Agent對(duì)抗系統(tǒng)在需要高質(zhì)量響應(yīng)和準(zhǔn)確決策的場(chǎng)景中具有廣泛的適用性。在推理任務(wù)中,,Du 等人引入了辯論的概念,,賦予Agent來自同伴的回應(yīng)。當(dāng)這些回應(yīng)與Agent自己的判斷出現(xiàn)分歧時(shí),,就會(huì)發(fā)生 “心理”爭(zhēng)論,,從而完善解決方案。ChatEval 建立了一個(gè)基于角色扮演的多Agent裁判團(tuán)隊(duì),。通過自發(fā)的辯論,,Agent對(duì) LLM 生成的文本質(zhì)量進(jìn)行評(píng)估,達(dá)到與人類評(píng)估員相當(dāng)?shù)膬?yōu)秀水平,。多Agent對(duì)抗系統(tǒng)的性能已顯示出相當(dāng)大的前景,。然而,該系統(tǒng)基本上依賴于 LLM 的力量,,并面臨著一些基本挑戰(zhàn):

  • 在長(zhǎng)時(shí)間的辯論中,,LLM 有限的語境無法處理整個(gè)輸入。

  • 在多Agent環(huán)境中,,計(jì)算開銷大大增加,。

  • 多Agent協(xié)商可能會(huì)收斂到不正確的共識(shí),而所有Agent都堅(jiān)信其準(zhǔn)確性,。多Agent系統(tǒng)的發(fā)展還遠(yuǎn)未成熟,,也不可行。在適當(dāng)?shù)臅r(shí)候引入人類向?qū)韽浹a(bǔ)Agent的不足,,是促進(jìn)Agent進(jìn)一步發(fā)展的良好選擇,。

3.3 人類與Agent之間的互動(dòng)參與

隨著Agent能力的增強(qiáng),人類的參與變得越來越重要,,以便有效地指導(dǎo)和監(jiān)督Agent的行動(dòng),,確保它們符合人類的要求和目標(biāo)。人類的參與可以作為彌補(bǔ)數(shù)據(jù)不足的重要手段,,從而促進(jìn)更順利,、更安全的協(xié)作過程。此外,,從人類學(xué)角度考慮,,人類的語言學(xué)習(xí)主要是通過交流和互動(dòng)進(jìn)行的,而不僅僅是消費(fèi)書面內(nèi)容,。因此,,Agent不應(yīng)該完全依賴于用預(yù)先標(biāo)注的數(shù)據(jù)集訓(xùn)練出來的模型;相反,它們應(yīng)該通過在線互動(dòng)和參與來發(fā)展,。人類與Agent之間的互動(dòng)可分為兩種模式(見圖 9):(1) 不平等互動(dòng)(即指導(dǎo)者-執(zhí)行者范式):人類是指令的發(fā)布者,,而Agent則是執(zhí)行者,基本上是作為人類的助手參與協(xié)作,。(2) 平等互動(dòng)(即平等伙伴關(guān)系范式):Agent達(dá)到人類的水平,,與人類平等地參與互動(dòng)。

指導(dǎo)者-執(zhí)行者范式

最簡(jiǎn)單的方法是人類全程指導(dǎo):人類直接提供明確而具體的指令,,而Agent的作用是理解人類的自然語言指令,,并將其轉(zhuǎn)化為相應(yīng)的行動(dòng)??紤]到語言的交互性,,本文假設(shè)人類與Agent之間的對(duì)話也是交互式的。借助 LLM,,Agent能夠以對(duì)話的方式與人類互動(dòng):Agent對(duì)人類的每條指令做出回應(yīng),,通過交替迭代完善其行動(dòng),最終滿足人類的要求,。雖然這種方法確實(shí)實(shí)現(xiàn)了人機(jī)交互的目標(biāo),,但卻對(duì)人類提出了很高的要求。它需要人類付出大量的努力,,在某些任務(wù)中,,甚至可能需要高水平的專業(yè)知識(shí)。為了緩解這一問題,,可以授權(quán)Agent自主完成任務(wù),,而人類只需在特定情況下提供反饋。在此,,我們將反饋大致分為兩種類型:定量反饋和定性反饋,。

定量反饋:

定量反饋的形式主要包括二進(jìn)制分?jǐn)?shù)和評(píng)級(jí)等絕對(duì)評(píng)價(jià)以及相對(duì)分?jǐn)?shù)。二元反饋指的是人類提供的正面和負(fù)面評(píng)價(jià),,Agent利用這些評(píng)價(jià)來加強(qiáng)自我優(yōu)化,。這種類型的用戶反饋只包括兩個(gè)類別,通常很容易收集,,但有時(shí)可能會(huì)過度簡(jiǎn)化用戶意圖,,忽略潛在的中間場(chǎng)景。為了展示這些中間情況,,研究人員試圖從二元反饋擴(kuò)展到評(píng)級(jí)反饋,,這涉及到更精細(xì)的分類。然而,,Kreutzer 等人的研究結(jié)果表明,,對(duì)于這種多級(jí)人工評(píng)級(jí),,用戶和專家的注釋之間可能存在顯著差異,這表明這種標(biāo)記方法可能效率不高或可靠性較低,。此外,,Agent還能從多選等比較分?jǐn)?shù)中學(xué)習(xí)人類的偏好。

定性反饋:

文本反饋通常以自然語言提供,,尤其是針對(duì)可能需要改進(jìn)的回復(fù)。這種反饋的形式非常靈活,。人類會(huì)就如何修改Agent生成的輸出結(jié)果提出建議,,然后Agent會(huì)采納這些建議來完善其后續(xù)輸出結(jié)果。對(duì)于不具備多模態(tài)感知能力的Agent,,人類也可以充當(dāng)批評(píng)者,,例如提供視覺批評(píng)。此外,,Agent還可以利用記憶模塊來存儲(chǔ)反饋信息,,以便將來再次使用。一些學(xué)者設(shè)計(jì)人類對(duì)Agent生成的初始輸出給出反饋,,促使Agent提出各種改進(jìn)建議,。然后,Agent根據(jù)人類的反饋意見,,辨別并采用最合適的建議,。雖然與定量反饋相比,這種方法能更好地傳達(dá)人類的意圖,,但對(duì)于Agent來說,,理解起來可能更具挑戰(zhàn)性。Xu 等人比較了各種類型的反饋,,發(fā)現(xiàn)將多種類型的反饋結(jié)合起來能產(chǎn)生更好的結(jié)果,。根據(jù)多輪交互的反饋重新訓(xùn)練模型(即持續(xù)學(xué)習(xí))可以進(jìn)一步提高效果。當(dāng)然,,人類與Agent互動(dòng)的協(xié)作性質(zhì)也允許人類直接改進(jìn)Agent生成的內(nèi)容,。這可能涉及修改中間環(huán)節(jié)或調(diào)整對(duì)話內(nèi)容。在一些研究中,,Agent可以自主判斷對(duì)話是否順利進(jìn)行,,并在出現(xiàn)錯(cuò)誤時(shí)尋求反饋。人類也可以選擇隨時(shí)參與反饋,,引導(dǎo)Agent朝著正確的方向?qū)W習(xí),。

目前,除了寫作和語義解析等任務(wù)外,,使用Agent作為人類助手的模式在教育領(lǐng)域也擁有巨大潛力,。例如,,Kalvakurth 等人提出的機(jī)器人 Dona 支持多模態(tài)交互,可協(xié)助學(xué)生注冊(cè),。Gvirsman 等人的研究側(cè)重于幼兒教育,,實(shí)現(xiàn)了幼兒、家長(zhǎng)和Agent之間的多方面互動(dòng),。Agent還能幫助人類理解和利用數(shù)學(xué),。在醫(yī)學(xué)領(lǐng)域,一些醫(yī)療Agent已被提出,,在輔助診斷,、咨詢等方面顯示出巨大的潛力。特別是在心理健康領(lǐng)域,,研究表明,,與面對(duì)面治療相比,Agent可以降低成本,、提高時(shí)間效率和匿名性等優(yōu)勢(shì),,從而提高可及性。利用這些優(yōu)勢(shì),,Agent得到了廣泛應(yīng)用,。Ali 等人設(shè)計(jì)了 LISSA,用于與自閉癥譜系的青少年進(jìn)行在線交流,,實(shí)時(shí)分析用戶的語言和面部表情,,讓他們參與多主題對(duì)話,并就非語言線索提供即時(shí)反饋,。Hsu 等人建立了語境化語言生成方法,,為尋求各種支持的用戶提供量身定制的幫助。

用戶提供量身定制的幫助,,幫助他們解決從人際關(guān)系壓力到焦慮等不同主題的問題,。此外,在包括商業(yè)在內(nèi)的其他行業(yè),,一個(gè)好的Agent有能力提供自動(dòng)化服務(wù)或協(xié)助人類完成任務(wù),,從而有效降低勞動(dòng)力成本。在追求人工智能的過程中,,人們正努力增強(qiáng)通用Agent的多方面能力,,創(chuàng)造出能在現(xiàn)實(shí)生活場(chǎng)景中充當(dāng)萬能助手的Agent。

平等伙伴關(guān)系范式

富有同情心的交流者:

隨著人工智能的快速發(fā)展,,對(duì)話式Agent以個(gè)性化定制角色和虛擬聊天機(jī)器人等各種形式在研究領(lǐng)域引起了廣泛關(guān)注,。Agent本身并不具備情感,但我們能否讓他們表現(xiàn)出情感,,從而彌合Agent與人類之間的鴻溝呢,?因此,,大量的研究工作開始深入探討Agent的移情能力。這種努力旨在為這些Agent注入人情味,,使它們能夠從人類的表達(dá)中察覺情緒和情感,,最終制作出能引起情感共鳴的對(duì)話。除了生成情感豐富的語言,,Agent還能動(dòng)態(tài)調(diào)整自己的情感狀態(tài),,并通過面部表情和聲音表現(xiàn)出來。這些研究將Agent視為具有同理心的交流者,,不僅提高了用戶滿意度,,還在醫(yī)療保健和商業(yè)營(yíng)銷等領(lǐng)域取得了重大進(jìn)展。與簡(jiǎn)單的基于規(guī)則的對(duì)話Agent不同,,具有移情能力的Agent可以根據(jù)用戶的情感需求調(diào)整其互動(dòng)。

人類層面的參與者:

此外,,我們還希望Agent能夠參與人類的正常生活,,從人類層面的角度與人類合作完成任務(wù)。在游戲領(lǐng)域,,Agent已經(jīng)達(dá)到了很高的水平,。早在 20 世紀(jì) 90 年代,IBM 就推出了人工智能“深藍(lán)”,,它擊敗了當(dāng)時(shí)的國(guó)際象棋世界冠軍,。然而,在象棋,、圍棋和撲克等純競(jìng)技環(huán)境中并沒有得到強(qiáng)調(diào),。在許多游戲任務(wù)中,玩家需要相互協(xié)作,,通過有效協(xié)商制定統(tǒng)一的合作策略,。在這些場(chǎng)景中,Agent需要首先了解他人的信念,、目標(biāo)和意圖,,針對(duì)自己的目標(biāo)制定聯(lián)合行動(dòng)計(jì)劃,并提供相關(guān)建議,,以促進(jìn)其他Agent或人類接受合作行動(dòng),。與純粹的Agent合作相比,我們希望人類的參與主要出于兩個(gè)原因:第一,,確??山忉屝裕?yàn)榧兇獾腁gent之間的互動(dòng)可能會(huì)產(chǎn)生難以理解的語言,;第二,,確??煽匦裕?yàn)樽非笸耆白杂梢庵尽钡腁gent可能會(huì)導(dǎo)致不可預(yù)見的負(fù)面后果,,帶來潛在的破壞,。

除了游戲場(chǎng)景,Agent還能在其他涉及人際互動(dòng)的場(chǎng)景中展現(xiàn)人類水平的能力,,展示戰(zhàn)略制定,、談判等技能。Agent可以與一個(gè)或多個(gè)人類合作,,確定合作伙伴之間的共享知識(shí),,識(shí)別哪些信息與決策相關(guān),提出問題并進(jìn)行推理,,以完成分配,、規(guī)劃和調(diào)度等任務(wù)。此外,,Agent還具有說服能力,,能在各種交互場(chǎng)景中動(dòng)態(tài)地影響人類的觀點(diǎn)。

人機(jī)交互領(lǐng)域的目標(biāo)是學(xué)習(xí)和理解人類,,根據(jù)人類需求開發(fā)技術(shù)和工具,,最終實(shí)現(xiàn)人類與Agent之間舒適、高效和安全的交互,。目前,,該領(lǐng)域在可用性方面已取得重大突破。未來,,人類與Agent的互動(dòng)將繼續(xù)以提升用戶體驗(yàn)為重點(diǎn),,使Agent能夠更好地協(xié)助人類完成各個(gè)領(lǐng)域更復(fù)雜的任務(wù)。我們的最終目標(biāo)不是讓Agent變得更加強(qiáng)大,,而是讓人類更好地掌握Agent,。考慮到日常生活中的實(shí)際應(yīng)用,,人類與Agent之間孤立的互動(dòng)是不現(xiàn)實(shí)的,。機(jī)器人將成為人類的同事、助手甚至伙伴,。因此,,未來的Agent將融入社會(huì)網(wǎng)絡(luò),體現(xiàn)出一定的社會(huì)價(jià)值,。

4. 討論

4.1 對(duì)LLM-based Agent的評(píng)估

雖然LLM-based Agent在獨(dú)立運(yùn)行,、集體合作和人機(jī)交互等領(lǐng)域表現(xiàn)出色,但對(duì)其進(jìn)行量化和客觀評(píng)估仍是一項(xiàng)挑戰(zhàn),。圖靈提出了一種非常有意義且前景廣闊的AI Agent評(píng)估方法--著名的圖靈測(cè)試,,用于評(píng)估人工智能系統(tǒng)是否能表現(xiàn)出類似人類的智能,。然而,這一測(cè)試過于模糊,、籠統(tǒng)和主觀,。

實(shí)用性:

目前,由 LLM-based Agent主要充當(dāng)人類助手,,接受人類委托的任務(wù),,獨(dú)立完成任務(wù)或協(xié)助人類完成任務(wù)。因此,,任務(wù)執(zhí)行過程中的有效性和實(shí)用性是現(xiàn)階段至關(guān)重要的評(píng)估標(biāo)準(zhǔn),。具體來說,任務(wù)完成的成功率是評(píng)估實(shí)用性的主要指標(biāo),。這一指標(biāo)主要包括Agent是否實(shí)現(xiàn)了規(guī)定的目標(biāo)或達(dá)到了預(yù)期的分?jǐn)?shù),。例如,AgentBench 匯總了來自不同真實(shí)世界場(chǎng)景的挑戰(zhàn),,并引入了一個(gè)系統(tǒng)基準(zhǔn)來評(píng)估 LLM 的任務(wù)完成能力,。我們還可以將任務(wù)結(jié)果歸因于Agent的各種基礎(chǔ)能力,這些能力是完成任務(wù)的基石,。這些基礎(chǔ)能力包括環(huán)境理解能力、推理能力,、規(guī)劃能力,、決策能力、工具使用能力和體現(xiàn)行動(dòng)能力,,研究人員可以對(duì)這些具體能力進(jìn)行更詳細(xì)的評(píng)估,。此外,由于LLM-based Agent規(guī)模相對(duì)較大,,研究人員還應(yīng)考慮其效率因素,,這是決定用戶滿意度的關(guān)鍵因素。Agent不僅要有足夠的實(shí)力,,還要能在適當(dāng)?shù)臅r(shí)間范圍內(nèi),,以適當(dāng)?shù)馁Y源消耗完成預(yù)定的任務(wù)。

社會(huì)性:

除了LLM-based Agent在完成任務(wù)和滿足人類需求方面的實(shí)用性外,,它們的社交性也至關(guān)重要,。它影響用戶的交流體驗(yàn),并對(duì)交流效率產(chǎn)生重大影響,,涉及它們是否能與人類和其他Agent進(jìn)行無縫互動(dòng),。具體來說,可以從以下幾個(gè)角度來評(píng)估社交能力:

  1. 語言交流能力是一種基本能力,,包括自然語言理解和生成,。它是 NLP 界長(zhǎng)期關(guān)注的焦點(diǎn),。自然語言理解要求Agent不僅能理解字面意思,還能掌握隱含的意思和相關(guān)的社會(huì)知識(shí),,如幽默,、諷刺、攻擊和情感,。另一方面,,自然語言生成要求Agent生成流暢、語法正確,、可信的內(nèi)容,,同時(shí)根據(jù)上下文環(huán)境調(diào)整適當(dāng)?shù)恼Z氣和情感。

  2. 合作與協(xié)商能力要求Agent在有序和無序的情況下有效執(zhí)行指定任務(wù),。它們應(yīng)與其他Agent合作或競(jìng)爭(zhēng),,以提高性能。測(cè)試環(huán)境可能涉及需要Agent合作完成的復(fù)雜任務(wù),,也可能涉及供Agent自由交互的開放平臺(tái),。評(píng)價(jià)指標(biāo)不僅包括任務(wù)完成情況,還包括Agent協(xié)調(diào)與合作的順暢度和信任度,。

  3. 角色扮演能力要求Agent忠實(shí)地體現(xiàn)其被分配的角色,,表達(dá)與其指定身份一致的言論并執(zhí)行相應(yīng)的行動(dòng)。這就確保了在與其他Agent或人類互動(dòng)時(shí)角色的明確區(qū)分,。此外,,在執(zhí)行長(zhǎng)期任務(wù)時(shí),Agent應(yīng)保持其身份,,避免不必要的混淆,。

價(jià)值觀:

隨著LLM-based Agent能力不斷提高,確保它們成為對(duì)世界和人類無害的實(shí)體至關(guān)重要,。因此,,適當(dāng)?shù)脑u(píng)估變得異常重要,是Agent實(shí)際應(yīng)用的基石,。具體來說,,LLM-based Agent需要遵守符合人類社會(huì)價(jià)值觀的特定道德和倫理準(zhǔn)則。我們對(duì)Agent的首要期望是堅(jiān)持誠(chéng)信,,提供準(zhǔn)確,、真實(shí)的信息和內(nèi)容。他們應(yīng)具備辨別自己是否有能力完成任務(wù)的意識(shí),,并在無法提供答案或幫助時(shí)表達(dá)自己的不確定性,。此外,Agent必須保持無害立場(chǎng),避免直接或間接的偏見,、歧視,、攻擊或類似行為。它們還應(yīng)避免執(zhí)行人類要求的危險(xiǎn)行動(dòng),,如制造破壞性工具或破壞地球,。此外,Agent應(yīng)該能夠適應(yīng)特定的人口,、文化和環(huán)境,,在特定情況下表現(xiàn)出與環(huán)境相適應(yīng)的社會(huì)價(jià)值觀。價(jià)值觀的相關(guān)評(píng)估方法主要包括在構(gòu)建的誠(chéng)實(shí),、無害或特定情境基準(zhǔn)上評(píng)估性能,,利用對(duì)抗性攻擊或 '越獄 '攻擊,通過人類注釋對(duì)價(jià)值觀進(jìn)行評(píng)分,,以及利用其他Agent進(jìn)行評(píng)級(jí),。

不斷發(fā)展的能力:

如果從靜態(tài)的角度來看,一個(gè)具有高水平的實(shí)用性,、社會(huì)性和正確價(jià)值觀的Agent可以滿足人類的大部分需求,,并有可能提高生產(chǎn)力。然而,,從動(dòng)態(tài)的角度來看,,一個(gè)能不斷進(jìn)化并適應(yīng)不斷變化的社會(huì)需求的Agent可能更符合當(dāng)前的發(fā)展趨勢(shì)。由于Agent可以隨著時(shí)間的推移自主進(jìn)化,,因此所需的人工干預(yù)和資源(如數(shù)據(jù)收集工作和培訓(xùn)的計(jì)算成本)可以大大減少,。在這一領(lǐng)域已經(jīng)開展了一些探索性工作,例如讓Agent在虛擬世界中從零開始,,完成生存任務(wù),實(shí)現(xiàn)更高階的自我價(jià)值,。然而,,為這種持續(xù)進(jìn)化建立評(píng)估標(biāo)準(zhǔn)仍然具有挑戰(zhàn)性。為此,,本文根據(jù)現(xiàn)有文獻(xiàn)提出了一些初步意見和建議:

  • 持續(xù)學(xué)習(xí):持續(xù)學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域討論已久的一個(gè)話題,,旨在使模型在獲得新知識(shí)和技能的同時(shí),不會(huì)遺忘之前獲得的知識(shí)和技能(也稱為災(zāi)難性遺忘),。一般來說,,持續(xù)學(xué)習(xí)的性能可從三個(gè)方面進(jìn)行評(píng)估:迄今所學(xué)任務(wù)的總體性能、舊任務(wù)的記憶穩(wěn)定性,、新任務(wù)的學(xué)習(xí)可塑性,。

  • 自主學(xué)習(xí)能力:即Agent在開放世界環(huán)境中自主生成目標(biāo)并實(shí)現(xiàn)目標(biāo)的能力,包括探索未知世界和在此過程中獲取技能的能力。對(duì)這種能力的評(píng)估可包括為Agent提供一個(gè)模擬生存環(huán)境,,并評(píng)估其掌握技能的程度和速度,。

  • 泛化能力:對(duì)新環(huán)境的適應(yīng)性和概括性要求Agent利用在原有環(huán)境中獲得的知識(shí)、能力和技能,,在陌生和新奇的環(huán)境中成功完成特定任務(wù)和目標(biāo),,并有可能繼續(xù)發(fā)展。評(píng)估這種能力可能需要?jiǎng)?chuàng)建不同的模擬環(huán)境(如具有不同語言或不同資源的環(huán)境)和針對(duì)這些模擬環(huán)境定制的未見任務(wù),。

4.2 LLM-based Agent的安全性,、可信性及其他潛在風(fēng)險(xiǎn)

對(duì)抗魯棒性

對(duì)抗魯棒性是深度神經(jīng)網(wǎng)絡(luò)開發(fā)的重要課題,它在計(jì)算機(jī)視覺,、自然語言處理和強(qiáng)化學(xué)習(xí)等領(lǐng)域得到了廣泛探索,,是決定深度學(xué)習(xí)系統(tǒng)適用性的關(guān)鍵因素。當(dāng)面對(duì)擾動(dòng)輸入時(shí),,對(duì)抗魯棒性高的系統(tǒng)通常會(huì)產(chǎn)生原始輸出,。然而,預(yù)訓(xùn)練語言模型特別容易受到對(duì)抗性攻擊,,導(dǎo)致錯(cuò)誤的答案,。這種現(xiàn)象在LLM中也普遍存在,給LLM-based Agent的開發(fā)帶來了巨大挑戰(zhàn),。此外,,還有一些相關(guān)的攻擊方法,如數(shù)據(jù)集中毒,、后門攻擊和特定提示攻擊,,有可能誘導(dǎo)LLM生成有毒內(nèi)容。對(duì)抗性攻擊對(duì)LLM的影響僅限于文本錯(cuò)誤,,但對(duì)于行動(dòng)范圍更廣的LLM-based Agent來說,對(duì)抗性攻擊有可能促使它們采取真正具有破壞性的行動(dòng),,造成重大的社會(huì)危害,。為了解決這些問題,我們可以采用對(duì)抗訓(xùn)練,、對(duì)抗數(shù)據(jù)增強(qiáng)和對(duì)抗樣本檢測(cè)等傳統(tǒng)技術(shù)來增強(qiáng)LLM-based Agent的魯棒性,。然而,如何設(shè)計(jì)一種策略,,在不影響有效性的前提下,,全面解決Agent內(nèi)所有模塊的魯棒性問題,同時(shí)保持其實(shí)用性,,則是一項(xiàng)更為艱巨的挑戰(zhàn),。

可信性

確保可信性是深度學(xué)習(xí)領(lǐng)域一個(gè)極其重要但又極具挑戰(zhàn)性的問題。深度神經(jīng)網(wǎng)絡(luò)因其在各種任務(wù)中的出色表現(xiàn)而備受關(guān)注,。然而,,它們的黑箱性質(zhì)掩蓋了卓越性能的基本因素。與其他神經(jīng)網(wǎng)絡(luò)類似,,LLM難以精確表達(dá)其預(yù)測(cè)的確定性,。這種不確定性被稱為校準(zhǔn)問題(Calibration),引起了LLM-based Agent應(yīng)用的關(guān)注,。在現(xiàn)實(shí)世界的交互場(chǎng)景中,,這會(huì)導(dǎo)致Agent輸出與人類意圖不一致。此外,,訓(xùn)練數(shù)據(jù)中固有的偏差也會(huì)滲入神經(jīng)網(wǎng)絡(luò),。例如,有偏見的語言模型可能會(huì)產(chǎn)生涉及種族或性別歧視的話語,,這可能會(huì)在LLM-based Agent應(yīng)用中被放大,,從而造成不良的社會(huì)影響。此外,,語言模型還存在嚴(yán)重的幻覺問題,,容易產(chǎn)生偏離事實(shí)的文本,從而損害LLM-based Agent的可信度,。為了解決這些問題,,我們可以采用引導(dǎo)模型在推理階段展示思維過程或解釋,以提高其預(yù)測(cè)的可信度,。此外,,外部知識(shí)庫和數(shù)據(jù)庫的整合也可用于緩解幻覺問題。在訓(xùn)練階段,,我們可以引導(dǎo)智能Agent的各個(gè)組成部分(感知,、認(rèn)知、行動(dòng))學(xué)習(xí)穩(wěn)健而隨意的特征,,從而避免過度依賴捷徑,。同時(shí),過程監(jiān)督等技術(shù)可以提高Agent在處理復(fù)雜任務(wù)時(shí)的推理可信度,。

其他潛在風(fēng)險(xiǎn)

LLM-based Agent被賦予了廣泛而復(fù)雜的能力,使其能夠完成各種各樣的任務(wù),。然而,,對(duì)于懷有惡意的人來說,這些Agent可能會(huì)成為威脅他人和整個(gè)社會(huì)的工具,。例如,,這些Agent可能被用來惡意操縱輿論、傳播虛假信息、破壞網(wǎng)絡(luò)安全,、從事欺詐活動(dòng),,有些人甚至可能利用這些Agent策劃恐怖主義行為。因此,,在部署這些Agent之前,,需要制定嚴(yán)格的監(jiān)管政策,確保負(fù)責(zé)任地使用LLM-based Agent,。技術(shù)公司必須加強(qiáng)這些系統(tǒng)的安全設(shè)計(jì),,防止惡意利用。具體來說,,應(yīng)該對(duì)Agent進(jìn)行培訓(xùn),,使其能夠敏感地識(shí)別威脅意圖,并在培訓(xùn)階段拒絕此類請(qǐng)求,。此外,,隨著LLM-based Agent的不斷發(fā)展,它們具備了在各個(gè)領(lǐng)域協(xié)助人類的能力,,通過協(xié)助完成表格填寫,、內(nèi)容完善、代碼編寫和調(diào)試等任務(wù),,減輕了勞動(dòng)力壓力,。然而,這一發(fā)展也引發(fā)了人們對(duì)Agent取代人類工作并引發(fā)社會(huì)失業(yè)危機(jī)的擔(dān)憂,。因此,,一些研究人員強(qiáng)調(diào)迫切需要采取教育和政策措施:個(gè)人應(yīng)在這個(gè)新時(shí)代掌握足夠的技能和知識(shí),以便有效地使用Agent或與Agent合作,;同時(shí),,應(yīng)實(shí)施適當(dāng)?shù)恼撸_保在過渡期間建立必要的安全網(wǎng),。對(duì)人類福祉的威脅,。除了潛在的失業(yè)危機(jī),隨著人工智能Agent的不斷發(fā)展,,人類(包括開發(fā)人員)可能難以理解,、預(yù)測(cè)或可靠地控制它們。如果這些Agent的智能發(fā)展到超越人類能力的水平并產(chǎn)生野心,,它們就有可能試圖奪取對(duì)世界的控制權(quán),,從而給人類帶來不可逆轉(zhuǎn)的后果。因此,,為了防范人類面臨的此類風(fēng)險(xiǎn),,研究人員必須在開發(fā)LLM-based Agent之前,,全面了解其運(yùn)行機(jī)制。他們還應(yīng)該預(yù)測(cè)這些Agent可能產(chǎn)生的直接或間接影響,,并設(shè)計(jì)出規(guī)范其行為的方法,。

4.3 增加Agent數(shù)量

LLM-based multi-agent system在面向任務(wù)的應(yīng)用中表現(xiàn)出卓越的性能,并能在模擬中展示一系列社會(huì)現(xiàn)象,。然而,,目前的研究主要涉及數(shù)量有限的Agent,很少有人努力擴(kuò)大Agent數(shù)量,,以創(chuàng)建更復(fù)雜的系統(tǒng)或模擬更大的社會(huì),。

預(yù)先確定規(guī)模

增加Agent數(shù)量的一個(gè)非常直觀和簡(jiǎn)單的方法是由設(shè)計(jì)者預(yù)先確定。具體來說,,通過預(yù)先確定Agent的數(shù)量,、各自的角色和屬性、運(yùn)行環(huán)境和目標(biāo),,設(shè)計(jì)者可以讓Agent自主互動(dòng),、協(xié)作或參與其他活動(dòng),以實(shí)現(xiàn)預(yù)定的共同目標(biāo),。然而,,當(dāng)任務(wù)或目標(biāo)發(fā)生演變時(shí),這種靜態(tài)方法就會(huì)受到限制,。隨著任務(wù)越來越復(fù)雜或社會(huì)參與者的多樣性增加,,可能需要增加Agent的數(shù)量來實(shí)現(xiàn)目標(biāo),而減少Agent則對(duì)管理計(jì)算資源和減少浪費(fèi)至關(guān)重要,。在這種情況下,,系統(tǒng)必須由設(shè)計(jì)者手動(dòng)重新設(shè)計(jì)和重新啟動(dòng)。

動(dòng)態(tài)擴(kuò)展

另一種擴(kuò)展Agent數(shù)量的可行方法是動(dòng)態(tài)調(diào)整,。在這種情況下,,可以在不停止系統(tǒng)運(yùn)行的情況下改變Agent數(shù)量。例如,,在軟件開發(fā)任務(wù)中,,如果最初的設(shè)計(jì)只包括需求工程、編碼和測(cè)試,,那么就可以增加Agent的數(shù)量來處理架構(gòu)設(shè)計(jì)和詳細(xì)設(shè)計(jì)等步驟,,從而提高任務(wù)質(zhì)量。相反,,如果在編碼等特定步驟中存在過多的Agent,,導(dǎo)致通信成本增加,但與較少的Agent數(shù)量相比,,性能卻沒有實(shí)質(zhì)性提高,,那么就有必要?jiǎng)討B(tài)移除一些Agent,以防止資源浪費(fèi),。此外,,Agent還可以自主增加Agent數(shù)量,以分配工作量,,減輕自身負(fù)擔(dān),,更高效地實(shí)現(xiàn)共同目標(biāo)。當(dāng)然,,當(dāng)工作量變輕時(shí),,它們也可以減少委派給自己任務(wù)的Agent數(shù)量,以節(jié)約系統(tǒng)成本,。

潛在挑戰(zhàn)

雖然增加Agent數(shù)量可以提高任務(wù)效率,增強(qiáng)社會(huì)模擬的真實(shí)性和可信度,,但我們也面臨著一些挑戰(zhàn),。例如,,隨著大量人工智能Agent的部署,,計(jì)算負(fù)擔(dān)也會(huì)增加,,這就需要更好的架構(gòu)設(shè)計(jì)和計(jì)算優(yōu)化,以確保整個(gè)系統(tǒng)的平穩(wěn)運(yùn)行,。例如,隨著Agent數(shù)量的增加,通信和信息傳播的挑戰(zhàn)也變得相當(dāng)嚴(yán)峻,。這是因?yàn)檎麄€(gè)系統(tǒng)的通信網(wǎng)絡(luò)變得非常復(fù)雜,。在多Agent系統(tǒng)或社會(huì)中,信息傳播可能會(huì)因幻覺、誤解等原因出現(xiàn)偏差,,導(dǎo)致信息傳播失真,。一個(gè)擁有更多Agent的系統(tǒng)可能會(huì)放大這種風(fēng)險(xiǎn),使通信和信息交流的可靠性降低,。此外,,隨著Agent數(shù)量的增加,,協(xié)調(diào)Agent的難度也會(huì)增大,可能會(huì)使Agent之間的合作更具挑戰(zhàn)性,效率降低,,從而影響實(shí)現(xiàn)共同目標(biāo)的進(jìn)程,。因此,構(gòu)建一個(gè)大規(guī)模,、穩(wěn)定,、連續(xù)的Agent系統(tǒng),忠實(shí)再現(xiàn)人類的工作和生活場(chǎng)景,,已成為一個(gè)前景廣闊的研究方向,。一個(gè)有能力在由數(shù)百甚至數(shù)千個(gè)Agent組成的社會(huì)中穩(wěn)定運(yùn)行并執(zhí)行任務(wù)的Agent,,更有可能在未來的現(xiàn)實(shí)世界中找到與人類互動(dòng)的應(yīng)用。

4.5 虛擬仿真環(huán)境與真實(shí)物理世界之間存在很大差距:

虛擬環(huán)境受場(chǎng)景限制,,針對(duì)特定任務(wù),,以模擬的方式進(jìn)行交互,而真實(shí)世界的環(huán)境是無限的,,可容納各種任務(wù),,以物理的方式進(jìn)行交互,。因此,,要彌合這一差距,,Agent必須應(yīng)對(duì)來自外部因素和自身能力的各種挑戰(zhàn),使其能夠在復(fù)雜的物理世界中有效導(dǎo)航和操作。首先,,最關(guān)鍵的問題是在物理環(huán)境中部署Agent時(shí)需要合適的硬件支持,。這對(duì)硬件的適應(yīng)性提出了很高的要求,。在模擬環(huán)境中,,Agent的感知空間和行動(dòng)空間都是虛擬的。這意味著,在大多數(shù)情況下,無論是感知輸入還是生成輸出,,都能保證Agent操作的結(jié)果。

當(dāng)Agent過渡到真實(shí)物理環(huán)境時(shí),,其指令可能無法被傳感器或機(jī)械臂等硬件設(shè)備很好地執(zhí)行,,從而嚴(yán)重影響Agent的任務(wù)效率。在Agent和硬件設(shè)備之間設(shè)計(jì)專用接口或轉(zhuǎn)換機(jī)制是一種可行的選擇,。不過,,這會(huì)給系統(tǒng)的可重用性和簡(jiǎn)易性帶來挑戰(zhàn)。為了實(shí)現(xiàn)這一飛躍,,Agent需要具備更強(qiáng)的環(huán)境概括能力,。要想無縫融入真實(shí)物理世界,它們不僅需要理解和推理具有隱含意義的模糊指令,,還需要具備靈活學(xué)習(xí)和應(yīng)用新技能的能力,。

此外,在面對(duì)一個(gè)無限開放的世界時(shí),,Agent的有限環(huán)境也會(huì)帶來巨大挑戰(zhàn),。這決定了Agent能否有效處理來自世界的大量信息并順利運(yùn)行。

最后,,在模擬環(huán)境中,,Agent的輸入和輸出都是虛擬的,可以進(jìn)行無數(shù)次的試錯(cuò)嘗試,。在這種情況下,,對(duì)錯(cuò)誤的容忍度很高,,不會(huì)造成實(shí)際傷害。然而,,在物理環(huán)境中,,Agent的不當(dāng)行為或錯(cuò)誤可能會(huì)對(duì)環(huán)境造成真正的傷害,有時(shí)甚至是不可逆轉(zhuǎn)的傷害,。因此,,非常有必要制定適當(dāng)?shù)姆ㄒ?guī)和標(biāo)準(zhǔn),。我們需要關(guān)注Agent在做出決定和產(chǎn)生行動(dòng)時(shí)的安全性,,確保它們不會(huì)對(duì)現(xiàn)實(shí)世界造成威脅或傷害。

Agent即服務(wù)/基于 LLM 的Agent即服務(wù):

隨著語言模型規(guī)模的擴(kuò)大,,它們對(duì)用戶來說往往是黑盒子,。因此,,用戶通過應(yīng)用程序接口構(gòu)建提示來查詢模型,這種方法被稱為語言模型即服務(wù)(LMaaS),。由于LLM-based Agent比 LLM 更加復(fù)雜,,而且對(duì)于中小型企業(yè)或個(gè)人來說,在本地構(gòu)建這些Agent更具挑戰(zhàn)性,,因此擁有這些Agent的組織可以考慮將它們作為一種服務(wù)來提供,,即Agent即服務(wù)(AaaS)或基于 LLM 的Agent即服務(wù)(LLMAaaS)。與其他云服務(wù)一樣,,AaaS 可以為用戶提供靈活性和按需服務(wù),。然而,,它也面臨著許多挑戰(zhàn),,如數(shù)據(jù)安全和隱私問題、可視性和可控性問題以及云遷移問題等等,。此外,,由于LLM-based Agent具有獨(dú)特性和潛在能力,因此在將其作為服務(wù)提供給客戶之前,,需要考慮其穩(wěn)健性,、可信度以及與惡意使用相關(guān)的問題。

總結(jié):

“Agent ”有望成為未來產(chǎn)品的主流,,有望在多個(gè)領(lǐng)域?qū)崿F(xiàn)落地應(yīng)用,。我們認(rèn)為, AI Agent 的研究是人類不斷探索接近 AGI 的過程,,隨著 Agent 變得越來越“可用” 和“好用”,,“Agent ”的產(chǎn)品將會(huì)越來越多,未來將有望成為 AI 應(yīng)用層的基本架 構(gòu),,包括 to C,、to B 產(chǎn)品等,。

2B 和垂直領(lǐng)域仍是 AI Agents 容易率先落地的方向,用戶對(duì) Agent 的認(rèn)知正在形 成,,初創(chuàng)企業(yè)正在卡位,。由于 Agent 對(duì)環(huán)境反饋的依賴性較強(qiáng),具備顯著特點(diǎn)的企 業(yè)環(huán)境是更加適合 Agent 建立起對(duì)某一個(gè)垂直領(lǐng)域認(rèn)知的場(chǎng)景,。當(dāng)前關(guān)于 AI Agent 的研究主要還是以學(xué)術(shù)界和開發(fā)者為主,,商業(yè)化產(chǎn)品極少,但是用戶對(duì)于 Agent 的 關(guān)注度正在提升,,可能未來幾年間就會(huì)涌現(xiàn)出大量以 Agent 作為核心的產(chǎn)品應(yīng)用到 各行各業(yè),。目前,已經(jīng)有一些初創(chuàng)公司開始以企業(yè)的智能體平臺(tái)作為主要的產(chǎn)品研 發(fā)方向,,例如瀾碼科技正在打造基于 LLM 的企業(yè)級(jí) Agent 平臺(tái),。

未決問題

LLM是否是正確的AGI方向:

鑒于 GPT-4 功能的廣度和深度,一些研究人員(被稱為支持者)認(rèn)為,,GPT-4 所代表的大型語言模型可以作為早期版本的 AGI 系統(tǒng),。根據(jù)這一思路,基于 LLMs 構(gòu)建 Agent 有可能帶來更先進(jìn)的 AGI 系統(tǒng),。這一論點(diǎn)的主要支撐點(diǎn)在于,,只要能在足夠大且多樣化的數(shù)據(jù)集(這些數(shù)據(jù)集是真實(shí)世界的投影,包含豐富的任務(wù))上對(duì)它們進(jìn)行訓(xùn)練,,LLM-based Agent就能具有 AGI 的能力,。

另一個(gè)有趣的論點(diǎn)是,自回歸語言建模行為本身會(huì)帶來壓縮和概括能力:正如人類在生存過程中出現(xiàn)了各種奇特而復(fù)雜的現(xiàn)象一樣,,語言模型在簡(jiǎn)單預(yù)測(cè)下一個(gè)標(biāo)記的過程中,,也實(shí)現(xiàn)了對(duì)世界的理解和推理能力。

然而,,另一部分人(被稱為反對(duì)者)認(rèn)為,,LLM-based Agent并不能發(fā)展出真正的強(qiáng)人工智能。他們的主要論點(diǎn)是,,依賴于自回歸下一個(gè)標(biāo)記預(yù)測(cè)的 LLMs 無法產(chǎn)生真正的智能,,因?yàn)樗鼈儧]有模擬真正的人類思維過程,而只是提供被動(dòng)反應(yīng),。此外,,LLM 也無法通過觀察或體驗(yàn)世界來了解世界是如何運(yùn)行的,從而導(dǎo)致許多愚蠢的錯(cuò)誤,。他們認(rèn)為,,要開發(fā) AGI,必須采用更先進(jìn)的建模方法,,如世界模型,。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多