360篇文獻(xiàn),！從終生學(xué)習(xí)視角出發(fā)，華南理工團(tuán)隊(duì)發(fā)布全新Agent綜述

黃爸爸好 2025-01-26

展開(kāi)全文

MLNLP社區(qū)是國(guó)內(nèi)外知名的機(jī)器學(xué)習(xí)與自然語(yǔ)言處理社區(qū),，受眾覆蓋國(guó)內(nèi)外NLP碩博生,、高校老師以及企業(yè)研究人員。

社區(qū)的愿景是促進(jìn)國(guó)內(nèi)外自然語(yǔ)言處理,，機(jī)器學(xué)習(xí)學(xué)術(shù)界,、產(chǎn)業(yè)界和廣大愛(ài)好者之間的交流和進(jìn)步，特別是初學(xué)者同學(xué)們的進(jìn)步。

轉(zhuǎn)載自 | PaperWeekly

作者 | 李秋科@華南理工大學(xué)

研究方向 | 自然語(yǔ)言處理

整合三百多篇文獻(xiàn),，2025 年首篇 Agent 綜述正式推出,！華南理工大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘?qū)嶒?yàn)室的馬千里教授團(tuán)隊(duì)從終生學(xué)習(xí)的視角出發(fā)，匯總了基于大語(yǔ)言模型的智能體的創(chuàng)新研究成果,。

論文標(biāo)題：

Lifelong Learning of Large Language Model based Agents: A Roadmap

論文地址：

https:///abs/2501.07278

論文倉(cāng)庫(kù)：

https://github.com/qianlima-lab/awesome-lifelong-llm-Agent

摘要

終生學(xué)習(xí),，也稱(chēng)為持續(xù)學(xué)習(xí)或增量學(xué)習(xí)，旨在解決讓智能系統(tǒng)在不斷變化的環(huán)境中持續(xù)進(jìn)化的核心挑戰(zhàn),。盡管大語(yǔ)言模型在自然語(yǔ)言處理任務(wù)上展現(xiàn)了驚人的能力,，但傳統(tǒng)方法通常集中在靜態(tài)文本適應(yīng)上，難以應(yīng)對(duì)復(fù)雜真實(shí)場(chǎng)景中對(duì)動(dòng)態(tài)感知,、推理和執(zhí)行行為的需求,。

這篇綜述強(qiáng)調(diào)了從靜態(tài) LLMs 到動(dòng)態(tài)環(huán)境交互式 LLM 智能體的范式轉(zhuǎn)變，這些智能體具備多模態(tài)感知,、集成記憶管理和行動(dòng)導(dǎo)向的決策能力,。

我們系統(tǒng)地分類(lèi)了這些智能體的核心模塊，分別考察了多模態(tài)輸入整合的感知模塊,、存儲(chǔ)和檢索不斷演化知識(shí)的記憶模塊,、以及支持真實(shí)交互的行動(dòng)模塊。通過(guò)這三大支柱的協(xié)同作用,，智能體能夠?qū)崿F(xiàn)持續(xù)適應(yīng),、減輕災(zāi)難性遺忘并提升長(zhǎng)期能力。

除了對(duì)最新技術(shù),、架構(gòu)和策略進(jìn)行結(jié)構(gòu)化概述外,，我們還深入探討了新興趨勢(shì),、評(píng)估指標(biāo)及應(yīng)用場(chǎng)景,，涵蓋了通用和專(zhuān)用領(lǐng)域。本文為研究人員和實(shí)踐者設(shè)計(jì)和部署能夠模擬人類(lèi)學(xué)習(xí)模式,、持續(xù)優(yōu)化理解并優(yōu)雅適應(yīng)新挑戰(zhàn)的終生學(xué)習(xí) LLM 智能體提供了發(fā)展路線(xiàn)圖,。

▲ 圖2. 基于 LLM 的智能體在現(xiàn)實(shí)世界中的終生學(xué)習(xí)示例

引言

終生學(xué)習(xí)：也稱(chēng)為持續(xù)學(xué)習(xí)或增量學(xué)習(xí)，指的是系統(tǒng)在不遺忘先前學(xué)習(xí)的信息的情況下,，獲取,、整合和保留知識(shí)的能力，使系統(tǒng)能夠隨著時(shí)間的推移不斷適應(yīng)和改進(jìn),。

終生學(xué)習(xí)使智能系統(tǒng)能夠隨時(shí)間及環(huán)境不斷適應(yīng)和改進(jìn),，因此成為了智能系統(tǒng)發(fā)展中的一個(gè)焦點(diǎn)。

盡管終生學(xué)習(xí)具有極大的潛力,，其在當(dāng)前 ai 發(fā)展的應(yīng)用上仍具有一定困難,。目前的 AI 系統(tǒng)在終生學(xué)習(xí)中面臨兩個(gè)主要挑戰(zhàn)：災(zāi)難性遺忘和可塑性喪失。一方面，當(dāng)系統(tǒng)在學(xué)習(xí)新任務(wù)時(shí)遺忘了先前所學(xué)信息,，就會(huì)發(fā)生災(zāi)難性遺忘,，在環(huán)境變化時(shí)這一問(wèn)題尤為突出。另一方面,，可塑性喪失指的是系統(tǒng)無(wú)法適應(yīng)新任務(wù)或新環(huán)境,。

這兩個(gè)挑戰(zhàn)構(gòu)成了穩(wěn)定性-可塑性困境，即：靜態(tài)系統(tǒng)可避免遺忘但缺乏適應(yīng)能力,，而專(zhuān)注于動(dòng)態(tài)適應(yīng)的系統(tǒng)則面臨遺忘過(guò)往知識(shí)的風(fēng)險(xiǎn),。克服這一困境是推動(dòng)人工智能發(fā)展的關(guān)鍵,，也是實(shí)現(xiàn)通用人工智能的基礎(chǔ)挑戰(zhàn),。

因此，構(gòu)建能夠?qū)崿F(xiàn)終生學(xué)習(xí)的基于大語(yǔ)言模型的智能體十分重要,。傳統(tǒng)大語(yǔ)言模型訓(xùn)練后是靜態(tài)的,，知識(shí)固定，難整合新信息,，限制了其在動(dòng)態(tài)現(xiàn)實(shí)場(chǎng)景中的應(yīng)用,。而 LLM Agent 是能與環(huán)境交互的自主實(shí)體，可以感知多模態(tài)數(shù)據(jù),、存儲(chǔ)信息并采取行動(dòng)影響或響應(yīng)環(huán)境,。

通過(guò)將終生學(xué)習(xí)融入大語(yǔ)言模型智能體，我們?cè)趧?dòng)態(tài)的現(xiàn)實(shí)世界應(yīng)用中釋放了它們的全部潛力,。這些智能體可以不斷進(jìn)化,、獲取新知識(shí)并保留關(guān)鍵信息，使它們更具適應(yīng)性和通用性,。這種終生學(xué)習(xí)過(guò)程對(duì)于不斷出現(xiàn)新挑戰(zhàn)的環(huán)境至關(guān)重要,，例如自主機(jī)器人、交互式助手和自適應(yīng)決策支持系統(tǒng),。

總體而言,，本綜述的貢獻(xiàn)可總結(jié)如下：

全面概述了對(duì) LLM Agent 中終生學(xué)習(xí)的基礎(chǔ)概念和架構(gòu)。
深入研究了智能體包括感知,、記憶和行動(dòng)在內(nèi)的關(guān)鍵組成部分,，這些部分使 LLM Agent 能夠?qū)崿F(xiàn)自適應(yīng)行為。
調(diào)研了能夠展示終生學(xué)習(xí)在 LLM 中的實(shí)際應(yīng)用和益處的案例,。
回顧了用于評(píng)估 LLM Agent 中終生學(xué)習(xí)的評(píng)估指標(biāo)和基準(zhǔn),。
確定了這個(gè)快速發(fā)展領(lǐng)域中的關(guān)鍵挑戰(zhàn)和未來(lái)研究方向。

LifeLong LLM Agent 的構(gòu)建

▲ 圖6. 基于終生學(xué)習(xí)的大型語(yǔ)言模型智能體的整體架構(gòu),，包括三個(gè)關(guān)鍵模塊：感知,、記憶和行動(dòng),。

2.1 感知

人類(lèi)在面對(duì)新任務(wù)時(shí)，依賴(lài)于不斷感知外界的新信息來(lái)提升解決問(wèn)題的能力,。這一過(guò)程不僅涉及對(duì)環(huán)境的觀察和理解,，還包括從經(jīng)驗(yàn)中學(xué)習(xí)，以調(diào)整和優(yōu)化自身的行為策略,。類(lèi)似地,，基于大語(yǔ)言模型的智能體在終生學(xué)習(xí)的過(guò)程中也需要通過(guò)感知模塊不斷獲取和整合來(lái)自不同場(chǎng)景和模態(tài)的信息，以適應(yīng)不斷變化的任務(wù)和環(huán)境,。

▲ 圖7. 感知架構(gòu)圖

這篇綜述中,，我們將 LLM Agent 的感知模塊劃分為了單模態(tài)感知和多模態(tài)感知。

2.1.1 單模態(tài)感知

LLM Agent 的單模態(tài)感知主要還是用于接收文本信息,。在終生學(xué)習(xí)的過(guò)程中,，Agent 接受的文本信息源可能來(lái)自于不同的結(jié)構(gòu)和場(chǎng)景。

在自然文本的環(huán)境中,，現(xiàn)階段的 LLM 系統(tǒng)已經(jīng)具備了通過(guò)文本輸入和輸出與人類(lèi)溝通的基本能力,。在此基礎(chǔ)上，Agent 需要從一些從非自然文本的環(huán)境中獲取文本信息以更好模擬現(xiàn)實(shí)世界中的信息感知,。

例如在網(wǎng)頁(yè),、圖表等來(lái)源的環(huán)境中，一些方法通過(guò)提取遵循標(biāo)準(zhǔn)化格式的結(jié)構(gòu)化文本,，以將復(fù)雜的信息轉(zhuǎn)化為 LLM Agent 可以直接訪(fǎng)問(wèn)的信息,，例如通過(guò)對(duì) HTML 文檔的操作和屏幕截圖識(shí)別等。

而在更為復(fù)雜的游戲環(huán)境中,，LLM Agent 可以通過(guò)文本介質(zhì)來(lái)感知系統(tǒng)所處的游戲環(huán)境,，如角色、時(shí)間,、地點(diǎn),、事件、情感等,，并根據(jù)這些游戲元素的反饋使用文本指令來(lái)進(jìn)行相應(yīng)的操作,。

總之，智能體應(yīng)該能在各種復(fù)雜的環(huán)境中具有良好的文本感知能力和適應(yīng)能力,。而隨著相關(guān)研究變多，探索 Agent 如何感知在更為廣闊的環(huán)境中的文本輸入變得更有前景,。

2.1.2 多模態(tài)感知

由于現(xiàn)實(shí)世界是由多種數(shù)據(jù)模態(tài)構(gòu)成,，單模態(tài)感知方法無(wú)法充分滿(mǎn)足現(xiàn)實(shí)世界的復(fù)雜性。隨著網(wǎng)絡(luò)平臺(tái)上圖像,、文本和視頻內(nèi)容的爆炸性增長(zhǎng),，開(kāi)發(fā)能夠持續(xù)感知多模態(tài)信息的 LLM Agent 變得至關(guān)重要,。

這些智能體需有效整合來(lái)自不同模態(tài)的信息，同時(shí)保持對(duì)先前模態(tài)知識(shí)的積累與適應(yīng),，從而更好地模擬人類(lèi)在多模態(tài)環(huán)境中的持續(xù)學(xué)習(xí)過(guò)程,，提升其整體感知和認(rèn)知能力。

▲ 圖8. 基于LLM的Agent在多模態(tài)感知上的終生學(xué)習(xí)方法

我們將 Agent 對(duì)多模態(tài)信息感知的終生學(xué)習(xí)處理方法分為了新知識(shí)感知和舊知識(shí)感知：

在新知識(shí)感知中,，Agent 需要關(guān)注不同模態(tài)之間的交互以及對(duì)新模態(tài)的感知與處理,，以更好地應(yīng)對(duì)現(xiàn)實(shí)世界中快速變化迭代的信息形式。很多研究關(guān)注當(dāng) Agent 遇到包含新模態(tài)的任務(wù)時(shí),，如何在保持對(duì)舊模態(tài)任務(wù)的穩(wěn)定性下,，提升解決新任務(wù)能力。

我們根據(jù) Agent 遇到新模態(tài)任務(wù)的不同情況的處理進(jìn)行了分類(lèi),。

模態(tài)完全學(xué)習(xí)（Modality-Complete Learning）假設(shè)所有數(shù)據(jù)在訓(xùn)練階段和推理階段都具有相同的模態(tài),。在這種場(chǎng)景下，Agent 的多模態(tài)感知終生學(xué)習(xí)重點(diǎn)關(guān)注如何接受來(lái)自多種模態(tài)的數(shù)據(jù)以及在新任務(wù)中實(shí)現(xiàn)跨模態(tài)的知識(shí)遷移,。

一些研究探索了模態(tài)無(wú)關(guān)模型,，旨在使模型能夠接受多種模態(tài)信息作為輸入。
還有一些研究關(guān)注跨模態(tài)知識(shí)遷移,，旨在學(xué)習(xí)如何運(yùn)用已獲得模態(tài)信息的知識(shí)以遷移到另一個(gè)模態(tài)中,，以提高模型在面對(duì)新模態(tài)任務(wù)的性能。

模態(tài)不完全學(xué)習(xí)（Modality-Incomplete Learning）涉及 Agent 在終生學(xué)習(xí)的過(guò)程中遇到部分模態(tài)信息缺失或不完整的情況下,，如何動(dòng)態(tài)適應(yīng)以有效學(xué)習(xí)和推斷的問(wèn)題,。

例如，通過(guò)運(yùn)用混合專(zhuān)家（MoE）模塊,，PathWeave【46】通過(guò)引入了一種新穎的“適配器中的適配器”（AnA）框架,，使得單模態(tài)和跨模態(tài)適配器無(wú)縫集成，能夠增量式地學(xué)習(xí)新增模態(tài)知識(shí),。
還有一些研究利用可用模態(tài)信息來(lái)預(yù)測(cè)缺失模態(tài)的表示,，以及通過(guò)學(xué)習(xí)模態(tài)信息的共享和特定特征來(lái)更好地表示輸入數(shù)據(jù)，以在處理模態(tài)缺失時(shí)表現(xiàn)出更好的魯棒性,。

在舊知識(shí)感知中,，我們關(guān)注 Agent 在接受新的信息后保持對(duì)已有模態(tài)知識(shí)的穩(wěn)定性。針對(duì)災(zāi)難性遺忘問(wèn)題,，我們呈現(xiàn)了具體以下幾種方法：

基于正則的方法：旨在通過(guò)引入正則化項(xiàng)來(lái)限制新任務(wù)學(xué)習(xí)過(guò)程中模型參數(shù)的變化,，從而減輕災(zāi)難性遺忘現(xiàn)象。根據(jù)約束施加的方法,，還可以更細(xì)化為權(quán)重正則化和函數(shù)正則化,。

權(quán)重正則化通過(guò)直接對(duì)模型的權(quán)重施加懲罰項(xiàng)，限制其在學(xué)習(xí)新任務(wù)時(shí)的變化,。
函數(shù)正則化側(cè)重于對(duì)模型中間或最終輸出的約束,，確保在學(xué)習(xí)新任務(wù)時(shí),，模型能夠保留對(duì)舊任務(wù)的輸出特征。這種方法常常與知識(shí)蒸餾策略相結(jié)合,。

基于重放的方法：是一種通過(guò)保留和重新使用先前學(xué)習(xí)經(jīng)驗(yàn)的方式,，來(lái)緩解災(zāi)難性遺忘的問(wèn)題。在多模態(tài)持續(xù)感知學(xué)習(xí)中,，根據(jù)重放的具體內(nèi)容,，可以將方法分為經(jīng)驗(yàn)重放和生成重放。

由于存儲(chǔ)空間的限制,，經(jīng)驗(yàn)重放方法的重點(diǎn)在于如何利用有限的內(nèi)存空間存儲(chǔ)更具代表性的舊訓(xùn)練樣本,。
生成重放則需要訓(xùn)練一個(gè)額外的生成模型來(lái)重放生成的數(shù)據(jù)，這種方法可以有效減小存儲(chǔ)需求,。

其他方法：現(xiàn)有研究還有一些基于投影以及架構(gòu)的方法,。

基于投影的方法將不同模態(tài)的數(shù)據(jù)（如圖像、文本和音頻）映射到一個(gè)統(tǒng)一的特征空間,，以便于模型接受信息,。
基于架構(gòu)的方法是一種通過(guò)調(diào)整模型的結(jié)構(gòu)來(lái)支持持續(xù)學(xué)習(xí)的策略。這種方法通過(guò)將模型分為任務(wù)共享和任務(wù)特定組件,，確保任務(wù)間的相對(duì)隔離,，以減少學(xué)習(xí)新任務(wù)后對(duì)舊知識(shí)的影響。

2.2 記憶

在 LLM Agent 的終生學(xué)習(xí)過(guò)程中,，記憶模塊能夠使智能體存儲(chǔ),、保留和回憶信息。這一能力不僅有助于智能體從過(guò)去的經(jīng)驗(yàn)中學(xué)習(xí),，還能改善決策過(guò)程,。記憶是智能體形成連貫長(zhǎng)期行為、做出知情決策和與其他智能體或人類(lèi)進(jìn)行有意義互動(dòng)的基礎(chǔ),。

▲ 圖10. 記憶架構(gòu)圖

因此,，記憶模塊支持智能體通過(guò)經(jīng)驗(yàn)學(xué)習(xí)、避免災(zāi)難性遺忘,，并促進(jìn)協(xié)作行為,。我們將記憶模塊分為四個(gè)關(guān)鍵類(lèi)型：工作記憶、情節(jié)記憶,、語(yǔ)義記憶和參數(shù)記憶,。這四種類(lèi)型協(xié)同運(yùn)作，構(gòu)成一個(gè)全面的記憶系統(tǒng),。

2.2.1 工作記憶

工作記憶是智能體的短期記憶,，負(fù)責(zé)處理即時(shí)上下文信息，例如提示詞,、用戶(hù)輸入和相關(guān)的工作區(qū)信息,。它使智能體能夠?qū)崟r(shí)處理當(dāng)前上下文，從而為短期推理和決策提供基礎(chǔ),。我們從五個(gè)主要角度討論工作記憶：提示詞壓縮,、長(zhǎng)上下文理解、角色扮演,、自我糾正和提示優(yōu)化,。

▲ 圖11. 工作記憶的組成

提示詞壓縮

智能體可以通過(guò)壓縮用戶(hù)輸入的提示詞來(lái)有效地增加上下文內(nèi)容的容量。這一過(guò)程提高了信息處理效率,，并幫助智能體避免對(duì)歷史信息的災(zāi)難性遺忘,，從而支持終生學(xué)習(xí)。

提示壓縮技術(shù)主要分為兩類(lèi)：

軟壓縮：通過(guò)優(yōu)化少量的軟提示令牌（token）來(lái)壓縮原始提示,，保留關(guān)鍵信息和抽象情感,。這種方法有助于生成摘要向量，使智能體能夠更高效地處理信息,，同時(shí)支持緩存和重用較短的摘要令牌,，以提升計(jì)算效率。
硬壓縮：直接過(guò)濾冗余或非必要的提示令牌,，提供更簡(jiǎn)潔的提示表示,。硬壓縮方法通過(guò)評(píng)估各個(gè)詞匯單元的重要性，僅保留信息量較高的部分,，從而優(yōu)化智能體的輸入,。

長(zhǎng)上下文理解

在工作記憶中，處理長(zhǎng)文本是常見(jiàn)的需求,，這不僅提升了智能體對(duì)文本的理解能力,，還促進(jìn)了其在終生學(xué)習(xí)過(guò)程中的適應(yīng)性。長(zhǎng)文本理解的主要方法包括：

上下文選擇：將長(zhǎng)文本分割成多個(gè)段落,，依據(jù)重要性標(biāo)準(zhǔn)選擇特定段落,。這種方法幫助智能體提取關(guān)鍵內(nèi)容，從而提高信息處理的效率,。
上下文聚合：通過(guò)整合來(lái)自不同區(qū)域的特征信息,，增強(qiáng)模型對(duì)局部和全局上下文的理解。此方法使模型能夠更全面地把握文本的整體意義,。這兩種方法共同作用,，使智能體能夠有效處理長(zhǎng)文本輸入，提升信息提取和理解的能力,，同時(shí)支持其在不斷變化的環(huán)境中進(jìn)行持續(xù)學(xué)習(xí),。

角色扮演

在工作記憶中，角色扮演是一種增強(qiáng)智能體與用戶(hù)互動(dòng)的有效機(jī)制,，有助于實(shí)現(xiàn)更加個(gè)性化和多維的溝通,。角色扮演的主要形式和特點(diǎn)包括：

▲ 圖12. 單智能體和多智能體的區(qū)別

單智能體角色扮演：通過(guò)構(gòu)建一個(gè)能夠模擬特定角色的智能體,，定義角色的性格特征和背景故事，收集相關(guān)數(shù)據(jù),，使用大型語(yǔ)言模型生成角色語(yǔ)言和行為,。這種方法使智能體能夠在與用戶(hù)的互動(dòng)中真實(shí)地表現(xiàn)角色的特征。
多智能體協(xié)作角色扮演：多個(gè)智能體共同工作,，用戶(hù)為每個(gè)智能體分配角色和任務(wù),，以實(shí)現(xiàn)復(fù)雜的互動(dòng)。通過(guò)協(xié)作,，智能體能夠完成更具挑戰(zhàn)性的任務(wù),，提升整體系統(tǒng)的效率。例如,，MetaGPT 利用元編程方法將任務(wù)分解為子任務(wù),，并通過(guò)不同智能體執(zhí)行，增強(qiáng)了結(jié)果的驗(yàn)證和錯(cuò)誤的最小化,。

自我糾正

用戶(hù)通過(guò)特定提示指示智能體回顧和評(píng)估其先前的響應(yīng),，以識(shí)別和糾正潛在錯(cuò)誤，從而啟用智能體的自我糾正功能,。這一過(guò)程通過(guò)要求智能體不僅識(shí)別錯(cuò)誤,，還重新思考并提供修正答案，來(lái)優(yōu)化模型的輸出,，使智能體能夠從提示中持續(xù)學(xué)習(xí)和改進(jìn),，實(shí)現(xiàn)終生學(xué)習(xí)。自我糾正的主要策略包括：

依賴(lài)其他模型的反饋：N-CRITICS 利用多個(gè)不同的通用大型語(yǔ)言模型作為評(píng)論者,，評(píng)估主模型生成的輸出并提供反饋,。該方法采用迭代反饋機(jī)制，無(wú)需監(jiān)督訓(xùn)練,，初始輸出由評(píng)論者集合評(píng)估,，所收集的批評(píng)意見(jiàn)用于指導(dǎo)主模型迭代修正輸出，直到滿(mǎn)足特定的停止條件,。
評(píng)估自身信心水平：Li 等人提出了 If-or-Else 提示框架,，以指導(dǎo)大型語(yǔ)言模型評(píng)估其自身信心并促進(jìn)內(nèi)在自我糾正。
借助外部工具：CRITIC 通過(guò)與外部工具的互動(dòng)來(lái)引導(dǎo)大型語(yǔ)言模型進(jìn)行自我糾正,。該框架的核心思想是模擬人類(lèi)使用外部工具（例如,，事實(shí)檢查的搜索引擎或調(diào)試的代碼解釋器）來(lái)驗(yàn)證和修正初始內(nèi)容的行為。這些策略共同支持智能體的自我糾正能力,，使其能夠在反饋中不斷學(xué)習(xí)和提升,，增強(qiáng)其在多變環(huán)境中的適應(yīng)性。

提示優(yōu)化

在智能體的工作記憶中，用戶(hù)輸入的提示詞可能過(guò)于寬泛或模糊,，導(dǎo)致誤解,。為提高響應(yīng)質(zhì)量，引入了提示優(yōu)化技術(shù),，以細(xì)化用戶(hù)指令,，幫助智能體更準(zhǔn)確地理解用戶(hù)意圖,。在這一過(guò)程中,，智能體通過(guò)互動(dòng)不斷學(xué)習(xí)，實(shí)現(xiàn)終生學(xué)習(xí),，增強(qiáng)適應(yīng)性,。

主要研究集中在以下算法上：

進(jìn)化算法：EvoPrompt 利用進(jìn)化算法生成新的提示候選，通過(guò)迭代優(yōu)化提示種群,，基于開(kāi)發(fā)集表現(xiàn)選擇更佳提示,。
蒙特卡洛樹(shù)搜索算法：PromptAgent 將提示優(yōu)化視為策略規(guī)劃，模擬人類(lèi)試錯(cuò)過(guò)程,，迭代優(yōu)化中間提示,，通過(guò)反思模型錯(cuò)誤生成反饋。這些方法共同提升了智能體的提示理解和響應(yīng)能力,。

2.2.2 情節(jié)記憶

情節(jié)記憶用于存儲(chǔ)長(zhǎng)期經(jīng)驗(yàn)和事件,，例如用戶(hù)交互、先前任務(wù)的結(jié)果或多輪對(duì)話(huà),。情節(jié)記憶幫助智能體回憶過(guò)去的經(jīng)歷,，以改善未來(lái)的行動(dòng)，同時(shí)保持長(zhǎng)期行為和學(xué)習(xí)的一致性,。我們從三個(gè)主要角度討論情節(jié)記憶：數(shù)據(jù)重放與特征重放,、持續(xù)強(qiáng)化學(xué)習(xí)、自我經(jīng)驗(yàn),。

數(shù)據(jù)重放與特征重放

在終生學(xué)習(xí)中,，模型需要在學(xué)習(xí)新任務(wù)時(shí)避免遺忘舊任務(wù)的知識(shí)。為此,，重放舊任務(wù)樣本是有效的策略,，主要通過(guò)兩種技術(shù)實(shí)現(xiàn)：

1. 經(jīng)驗(yàn)重放：保留舊任務(wù)的一部分樣本，并在新任務(wù)訓(xùn)練中重放,，以幫助模型維持舊任務(wù)的記憶,。關(guān)鍵挑戰(zhàn)在于如何有效選擇和利用這些樣本。

2. 生成重放：通過(guò)訓(xùn)練生成模型生成舊任務(wù)數(shù)據(jù),，減少對(duì)實(shí)際存儲(chǔ)舊樣本的需求,，從而保持舊任務(wù)的知識(shí)一致性,。此外,，特征重放關(guān)注保留特征分布，解決因特征提取器更新導(dǎo)致的表示轉(zhuǎn)移問(wèn)題，減輕災(zāi)難性遺忘的風(fēng)險(xiǎn),。知識(shí)蒸餾則通過(guò)轉(zhuǎn)移舊任務(wù)與新任務(wù)之間的知識(shí)，增強(qiáng)模型的泛化能力,。

總之,，終生學(xué)習(xí)面臨的主要挑戰(zhàn)包括選擇舊樣本的策略、保持知識(shí)一致性以及處理表示轉(zhuǎn)移問(wèn)題,。合理運(yùn)用這些技術(shù),，模型能更有效地適應(yīng)新任務(wù)。

持續(xù)強(qiáng)化學(xué)習(xí)

持續(xù)強(qiáng)化學(xué)習(xí)強(qiáng)調(diào)在智能體學(xué)習(xí)新任務(wù)時(shí),，如何有效利用過(guò)去的經(jīng)驗(yàn),，避免災(zāi)難性遺忘。在持續(xù)強(qiáng)化學(xué)習(xí)中,，數(shù)據(jù)緩沖區(qū)中收集的經(jīng)驗(yàn)代表了情景記憶的重要體現(xiàn),。通過(guò)利用經(jīng)驗(yàn)重放即通過(guò)反復(fù)呈現(xiàn)存儲(chǔ)在重放緩沖區(qū)中的經(jīng)驗(yàn)來(lái)增強(qiáng)訓(xùn)練的穩(wěn)定性和提高學(xué)習(xí)效率。

這些經(jīng)驗(yàn)由四元組組成,，包括當(dāng)前狀態(tài),、采取的行動(dòng)、下一個(gè)狀態(tài)和獎(jiǎng)勵(lì),。通過(guò)在訓(xùn)練過(guò)程中從緩沖區(qū)中抽樣,，經(jīng)驗(yàn)重放減輕了災(zāi)難性遺忘的問(wèn)題，實(shí)現(xiàn)了終生學(xué)習(xí)的目標(biāo),。

▲ 圖13. 持續(xù)強(qiáng)化學(xué)習(xí)中的經(jīng)驗(yàn)重放

自我經(jīng)驗(yàn)

情景記憶能夠存儲(chǔ)和回顧經(jīng)歷,，包括成功與否的結(jié)果以及外部環(huán)境對(duì)其行為的反饋。這些記憶形成了自我經(jīng)驗(yàn)庫(kù),，智能體可以利用這些經(jīng)驗(yàn)來(lái)改進(jìn)決策和行動(dòng)計(jì)劃,，從而實(shí)現(xiàn)終生學(xué)習(xí)。這種能力使智能體在復(fù)雜和變化的環(huán)境中更敏捷,、更有效,。

在構(gòu)建大型語(yǔ)言模型（LLM）智能體人的自我經(jīng)驗(yàn)時(shí)，數(shù)據(jù)存儲(chǔ)類(lèi)型被細(xì)致分類(lèi)為四類(lèi)：三元組,、數(shù)據(jù)庫(kù),、文檔和對(duì)話(huà)。

三元組：RET-LLM 提出了一種通用的讀寫(xiě)記憶模塊,，以三元組形式存儲(chǔ)知識(shí),，支持模糊搜索。
數(shù)據(jù)庫(kù)：ChatDB 使用數(shù)據(jù)庫(kù)作為符號(hào)記憶模塊,，支持歷史信息的復(fù)雜推理和查詢(xún),。
文檔：DelTA 旨在處理整個(gè)文檔的翻譯一致性，采用多級(jí)記憶結(jié)構(gòu)，存儲(chǔ)長(zhǎng)短期記憶和上下文信息,。
對(duì)話(huà)：對(duì)話(huà)是情景記憶中的重要信息存儲(chǔ)形式,。MemoChat 允許智能體從長(zhǎng)對(duì)話(huà)中動(dòng)態(tài)檢索和利用過(guò)去的對(duì)話(huà)信息，保持對(duì)話(huà)一致性,。RAISE 增強(qiáng)了對(duì)話(huà)智能體的能力,，引入了類(lèi)似短期記憶的臨時(shí)記憶板，以處理近期交互的信息,。通過(guò)這些機(jī)制,，智能體人不僅能夠引用歷史信息，還能從中學(xué)習(xí),，不斷優(yōu)化反應(yīng)模式,，提高對(duì)話(huà)技能，實(shí)現(xiàn)更自然和精準(zhǔn)的對(duì)話(huà)結(jié)果,。

2.2.3 語(yǔ)義記憶

語(yǔ)義記憶作為外部知識(shí)存儲(chǔ)，幫助智能體獲取和更新世界知識(shí),。通過(guò)持續(xù)的知識(shí)圖譜學(xué)習(xí)和文檔學(xué)習(xí)等機(jī)制,，語(yǔ)義記憶促進(jìn)新知識(shí)融入智能體的內(nèi)部框架。借助知識(shí)圖譜或動(dòng)態(tài)文檔庫(kù)等外部數(shù)據(jù)庫(kù),，語(yǔ)義記憶確保智能體能夠跟上不斷變化的信息,，從而提高回答查詢(xún)的能力并增強(qiáng)長(zhǎng)期學(xué)習(xí)效果。

在語(yǔ)義記憶中,，我們主要關(guān)注在持續(xù)知識(shí)圖譜和動(dòng)態(tài)文檔庫(kù)兩個(gè)外部存儲(chǔ)工具中的終生學(xué)習(xí),。

連續(xù)知識(shí)圖譜

知識(shí)圖譜嵌入（KGE）是一種將知識(shí)圖譜中的實(shí)體和關(guān)系映射到低維向量空間的技術(shù)，廣泛應(yīng)用于下游任務(wù),。

然而,，隨著知識(shí)的快速增長(zhǎng)，傳統(tǒng)的靜態(tài) KGE 方法通常需要在新知識(shí)出現(xiàn)時(shí)保留整個(gè)知識(shí)圖譜,，這導(dǎo)致了顯著的訓(xùn)練成本,。為了解決這一挑戰(zhàn)，出現(xiàn)了持續(xù)知識(shí)圖譜嵌入（CKGE）任務(wù),。CKGE 利用增量學(xué)習(xí)優(yōu)化知識(shí)圖譜的更新過(guò)程,，旨在高效學(xué)習(xí)新知識(shí)，同時(shí)保留現(xiàn)有知識(shí),。

目前的 CKGE 方法可以大致分為三種主要類(lèi)型：基于正則化的方法,、基于重放的方法以及基于架構(gòu)的方法。

動(dòng)態(tài)文檔庫(kù)

LLM Agent 可以利用信息檢索將用戶(hù)查詢(xún)映射到相關(guān)文檔,。傳統(tǒng)的研究主要集中在從靜態(tài)文檔庫(kù)中進(jìn)行生成式檢索,。然而，實(shí)際中可供檢索的文檔不斷更新，尤其是在新聞,、科學(xué)文獻(xiàn)等快速變化的信息領(lǐng)域,。這種文檔的快速演變給檢索系統(tǒng)帶來(lái)了重大挑戰(zhàn)。

一些研究通過(guò) DSI 方法增強(qiáng)動(dòng)態(tài)文檔庫(kù)的文檔更新能力,。例如：

DSI++：引入了基于 Transformer 的記憶機(jī)制,，設(shè)計(jì)動(dòng)態(tài)更新策略，使模型在新文檔到達(dá)時(shí)優(yōu)化其內(nèi)部表示,，實(shí)現(xiàn)高效的檢索適應(yīng),。
IncDSI：采用模塊化索引更新策略，利用之前構(gòu)建的索引數(shù)據(jù)支持快速插入新文檔,，顯著降低計(jì)算資源需求,，確保實(shí)時(shí)檢索效率。
PromptDSI：采用基于提示的無(wú)復(fù)習(xí)增量學(xué)習(xí)方法,，利用提示機(jī)制指導(dǎo)模型在更新過(guò)程中保留舊文檔的記憶,，避免需要復(fù)習(xí)樣本。而在一些特定領(lǐng)域的任務(wù)上,，例如 RAG 應(yīng)用中,，知識(shí)文檔的增量更新對(duì)于確保領(lǐng)域特定知識(shí)的及時(shí)同步至關(guān)重要。目前的研究主要采用兩種增量更新策略：文檔級(jí)更新和塊級(jí)更新,。文檔級(jí)更新涉及對(duì)新添加或更新文檔的全面解析和向量化,；

塊級(jí)更新則集中于識(shí)別文檔中新增、修改,、刪除或未變更的知識(shí)塊,，利用“指紋”技術(shù)進(jìn)行比較，確保只處理需要更新的內(nèi)容,。

▲ 圖14. RAG應(yīng)用中知識(shí)更新策略

框架如 LangChain 和 LlamaIndex 支持增量知識(shí)更新,，提供文檔存儲(chǔ)和管理策略。增量知識(shí)更新對(duì)于企業(yè)級(jí) RAG 應(yīng)用至關(guān)重要,，使其能夠快速適應(yīng)知識(shí)變化,，同時(shí)降低運(yùn)營(yíng)成本。

2.2.4 參數(shù)記憶

與過(guò)去事件的顯性記憶不同,，參數(shù)記憶體現(xiàn)在模型的內(nèi)部參數(shù)中,。這些參數(shù)的變化（例如通過(guò)微調(diào)或訓(xùn)練更新）反映了長(zhǎng)期知識(shí)，并為智能體的知識(shí)庫(kù)貢獻(xiàn)力量,。這種記憶類(lèi)型使智能體能夠在任務(wù)之間保留知識(shí),，而無(wú)需存儲(chǔ)具體事件的詳細(xì)信息。我們從以下三個(gè)角度展開(kāi)分析：持續(xù)指令微調(diào),、持續(xù)知識(shí)編輯以及持續(xù)對(duì)齊,。

▲ 圖15. 參數(shù)記憶方法

持續(xù)指令微調(diào)

持續(xù)指令微調(diào)是指智能體通過(guò)不斷利用指令數(shù)據(jù)集來(lái)更新其參數(shù)記憶,，調(diào)整模型的內(nèi)部參數(shù)。這一調(diào)整過(guò)程并非一次性修改,，而是一個(gè)持續(xù)優(yōu)化的過(guò)程,，使智能體能夠隨著新指令的接收不斷優(yōu)化其知識(shí)庫(kù)。

通過(guò)這種方式,，智能體不僅能夠保留和利用過(guò)去的經(jīng)驗(yàn),，還能無(wú)縫整合新學(xué)習(xí)的信息，避免因新學(xué)習(xí)導(dǎo)致的舊知識(shí)丟失（即災(zāi)難性遺忘）,。這種持續(xù)學(xué)習(xí)和記憶更新的機(jī)制是智能體實(shí)現(xiàn)終生學(xué)習(xí)的關(guān)鍵,，主要分為兩類(lèi)：特定能力和通用能力。

在特定能力方面,，模型通過(guò)微調(diào)領(lǐng)域特定的數(shù)據(jù)集,，增強(qiáng)了在專(zhuān)業(yè)工具使用和數(shù)學(xué)問(wèn)題解決等領(lǐng)域的能力。研究表明,，工具使用框架能夠有效支持?jǐn)?shù)據(jù)構(gòu)建,、模型訓(xùn)練和評(píng)估等功能，并通過(guò)構(gòu)建指令微調(diào)數(shù)據(jù)集,，模型能夠處理多種工具指令并泛化到未見(jiàn)的 API,。此外，語(yǔ)言模型通過(guò)識(shí)別和調(diào)用 API,，利用自監(jiān)督學(xué)習(xí)優(yōu)化其預(yù)測(cè)能力，從而掌握工具的操作及使用時(shí)機(jī),。

此外,，針對(duì)特定智能體任務(wù)的研究構(gòu)建了高質(zhì)量的交互數(shù)據(jù)集，并結(jié)合通用指令數(shù)據(jù)提升模型在特定任務(wù)上的表現(xiàn),。統(tǒng)一的可學(xué)習(xí)語(yǔ)言智能體框架適用于多種復(fù)雜的交互任務(wù),，并通過(guò)多領(lǐng)域的微調(diào)注釋訓(xùn)練，展現(xiàn)出與主流模型相當(dāng)或更優(yōu)的性能,。

而在通用能力方面,，模型通過(guò)廣泛的通用數(shù)據(jù)集進(jìn)行微調(diào)，以提高對(duì)人類(lèi)用戶(hù)輸入的理解和生成更滿(mǎn)意的響應(yīng),。指令微調(diào)顯著增強(qiáng)了語(yǔ)言模型在代碼,、常識(shí)推理、世界知識(shí),、閱讀理解和數(shù)學(xué)等領(lǐng)域的表現(xiàn),，通常通過(guò)多個(gè)基準(zhǔn)測(cè)試進(jìn)行評(píng)估，如 HumanEval,、HellaSwag,、TriviaQA,、BoolQ 和 GSM8K 等。

通過(guò)持續(xù)的指令微調(diào),，大型語(yǔ)言模型不僅保持廣泛的知識(shí)基礎(chǔ),，還基于最新數(shù)據(jù)和指令不斷演變，實(shí)現(xiàn)終生學(xué)習(xí)與改進(jìn),。這種自我進(jìn)化的概念體現(xiàn)了一般能力的增強(qiáng),，涉及多個(gè)迭代學(xué)習(xí)階段，幫助智能體適應(yīng)新任務(wù)和環(huán)境,。

持續(xù)知識(shí)編輯

在持續(xù)知識(shí)編輯過(guò)程中,，智能體利用更新的數(shù)據(jù)集（新知識(shí)）修正先前模型中的錯(cuò)誤或過(guò)時(shí)信息。通過(guò)微調(diào)內(nèi)部參數(shù),，智能體能夠融合新信息并保持已有知識(shí),，防止災(zāi)難性遺忘，實(shí)現(xiàn)終生學(xué)習(xí),，以適應(yīng)不斷變化的環(huán)境,。

持續(xù)知識(shí)編輯采用知識(shí)三元組（頭實(shí)體、關(guān)系,、尾實(shí)體）更新模型理解,，確保在知識(shí)過(guò)時(shí)或遇到新信息時(shí)調(diào)整知識(shí)庫(kù)。主要方法包括外部記憶,、全局優(yōu)化和局部修改,。

外部記憶：通過(guò)外部結(jié)構(gòu)存儲(chǔ)新知識(shí)而不修改大型語(yǔ)言模型（LLM）的權(quán)重。例如,，WISE 設(shè)計(jì)了雙參數(shù)記憶方案,，主記憶存儲(chǔ)預(yù)訓(xùn)練知識(shí)，副記憶存儲(chǔ)編輯后的知識(shí),。GRACE 則在特定層添加適配器,，以適應(yīng)新變化。
全局優(yōu)化：更新所有參數(shù)以納入新知識(shí),，保留原始知識(shí),。例如，PPA 利用低秩適應(yīng)（LoRA）進(jìn)行約束優(yōu)化,，ELDER 動(dòng)態(tài)分配 LoRA 組件應(yīng)對(duì)持續(xù)編輯任務(wù),。
局部修改：定位并更新 LLM 中特定知識(shí)相關(guān)的參數(shù)，以解決知識(shí)編輯中的毒性累積問(wèn)題,。WilKE 評(píng)估層間模式匹配,，選擇適合編輯的層。PRUNE 則通過(guò)管理矩陣的條件數(shù),，降低編輯對(duì)模型能力的影響,。

持續(xù)對(duì)齊

智能體通過(guò)吸收人類(lèi)反饋微調(diào)內(nèi)部參數(shù),，實(shí)現(xiàn)持續(xù)對(duì)齊，增強(qiáng)對(duì)新指令的響應(yīng)能力,，避免災(zāi)難性遺忘,。這種動(dòng)態(tài)調(diào)整使智能體在每次交互中學(xué)習(xí)和適應(yīng)，支持終生學(xué)習(xí),。

傳統(tǒng)對(duì)齊為單步過(guò)程,，依賴(lài)固定的靜態(tài)示例，缺乏適應(yīng)新情況的能力,。多步對(duì)齊要求模型在不遺忘已學(xué)任務(wù)的情況下適應(yīng)新任務(wù),，體現(xiàn)持續(xù)對(duì)齊的挑戰(zhàn)。

持續(xù)對(duì)齊的數(shù)據(jù)集不斷變化,，跨越多個(gè)任務(wù)或領(lǐng)域,。為解決 RLHF 模型重訓(xùn)練的高成本，COPR 計(jì)算最優(yōu)策略分布序列,，并依據(jù)歷史分布微調(diào)當(dāng)前策略,，減少災(zāi)難性遺忘。

COPR 提供適應(yīng)性,，無(wú)需人類(lèi)反饋,。CPPO 通過(guò)加權(quán)策略和樣本分類(lèi)，持續(xù)對(duì)齊語(yǔ)言模型與動(dòng)態(tài)人類(lèi)偏好,。

2.3 行動(dòng)

行動(dòng)模塊使智能體能夠與環(huán)境互動(dòng),、做出決策并執(zhí)行行為，從而影響其學(xué)習(xí)過(guò)程,。在終生學(xué)習(xí)框架中,，行動(dòng)對(duì)于閉合反饋循環(huán)至關(guān)重要：行動(dòng)影響環(huán)境，環(huán)境則提供反饋,，用于優(yōu)化未來(lái)的行動(dòng)。

▲ 圖16. 行動(dòng)架構(gòu)圖

我們將行動(dòng)分為三種主要類(lèi)型：基礎(chǔ)行動(dòng),、檢索行動(dòng)和推理行動(dòng),。

2.3.1 基礎(chǔ)行動(dòng)

對(duì)于大語(yǔ)言模型（LLM）智能體，基礎(chǔ)行動(dòng)涉及通過(guò)文本描述感知環(huán)境,，并生成文本以確定適當(dāng)?shù)南乱徊叫袆?dòng),。我們重點(diǎn)探索不同環(huán)境背景下的解決方案。

挑戰(zhàn)

輸入基礎(chǔ)行動(dòng)
在輸入基礎(chǔ)行動(dòng)中,，LLM 在預(yù)訓(xùn)練語(yǔ)料庫(kù)中遇到的文本格式與環(huán)境描述使用的格式存在顯著差異,。預(yù)訓(xùn)練語(yǔ)料庫(kù)主要由結(jié)構(gòu)良好的段落構(gòu)成，而環(huán)境描述往往以簡(jiǎn)短句子,、短語(yǔ)或結(jié)構(gòu)化文本格式（如 JSON 字符串或 HTML 標(biāo)簽）呈現(xiàn),。
因此,，LLM 必須從熟悉的預(yù)訓(xùn)練數(shù)據(jù)輸入格式適應(yīng)到智能體環(huán)境中多樣且專(zhuān)業(yè)的格式。在快速變化的環(huán)境中,，智能體需要持續(xù)適應(yīng)更新的描述,，以更好地理解環(huán)境。
輸出基礎(chǔ)行動(dòng)
在輸出基礎(chǔ)行動(dòng)中,，LLM 需要生成的內(nèi)容類(lèi)型存在顯著差異,。在預(yù)訓(xùn)練過(guò)程中，LLM 主要訓(xùn)練用于簡(jiǎn)單的文本補(bǔ)全,，而在智能體環(huán)境中,，必須生成遵循特定模式的文本，表示動(dòng)作或環(huán)境特定元素,。LLM 必須學(xué)習(xí)通過(guò)生成符合環(huán)境要求的輸出,，來(lái)執(zhí)行復(fù)雜的動(dòng)作，而不僅僅是以自由形式自然語(yǔ)言描述動(dòng)作或意圖,。
此外,，在復(fù)雜環(huán)境中，輸出基礎(chǔ)行動(dòng)的要求可能會(huì)根據(jù)智能體的先前行動(dòng)而變化,，因此需要持續(xù)適應(yīng)以符合環(huán)境不斷變化的需求,。

不同環(huán)境下的解決方案

具有終生學(xué)習(xí)能力的大型語(yǔ)言模型（LLM）智能體不僅可以根據(jù)特定環(huán)境調(diào)整其基礎(chǔ)行動(dòng)，還能通過(guò)與環(huán)境的互動(dòng)不斷演變,。然而,，不同環(huán)境的多樣性帶來(lái)了獨(dú)特的挑戰(zhàn)，促使研究者們開(kāi)發(fā)出多種解決方案,。為了清晰全面地概述這些解決方案,，研究將常見(jiàn)環(huán)境分為三類(lèi)：工具環(huán)境、網(wǎng)絡(luò)環(huán)境和游戲環(huán)境,。

工具環(huán)境：工具是智能體可以交互的外部功能或資源,，如計(jì)算器、日歷,、搜索引擎和 API,。LLM 在工具環(huán)境中需要理解工具的功能并根據(jù)用戶(hù)意圖按正確順序調(diào)用工具。研究者們采用簡(jiǎn)化工具文檔的方式來(lái)幫助 LLM 理解工具,，并通過(guò)工具調(diào)用軌跡進(jìn)行微調(diào)或上下文學(xué)習(xí),，以改善工具調(diào)用能力。此外,，LLM 需要適應(yīng)工具環(huán)境以生成特定格式的輸出,，相關(guān)研究通過(guò)微調(diào)或少量學(xué)習(xí)來(lái)實(shí)現(xiàn)這一點(diǎn)。
網(wǎng)絡(luò)環(huán)境：在網(wǎng)絡(luò)環(huán)境中,，基于 LLM 的智能體需要根據(jù)用戶(hù)意圖與網(wǎng)頁(yè)交互,。LLM 主要通過(guò) HTML DOM 樹(shù)或可訪(fǎng)問(wèn)性樹(shù)來(lái)感知網(wǎng)頁(yè),，這種格式復(fù)雜且不直觀。為了解決這個(gè)問(wèn)題,，研究者們通過(guò)簡(jiǎn)化網(wǎng)頁(yè)內(nèi)容和將先前的軌跡或經(jīng)驗(yàn)納入提示中來(lái)提高輸入基礎(chǔ)行動(dòng)的準(zhǔn)確性,。
游戲環(huán)境：游戲環(huán)境是三種環(huán)境中最復(fù)雜的。LLM 智能體通常在虛擬環(huán)境中操作,，根據(jù)不同游戲環(huán)境提供的 API,，其輸入和輸出基礎(chǔ)行動(dòng)的具體要求各不相同。一些研究使用專(zhuān)門(mén)的提示幫助 LLM 深入理解環(huán)境,，其他研究則將環(huán)境視為圖像來(lái)直接感知復(fù)雜環(huán)境,。在輸出基礎(chǔ)行動(dòng)方面，大多數(shù)工作通過(guò)生成可執(zhí)行程序與環(huán)境互動(dòng),，以控制智能體的行為,。從終生學(xué)習(xí)的角度看，研究者們還強(qiáng)調(diào)了增強(qiáng)智能體行為長(zhǎng)期一致性和整體能力的重要性,。

2.3.2 檢索行動(dòng)

LLM Agent 在生成有效的基本行動(dòng)和推理行動(dòng)時(shí),，需要依賴(lài)外部信息。對(duì)于基本行動(dòng),，LLM 的輸出必須與環(huán)境模式匹配,，僅通過(guò)微調(diào)模型以適應(yīng)環(huán)境約束是不可行的，因?yàn)檫@既資源消耗大,，又無(wú)法應(yīng)對(duì)動(dòng)態(tài)變化的行動(dòng)空間,，同時(shí)在提示中包含所有可能的行動(dòng)描述也會(huì)導(dǎo)致上下文長(zhǎng)度過(guò)長(zhǎng)。

在推理行動(dòng)中,，全面的外部知識(shí)（語(yǔ)義記憶）和準(zhǔn)確的歷史軌跡（情景記憶）是做出正確決策的關(guān)鍵,。然而，隨著智能體活動(dòng)的增加,，行動(dòng)和觀察歷史的長(zhǎng)度可能超出 LLM 的處理能力,，這凸顯了檢索行動(dòng)的重要性。通過(guò)檢索,，LLM 智能體可以有效管理不斷增長(zhǎng)的歷史數(shù)據(jù),，提高長(zhǎng)期一致性，并在動(dòng)態(tài)環(huán)境中提升表現(xiàn),。

我們的研究將智能體的檢索分為語(yǔ)義記憶和情景記憶兩個(gè)部分。LLM 智能體可以在試驗(yàn)開(kāi)始時(shí)或生成每個(gè)行動(dòng)之前進(jìn)行檢索,，這種做法在現(xiàn)有研究中較為常見(jiàn),。

▲ 圖17. 增強(qiáng)大型語(yǔ)言模型智能體檢索行為的研究總結(jié)及分類(lèi)

從語(yǔ)義記憶中檢索

預(yù)訓(xùn)練的大型語(yǔ)言模型作為智能體的“腦”常常不足，主要由于兩個(gè)關(guān)鍵限制：缺乏背景知識(shí)和缺乏示例,。這兩個(gè)限制可以通過(guò)從語(yǔ)義記憶中檢索信息來(lái)解決,。

缺乏背景知識(shí)
背景知識(shí)的缺乏表現(xiàn)為 LLM 無(wú)法從所有可能的行動(dòng)中選擇正確的行動(dòng),，或生成無(wú)法被環(huán)境理解的行動(dòng)。
為了解決這個(gè)問(wèn)題,，GITM 通過(guò)從 Minecraft Wiki 中檢索相關(guān)文本,，為 LLM 提供 Minecraft 世界的知識(shí)，使其能夠正確執(zhí)行行動(dòng),。
SwiftSage 和 ToolLLM 利用 SentenceBERT 從數(shù)據(jù)庫(kù)中檢索可能的行動(dòng),，幫助 LLM 縮小行動(dòng)空間，從而選擇適當(dāng)?shù)男袆?dòng),。當(dāng)行動(dòng)參數(shù)有限時(shí),，SentenceBERT 還可將 LLM 生成但環(huán)境無(wú)法理解的參數(shù)轉(zhuǎn)換為有效參數(shù)。
缺乏示例
缺乏示例會(huì)降低智能體在基礎(chǔ)行動(dòng)和規(guī)劃行動(dòng)中的質(zhì)量,。
示例被證明對(duì) LLM 的表現(xiàn)至關(guān)重要,。然而，在提示中包含無(wú)關(guān)或過(guò)時(shí)的示例會(huì)顯著影響 LLM 智能體的性能,。為了解決這個(gè)問(wèn)題,，Re-Prompting 和 STE 使用 SentenceBERT 從示例集中選擇最相似的示例。

從情景記憶中檢索

雖然從語(yǔ)義記憶中檢索可以通過(guò)提供額外的背景知識(shí)和示例來(lái)提高智能體的能力,，但它無(wú)法解決 LLM 在利用過(guò)去經(jīng)驗(yàn)和長(zhǎng)期一致性方面的缺乏,。這兩個(gè)限制可以通過(guò)從情景記憶中檢索來(lái)克服。

利用過(guò)去經(jīng)驗(yàn)的能力不足
克服利用過(guò)去經(jīng)驗(yàn)的不足是終生 LLM 智能體的一大特征,。當(dāng)前研究將此方法分為兩類(lèi)：第一類(lèi)是在智能體成功完成任務(wù)后存儲(chǔ)其軌跡,，隨后在新任務(wù)中檢索相似軌跡以提升推理質(zhì)量；第二類(lèi)是將任務(wù)解決步驟表示為可執(zhí)行程序,，智能體可以重用或組合這些程序來(lái)應(yīng)對(duì)新任務(wù),，從而提升其基礎(chǔ)能力。
長(zhǎng)期一致性不足
LLM 的有限上下文長(zhǎng)度導(dǎo)致長(zhǎng)期一致性不足,，無(wú)法整合所有觀察和行動(dòng)歷史,。MemoryBank 通過(guò)檢索過(guò)去對(duì)話(huà)摘要，幫助保持與聊天歷史的一致性,，提升長(zhǎng)期交互中的表現(xiàn),。

2.3.3 推理行動(dòng)

推理行動(dòng)是 LLM 智能體的一類(lèi)關(guān)鍵行為，盡管 LLM 在預(yù)訓(xùn)練后能夠進(jìn)行基本的推理,，但其能力不足以應(yīng)對(duì)復(fù)雜環(huán)境中的推理任務(wù),。這主要由于環(huán)境復(fù)雜性和 LLM 自身推理能力的局限性，例如難以識(shí)別先前推理步驟中的錯(cuò)誤,。

為了解決這些挑戰(zhàn),，研究者們通過(guò)設(shè)計(jì)精確的提示和新穎的框架來(lái)提升推理質(zhì)量，許多研究還從終生學(xué)習(xí)的角度出發(fā)，使 LLM 能夠基于先前的推理結(jié)果逐步改進(jìn)推理能力,。根據(jù)這一點(diǎn),，我們將推理行動(dòng)分為情節(jié)內(nèi)推理行動(dòng)和情節(jié)間推理行動(dòng)，并在表7中總結(jié)了這一分類(lèi)結(jié)果,。

▲ 圖18. 關(guān)于增強(qiáng)大型語(yǔ)言模型智能體推理行為的研究總結(jié)

情節(jié)內(nèi)推理行動(dòng)

情節(jié)內(nèi)推理動(dòng)作是指利用同一情節(jié)中的經(jīng)驗(yàn)的推理動(dòng)作,。基于這些研究是否刺激了 LLM 在同一試驗(yàn)中的內(nèi)在推理能力,，或者逐步增強(qiáng)其在不同試驗(yàn)中的推理能力,，我們進(jìn)一步將文章分為兩組。

單次試驗(yàn)
幾乎所有研究鼓勵(lì) LLM 在單次試驗(yàn)中采用 ReAct 風(fēng)格推理,，基于環(huán)境反饋不斷完善推理過(guò)程,。許多研究將推理分解為步驟，使用不同的 LLM 處理,。
例如,，α-UMi 微調(diào)兩個(gè) LLM，分別負(fù)責(zé)規(guī)劃和總結(jié),，而 API-Bank 使用五個(gè) LLM 生成高質(zhì)量工具學(xué)習(xí)數(shù)據(jù),。這些研究提升了智能體的推理質(zhì)量，并通過(guò)引入環(huán)境特定策略增強(qiáng)了 LLM 在復(fù)雜環(huán)境中的推理能力,，如 LASER 和 SteP 的應(yīng)用,。
跨試驗(yàn)
許多研究基于 ReAct，通過(guò)模擬人類(lèi)推理過(guò)程提升智能體在不同試驗(yàn)中的推理能力,。Reflexion 使 LLM 通過(guò)回顧失敗的試驗(yàn)進(jìn)行自我反思,，從而改善推理并提高未來(lái)試驗(yàn)的準(zhǔn)確性。LLM 智能體在每次新試驗(yàn)開(kāi)始時(shí)反思過(guò)去軌跡,，必要時(shí)重復(fù)此過(guò)程,，直至成功實(shí)現(xiàn)目標(biāo)。

情節(jié)間推理行動(dòng)

跨情節(jié)推理行動(dòng)利用來(lái)自不同情節(jié)的經(jīng)驗(yàn)進(jìn)行推理,。這些經(jīng)驗(yàn)隨著 LLM 智能體與環(huán)境的互動(dòng)而逐漸積累,，包括成功的推理軌跡、可執(zhí)行代碼或文本摘要,，通常存儲(chǔ)在額外數(shù)據(jù)庫(kù)中,。遇到新任務(wù)時(shí)，LLM 智能體檢索相關(guān)經(jīng)驗(yàn)并將其加入工作記憶,，以指導(dǎo)推理過(guò)程,。

AMOR 通過(guò)先前任務(wù)的反饋微調(diào)模型，提高特定環(huán)境下的推理質(zhì)量,。同時(shí),，一些研究利用課程學(xué)習(xí)安排任務(wù),，從簡(jiǎn)單到困難，幫助LLM智能體在探索復(fù)雜環(huán)境時(shí)更好地利用過(guò)去的經(jīng)驗(yàn),，使其逐步掌握推理技巧。

應(yīng)用

3.1 應(yīng)用

在數(shù)字化時(shí)代,，LLM Agent 在日常生活和專(zhuān)業(yè)領(lǐng)域中發(fā)揮著越來(lái)越重要的作用,。隨著終生學(xué)習(xí)概念的深入發(fā)展，這些智能體能夠不斷適應(yīng)和優(yōu)化其功能,，以滿(mǎn)足用戶(hù)不斷變化的需求,。

▲ 圖19. 基于 LLM 的 Agent 終生學(xué)習(xí)的應(yīng)用

LLM Agent 的終生學(xué)習(xí)應(yīng)用可以大致分為兩類(lèi)：日常應(yīng)用和領(lǐng)域特定應(yīng)用。

3.1.1 日常應(yīng)用

在人類(lèi)日常生活中,，LLM Agent 通過(guò)持續(xù)學(xué)習(xí)和適應(yīng),，極大地提升了人們的工作、生活和娛樂(lè)體驗(yàn),。這些智能體不僅能夠理解用戶(hù)的需求,，還能實(shí)時(shí)調(diào)整其功能，以更好地服務(wù)于用戶(hù)的日?；顒?dòng),。具體而言，日常應(yīng)用可以細(xì)分為以下幾個(gè)重要場(chǎng)景：

工作場(chǎng)景

在工作場(chǎng)景中,，Agent 發(fā)揮著多種關(guān)鍵功能,，極大地提升了工作和學(xué)習(xí)的效率。例如,，在網(wǎng)頁(yè)應(yīng)用中,，Agent 通過(guò)終生學(xué)習(xí)不斷優(yōu)化搜索算法和內(nèi)容推薦，幫助用戶(hù)更高效地找到相關(guān)信息和資源,。

在知識(shí)管理方面,，LLM Agent 能有效整理和檢索信息，幫助用戶(hù)快速獲取所需的知識(shí)資源,，促進(jìn)信息共享和決策支持,。

生活場(chǎng)景

在生活場(chǎng)景中, lifelong Agent 能夠改善日常生活的便利性和舒適度。在聊天方面,，LLM Agent 結(jié)合終生學(xué)習(xí)的方法例如角色扮演,、長(zhǎng)上下文文本理解，能夠與用戶(hù)持續(xù)互動(dòng),，逐步理解用戶(hù)的個(gè)性和偏好,，從而提供更自然和富有情感的對(duì)話(huà)體驗(yàn)。

作為個(gè)性化助理,， Agent 也能幫助用戶(hù)根據(jù)環(huán)境完成日常家務(wù)任務(wù),，例如自動(dòng)調(diào)節(jié)空調(diào)、燈光、清潔等,，從而提升用戶(hù)生活體驗(yàn),。

娛樂(lè)場(chǎng)景

在娛樂(lè)場(chǎng)景中，Agent 也發(fā)揮著作用,。例如在游戲中,，Minecraft 作為一款類(lèi)似于開(kāi)放世界的模擬生存游戲，成為了 Agent 在游戲中測(cè)試的首要選擇,。

例如,，Voyager 作為 Minecraft 中的第一款 lifelong Agent，能夠在沒(méi)有人為干預(yù)下,，通過(guò)反饋機(jī)制,，實(shí)現(xiàn)自主探索未知世界。

JARVIS-1 通過(guò)自我反思和自我解釋提高了對(duì)環(huán)境的理解,，將以前的計(jì)劃納入其提示中,。

另外，娛樂(lè)媒體行業(yè)也正進(jìn)行著一場(chǎng)智能變革,。通過(guò)不斷接受用戶(hù)最新信息,，為用戶(hù)推薦相關(guān)高質(zhì)量的電影、音樂(lè),。

3.1.2 特定領(lǐng)域應(yīng)用

在領(lǐng)域特定應(yīng)用中,，終生智能體展現(xiàn)出卓越的適應(yīng)性和專(zhuān)業(yè)知識(shí)，為各行業(yè)提供定制化解決方案,。通過(guò)終生學(xué)習(xí),，這些智能智能體不斷積累行業(yè)知識(shí)和用戶(hù)反饋，提升在特定領(lǐng)域的有效性,。

在教育領(lǐng)域,，LLM Agent通過(guò)模擬課堂環(huán)境和師生互動(dòng)，促進(jìn)知識(shí)理解,，并提供個(gè)性化學(xué)習(xí)支持,。它們可以幫助教師批改作業(yè)和解答學(xué)生問(wèn)題，也能幫助學(xué)生更高效地完成作業(yè)并提供個(gè)性化學(xué)習(xí)體驗(yàn),。此外,，終生智能體還可以指導(dǎo)其他模型。

在法律領(lǐng)域,，這些智能體分析法律文件和案例,，提供法律建議和合規(guī)建議，協(xié)助法律決策和文書(shū)起草,。

在醫(yī)療領(lǐng)域,，LLM Agent 幫助醫(yī)生進(jìn)行診斷和治療決策,，并通過(guò)與患者互動(dòng)提高醫(yī)療服務(wù)質(zhì)量和效率。終生智能體還可以在其他行業(yè)通過(guò)持續(xù)學(xué)習(xí)適應(yīng)新任務(wù),，降低勞動(dòng)成本,。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：黃爸爸好 > 《agent》

舉報(bào)/認(rèn)領(lǐng)