MLNLP 社區(qū)是國(guó)內(nèi)外知名的機(jī)器學(xué)習(xí)與自然語(yǔ)言處理社區(qū),,受眾覆蓋國(guó)內(nèi)外NLP碩博生,、高校老師以及企業(yè)研究人員。 社區(qū)的愿景 是促進(jìn)國(guó)內(nèi)外自然語(yǔ)言處理,,機(jī)器學(xué)習(xí)學(xué)術(shù)界,、產(chǎn)業(yè)界和廣大愛(ài)好者之間的交流和進(jìn)步,特別是初學(xué)者同學(xué)們的進(jìn)步。 整合三百多篇文獻(xiàn),,2025 年首篇 Agent 綜述正式推出,!華南理工大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘?qū)嶒?yàn)室的馬千里教授團(tuán)隊(duì)從終生學(xué)習(xí)的視角出發(fā),匯總了基于大語(yǔ)言模型的智能體的創(chuàng)新研究成果,。 Lifelong Learning of Large Language Model based Agents: A Roadmap https://github.com/qianlima-lab/awesome-lifelong-llm-Agent 摘要 終生學(xué)習(xí),,也稱(chēng)為持續(xù)學(xué)習(xí)或增量學(xué)習(xí),旨在解決讓智能系統(tǒng)在不斷變化的環(huán)境中持續(xù)進(jìn)化的核心挑戰(zhàn),。盡管大語(yǔ)言模型在自然語(yǔ)言處理任務(wù)上展現(xiàn)了驚人的能力,,但傳統(tǒng)方法通常集中在靜態(tài)文本適應(yīng)上,難以應(yīng)對(duì)復(fù)雜真實(shí)場(chǎng)景中對(duì)動(dòng)態(tài)感知,、推理和執(zhí)行行為的需求,。 ▲ 圖1. 人工智能系統(tǒng)的終生學(xué)習(xí)發(fā)展歷程 這篇綜述強(qiáng)調(diào)了從靜態(tài) LLMs 到動(dòng)態(tài)環(huán)境交互式 LLM 智能體的范式轉(zhuǎn)變,這些智能體具備多模態(tài)感知,、集成記憶管理和行動(dòng)導(dǎo)向的決策能力,。 我們系統(tǒng)地分類(lèi)了這些智能體的核心模塊,分別考察了多模態(tài)輸入整合的感知模塊,、存儲(chǔ)和檢索不斷演化知識(shí)的記憶模塊,、以及支持真實(shí)交互的行動(dòng)模塊。通過(guò)這三大支柱的協(xié)同作用,,智能體能夠?qū)崿F(xiàn)持續(xù)適應(yīng),、減輕災(zāi)難性遺忘并提升長(zhǎng)期能力。 除了對(duì)最新技術(shù),、架構(gòu)和策略進(jìn)行結(jié)構(gòu)化概述外,,我們還深入探討了新興趨勢(shì),、評(píng)估指標(biāo)及應(yīng)用場(chǎng)景,,涵蓋了通用和專(zhuān)用領(lǐng)域。本文為研究人員和實(shí)踐者設(shè)計(jì)和部署能夠模擬人類(lèi)學(xué)習(xí)模式,、持續(xù)優(yōu)化理解并優(yōu)雅適應(yīng)新挑戰(zhàn)的終生學(xué)習(xí) LLM 智能體提供了發(fā)展路線(xiàn)圖,。 ▲ 圖2. 基于 LLM 的智能體在現(xiàn)實(shí)世界中的終生學(xué)習(xí)示例 引言 終生學(xué)習(xí):也稱(chēng)為持續(xù)學(xué)習(xí)或增量學(xué)習(xí),指的是系統(tǒng)在不遺忘先前學(xué)習(xí)的信息的情況下,,獲取,、整合和保留知識(shí)的能力,使系統(tǒng)能夠隨著時(shí)間的推移不斷適應(yīng)和改進(jìn),。 終生學(xué)習(xí)使智能系統(tǒng)能夠隨時(shí)間及環(huán)境不斷適應(yīng)和改進(jìn),,因此成為了智能系統(tǒng)發(fā)展中的一個(gè)焦點(diǎn)。 ▲ 圖3. 有關(guān)終生學(xué)習(xí)和llm智能體的刊物的快速增加 盡管終生學(xué)習(xí)具有極大的潛力,,其在當(dāng)前 ai 發(fā)展的應(yīng)用上仍具有一定困難,。目前的 AI 系統(tǒng)在終生學(xué)習(xí)中面臨兩個(gè)主要挑戰(zhàn):災(zāi)難性遺忘和可塑性喪失。一方面,當(dāng)系統(tǒng)在學(xué)習(xí)新任務(wù)時(shí)遺忘了先前所學(xué)信息,,就會(huì)發(fā)生災(zāi)難性遺忘,,在環(huán)境變化時(shí)這一問(wèn)題尤為突出。另一方面,,可塑性喪失指的是系統(tǒng)無(wú)法適應(yīng)新任務(wù)或新環(huán)境,。 這兩個(gè)挑戰(zhàn)構(gòu)成了穩(wěn)定性-可塑性困境,即:靜態(tài)系統(tǒng)可避免遺忘但缺乏適應(yīng)能力,,而專(zhuān)注于動(dòng)態(tài)適應(yīng)的系統(tǒng)則面臨遺忘過(guò)往知識(shí)的風(fēng)險(xiǎn),。克服這一困境是推動(dòng)人工智能發(fā)展的關(guān)鍵,,也是實(shí)現(xiàn)通用人工智能的基礎(chǔ)挑戰(zhàn),。 因此,構(gòu)建能夠?qū)崿F(xiàn)終生學(xué)習(xí)的基于大語(yǔ)言模型的智能體十分重要,。傳統(tǒng)大語(yǔ)言模型訓(xùn)練后是靜態(tài)的,,知識(shí)固定,難整合新信息,,限制了其在動(dòng)態(tài)現(xiàn)實(shí)場(chǎng)景中的應(yīng)用,。而 LLM Agent 是能與環(huán)境交互的自主實(shí)體,可以感知多模態(tài)數(shù)據(jù),、存儲(chǔ)信息并采取行動(dòng)影響或響應(yīng)環(huán)境,。 ▲ 圖4. 傳統(tǒng)LLM和Lifelong Learning LLM Agents的比較 通過(guò)將終生學(xué)習(xí)融入大語(yǔ)言模型智能體,我們?cè)趧?dòng)態(tài)的現(xiàn)實(shí)世界應(yīng)用中釋放了它們的全部潛力,。這些智能體可以不斷進(jìn)化,、獲取新知識(shí)并保留關(guān)鍵信息,使它們更具適應(yīng)性和通用性,。這種終生學(xué)習(xí)過(guò)程對(duì)于不斷出現(xiàn)新挑戰(zhàn)的環(huán)境至關(guān)重要,,例如自主機(jī)器人、交互式助手和自適應(yīng)決策支持系統(tǒng),。 ▲ 圖5. Lifelong LLM Agent通過(guò)不斷適應(yīng)新任務(wù)提升能力 總體而言,,本綜述的貢獻(xiàn)可總結(jié)如下: 全面概述了對(duì) LLM Agent 中終生學(xué)習(xí)的基礎(chǔ)概念和架構(gòu)。 深入研究了智能體包括感知,、記憶和行動(dòng)在內(nèi)的關(guān)鍵組成部分,,這些部分使 LLM Agent 能夠?qū)崿F(xiàn)自適應(yīng)行為。 調(diào)研了能夠展示終生學(xué)習(xí)在 LLM 中的實(shí)際應(yīng)用和益處的案例,。 回顧了用于評(píng)估 LLM Agent 中終生學(xué)習(xí)的評(píng)估指標(biāo)和基準(zhǔn),。 確定了這個(gè)快速發(fā)展領(lǐng)域中的關(guān)鍵挑戰(zhàn)和未來(lái)研究方向。 LifeLong LLM Agent 的構(gòu)建 ▲ 圖6. 基于終生學(xué)習(xí)的大型語(yǔ)言模型智能體的整體架構(gòu),,包括三個(gè)關(guān)鍵模塊:感知,、記憶和行動(dòng),。 人類(lèi)在面對(duì)新任務(wù)時(shí),依賴(lài)于不斷感知外界的新信息來(lái)提升解決問(wèn)題的能力,。這一過(guò)程不僅涉及對(duì)環(huán)境的觀察和理解,,還包括從經(jīng)驗(yàn)中學(xué)習(xí),以調(diào)整和優(yōu)化自身的行為策略,。類(lèi)似地,,基于大語(yǔ)言模型的智能體在終生學(xué)習(xí)的過(guò)程中也需要通過(guò)感知模塊不斷獲取和整合來(lái)自不同場(chǎng)景和模態(tài)的信息,以適應(yīng)不斷變化的任務(wù)和環(huán)境,。 這篇綜述中,,我們將 LLM Agent 的感知模塊劃分為了單模態(tài)感知和多模態(tài)感知。 LLM Agent 的單模態(tài)感知主要還是用于接收文本信息,。在終生學(xué)習(xí)的過(guò)程中,,Agent 接受的文本信息源可能來(lái)自于不同的結(jié)構(gòu)和場(chǎng)景。 在自然文本的環(huán)境中,,現(xiàn)階段的 LLM 系統(tǒng)已經(jīng)具備了通過(guò)文本輸入和輸出與人類(lèi)溝通的基本能力,。在此基礎(chǔ)上,Agent 需要從一些從非自然文本的環(huán)境中獲取文本信息以更好模擬現(xiàn)實(shí)世界中的信息感知,。 例如在網(wǎng)頁(yè),、圖表等來(lái)源的環(huán)境中,一些方法通過(guò)提取遵循標(biāo)準(zhǔn)化格式的結(jié)構(gòu)化文本,,以將復(fù)雜的信息轉(zhuǎn)化為 LLM Agent 可以直接訪(fǎng)問(wèn)的信息,,例如通過(guò)對(duì) HTML 文檔的操作和屏幕截圖識(shí)別等。 而在更為復(fù)雜的游戲環(huán)境中,,LLM Agent 可以通過(guò)文本介質(zhì)來(lái)感知系統(tǒng)所處的游戲環(huán)境,,如角色、時(shí)間,、地點(diǎn),、事件、情感等,,并根據(jù)這些游戲元素的反饋使用文本指令來(lái)進(jìn)行相應(yīng)的操作,。 總之,智能體應(yīng)該能在各種復(fù)雜的環(huán)境中具有良好的文本感知能力和適應(yīng)能力,。而隨著相關(guān)研究變多,探索 Agent 如何感知在更為廣闊的環(huán)境中的文本輸入變得更有前景,。 由于現(xiàn)實(shí)世界是由多種數(shù)據(jù)模態(tài)構(gòu)成,,單模態(tài)感知方法無(wú)法充分滿(mǎn)足現(xiàn)實(shí)世界的復(fù)雜性。隨著網(wǎng)絡(luò)平臺(tái)上圖像,、文本和視頻內(nèi)容的爆炸性增長(zhǎng),,開(kāi)發(fā)能夠持續(xù)感知多模態(tài)信息的 LLM Agent 變得至關(guān)重要,。 這些智能體需有效整合來(lái)自不同模態(tài)的信息,同時(shí)保持對(duì)先前模態(tài)知識(shí)的積累與適應(yīng),,從而更好地模擬人類(lèi)在多模態(tài)環(huán)境中的持續(xù)學(xué)習(xí)過(guò)程,,提升其整體感知和認(rèn)知能力。 ▲ 圖8. 基于LLM的Agent在多模態(tài)感知上的終生學(xué)習(xí)方法 我們將 Agent 對(duì)多模態(tài)信息感知的終生學(xué)習(xí)處理方法分為了新知識(shí)感知和舊知識(shí)感知: 在新知識(shí)感知中,,Agent 需要關(guān)注不同模態(tài)之間的交互以及對(duì)新模態(tài)的感知與處理,,以更好地應(yīng)對(duì)現(xiàn)實(shí)世界中快速變化迭代的信息形式。很多研究關(guān)注當(dāng) Agent 遇到包含新模態(tài)的任務(wù)時(shí),,如何在保持對(duì)舊模態(tài)任務(wù)的穩(wěn)定性下,,提升解決新任務(wù)能力。 我們根據(jù) Agent 遇到新模態(tài)任務(wù)的不同情況的處理進(jìn)行了分類(lèi),。 模態(tài)完全學(xué)習(xí)(Modality-Complete Learning)假設(shè)所有數(shù)據(jù)在訓(xùn)練階段和推理階段都具有相同的模態(tài),。在這種場(chǎng)景下,Agent 的多模態(tài)感知終生學(xué)習(xí)重點(diǎn)關(guān)注如何接受來(lái)自多種模態(tài)的數(shù)據(jù)以及在新任務(wù)中實(shí)現(xiàn)跨模態(tài)的知識(shí)遷移,。 一些研究探索了模態(tài)無(wú)關(guān)模型,,旨在使模型能夠接受多種模態(tài)信息作為輸入。 還有一些研究關(guān)注跨模態(tài)知識(shí)遷移,,旨在學(xué)習(xí)如何運(yùn)用已獲得模態(tài)信息的知識(shí)以遷移到另一個(gè)模態(tài)中,,以提高模型在面對(duì)新模態(tài)任務(wù)的性能。 模態(tài)不完全學(xué)習(xí)(Modality-Incomplete Learning)涉及 Agent 在終生學(xué)習(xí)的過(guò)程中遇到部分模態(tài)信息缺失或不完整的情況下,,如何動(dòng)態(tài)適應(yīng)以有效學(xué)習(xí)和推斷的問(wèn)題,。 例如,通過(guò)運(yùn)用混合專(zhuān)家(MoE)模塊,,PathWeave【46】通過(guò)引入了一種新穎的“適配器中的適配器”(AnA)框架,,使得單模態(tài)和跨模態(tài)適配器無(wú)縫集成,能夠增量式地學(xué)習(xí)新增模態(tài)知識(shí),。 還有一些研究利用可用模態(tài)信息來(lái)預(yù)測(cè)缺失模態(tài)的表示,,以及通過(guò)學(xué)習(xí)模態(tài)信息的共享和特定特征來(lái)更好地表示輸入數(shù)據(jù),以在處理模態(tài)缺失時(shí)表現(xiàn)出更好的魯棒性,。 ▲ 圖9. Agent在終生學(xué)習(xí)過(guò)程中增量式的感知新模態(tài)信息 在舊知識(shí)感知中,,我們關(guān)注 Agent 在接受新的信息后保持對(duì)已有模態(tài)知識(shí)的穩(wěn)定性。針對(duì)災(zāi)難性遺忘問(wèn)題,,我們呈現(xiàn)了具體以下幾種方法: 基于正則的方法:旨在通過(guò)引入正則化項(xiàng)來(lái)限制新任務(wù)學(xué)習(xí)過(guò)程中模型參數(shù)的變化,,從而減輕災(zāi)難性遺忘現(xiàn)象。根據(jù)約束施加的方法,,還可以更細(xì)化為權(quán)重正則化和函數(shù)正則化,。 權(quán)重正則化通過(guò)直接對(duì)模型的權(quán)重施加懲罰項(xiàng),限制其在學(xué)習(xí)新任務(wù)時(shí)的變化,。 函數(shù)正則化側(cè)重于對(duì)模型中間或最終輸出的約束,,確保在學(xué)習(xí)新任務(wù)時(shí),,模型能夠保留對(duì)舊任務(wù)的輸出特征。這種方法常常與知識(shí)蒸餾策略相結(jié)合,。 基于重放的方法:是一種通過(guò)保留和重新使用先前學(xué)習(xí)經(jīng)驗(yàn)的方式,,來(lái)緩解災(zāi)難性遺忘的問(wèn)題。在多模態(tài)持續(xù)感知學(xué)習(xí)中,,根據(jù)重放的具體內(nèi)容,,可以將方法分為經(jīng)驗(yàn)重放和生成重放。 由于存儲(chǔ)空間的限制,,經(jīng)驗(yàn)重放方法的重點(diǎn)在于如何利用有限的內(nèi)存空間存儲(chǔ)更具代表性的舊訓(xùn)練樣本,。 生成重放則需要訓(xùn)練一個(gè)額外的生成模型來(lái)重放生成的數(shù)據(jù),這種方法可以有效減小存儲(chǔ)需求,。 其他方法:現(xiàn)有研究還有一些基于投影以及架構(gòu)的方法,。 基于投影的方法將不同模態(tài)的數(shù)據(jù)(如圖像、文本和音頻)映射到一個(gè)統(tǒng)一的特征空間,,以便于模型接受信息,。 基于架構(gòu)的方法是一種通過(guò)調(diào)整模型的結(jié)構(gòu)來(lái)支持持續(xù)學(xué)習(xí)的策略。這種方法通過(guò)將模型分為任務(wù)共享和任務(wù)特定組件,,確保任務(wù)間的相對(duì)隔離,,以減少學(xué)習(xí)新任務(wù)后對(duì)舊知識(shí)的影響。 在 LLM Agent 的終生學(xué)習(xí)過(guò)程中,,記憶模塊能夠使智能體存儲(chǔ),、保留和回憶信息。這一能力不僅有助于智能體從過(guò)去的經(jīng)驗(yàn)中學(xué)習(xí),,還能改善決策過(guò)程,。記憶是智能體形成連貫長(zhǎng)期行為、做出知情決策和與其他智能體或人類(lèi)進(jìn)行有意義互動(dòng)的基礎(chǔ),。 因此,,記憶模塊支持智能體通過(guò)經(jīng)驗(yàn)學(xué)習(xí)、避免災(zāi)難性遺忘,,并促進(jìn)協(xié)作行為,。我們將記憶模塊分為四個(gè)關(guān)鍵類(lèi)型:工作記憶、情節(jié)記憶,、語(yǔ)義記憶和參數(shù)記憶,。這四種類(lèi)型協(xié)同運(yùn)作,構(gòu)成一個(gè)全面的記憶系統(tǒng),。 工作記憶是智能體的短期記憶,,負(fù)責(zé)處理即時(shí)上下文信息,例如提示詞,、用戶(hù)輸入和相關(guān)的工作區(qū)信息,。它使智能體能夠?qū)崟r(shí)處理當(dāng)前上下文,從而為短期推理和決策提供基礎(chǔ),。我們從五個(gè)主要角度討論工作記憶:提示詞壓縮,、長(zhǎng)上下文理解、角色扮演,、自我糾正和提示優(yōu)化,。 智能體可以通過(guò)壓縮用戶(hù)輸入的提示詞來(lái)有效地增加上下文內(nèi)容的容量。這一過(guò)程提高了信息處理效率,,并幫助智能體避免對(duì)歷史信息的災(zāi)難性遺忘,,從而支持終生學(xué)習(xí)。 軟壓縮:通過(guò)優(yōu)化少量的軟提示令牌(token)來(lái)壓縮原始提示,,保留關(guān)鍵信息和抽象情感,。這種方法有助于生成摘要向量,使智能體能夠更高效地處理信息,,同時(shí)支持緩存和重用較短的摘要令牌,,以提升計(jì)算效率。 硬壓縮:直接過(guò)濾冗余或非必要的提示令牌,,提供更簡(jiǎn)潔的提示表示,。硬壓縮方法通過(guò)評(píng)估各個(gè)詞匯單元的重要性,僅保留信息量較高的部分,,從而優(yōu)化智能體的輸入,。 在工作記憶中,處理長(zhǎng)文本是常見(jiàn)的需求,,這不僅提升了智能體對(duì)文本的理解能力,,還促進(jìn)了其在終生學(xué)習(xí)過(guò)程中的適應(yīng)性。長(zhǎng)文本理解的主要方法包括: 上下文選擇:將長(zhǎng)文本分割成多個(gè)段落,,依據(jù)重要性標(biāo)準(zhǔn)選擇特定段落,。這種方法幫助智能體提取關(guān)鍵內(nèi)容,從而提高信息處理的效率,。 上下文聚合:通過(guò)整合來(lái)自不同區(qū)域的特征信息,,增強(qiáng)模型對(duì)局部和全局上下文的理解。此方法使模型能夠更全面地把握文本的整體意義,。這兩種方法共同作用,,使智能體能夠有效處理長(zhǎng)文本輸入,提升信息提取和理解的能力,,同時(shí)支持其在不斷變化的環(huán)境中進(jìn)行持續(xù)學(xué)習(xí),。 在工作記憶中,角色扮演是一種增強(qiáng)智能體與用戶(hù)互動(dòng)的有效機(jī)制,,有助于實(shí)現(xiàn)更加個(gè)性化和多維的溝通,。角色扮演的主要形式和特點(diǎn)包括: 單智能體角色扮演:通過(guò)構(gòu)建一個(gè)能夠模擬特定角色的智能體,,定義角色的性格特征和背景故事,收集相關(guān)數(shù)據(jù),,使用大型語(yǔ)言模型生成角色語(yǔ)言和行為,。這種方法使智能體能夠在與用戶(hù)的互動(dòng)中真實(shí)地表現(xiàn)角色的特征。 多智能體協(xié)作角色扮演:多個(gè)智能體共同工作,,用戶(hù)為每個(gè)智能體分配角色和任務(wù),,以實(shí)現(xiàn)復(fù)雜的互動(dòng)。通過(guò)協(xié)作,,智能體能夠完成更具挑戰(zhàn)性的任務(wù),,提升整體系統(tǒng)的效率。例如,,MetaGPT 利用元編程方法將任務(wù)分解為子任務(wù),,并通過(guò)不同智能體執(zhí)行,增強(qiáng)了結(jié)果的驗(yàn)證和錯(cuò)誤的最小化,。 用戶(hù)通過(guò)特定提示指示智能體回顧和評(píng)估其先前的響應(yīng),,以識(shí)別和糾正潛在錯(cuò)誤,從而啟用智能體的自我糾正功能,。這一過(guò)程通過(guò)要求智能體不僅識(shí)別錯(cuò)誤,,還重新思考并提供修正答案,來(lái)優(yōu)化模型的輸出,,使智能體能夠從提示中持續(xù)學(xué)習(xí)和改進(jìn),,實(shí)現(xiàn)終生學(xué)習(xí)。自我糾正的主要策略包括: 依賴(lài)其他模型的反饋:N-CRITICS 利用多個(gè)不同的通用大型語(yǔ)言模型作為評(píng)論者,,評(píng)估主模型生成的輸出并提供反饋,。該方法采用迭代反饋機(jī)制,無(wú)需監(jiān)督訓(xùn)練,,初始輸出由評(píng)論者集合評(píng)估,,所收集的批評(píng)意見(jiàn)用于指導(dǎo)主模型迭代修正輸出,直到滿(mǎn)足特定的停止條件,。 評(píng)估自身信心水平:Li 等人提出了 If-or-Else 提示框架,,以指導(dǎo)大型語(yǔ)言模型評(píng)估其自身信心并促進(jìn)內(nèi)在自我糾正。 借助外部工具:CRITIC 通過(guò)與外部工具的互動(dòng)來(lái)引導(dǎo)大型語(yǔ)言模型進(jìn)行自我糾正,。該框架的核心思想是模擬人類(lèi)使用外部工具(例如,,事實(shí)檢查的搜索引擎或調(diào)試的代碼解釋器)來(lái)驗(yàn)證和修正初始內(nèi)容的行為。這些策略共同支持智能體的自我糾正能力,,使其能夠在反饋中不斷學(xué)習(xí)和提升,,增強(qiáng)其在多變環(huán)境中的適應(yīng)性。 在智能體的工作記憶中,用戶(hù)輸入的提示詞可能過(guò)于寬泛或模糊,,導(dǎo)致誤解,。為提高響應(yīng)質(zhì)量,引入了提示優(yōu)化技術(shù),,以細(xì)化用戶(hù)指令,,幫助智能體更準(zhǔn)確地理解用戶(hù)意圖,。在這一過(guò)程中,,智能體通過(guò)互動(dòng)不斷學(xué)習(xí),實(shí)現(xiàn)終生學(xué)習(xí),,增強(qiáng)適應(yīng)性,。 進(jìn)化算法:EvoPrompt 利用進(jìn)化算法生成新的提示候選,通過(guò)迭代優(yōu)化提示種群,,基于開(kāi)發(fā)集表現(xiàn)選擇更佳提示,。 蒙特卡洛樹(shù)搜索算法:PromptAgent 將提示優(yōu)化視為策略規(guī)劃,模擬人類(lèi)試錯(cuò)過(guò)程,,迭代優(yōu)化中間提示,,通過(guò)反思模型錯(cuò)誤生成反饋。這些方法共同提升了智能體的提示理解和響應(yīng)能力,。 情節(jié)記憶用于存儲(chǔ)長(zhǎng)期經(jīng)驗(yàn)和事件,,例如用戶(hù)交互、先前任務(wù)的結(jié)果或多輪對(duì)話(huà),。情節(jié)記憶幫助智能體回憶過(guò)去的經(jīng)歷,,以改善未來(lái)的行動(dòng),同時(shí)保持長(zhǎng)期行為和學(xué)習(xí)的一致性,。我們從三個(gè)主要角度討論情節(jié)記憶:數(shù)據(jù)重放與特征重放,、持續(xù)強(qiáng)化學(xué)習(xí)、自我經(jīng)驗(yàn),。 在終生學(xué)習(xí)中,,模型需要在學(xué)習(xí)新任務(wù)時(shí)避免遺忘舊任務(wù)的知識(shí)。為此,,重放舊任務(wù)樣本是有效的策略,,主要通過(guò)兩種技術(shù)實(shí)現(xiàn): 1. 經(jīng)驗(yàn)重放:保留舊任務(wù)的一部分樣本,并在新任務(wù)訓(xùn)練中重放,,以幫助模型維持舊任務(wù)的記憶,。關(guān)鍵挑戰(zhàn)在于如何有效選擇和利用這些樣本。 2. 生成重放:通過(guò)訓(xùn)練生成模型生成舊任務(wù)數(shù)據(jù),,減少對(duì)實(shí)際存儲(chǔ)舊樣本的需求,,從而保持舊任務(wù)的知識(shí)一致性,。此外,,特征重放關(guān)注保留特征分布,解決因特征提取器更新導(dǎo)致的表示轉(zhuǎn)移問(wèn)題,減輕災(zāi)難性遺忘的風(fēng)險(xiǎn),。知識(shí)蒸餾則通過(guò)轉(zhuǎn)移舊任務(wù)與新任務(wù)之間的知識(shí),增強(qiáng)模型的泛化能力,。 總之,,終生學(xué)習(xí)面臨的主要挑戰(zhàn)包括選擇舊樣本的策略、保持知識(shí)一致性以及處理表示轉(zhuǎn)移問(wèn)題,。合理運(yùn)用這些技術(shù),,模型能更有效地適應(yīng)新任務(wù)。 持續(xù)強(qiáng)化學(xué)習(xí) 持續(xù)強(qiáng)化學(xué)習(xí)強(qiáng)調(diào)在智能體學(xué)習(xí)新任務(wù)時(shí),,如何有效利用過(guò)去的經(jīng)驗(yàn),,避免災(zāi)難性遺忘。在持續(xù)強(qiáng)化學(xué)習(xí)中,,數(shù)據(jù)緩沖區(qū)中收集的經(jīng)驗(yàn)代表了情景記憶的重要體現(xiàn),。通過(guò)利用經(jīng)驗(yàn)重放即通過(guò)反復(fù)呈現(xiàn)存儲(chǔ)在重放緩沖區(qū)中的經(jīng)驗(yàn)來(lái)增強(qiáng)訓(xùn)練的穩(wěn)定性和提高學(xué)習(xí)效率。 這些經(jīng)驗(yàn)由四元組組成,,包括當(dāng)前狀態(tài),、采取的行動(dòng)、下一個(gè)狀態(tài)和獎(jiǎng)勵(lì),。通過(guò)在訓(xùn)練過(guò)程中從緩沖區(qū)中抽樣,,經(jīng)驗(yàn)重放減輕了災(zāi)難性遺忘的問(wèn)題,實(shí)現(xiàn)了終生學(xué)習(xí)的目標(biāo),。 ▲ 圖13. 持續(xù)強(qiáng)化學(xué)習(xí)中的經(jīng)驗(yàn)重放 情景記憶能夠存儲(chǔ)和回顧經(jīng)歷,,包括成功與否的結(jié)果以及外部環(huán)境對(duì)其行為的反饋。這些記憶形成了自我經(jīng)驗(yàn)庫(kù),,智能體可以利用這些經(jīng)驗(yàn)來(lái)改進(jìn)決策和行動(dòng)計(jì)劃,,從而實(shí)現(xiàn)終生學(xué)習(xí)。這種能力使智能體在復(fù)雜和變化的環(huán)境中更敏捷,、更有效,。 在構(gòu)建大型語(yǔ)言模型(LLM)智能體人的自我經(jīng)驗(yàn)時(shí),數(shù)據(jù)存儲(chǔ)類(lèi)型被細(xì)致分類(lèi)為四類(lèi):三元組,、數(shù)據(jù)庫(kù),、文檔和對(duì)話(huà)。 三元組:RET-LLM 提出了一種通用的讀寫(xiě)記憶模塊,,以三元組形式存儲(chǔ)知識(shí),,支持模糊搜索。 數(shù)據(jù)庫(kù):ChatDB 使用數(shù)據(jù)庫(kù)作為符號(hào)記憶模塊,,支持歷史信息的復(fù)雜推理和查詢(xún),。 文檔:DelTA 旨在處理整個(gè)文檔的翻譯一致性,采用多級(jí)記憶結(jié)構(gòu),存儲(chǔ)長(zhǎng)短期記憶和上下文信息,。 對(duì)話(huà):對(duì)話(huà)是情景記憶中的重要信息存儲(chǔ)形式,。MemoChat 允許智能體從長(zhǎng)對(duì)話(huà)中動(dòng)態(tài)檢索和利用過(guò)去的對(duì)話(huà)信息,保持對(duì)話(huà)一致性,。RAISE 增強(qiáng)了對(duì)話(huà)智能體的能力,,引入了類(lèi)似短期記憶的臨時(shí)記憶板,以處理近期交互的信息,。通過(guò)這些機(jī)制,,智能體人不僅能夠引用歷史信息,還能從中學(xué)習(xí),,不斷優(yōu)化反應(yīng)模式,,提高對(duì)話(huà)技能,實(shí)現(xiàn)更自然和精準(zhǔn)的對(duì)話(huà)結(jié)果,。 語(yǔ)義記憶作為外部知識(shí)存儲(chǔ),幫助智能體獲取和更新世界知識(shí),。通過(guò)持續(xù)的知識(shí)圖譜學(xué)習(xí)和文檔學(xué)習(xí)等機(jī)制,,語(yǔ)義記憶促進(jìn)新知識(shí)融入智能體的內(nèi)部框架。借助知識(shí)圖譜或動(dòng)態(tài)文檔庫(kù)等外部數(shù)據(jù)庫(kù),,語(yǔ)義記憶確保智能體能夠跟上不斷變化的信息,,從而提高回答查詢(xún)的能力并增強(qiáng)長(zhǎng)期學(xué)習(xí)效果。 在語(yǔ)義記憶中,,我們主要關(guān)注在持續(xù)知識(shí)圖譜和動(dòng)態(tài)文檔庫(kù)兩個(gè)外部存儲(chǔ)工具中的終生學(xué)習(xí),。 知識(shí)圖譜嵌入(KGE)是一種將知識(shí)圖譜中的實(shí)體和關(guān)系映射到低維向量空間的技術(shù),廣泛應(yīng)用于下游任務(wù),。 然而,,隨著知識(shí)的快速增長(zhǎng),傳統(tǒng)的靜態(tài) KGE 方法通常需要在新知識(shí)出現(xiàn)時(shí)保留整個(gè)知識(shí)圖譜,,這導(dǎo)致了顯著的訓(xùn)練成本,。為了解決這一挑戰(zhàn),出現(xiàn)了持續(xù)知識(shí)圖譜嵌入(CKGE)任務(wù),。CKGE 利用增量學(xué)習(xí)優(yōu)化知識(shí)圖譜的更新過(guò)程,,旨在高效學(xué)習(xí)新知識(shí),同時(shí)保留現(xiàn)有知識(shí),。 目前的 CKGE 方法可以大致分為三種主要類(lèi)型:基于正則化的方法,、基于重放的方法以及基于架構(gòu)的方法。 LLM Agent 可以利用信息檢索將用戶(hù)查詢(xún)映射到相關(guān)文檔,。傳統(tǒng)的研究主要集中在從靜態(tài)文檔庫(kù)中進(jìn)行生成式檢索,。然而,實(shí)際中可供檢索的文檔不斷更新,尤其是在新聞,、科學(xué)文獻(xiàn)等快速變化的信息領(lǐng)域,。這種文檔的快速演變給檢索系統(tǒng)帶來(lái)了重大挑戰(zhàn)。 一些研究通過(guò) DSI 方法增強(qiáng)動(dòng)態(tài)文檔庫(kù)的文檔更新能力,。例如: DSI++:引入了基于 Transformer 的記憶機(jī)制,,設(shè)計(jì)動(dòng)態(tài)更新策略,使模型在新文檔到達(dá)時(shí)優(yōu)化其內(nèi)部表示,,實(shí)現(xiàn)高效的檢索適應(yīng),。 IncDSI:采用模塊化索引更新策略,利用之前構(gòu)建的索引數(shù)據(jù)支持快速插入新文檔,,顯著降低計(jì)算資源需求,,確保實(shí)時(shí)檢索效率。 PromptDSI:采用基于提示的無(wú)復(fù)習(xí)增量學(xué)習(xí)方法,,利用提示機(jī)制指導(dǎo)模型在更新過(guò)程中保留舊文檔的記憶,,避免需要復(fù)習(xí)樣本。而在一些特定領(lǐng)域的任務(wù)上,,例如 RAG 應(yīng)用中,,知識(shí)文檔的增量更新對(duì)于確保領(lǐng)域特定知識(shí)的及時(shí)同步至關(guān)重要。目前的研究主要采用兩種增量更新策略:文檔級(jí)更新和塊級(jí)更新,。文檔級(jí)更新涉及對(duì)新添加或更新文檔的全面解析和向量化,; 塊級(jí)更新則集中于識(shí)別文檔中新增、修改,、刪除或未變更的知識(shí)塊,,利用“指紋”技術(shù)進(jìn)行比較,確保只處理需要更新的內(nèi)容,。 ▲ 圖14. RAG應(yīng)用中知識(shí)更新策略 框架如 LangChain 和 LlamaIndex 支持增量知識(shí)更新,,提供文檔存儲(chǔ)和管理策略。增量知識(shí)更新對(duì)于企業(yè)級(jí) RAG 應(yīng)用至關(guān)重要,,使其能夠快速適應(yīng)知識(shí)變化,,同時(shí)降低運(yùn)營(yíng)成本。 與過(guò)去事件的顯性記憶不同,,參數(shù)記憶體現(xiàn)在模型的內(nèi)部參數(shù)中,。這些參數(shù)的變化(例如通過(guò)微調(diào)或訓(xùn)練更新)反映了長(zhǎng)期知識(shí),并為智能體的知識(shí)庫(kù)貢獻(xiàn)力量,。這種記憶類(lèi)型使智能體能夠在任務(wù)之間保留知識(shí),,而無(wú)需存儲(chǔ)具體事件的詳細(xì)信息。我們從以下三個(gè)角度展開(kāi)分析:持續(xù)指令微調(diào),、持續(xù)知識(shí)編輯以及持續(xù)對(duì)齊,。 持續(xù)指令微調(diào)是指智能體通過(guò)不斷利用指令數(shù)據(jù)集來(lái)更新其參數(shù)記憶,,調(diào)整模型的內(nèi)部參數(shù)。這一調(diào)整過(guò)程并非一次性修改,,而是一個(gè)持續(xù)優(yōu)化的過(guò)程,,使智能體能夠隨著新指令的接收不斷優(yōu)化其知識(shí)庫(kù)。 通過(guò)這種方式,,智能體不僅能夠保留和利用過(guò)去的經(jīng)驗(yàn),,還能無(wú)縫整合新學(xué)習(xí)的信息,避免因新學(xué)習(xí)導(dǎo)致的舊知識(shí)丟失(即災(zāi)難性遺忘),。這種持續(xù)學(xué)習(xí)和記憶更新的機(jī)制是智能體實(shí)現(xiàn)終生學(xué)習(xí)的關(guān)鍵,,主要分為兩類(lèi):特定能力和通用能力。 在特定能力方面,,模型通過(guò)微調(diào)領(lǐng)域特定的數(shù)據(jù)集,,增強(qiáng)了在專(zhuān)業(yè)工具使用和數(shù)學(xué)問(wèn)題解決等領(lǐng)域的能力。研究表明,,工具使用框架能夠有效支持?jǐn)?shù)據(jù)構(gòu)建,、模型訓(xùn)練和評(píng)估等功能,并通過(guò)構(gòu)建指令微調(diào)數(shù)據(jù)集,,模型能夠處理多種工具指令并泛化到未見(jiàn)的 API,。此外,語(yǔ)言模型通過(guò)識(shí)別和調(diào)用 API,,利用自監(jiān)督學(xué)習(xí)優(yōu)化其預(yù)測(cè)能力,從而掌握工具的操作及使用時(shí)機(jī),。 此外,,針對(duì)特定智能體任務(wù)的研究構(gòu)建了高質(zhì)量的交互數(shù)據(jù)集,并結(jié)合通用指令數(shù)據(jù)提升模型在特定任務(wù)上的表現(xiàn),。統(tǒng)一的可學(xué)習(xí)語(yǔ)言智能體框架適用于多種復(fù)雜的交互任務(wù),,并通過(guò)多領(lǐng)域的微調(diào)注釋訓(xùn)練,展現(xiàn)出與主流模型相當(dāng)或更優(yōu)的性能,。 而在通用能力方面,,模型通過(guò)廣泛的通用數(shù)據(jù)集進(jìn)行微調(diào),以提高對(duì)人類(lèi)用戶(hù)輸入的理解和生成更滿(mǎn)意的響應(yīng),。指令微調(diào)顯著增強(qiáng)了語(yǔ)言模型在代碼,、常識(shí)推理、世界知識(shí),、閱讀理解和數(shù)學(xué)等領(lǐng)域的表現(xiàn),,通常通過(guò)多個(gè)基準(zhǔn)測(cè)試進(jìn)行評(píng)估,如 HumanEval,、HellaSwag,、TriviaQA,、BoolQ 和 GSM8K 等。 通過(guò)持續(xù)的指令微調(diào),,大型語(yǔ)言模型不僅保持廣泛的知識(shí)基礎(chǔ),,還基于最新數(shù)據(jù)和指令不斷演變,實(shí)現(xiàn)終生學(xué)習(xí)與改進(jìn),。這種自我進(jìn)化的概念體現(xiàn)了一般能力的增強(qiáng),,涉及多個(gè)迭代學(xué)習(xí)階段,幫助智能體適應(yīng)新任務(wù)和環(huán)境,。 在持續(xù)知識(shí)編輯過(guò)程中,,智能體利用更新的數(shù)據(jù)集(新知識(shí))修正先前模型中的錯(cuò)誤或過(guò)時(shí)信息。通過(guò)微調(diào)內(nèi)部參數(shù),,智能體能夠融合新信息并保持已有知識(shí),,防止災(zāi)難性遺忘,實(shí)現(xiàn)終生學(xué)習(xí),,以適應(yīng)不斷變化的環(huán)境,。 持續(xù)知識(shí)編輯采用知識(shí)三元組(頭實(shí)體、關(guān)系,、尾實(shí)體)更新模型理解,,確保在知識(shí)過(guò)時(shí)或遇到新信息時(shí)調(diào)整知識(shí)庫(kù)。主要方法包括外部記憶,、全局優(yōu)化和局部修改,。 外部記憶:通過(guò)外部結(jié)構(gòu)存儲(chǔ)新知識(shí)而不修改大型語(yǔ)言模型(LLM)的權(quán)重。例如,,WISE 設(shè)計(jì)了雙參數(shù)記憶方案,,主記憶存儲(chǔ)預(yù)訓(xùn)練知識(shí),副記憶存儲(chǔ)編輯后的知識(shí),。GRACE 則在特定層添加適配器,,以適應(yīng)新變化。 全局優(yōu)化:更新所有參數(shù)以納入新知識(shí),,保留原始知識(shí),。例如,PPA 利用低秩適應(yīng)(LoRA)進(jìn)行約束優(yōu)化,,ELDER 動(dòng)態(tài)分配 LoRA 組件應(yīng)對(duì)持續(xù)編輯任務(wù),。 局部修改:定位并更新 LLM 中特定知識(shí)相關(guān)的參數(shù),以解決知識(shí)編輯中的毒性累積問(wèn)題,。WilKE 評(píng)估層間模式匹配,,選擇適合編輯的層。PRUNE 則通過(guò)管理矩陣的條件數(shù),,降低編輯對(duì)模型能力的影響,。 智能體通過(guò)吸收人類(lèi)反饋微調(diào)內(nèi)部參數(shù),,實(shí)現(xiàn)持續(xù)對(duì)齊,增強(qiáng)對(duì)新指令的響應(yīng)能力,,避免災(zāi)難性遺忘,。這種動(dòng)態(tài)調(diào)整使智能體在每次交互中學(xué)習(xí)和適應(yīng),支持終生學(xué)習(xí),。 傳統(tǒng)對(duì)齊為單步過(guò)程,,依賴(lài)固定的靜態(tài)示例,缺乏適應(yīng)新情況的能力,。多步對(duì)齊要求模型在不遺忘已學(xué)任務(wù)的情況下適應(yīng)新任務(wù),,體現(xiàn)持續(xù)對(duì)齊的挑戰(zhàn)。 持續(xù)對(duì)齊的數(shù)據(jù)集不斷變化,,跨越多個(gè)任務(wù)或領(lǐng)域,。為解決 RLHF 模型重訓(xùn)練的高成本,COPR 計(jì)算最優(yōu)策略分布序列,,并依據(jù)歷史分布微調(diào)當(dāng)前策略,,減少災(zāi)難性遺忘。 COPR 提供適應(yīng)性,,無(wú)需人類(lèi)反饋,。CPPO 通過(guò)加權(quán)策略和樣本分類(lèi),持續(xù)對(duì)齊語(yǔ)言模型與動(dòng)態(tài)人類(lèi)偏好,。 行動(dòng)模塊使智能體能夠與環(huán)境互動(dòng),、做出決策并執(zhí)行行為,從而影響其學(xué)習(xí)過(guò)程,。在終生學(xué)習(xí)框架中,,行動(dòng)對(duì)于閉合反饋循環(huán)至關(guān)重要:行動(dòng)影響環(huán)境,環(huán)境則提供反饋,,用于優(yōu)化未來(lái)的行動(dòng)。 我們將行動(dòng)分為三種主要類(lèi)型:基礎(chǔ)行動(dòng),、檢索行動(dòng)和推理行動(dòng),。 對(duì)于大語(yǔ)言模型(LLM)智能體,基礎(chǔ)行動(dòng)涉及通過(guò)文本描述感知環(huán)境,,并生成文本以確定適當(dāng)?shù)南乱徊叫袆?dòng),。我們重點(diǎn)探索不同環(huán)境背景下的解決方案。 在輸入基礎(chǔ)行動(dòng)中,,LLM 在預(yù)訓(xùn)練語(yǔ)料庫(kù)中遇到的文本格式與環(huán)境描述使用的格式存在顯著差異,。預(yù)訓(xùn)練語(yǔ)料庫(kù)主要由結(jié)構(gòu)良好的段落構(gòu)成,而環(huán)境描述往往以簡(jiǎn)短句子,、短語(yǔ)或結(jié)構(gòu)化文本格式(如 JSON 字符串或 HTML 標(biāo)簽)呈現(xiàn),。 因此,,LLM 必須從熟悉的預(yù)訓(xùn)練數(shù)據(jù)輸入格式適應(yīng)到智能體環(huán)境中多樣且專(zhuān)業(yè)的格式。在快速變化的環(huán)境中,,智能體需要持續(xù)適應(yīng)更新的描述,,以更好地理解環(huán)境。 在輸出基礎(chǔ)行動(dòng)中,,LLM 需要生成的內(nèi)容類(lèi)型存在顯著差異,。在預(yù)訓(xùn)練過(guò)程中,LLM 主要訓(xùn)練用于簡(jiǎn)單的文本補(bǔ)全,,而在智能體環(huán)境中,,必須生成遵循特定模式的文本,表示動(dòng)作或環(huán)境特定元素,。LLM 必須學(xué)習(xí)通過(guò)生成符合環(huán)境要求的輸出,,來(lái)執(zhí)行復(fù)雜的動(dòng)作,而不僅僅是以自由形式自然語(yǔ)言描述動(dòng)作或意圖,。 此外,,在復(fù)雜環(huán)境中,輸出基礎(chǔ)行動(dòng)的要求可能會(huì)根據(jù)智能體的先前行動(dòng)而變化,,因此需要持續(xù)適應(yīng)以符合環(huán)境不斷變化的需求,。 具有終生學(xué)習(xí)能力的大型語(yǔ)言模型(LLM)智能體不僅可以根據(jù)特定環(huán)境調(diào)整其基礎(chǔ)行動(dòng),還能通過(guò)與環(huán)境的互動(dòng)不斷演變,。然而,,不同環(huán)境的多樣性帶來(lái)了獨(dú)特的挑戰(zhàn),促使研究者們開(kāi)發(fā)出多種解決方案,。為了清晰全面地概述這些解決方案,,研究將常見(jiàn)環(huán)境分為三類(lèi):工具環(huán)境、網(wǎng)絡(luò)環(huán)境和游戲環(huán)境,。 工具環(huán)境:工具是智能體可以交互的外部功能或資源,,如計(jì)算器、日歷,、搜索引擎和 API,。LLM 在工具環(huán)境中需要理解工具的功能并根據(jù)用戶(hù)意圖按正確順序調(diào)用工具。研究者們采用簡(jiǎn)化工具文檔的方式來(lái)幫助 LLM 理解工具,,并通過(guò)工具調(diào)用軌跡進(jìn)行微調(diào)或上下文學(xué)習(xí),,以改善工具調(diào)用能力。此外,,LLM 需要適應(yīng)工具環(huán)境以生成特定格式的輸出,,相關(guān)研究通過(guò)微調(diào)或少量學(xué)習(xí)來(lái)實(shí)現(xiàn)這一點(diǎn)。 網(wǎng)絡(luò)環(huán)境:在網(wǎng)絡(luò)環(huán)境中,,基于 LLM 的智能體需要根據(jù)用戶(hù)意圖與網(wǎng)頁(yè)交互,。LLM 主要通過(guò) HTML DOM 樹(shù)或可訪(fǎng)問(wèn)性樹(shù)來(lái)感知網(wǎng)頁(yè),,這種格式復(fù)雜且不直觀。為了解決這個(gè)問(wèn)題,,研究者們通過(guò)簡(jiǎn)化網(wǎng)頁(yè)內(nèi)容和將先前的軌跡或經(jīng)驗(yàn)納入提示中來(lái)提高輸入基礎(chǔ)行動(dòng)的準(zhǔn)確性,。 游戲 環(huán)境:游戲環(huán)境是三種環(huán)境中最復(fù)雜的。LLM 智能體通常在虛擬環(huán)境中操作,,根據(jù)不同游戲環(huán)境提供的 API,,其輸入和輸出基礎(chǔ)行動(dòng)的具體要求各不相同。一些研究使用專(zhuān)門(mén)的提示幫助 LLM 深入理解環(huán)境,,其他研究則將環(huán)境視為圖像來(lái)直接感知復(fù)雜環(huán)境,。在輸出基礎(chǔ)行動(dòng)方面,大多數(shù)工作通過(guò)生成可執(zhí)行程序與環(huán)境互動(dòng),,以控制智能體的行為,。從終生學(xué)習(xí)的角度看,研究者們還強(qiáng)調(diào)了增強(qiáng)智能體行為長(zhǎng)期一致性和整體能力的重要性,。LLM Agent 在生成有效的基本行動(dòng)和推理行動(dòng)時(shí),,需要依賴(lài)外部信息。對(duì)于基本行動(dòng),,LLM 的輸出必須與環(huán)境模式匹配,,僅通過(guò)微調(diào)模型以適應(yīng)環(huán)境約束是不可行的,因?yàn)檫@既資源消耗大,,又無(wú)法應(yīng)對(duì)動(dòng)態(tài)變化的行動(dòng)空間,,同時(shí)在提示中包含所有可能的行動(dòng)描述也會(huì)導(dǎo)致上下文長(zhǎng)度過(guò)長(zhǎng)。 在推理行動(dòng)中,,全面的外部知識(shí)(語(yǔ)義記憶)和準(zhǔn)確的歷史軌跡(情景記憶)是做出正確決策的關(guān)鍵,。然而,隨著智能體活動(dòng)的增加,,行動(dòng)和觀察歷史的長(zhǎng)度可能超出 LLM 的處理能力,,這凸顯了檢索行動(dòng)的重要性。通過(guò)檢索,,LLM 智能體可以有效管理不斷增長(zhǎng)的歷史數(shù)據(jù),,提高長(zhǎng)期一致性,并在動(dòng)態(tài)環(huán)境中提升表現(xiàn),。 我們的研究將智能體的檢索分為語(yǔ)義記憶和情景記憶兩個(gè)部分。LLM 智能體可以在試驗(yàn)開(kāi)始時(shí)或生成每個(gè)行動(dòng)之前進(jìn)行檢索,,這種做法在現(xiàn)有研究中較為常見(jiàn),。 ▲ 圖17. 增強(qiáng)大型語(yǔ)言模型智能體檢索行為的研究總結(jié)及分類(lèi) 預(yù)訓(xùn)練的大型語(yǔ)言模型作為智能體的“腦”常常不足,主要由于兩個(gè)關(guān)鍵限制:缺乏背景知識(shí)和缺乏示例,。這兩個(gè)限制可以通過(guò)從語(yǔ)義記憶中檢索信息來(lái)解決,。 背景知識(shí)的缺乏表現(xiàn)為 LLM 無(wú)法從所有可能的行動(dòng)中選擇正確的行動(dòng),,或生成無(wú)法被環(huán)境理解的行動(dòng)。 為了解決這個(gè)問(wèn)題,,GITM 通過(guò)從 Minecraft Wiki 中檢索相關(guān)文本,,為 LLM 提供 Minecraft 世界的知識(shí),使其能夠正確執(zhí)行行動(dòng),。 SwiftSage 和 ToolLLM 利用 SentenceBERT 從數(shù)據(jù)庫(kù)中檢索可能的行動(dòng),,幫助 LLM 縮小行動(dòng)空間,從而選擇適當(dāng)?shù)男袆?dòng),。當(dāng)行動(dòng)參數(shù)有限時(shí),,SentenceBERT 還可將 LLM 生成但環(huán)境無(wú)法理解的參數(shù)轉(zhuǎn)換為有效參數(shù)。 缺乏示例會(huì)降低智能體在基礎(chǔ)行動(dòng)和規(guī)劃行動(dòng)中的質(zhì)量,。 示例被證明對(duì) LLM 的表現(xiàn)至關(guān)重要,。然而,在提示中包含無(wú)關(guān)或過(guò)時(shí)的示例會(huì)顯著影響 LLM 智能體的性能,。為了解決這個(gè)問(wèn)題,,Re-Prompting 和 STE 使用 SentenceBERT 從示例集中選擇最相似的示例。 雖然從語(yǔ)義記憶中檢索可以通過(guò)提供額外的背景知識(shí)和示例來(lái)提高智能體的能力,,但它無(wú)法解決 LLM 在利用過(guò)去經(jīng)驗(yàn)和長(zhǎng)期一致性方面的缺乏,。這兩個(gè)限制可以通過(guò)從情景記憶中檢索來(lái)克服。 利用過(guò)去經(jīng)驗(yàn)的能力不足 克服利用過(guò)去經(jīng)驗(yàn)的不足是終生 LLM 智能體的一大特征,。當(dāng)前研究將此方法分為兩類(lèi):第一類(lèi)是在智能體成功完成任務(wù)后存儲(chǔ)其軌跡,,隨后在新任務(wù)中檢索相似軌跡以提升推理質(zhì)量;第二類(lèi)是將任務(wù)解決步驟表示為可執(zhí)行程序,,智能體可以重用或組合這些程序來(lái)應(yīng)對(duì)新任務(wù),,從而提升其基礎(chǔ)能力。 LLM 的有限上下文長(zhǎng)度導(dǎo)致長(zhǎng)期一致性不足,,無(wú)法整合所有觀察和行動(dòng)歷史,。MemoryBank 通過(guò)檢索過(guò)去對(duì)話(huà)摘要,幫助保持與聊天歷史的一致性,,提升長(zhǎng)期交互中的表現(xiàn),。 推理行動(dòng)是 LLM 智能體的一類(lèi)關(guān)鍵行為,盡管 LLM 在預(yù)訓(xùn)練后能夠進(jìn)行基本的推理,,但其能力不足以應(yīng)對(duì)復(fù)雜環(huán)境中的推理任務(wù),。這主要由于環(huán)境復(fù)雜性和 LLM 自身推理能力的局限性,例如難以識(shí)別先前推理步驟中的錯(cuò)誤,。 為了解決這些挑戰(zhàn),,研究者們通過(guò)設(shè)計(jì)精確的提示和新穎的框架來(lái)提升推理質(zhì)量,許多研究還從終生學(xué)習(xí)的角度出發(fā),使 LLM 能夠基于先前的推理結(jié)果逐步改進(jìn)推理能力,。根據(jù)這一點(diǎn),,我們將推理行動(dòng)分為情節(jié)內(nèi)推理行動(dòng)和情節(jié)間推理行動(dòng),并在表7中總結(jié)了這一分類(lèi)結(jié)果,。 ▲ 圖18. 關(guān)于增強(qiáng)大型語(yǔ)言模型智能體推理行為的研究總結(jié) 情節(jié)內(nèi)推理動(dòng)作是指利用同一情節(jié)中的經(jīng)驗(yàn)的推理動(dòng)作,。基于這些研究是否刺激了 LLM 在同一試驗(yàn)中的內(nèi)在推理能力,,或者逐步增強(qiáng)其在不同試驗(yàn)中的推理能力,,我們進(jìn)一步將文章分為兩組。 幾乎所有研究鼓勵(lì) LLM 在單次試驗(yàn)中采用 ReAct 風(fēng)格推理,,基于環(huán)境反饋不斷完善推理過(guò)程,。許多研究將推理分解為步驟,使用不同的 LLM 處理,。 例如,,α-UMi 微調(diào)兩個(gè) LLM,分別負(fù)責(zé)規(guī)劃和總結(jié),,而 API-Bank 使用五個(gè) LLM 生成高質(zhì)量工具學(xué)習(xí)數(shù)據(jù),。這些研究提升了智能體的推理質(zhì)量,并通過(guò)引入環(huán)境特定策略增強(qiáng)了 LLM 在復(fù)雜環(huán)境中的推理能力,,如 LASER 和 SteP 的應(yīng)用,。 許多研究基于 ReAct,通過(guò)模擬人類(lèi)推理過(guò)程提升智能體在不同試驗(yàn)中的推理能力,。Reflexion 使 LLM 通過(guò)回顧失敗的試驗(yàn)進(jìn)行自我反思,,從而改善推理并提高未來(lái)試驗(yàn)的準(zhǔn)確性。LLM 智能體在每次新試驗(yàn)開(kāi)始時(shí)反思過(guò)去軌跡,,必要時(shí)重復(fù)此過(guò)程,,直至成功實(shí)現(xiàn)目標(biāo)。 跨情節(jié)推理行動(dòng)利用來(lái)自不同情節(jié)的經(jīng)驗(yàn)進(jìn)行推理,。這些經(jīng)驗(yàn)隨著 LLM 智能體與環(huán)境的互動(dòng)而逐漸積累,,包括成功的推理軌跡、可執(zhí)行代碼或文本摘要,,通常存儲(chǔ)在額外數(shù)據(jù)庫(kù)中,。遇到新任務(wù)時(shí),LLM 智能體檢索相關(guān)經(jīng)驗(yàn)并將其加入工作記憶,,以指導(dǎo)推理過(guò)程,。 AMOR 通過(guò)先前任務(wù)的反饋微調(diào)模型,提高特定環(huán)境下的推理質(zhì)量,。同時(shí),,一些研究利用課程學(xué)習(xí)安排任務(wù),,從簡(jiǎn)單到困難,幫助LLM智能體在探索復(fù)雜環(huán)境時(shí)更好地利用過(guò)去的經(jīng)驗(yàn),,使其逐步掌握推理技巧。 應(yīng)用 在數(shù)字化時(shí)代,,LLM Agent 在日常生活和專(zhuān)業(yè)領(lǐng)域中發(fā)揮著越來(lái)越重要的作用,。隨著終生學(xué)習(xí)概念的深入發(fā)展,這些智能體能夠不斷適應(yīng)和優(yōu)化其功能,,以滿(mǎn)足用戶(hù)不斷變化的需求,。 ▲ 圖19. 基于 LLM 的 Agent 終生學(xué)習(xí)的應(yīng)用 LLM Agent 的終生學(xué)習(xí)應(yīng)用可以大致分為兩類(lèi):日常應(yīng)用和領(lǐng)域特定應(yīng)用。 在人類(lèi)日常生活中,,LLM Agent 通過(guò)持續(xù)學(xué)習(xí)和適應(yīng),,極大地提升了人們的工作、生活和娛樂(lè)體驗(yàn),。這些智能體不僅能夠理解用戶(hù)的需求,,還能實(shí)時(shí)調(diào)整其功能,以更好地服務(wù)于用戶(hù)的日?;顒?dòng),。具體而言,日常應(yīng)用可以細(xì)分為以下幾個(gè)重要場(chǎng)景: 在工作場(chǎng)景中,,Agent 發(fā)揮著多種關(guān)鍵功能,,極大地提升了工作和學(xué)習(xí)的效率。例如,,在網(wǎng)頁(yè)應(yīng)用中,,Agent 通過(guò)終生學(xué)習(xí)不斷優(yōu)化搜索算法和內(nèi)容推薦,幫助用戶(hù)更高效地找到相關(guān)信息和資源,。 在知識(shí)管理方面,,LLM Agent 能有效整理和檢索信息,幫助用戶(hù)快速獲取所需的知識(shí)資源,,促進(jìn)信息共享和決策支持,。 在生活場(chǎng)景中, lifelong Agent 能夠改善日常生活的便利性和舒適度。在聊天方面,,LLM Agent 結(jié)合終生學(xué)習(xí)的方法例如角色扮演,、長(zhǎng)上下文文本理解,能夠與用戶(hù)持續(xù)互動(dòng),,逐步理解用戶(hù)的個(gè)性和偏好,,從而提供更自然和富有情感的對(duì)話(huà)體驗(yàn)。 作為個(gè)性化助理,, Agent 也能幫助用戶(hù)根據(jù)環(huán)境完成日常家務(wù)任務(wù),,例如自動(dòng)調(diào)節(jié)空調(diào)、燈光、清潔等,,從而提升用戶(hù)生活體驗(yàn),。 在娛樂(lè)場(chǎng)景中,Agent 也發(fā)揮著作用,。例如在游戲中,,Minecraft 作為一款類(lèi)似于開(kāi)放世界的模擬生存游戲,成為了 Agent 在游戲中測(cè)試的首要選擇,。 例如,,Voyager 作為 Minecraft 中的第一款 lifelong Agent,能夠在沒(méi)有人為干預(yù)下,,通過(guò)反饋機(jī)制,,實(shí)現(xiàn)自主探索未知世界。 JARVIS-1 通過(guò)自我反思和自我解釋提高了對(duì)環(huán)境的理解,,將以前的計(jì)劃納入其提示中,。 另外,娛樂(lè)媒體行業(yè)也正進(jìn)行著一場(chǎng)智能變革,。通過(guò)不斷接受用戶(hù)最新信息,,為用戶(hù)推薦相關(guān)高質(zhì)量的電影、音樂(lè),。 在領(lǐng)域特定應(yīng)用中,,終生智能體展現(xiàn)出卓越的適應(yīng)性和專(zhuān)業(yè)知識(shí),為各行業(yè)提供定制化解決方案,。通過(guò)終生學(xué)習(xí),,這些智能智能體不斷積累行業(yè)知識(shí)和用戶(hù)反饋,提升在特定領(lǐng)域的有效性,。 在教育領(lǐng)域,,LLM Agent通過(guò)模擬課堂環(huán)境和師生互動(dòng),促進(jìn)知識(shí)理解,,并提供個(gè)性化學(xué)習(xí)支持,。它們可以幫助教師批改作業(yè)和解答學(xué)生問(wèn)題,也能幫助學(xué)生更高效地完成作業(yè)并提供個(gè)性化學(xué)習(xí)體驗(yàn),。此外,,終生智能體還可以指導(dǎo)其他模型。 在法律領(lǐng)域,,這些智能體分析法律文件和案例,,提供法律建議和合規(guī)建議,協(xié)助法律決策和文書(shū)起草,。 在醫(yī)療領(lǐng)域,,LLM Agent 幫助醫(yī)生進(jìn)行診斷和治療決策,,并通過(guò)與患者互動(dòng)提高醫(yī)療服務(wù)質(zhì)量和效率。終生智能體還可以在其他行業(yè)通過(guò)持續(xù)學(xué)習(xí)適應(yīng)新任務(wù),,降低勞動(dòng)成本,。