基于大模型的AI Agent是一種借助大模型來進(jìn)行任務(wù)理解、規(guī)劃并自動(dòng)化執(zhí)行的軟件實(shí)體,。今天來認(rèn)識一種特殊能力的智能體類型及其最新進(jìn)展:GUI Agent(用戶界面智能體,,這里的GUI泛指PC、Web與移動(dòng)APP的操作界面),。 為什么會(huì)需要GUI Agent GUI是人機(jī)交互的基礎(chǔ),,它從根本上改變了人類與計(jì)算機(jī)的交互范式,也使得非技術(shù)用戶也能高效的操作計(jì)算機(jī),。但在實(shí)際工作中,,這還遠(yuǎn)遠(yuǎn)不夠:
因此,,需要一種能夠?qū)崿F(xiàn)自動(dòng)化UI交互的Agent,,幫助完成復(fù)雜任務(wù),以大幅提升效率,。 什么是GUI Agent GUI Agent是一種基于多模態(tài)視覺模型驅(qū)動(dòng)的人工智能系統(tǒng),,能夠自動(dòng)推理并執(zhí)行UI交互,模擬人類用戶的操作,,如點(diǎn)擊,、輸入、拖拽,、讀取界面信息等,,以完成人類要求的工作任務(wù)。其核心功能是:
以下是一個(gè)高層的概念場景: 來自https:///pdf/2411.18279 該場景解釋如下: 1. 用戶請求(User Request) 用戶以自然語言的形式向GUI智能體提出請求,,例如: “從Word文檔中提取內(nèi)容,創(chuàng)建一個(gè)PowerPoint幻燈片,,然后通過Teams發(fā)送,。” 這是整個(gè)工作流程的起點(diǎn),,用戶只需提出需求,,而不需要手動(dòng)操作多個(gè)應(yīng)用。 2. GUI智能體(GUI Agent) GUI Agent是核心的執(zhí)行者,,負(fù)責(zé)解析用戶請求,、推理、并協(xié)調(diào)多應(yīng)用之間的任務(wù),,并自動(dòng)打開不同的應(yīng)用程序來執(zhí)行:
整個(gè)任務(wù)全部由GUI Agent自動(dòng)“觀察”,、“思考”與“執(zhí)行”,,無需人類參與,。 GUI Agent的總體架構(gòu) 下圖給出一個(gè)基于大模型的GUI Agent的總體架構(gòu): 來自https:///pdf/2411.18279 1. Request(用戶請求) 用戶通過輸入的形式向GUI Agent提出任務(wù)請求。 2. Prompt Engineering(提示工程) 將用戶的請求轉(zhuǎn)化為可以被LLM理解的輸入格式,。包括Instruction(指令)與Examples(示例,,提供多個(gè)示例以引導(dǎo)模型理解任務(wù))等部分。 3. Perception(感知) 通過分析UI環(huán)境的狀態(tài),,提取所需的環(huán)境信息,。包括Screenshots(截圖,當(dāng)前界面的視覺快照),,Widget Tree(組件樹,,界面結(jié)構(gòu)的層次表示),UI Element Properties(UI元素屬性,,包括每個(gè)元素的類型,、標(biāo)題、位置)等,。 4. Model Inference(模型推理) 大模型使用上述拼接的輸入(包含任務(wù)描述,、環(huán)境信息等)進(jìn)行推理,生成一系列具體的操作計(jì)劃(Action Plan),。 5. Memory(記憶模塊) 用來記錄智能體的歷史步驟和狀態(tài),,用于后續(xù)推理和操作,以避免重復(fù)執(zhí)行任務(wù),,確保步驟連續(xù)性與相關(guān)性,。 6. Action Execution(動(dòng)作執(zhí)行) 根據(jù)推理的操作計(jì)劃執(zhí)行動(dòng)作,通常需要調(diào)用必要的計(jì)算機(jī)工具來完成,,比如打開應(yīng)用,、輸入文字、模擬鼠鍵操作等,。 7. Operating Environment(運(yùn)行環(huán)境) GUI Agent操作的目標(biāo)環(huán)境,通常是一個(gè)真實(shí)的或模擬的圖形用戶界面,。包括普通GUI,、Web UI、移動(dòng)APP UI等,。 GUI Agent的最新發(fā)展及推薦項(xiàng)目 最近兩年來,,隨著大模型的興起,GUI Agent也不斷有新的工具與平臺(tái)推出,,下圖展示其中一些重要項(xiàng)目: 這里推薦幾個(gè)可以研究的項(xiàng)目:
基于大模型的多模態(tài)智能體框架,,能夠模仿人類在手機(jī)上的點(diǎn)擊和滑動(dòng)手勢,操作各種智能手機(jī)應(yīng)用程序.
推出的跨移動(dòng)端,、Web,、PC的自主UI智能體,,適配多款應(yīng)用軟件,提供自然語言控制常見軟件操作的功能,,而無需定制工作流,。
OmniParser 是微軟推出的一個(gè)通用的屏幕解析工具。旨在UI截圖解釋為結(jié)構(gòu)化格式,,從而提高GUI Agent的性能,,它結(jié)合了可交互區(qū)域檢測模型、圖標(biāo)描述模型和 OCR 模塊等功能,。
Anthropic 在最新推出的 Claude 3.5 Sonnet 模型中的提供了 “computer use” 的API功能,,它可以使 AI 能夠像人類一樣操作電腦,通過觀看屏幕截圖,,實(shí)現(xiàn)移動(dòng)光標(biāo),、點(diǎn)擊按鈕、使用虛擬鍵盤輸入文本等操作,。具體可參考Github Demo: https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo GUI Agent與RPA 最后,,我們來比較GUI Agent與傳統(tǒng)RPA的差異: GUI Agent 通過引入強(qiáng)大的語言模型和多模態(tài)視覺能力,顯著提升了UI自動(dòng)化任務(wù)的智能化程度和靈活性,,是未來人機(jī)協(xié)作的重要趨勢之一,。當(dāng)然,目前的GUI Agent在完成任務(wù)的能力上與人類還有較大差距,,根據(jù)Anthropic的標(biāo)準(zhǔn)測試結(jié)果,,目前GUI Agent的能力還只能達(dá)到人類的20%左右,讓我們一起期待未來吧,。 END |
|