快速認(rèn)識GUI Agent及最新進(jìn)展：像人類一樣與GUI交互的AI智能體

天承辦公室 2024-12-12

展開全文

基于大模型的AI Agent是一種借助大模型來進(jìn)行任務(wù)理解、規(guī)劃并自動(dòng)化執(zhí)行的軟件實(shí)體,。今天來認(rèn)識一種特殊能力的智能體類型及其最新進(jìn)展：GUI Agent（用戶界面智能體,，這里的GUI泛指PC、Web與移動(dòng)APP的操作界面）,。

為什么會(huì)需要GUI Agent

GUI是人機(jī)交互的基礎(chǔ),，它從根本上改變了人類與計(jì)算機(jī)的交互范式，也使得非技術(shù)用戶也能高效的操作計(jì)算機(jī),。但在實(shí)際工作中,，這還遠(yuǎn)遠(yuǎn)不夠：

易用的圖形界面往往會(huì)犧牲操作效率。一些日常工作流程需要在多個(gè)應(yīng)用間切換并重復(fù),，這些復(fù)雜或重復(fù)性任務(wù)的效率仍然不夠高,。如：
“在Excel中整理數(shù)據(jù)后導(dǎo)入PowerPoint，并通過協(xié)作工具發(fā)送”
“從財(cái)務(wù)軟件中讀取數(shù)據(jù),，并到稅務(wù)網(wǎng)站進(jìn)行納稅申報(bào)”
“搜索網(wǎng)絡(luò)最新熱點(diǎn),，創(chuàng)作文章，并發(fā)布到多個(gè)社媒平臺(tái)”
復(fù)雜的應(yīng)用生態(tài)提高了操作復(fù)雜性,。隨著數(shù)字化的普及,，各種業(yè)務(wù)應(yīng)用（如CRM、ERP,、Office工具）層出不窮，用戶需要掌握越來越多的工具界面,。對很多用戶來說,，操作的復(fù)雜性是一個(gè)顯著的痛點(diǎn)。
現(xiàn)有的UI自動(dòng)化解決方案面臨挑戰(zhàn),。早期的UI自動(dòng)化解決方案通常是基于規(guī)則與腳本來實(shí)現(xiàn),，比如RPA，這類解決方案面向流程固定與規(guī)則明確的重復(fù)性任務(wù),，但在多樣與動(dòng)態(tài)的UI場景中,，則缺乏足夠的靈活適應(yīng)能力。
基于API的AI Agent不具有普遍的通用性,。盡管大模型給AI Agent帶來具有想象力的應(yīng)用空間,，但基于API的工具智能體并不具有通用性，你需要根據(jù)場景來使用不同的API,。相對來所,，圖形界面則提供了一種應(yīng)用交互的更通用便捷的機(jī)制，且不具有侵入性：應(yīng)用無需提供特別的API,。

因此,，需要一種能夠?qū)崿F(xiàn)自動(dòng)化UI交互的Agent,，幫助完成復(fù)雜任務(wù)，以大幅提升效率,。

什么是GUI Agent

GUI Agent是一種基于多模態(tài)視覺模型驅(qū)動(dòng)的人工智能系統(tǒng),，能夠自動(dòng)推理并執(zhí)行UI交互，模擬人類用戶的操作,，如點(diǎn)擊,、輸入、拖拽,、讀取界面信息等,，以完成人類要求的工作任務(wù)。其核心功能是：

自然語言交互：通過輸入的自然語言請求理解任務(wù)目標(biāo),。
多模態(tài)感知與推理：分析界面截圖,、UI元素等多模態(tài)信息并推理行動(dòng)。
任務(wù)自動(dòng)化：通過應(yīng)用UI執(zhí)行行動(dòng),，如打開應(yīng)用,、批量編輯、數(shù)據(jù)處理,。任務(wù)的執(zhí)行需要借助計(jì)算機(jī)操作工具,，如Selenium、AutoIt等,。

以下是一個(gè)高層的概念場景：

來自https:///pdf/2411.18279

該場景解釋如下：

1. 用戶請求（User Request）

用戶以自然語言的形式向GUI智能體提出請求,，例如：

“從Word文檔中提取內(nèi)容，創(chuàng)建一個(gè)PowerPoint幻燈片,，然后通過Teams發(fā)送,。”

這是整個(gè)工作流程的起點(diǎn),，用戶只需提出需求,，而不需要手動(dòng)操作多個(gè)應(yīng)用。

2. GUI智能體（GUI Agent）

GUI Agent是核心的執(zhí)行者,，負(fù)責(zé)解析用戶請求,、推理、并協(xié)調(diào)多應(yīng)用之間的任務(wù),，并自動(dòng)打開不同的應(yīng)用程序來執(zhí)行：

從Word文檔中提取信息
從“照片”應(yīng)用中獲取,、分析與提取圖片
打開Web瀏覽器訪問網(wǎng)頁并總結(jié)內(nèi)容
打開PDF閱讀器讀取文檔、OCR識別,、提取文字或圖形
打開PowerPoint,，將提取的內(nèi)容創(chuàng)建成PowerPoint
打開Teams軟件，將創(chuàng)建的PPT發(fā)送給指定個(gè)人與團(tuán)隊(duì)

整個(gè)任務(wù)全部由GUI Agent自動(dòng)“觀察”,、“思考”與“執(zhí)行”,，無需人類參與,。

GUI Agent的總體架構(gòu)

下圖給出一個(gè)基于大模型的GUI Agent的總體架構(gòu)：

來自https:///pdf/2411.18279

1. Request（用戶請求）

用戶通過輸入的形式向GUI Agent提出任務(wù)請求。

2. Prompt Engineering（提示工程）

將用戶的請求轉(zhuǎn)化為可以被LLM理解的輸入格式,。包括Instruction（指令）與Examples（示例,，提供多個(gè)示例以引導(dǎo)模型理解任務(wù)）等部分。

3. Perception（感知）

通過分析UI環(huán)境的狀態(tài),，提取所需的環(huán)境信息,。包括Screenshots（截圖，當(dāng)前界面的視覺快照）,，Widget Tree（組件樹,，界面結(jié)構(gòu)的層次表示），UI Element Properties（UI元素屬性,，包括每個(gè)元素的類型,、標(biāo)題、位置）等,。

4. Model Inference（模型推理）

大模型使用上述拼接的輸入（包含任務(wù)描述,、環(huán)境信息等）進(jìn)行推理，生成一系列具體的操作計(jì)劃（Action Plan）,。

5. Memory（記憶模塊）

用來記錄智能體的歷史步驟和狀態(tài),，用于后續(xù)推理和操作，以避免重復(fù)執(zhí)行任務(wù),，確保步驟連續(xù)性與相關(guān)性,。

6. Action Execution（動(dòng)作執(zhí)行）

根據(jù)推理的操作計(jì)劃執(zhí)行動(dòng)作，通常需要調(diào)用必要的計(jì)算機(jī)工具來完成,，比如打開應(yīng)用,、輸入文字、模擬鼠鍵操作等,。

7. Operating Environment（運(yùn)行環(huán)境）

GUI Agent操作的目標(biāo)環(huán)境，通常是一個(gè)真實(shí)的或模擬的圖形用戶界面,。包括普通GUI,、Web UI、移動(dòng)APP UI等,。

GUI Agent的最新發(fā)展及推薦項(xiàng)目

最近兩年來,，隨著大模型的興起，GUI Agent也不斷有新的工具與平臺(tái)推出,，下圖展示其中一些重要項(xiàng)目：

這里推薦幾個(gè)可以研究的項(xiàng)目：

騰訊AppAgent

基于大模型的多模態(tài)智能體框架,，能夠模仿人類在手機(jī)上的點(diǎn)擊和滑動(dòng)手勢，操作各種智能手機(jī)應(yīng)用程序.

智譜AutoGLM

推出的跨移動(dòng)端,、Web,、PC的自主UI智能體,，適配多款應(yīng)用軟件，提供自然語言控制常見軟件操作的功能,，而無需定制工作流,。

微軟OmniParser

OmniParser 是微軟推出的一個(gè)通用的屏幕解析工具。旨在UI截圖解釋為結(jié)構(gòu)化格式,，從而提高GUI Agent的性能,，它結(jié)合了可交互區(qū)域檢測模型、圖標(biāo)描述模型和 OCR 模塊等功能,。

Athropic的Compute Use

Anthropic 在最新推出的 Claude 3.5 Sonnet 模型中的提供了 “computer use” 的API功能,，它可以使 AI 能夠像人類一樣操作電腦，通過觀看屏幕截圖,，實(shí)現(xiàn)移動(dòng)光標(biāo),、點(diǎn)擊按鈕、使用虛擬鍵盤輸入文本等操作,。具體可參考Github Demo：

https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo

GUI Agent與RPA

最后,，我們來比較GUI Agent與傳統(tǒng)RPA的差異：

GUI Agent 通過引入強(qiáng)大的語言模型和多模態(tài)視覺能力，顯著提升了UI自動(dòng)化任務(wù)的智能化程度和靈活性,，是未來人機(jī)協(xié)作的重要趨勢之一,。當(dāng)然，目前的GUI Agent在完成任務(wù)的能力上與人類還有較大差距,，根據(jù)Anthropic的標(biāo)準(zhǔn)測試結(jié)果,，目前GUI Agent的能力還只能達(dá)到人類的20%左右，讓我們一起期待未來吧,。

END

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：天承辦公室 > 《005參謀日志》

舉報(bào)/認(rèn)領(lǐng)