久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

快速認(rèn)識GUI Agent及最新進(jìn)展:像人類一樣與GUI交互的AI智能體

 天承辦公室 2024-12-12

基于大模型的AI Agent是一種借助大模型來進(jìn)行任務(wù)理解、規(guī)劃并自動(dòng)化執(zhí)行的軟件實(shí)體,。今天來認(rèn)識一種特殊能力的智能體類型及其最新進(jìn)展:GUI Agent(用戶界面智能體,,這里的GUI泛指PC、Web與移動(dòng)APP的操作界面),。

圖片

01

為什么會(huì)需要GUI Agent

GUI是人機(jī)交互的基礎(chǔ),,它從根本上改變了人類與計(jì)算機(jī)的交互范式,也使得非技術(shù)用戶也能高效的操作計(jì)算機(jī),。但在實(shí)際工作中,,這還遠(yuǎn)遠(yuǎn)不夠:

  • 易用的圖形界面往往會(huì)犧牲操作效率。一些日常工作流程需要在多個(gè)應(yīng)用間切換并重復(fù),,這些復(fù)雜或重復(fù)性任務(wù)的效率仍然不夠高,。如:

    “在Excel中整理數(shù)據(jù)后導(dǎo)入PowerPoint,并通過協(xié)作工具發(fā)送”

    “從財(cái)務(wù)軟件中讀取數(shù)據(jù),,并到稅務(wù)網(wǎng)站進(jìn)行納稅申報(bào)”

    “搜索網(wǎng)絡(luò)最新熱點(diǎn),,創(chuàng)作文章,并發(fā)布到多個(gè)社媒平臺(tái)”

  • 復(fù)雜的應(yīng)用生態(tài)提高了操作復(fù)雜性,。隨著數(shù)字化的普及,,各種業(yè)務(wù)應(yīng)用(如CRM、ERP,、Office工具)層出不窮,用戶需要掌握越來越多的工具界面,。對很多用戶來說,,操作的復(fù)雜性是一個(gè)顯著的痛點(diǎn)。

  • 現(xiàn)有的UI自動(dòng)化解決方案面臨挑戰(zhàn),。早期的UI自動(dòng)化解決方案通常是基于規(guī)則與腳本來實(shí)現(xiàn),,比如RPA,這類解決方案面向流程固定與規(guī)則明確的重復(fù)性任務(wù),,但在多樣與動(dòng)態(tài)的UI場景中,,則缺乏足夠的靈活適應(yīng)能力。

  • 基于API的AI Agent不具有普遍的通用性,。盡管大模型給AI Agent帶來具有想象力的應(yīng)用空間,,但基于API的工具智能體并不具有通用性,你需要根據(jù)場景來使用不同的API,。相對來所,,圖形界面則提供了一種應(yīng)用交互的更通用便捷的機(jī)制,且不具有侵入性:應(yīng)用無需提供特別的API,。

因此,,需要一種能夠?qū)崿F(xiàn)自動(dòng)化UI交互的Agent,,幫助完成復(fù)雜任務(wù),以大幅提升效率,。

02

什么是GUI Agent

GUI Agent是一種基于多模態(tài)視覺模型驅(qū)動(dòng)的人工智能系統(tǒng),,能夠自動(dòng)推理并執(zhí)行UI交互,模擬人類用戶的操作,,如點(diǎn)擊,、輸入、拖拽,、讀取界面信息等,,以完成人類要求的工作任務(wù)。其核心功能是:

  • 自然語言交互:通過輸入的自然語言請求理解任務(wù)目標(biāo),。

  • 多模態(tài)感知與推理:分析界面截圖,、UI元素等多模態(tài)信息并推理行動(dòng)。

  • 任務(wù)自動(dòng)化:通過應(yīng)用UI執(zhí)行行動(dòng),,如打開應(yīng)用,、批量編輯、數(shù)據(jù)處理,。任務(wù)的執(zhí)行需要借助計(jì)算機(jī)操作工具,,如Selenium、AutoIt等,。

以下是一個(gè)高層的概念場景:

圖片

來自https:///pdf/2411.18279

該場景解釋如下:

1. 用戶請求(User Request)

用戶以自然語言的形式向GUI智能體提出請求,,例如:

“從Word文檔中提取內(nèi)容,創(chuàng)建一個(gè)PowerPoint幻燈片,,然后通過Teams發(fā)送,。”

這是整個(gè)工作流程的起點(diǎn),,用戶只需提出需求,,而不需要手動(dòng)操作多個(gè)應(yīng)用。

2. GUI智能體(GUI Agent)

GUI Agent是核心的執(zhí)行者,,負(fù)責(zé)解析用戶請求,、推理、并協(xié)調(diào)多應(yīng)用之間的任務(wù),,并自動(dòng)打開不同的應(yīng)用程序來執(zhí)行:

  1. 從Word文檔中提取信息

  2. 從“照片”應(yīng)用中獲取,、分析與提取圖片

  3. 打開Web瀏覽器訪問網(wǎng)頁并總結(jié)內(nèi)容

  4. 打開PDF閱讀器讀取文檔、OCR識別,、提取文字或圖形

  5. 打開PowerPoint,,將提取的內(nèi)容創(chuàng)建成PowerPoint

  6. 打開Teams軟件,將創(chuàng)建的PPT發(fā)送給指定個(gè)人與團(tuán)隊(duì)

整個(gè)任務(wù)全部由GUI Agent自動(dòng)“觀察”,、“思考”與“執(zhí)行”,,無需人類參與,。

03

GUI Agent的總體架構(gòu)

下圖給出一個(gè)基于大模型的GUI Agent的總體架構(gòu):

圖片來自https:///pdf/2411.18279

1. Request(用戶請求)

用戶通過輸入的形式向GUI Agent提出任務(wù)請求。

2. Prompt Engineering(提示工程)

將用戶的請求轉(zhuǎn)化為可以被LLM理解的輸入格式,。包括Instruction(指令)與Examples(示例,,提供多個(gè)示例以引導(dǎo)模型理解任務(wù))等部分。

3. Perception(感知)

通過分析UI環(huán)境的狀態(tài),,提取所需的環(huán)境信息,。包括Screenshots(截圖,當(dāng)前界面的視覺快照),,Widget Tree(組件樹,,界面結(jié)構(gòu)的層次表示),UI Element Properties(UI元素屬性,,包括每個(gè)元素的類型,、標(biāo)題、位置)等,。

4. Model Inference(模型推理)

大模型使用上述拼接的輸入(包含任務(wù)描述,、環(huán)境信息等)進(jìn)行推理,生成一系列具體的操作計(jì)劃(Action Plan),。

5. Memory(記憶模塊)

用來記錄智能體的歷史步驟和狀態(tài),,用于后續(xù)推理和操作,以避免重復(fù)執(zhí)行任務(wù),,確保步驟連續(xù)性與相關(guān)性,。

6. Action Execution(動(dòng)作執(zhí)行)

根據(jù)推理的操作計(jì)劃執(zhí)行動(dòng)作,通常需要調(diào)用必要的計(jì)算機(jī)工具來完成,,比如打開應(yīng)用,、輸入文字、模擬鼠鍵操作等,。

7. Operating Environment(運(yùn)行環(huán)境)

GUI Agent操作的目標(biāo)環(huán)境,通常是一個(gè)真實(shí)的或模擬的圖形用戶界面,。包括普通GUI,、Web UI、移動(dòng)APP UI等,。

04

GUI Agent的最新發(fā)展及推薦項(xiàng)目

最近兩年來,,隨著大模型的興起,GUI Agent也不斷有新的工具與平臺(tái)推出,,下圖展示其中一些重要項(xiàng)目:

圖片

這里推薦幾個(gè)可以研究的項(xiàng)目:

  • 騰訊AppAgent

基于大模型的多模態(tài)智能體框架,,能夠模仿人類在手機(jī)上的點(diǎn)擊和滑動(dòng)手勢,操作各種智能手機(jī)應(yīng)用程序.

  • 智譜AutoGLM

推出的跨移動(dòng)端,、Web,、PC的自主UI智能體,,適配多款應(yīng)用軟件,提供自然語言控制常見軟件操作的功能,,而無需定制工作流,。

  • 微軟OmniParser

OmniParser 是微軟推出的一個(gè)通用的屏幕解析工具。旨在UI截圖解釋為結(jié)構(gòu)化格式,,從而提高GUI Agent的性能,,它結(jié)合了可交互區(qū)域檢測模型、圖標(biāo)描述模型和 OCR 模塊等功能,。

  • Athropic的Compute Use

Anthropic 在最新推出的 Claude 3.5 Sonnet 模型中的提供了 “computer use” 的API功能,,它可以使 AI 能夠像人類一樣操作電腦,通過觀看屏幕截圖,,實(shí)現(xiàn)移動(dòng)光標(biāo),、點(diǎn)擊按鈕、使用虛擬鍵盤輸入文本等操作,。具體可參考Github Demo:

https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo

05

GUI Agent與RPA

最后,,我們來比較GUI Agent與傳統(tǒng)RPA的差異:

圖片

圖片

GUI Agent 通過引入強(qiáng)大的語言模型和多模態(tài)視覺能力,顯著提升了UI自動(dòng)化任務(wù)的智能化程度和靈活性,,是未來人機(jī)協(xié)作的重要趨勢之一,。當(dāng)然,目前的GUI Agent在完成任務(wù)的能力上與人類還有較大差距,,根據(jù)Anthropic的標(biāo)準(zhǔn)測試結(jié)果,,目前GUI Agent的能力還只能達(dá)到人類的20%左右,讓我們一起期待未來吧,。

圖片

END



    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多