久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

將每一個(gè)應(yīng)用成為AI智能體

 邸彥強(qiáng) 2024-11-08

簡(jiǎn)要說明

這項(xiàng)研究強(qiáng)調(diào)了AI智能體組件的延遲和瓶頸,再加上語言模型的推理延遲,。此外,,還考慮了在解釋屏幕和管理順序UI交互時(shí)引入的錯(cuò)誤。

論文認(rèn)為,,AI智能體與計(jì)算機(jī)交互的最佳方式不一定是以GUI(圖形用戶界面)的形式,,而是通過API(應(yīng)用程序編程接口)。在這種方式下,,AI智能體基于API創(chuàng)建單獨(dú)的工具,。

通過減少不必要的多步驟UI交互,并通過API調(diào)用簡(jiǎn)化任務(wù)完成,,認(rèn)知負(fù)荷和學(xué)習(xí)努力的挑戰(zhàn)得到了緩解,。

引言

當(dāng)用戶導(dǎo)航圖形界面(GUI)時(shí),他們通常會(huì)開發(fā)出獨(dú)特的路徑來實(shí)現(xiàn)他們的目標(biāo),。

這種自我導(dǎo)向的發(fā)現(xiàn)導(dǎo)致了熟悉且反復(fù)使用的路徑,,盡管這些路徑并不總是最優(yōu)化的,可能會(huì)導(dǎo)致低效或錯(cuò)誤,。

雖然AI智能體通過逐步自動(dòng)化提供了解決方案,,但它們?nèi)匀恍枰啻谓换ゲ拍芡瓿扇蝿?wù)。

低延遲和高可靠性的API優(yōu)先的LLM(大規(guī)模語言模型)AI智能體

AXIS通過簡(jiǎn)化過程解決了這一問題,,使得在單一API調(diào)用中即可完成任務(wù),,從而最大化效率并減少錯(cuò)誤的可能性。

將每一個(gè)應(yīng)用成為AI智能體

多模態(tài)模型

多模態(tài)大型語言模型(MLLM)通過使智能體能夠直接與應(yīng)用程序用戶界面(UI)交互,徹底改變了基于大型語言模型(LLM)的智能體,。

這種能力將模型的作用范圍從基于文本的響應(yīng)擴(kuò)展到在UI中直觀理解并響應(yīng),,從而在復(fù)雜任務(wù)中顯著提升了性能。

現(xiàn)在,,LLM能夠解釋并回應(yīng)應(yīng)用程序中的圖像,、按鈕和文本輸入,使其在實(shí)時(shí)工作流中的導(dǎo)航和用戶輔助方面更加得心應(yīng)手,。

這種交互優(yōu)化了智能體處理動(dòng)態(tài)和多步驟流程的能力,,這些流程需要同時(shí)具備視覺和上下文感知,提供了在客服支持,、數(shù)據(jù)管理和任務(wù)自動(dòng)化等行業(yè)的更強(qiáng)大解決方案,。

AI智能體通常由于廣泛的順序UI交互而面臨高延遲和低可靠性的問題。

AXIS:智能體探索API技能集成

傳統(tǒng)方法

傳統(tǒng)的AI智能體通常以人類的方式與圖形用戶界面(GUI)進(jìn)行交互,,解釋屏幕布局、元素和序列,,就像人一樣,。

這些基于LLM的智能體,通常通過視覺語言模型進(jìn)行微調(diào),,旨在實(shí)現(xiàn)移動(dòng)和桌面任務(wù)中的高效導(dǎo)航,。

然而,AXIS 提出了新的視角:雖然基于UI的人類交互使這些智能體變得多才多藝,,但對(duì)于涉及UI中眾多重復(fù)步驟的任務(wù)而言,,這種交互可能會(huì)非常耗時(shí)。

這種復(fù)雜性源于傳統(tǒng)UI本質(zhì)上是為人機(jī)交互(HCI)設(shè)計(jì)的,,而不是針對(duì)代理自動(dòng)化,。

AXIS 建議利用應(yīng)用程序API而不是直接與GUI交互,可以提供更高效的解決方案,。

例如,,傳統(tǒng)的UI智能體可能通過單獨(dú)導(dǎo)航每個(gè)標(biāo)題的UI步驟來更改多個(gè)文檔標(biāo)題,而API則可以通過一次調(diào)用同時(shí)處理所有標(biāo)題,,大大簡(jiǎn)化了過程,。

AXIS 不僅旨在減少冗余交互并簡(jiǎn)化復(fù)雜任務(wù),還旨在為L(zhǎng)LM時(shí)代的新UI設(shè)計(jì)建立新的原則,。這種途徑倡導(dǎo)重新思考應(yīng)用程序設(shè)計(jì),,以優(yōu)先考慮AI智能體與應(yīng)用程序功能之間的無縫集成,從而實(shí)現(xiàn)更加直接,、由API驅(qū)動(dòng)的方法,,這有利于用戶和智能體的工作流程。

探索工作流

在此模式下,AI智能體自主地與應(yīng)用程序界面進(jìn)行交互,,以探索不同的功能和可以執(zhí)行的操作,。

智能體記錄這些交互,收集有關(guān)用戶界面的不同部分如何對(duì)不同操作做出反應(yīng)的數(shù)據(jù),。

這種探索有助于智能體勾勒出應(yīng)用程序的功能,,基本上是“學(xué)習(xí)”應(yīng)用程序內(nèi)的可能性。

將每一個(gè)應(yīng)用成為AI智能體

跟隨工作流模式

與此相反,,這種模式涉及AI智能體按照預(yù)定義的任務(wù)或指令進(jìn)行跟隨,。

在此模式下,智能體觀察并記錄為達(dá)成特定結(jié)果而采取的具體行動(dòng),,從而能夠“通過示例學(xué)習(xí)”,。

在此過程中收集的數(shù)據(jù)有助于智能體理解逐步的工作流程,使其能夠在類似未來的場(chǎng)景中準(zhǔn)確地復(fù)制任務(wù),。

異常情況

在某些情況下,,將圖形用戶界面(GUI)直接轉(zhuǎn)換為應(yīng)用程序編程接口(API)具有挑戰(zhàn)性或不切實(shí)際。

以下是這種情況可能發(fā)生的一些主要原因:

復(fù)雜的UI邏輯:一些GUI具有復(fù)雜的條件邏輯,,這取決于特定的用戶交互或操作序列,。例如,填寫具有依賴字段的多步表單可能很難直接轉(zhuǎn)換為單一的API調(diào)用,,因?yàn)槊看谓换ザ紩?huì)影響下一步,。

動(dòng)態(tài)數(shù)據(jù)或個(gè)性化內(nèi)容:在許多應(yīng)用程序中,UI中顯示的內(nèi)容會(huì)根據(jù)用戶的活動(dòng)動(dòng)態(tài)生成或個(gè)性化,,例如推薦引擎或基于最近活動(dòng)更新的儀表板,。API可能需要一個(gè)復(fù)雜參數(shù)集才能輕松捕獲這些變化,這使得直接映射變得不切實(shí)際,。

有限或?qū)S械臄?shù)據(jù)訪問:GUI中的某些功能可能無法通過API訪問,,這可能是因?yàn)閼?yīng)用程序提供商出于安全原因沒有公開這些功能,或者這些功能依賴于專有的交互,。在這種情況下,,智能體需要直接與GUI進(jìn)行交互。

實(shí)時(shí)反饋和更新:交互元素,,如滑塊,、拖放功能或?qū)崟r(shí)可視化,通常需要高程度的用戶交互,。將這些交互轉(zhuǎn)換為API調(diào)用可能具有挑戰(zhàn)性,,因?yàn)锳PI通常在靜態(tài)、請(qǐng)求-響應(yīng)模型下運(yùn)行,。

UI中的高級(jí)抽象:有時(shí),,UI表示一個(gè)結(jié)合了多個(gè)后端操作的高級(jí)任務(wù)。雖然與GUI交互的智能體可以“看到”并響應(yīng)這個(gè)任務(wù)作為一個(gè)單元,但將其復(fù)制為API將需要?jiǎng)?chuàng)建一個(gè)新的,、集中的API端點(diǎn)來處理所有底層過程——這可能并不總是可行的,。

研究表明,在這些情況下,,AI智能體需要靈活地處理GUI和API交互,,以有效地完成任務(wù)。這種雙重能力使智能體能夠在可能的情況下在API之間無縫切換,,在必要時(shí)處理GUI,,從而提高不同類型應(yīng)用程序的任務(wù)效率和覆蓋率。

本文,,完,。覺得本篇文章不錯(cuò)的,記得隨手點(diǎn)個(gè)贊,、收藏和轉(zhuǎn)發(fā)三連,,感謝感謝~如果想第一時(shí)間收到推送,請(qǐng)記得關(guān)注我們?~

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多