【原】OpenAI發(fā)布首個(gè)電腦智能體

王智遠(yuǎn)同學(xué) 2025-01-24 發(fā)布于北京

展開(kāi)全文

文：王智遠(yuǎn) | ID:Z201440

凌晨薅起來(lái)學(xué)習(xí)論文,，你受得了嗎？

深夜,，OpenAI展示了他們的首個(gè)智能體：Operator,，這可不是普通的AI，它能像人類(lèi)一樣操作電腦,，更厲害的是，它可以直接和網(wǎng)頁(yè)交互,，無(wú)論是打字,、點(diǎn)擊還是滾動(dòng)，都能一氣呵成,。

Operator是什么,，它有什么能力呢？簡(jiǎn)單講,，它是OpenAI最新推出的一款創(chuàng)新型AI模型,，像一個(gè)會(huì)自己操作電腦的“數(shù)字助手”。

我們平時(shí)用電腦時(shí),，得自己點(diǎn)鼠標(biāo),、敲鍵盤(pán)、得盯著屏幕找東西,，但Operator不一樣,，它能自己搞定這些，能自己和電腦界面打交道,。

OpenAI為啥要開(kāi)發(fā)這么個(gè)東西呢,？

動(dòng)機(jī)有三個(gè)方面：一，從用戶(hù)需求層面來(lái)看,，現(xiàn)代社會(huì)中存在大量重復(fù)性,、機(jī)械化的數(shù)字操作任務(wù)。

以日常辦公場(chǎng)景為例,，表單填寫(xiě),、數(shù)據(jù)整理、信息檢索等操作不僅耗時(shí)耗力，而且容易出錯(cuò),，Operator的開(kāi)發(fā)想解決這一痛點(diǎn),，通過(guò)AI自動(dòng)化提升工作效率。

二,，從技術(shù)發(fā)展角度來(lái)看,，當(dāng)前大多數(shù)AI系統(tǒng)仍局限于信息處理和問(wèn)答交互的范疇，缺乏實(shí)際執(zhí)行能力,。

Operator的創(chuàng)新之處在于突破了這一限制,，它實(shí)現(xiàn)了從認(rèn)知到執(zhí)行的完整閉環(huán)，這種能力拓展標(biāo)志著AI技術(shù)向更高層次發(fā)展的重要一步,。

三,，從長(zhǎng)遠(yuǎn)發(fā)展來(lái)看，Operator的開(kāi)發(fā),，體現(xiàn)OpenAI對(duì)AI技術(shù)潛力的深入探索,；通過(guò)賦予AI直接操作計(jì)算機(jī)的能力，為未來(lái)更復(fù)雜的智能應(yīng)用奠定了基礎(chǔ),，具有重要的戰(zhàn)略意義,；所以，要做這個(gè)東西,，我覺(jué)得它像一個(gè)RPA技術(shù),。

圖示：Operator操作頁(yè)面

那么，它的核心能力有什么呢,？

首先,，它能特別精準(zhǔn)地理解你的指令。你給它下命令,，它能完全聽(tīng)懂,，還能根據(jù)你的需求去完成任務(wù)；比如,，你讓它幫你買(mǎi)一雙運(yùn)動(dòng)鞋,，它就能在網(wǎng)上找到合適的店鋪，幫你下單,，而且還能挑出性?xún)r(jià)比最高的那一雙,。

然后，可以自己操作網(wǎng)頁(yè),，不限于網(wǎng)頁(yè)瀏覽與信息提取,、表單填寫(xiě)與數(shù)據(jù)錄入、文件管理與文檔處理,、郵件收發(fā)與日程安排等四個(gè)方面,。

最主要是，它有智能化決策能力。

例如：在商品采購(gòu)任務(wù)中,，系統(tǒng)能夠根據(jù)預(yù)設(shè)條件（如預(yù)算,、品牌偏好等）進(jìn)行智能篩選和決策；再或者,，你讓它幫你訂一張機(jī)票,，它就能自己搜索航班、比較價(jià)格,，最后幫你下單,，整個(gè)過(guò)程都不用你操心。

而且,，這個(gè)智能化包括兩個(gè)維度：一,，是復(fù)雜任務(wù)處理能力，二,，持續(xù)學(xué)習(xí)與優(yōu)化能力,。

以會(huì)議安排為例，Operator可以協(xié)調(diào)參會(huì)人員時(shí)間,、預(yù)定會(huì)議室,、發(fā)送通知等，實(shí)現(xiàn)全流程自動(dòng)化處理,，甚至，它可以學(xué)習(xí)你操作過(guò),、編排過(guò)的任務(wù)然后再學(xué)習(xí),。

它的使用場(chǎng)景是什么？報(bào)告中,，有七個(gè)有趣的例子,。

首先是：網(wǎng)上購(gòu)物。

想象一下,，你正準(zhǔn)備買(mǎi)一雙運(yùn)動(dòng)鞋,。以前，你要自己打開(kāi)購(gòu)物網(wǎng)站,，搜索款式,、比較價(jià)格，還要手動(dòng)填寫(xiě)收貨地址和支付信息,。

現(xiàn)在,，有了Operator，你只要告訴它：“幫我買(mǎi)一雙耐克運(yùn)動(dòng)鞋,，預(yù)算500元左右,。”它就能自動(dòng)完成搜索、下單,，甚至還能幫你找到最劃算的優(yōu)惠券,。這個(gè)過(guò)程完全不需要你動(dòng)手，是不是很省心,？

然后是,，自動(dòng)填寫(xiě)表單，注冊(cè)賬號(hào),、申請(qǐng)貸款,，還是填寫(xiě)各種復(fù)雜的在線表格，這些任務(wù)不僅繁瑣,，還很容易出錯(cuò),。但Operator可以輕松搞定這些。

圖示：Operator幫人選擇產(chǎn)品購(gòu)物

再者是：信息檢索與整理,。

在工作和學(xué)習(xí)中,，我們常常需要查找各種資料。比如,，你正在寫(xiě)一篇關(guān)于人工智能的論文,，需要查找最新的研究進(jìn)展。以前,，可能要在多個(gè)網(wǎng)站之間來(lái)回切換,，手動(dòng)整理信息。

Operator可以直接幫你搜索相關(guān)內(nèi)容,，把關(guān)鍵信息整理成一個(gè)簡(jiǎn)潔的總結(jié),，甚至還能幫你找到相關(guān)的學(xué)術(shù)論文鏈接。這樣就不用把精力浪費(fèi)在搜索上,。

還有日程安排,。

計(jì)劃下周和客戶(hù)開(kāi)一個(gè)會(huì)議，要協(xié)調(diào)雙方的時(shí)間,，預(yù)定會(huì)議室,，還要發(fā)送會(huì)議通知。這些事情聽(tīng)起來(lái)簡(jiǎn)單,，做起來(lái)卻很費(fèi)時(shí)間,，Operator會(huì)自動(dòng)查看日程安排，找到一個(gè)雙方都方便的時(shí)間,，預(yù)定會(huì)議室,，甚至還能發(fā)送會(huì)議通知給所有參與者,。

我認(rèn)為最有用的兩個(gè)是：創(chuàng)意內(nèi)容制作,、文件管理

我想制作一個(gè)表情包，但又不會(huì)用復(fù)雜的圖像編輯軟件,。只要告訴Operator：幫我做一個(gè)搞笑的表情包，主題是'周一的我’,。

它就能自動(dòng)找到合適的圖片,，添加文字，甚至還能調(diào)整圖片的風(fēng)格,，最后生成一個(gè)有趣的表情包,。

至于文件夾管理上；以前,，可能需要手動(dòng)搜索,，甚至還要逐個(gè)打開(kāi)文件查看內(nèi)容，現(xiàn)在,，Operator可以幫忙快速找到需要的文件,，并且還能整理文件夾，把相似的文件歸類(lèi)在一起,。

這就是它的能力,，是其中一部分。

既然這樣,，Operator是怎么訓(xùn)練出來(lái)的呢,？

一共四個(gè)步驟：先讓它“見(jiàn)多識(shí)廣”，然后讓它模仿（監(jiān)督學(xué)習(xí)）,，再讓它思考（強(qiáng)化學(xué)習(xí)）,，最后通過(guò)人類(lèi)反饋（讓它少走彎路）。

首先,，訓(xùn)練數(shù)據(jù)的來(lái)源至關(guān)重要,。

報(bào)告中顯示，OpenAI從兩個(gè)主要渠道收集數(shù)據(jù)：一是公開(kāi)數(shù)據(jù)集,，包括行業(yè)標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)數(shù)據(jù)集,、網(wǎng)絡(luò)爬取的數(shù)據(jù),，這些數(shù)據(jù)為模型提供了廣泛的任務(wù)場(chǎng)景,，涵蓋從簡(jiǎn)單的網(wǎng)頁(yè)瀏覽到復(fù)雜的文件管理等操作。

二是由人類(lèi)訓(xùn)練員創(chuàng)建的數(shù)據(jù)集,，這些數(shù)據(jù)集展示了如何在計(jì)算機(jī)上解決各種任務(wù),，例如點(diǎn)擊按鈕、填寫(xiě)表單,、滾動(dòng)頁(yè)面等,。通過(guò)這些數(shù)據(jù)，Operator學(xué)會(huì)了如何模擬人類(lèi)的操作行為,。

在監(jiān)督學(xué)習(xí)階段,，Operator學(xué)習(xí)基本的計(jì)算機(jī)操作能力,，如視覺(jué)感知和輸入控制。

這一階段的任務(wù)主要是為了讓模型掌握基本的操作技能,，例如在網(wǎng)頁(yè)上點(diǎn)擊鏈接,、填寫(xiě)表單，或者在文件管理器中打開(kāi)文件夾,。

強(qiáng)化學(xué)習(xí)階段的目標(biāo)是賦予模型更高級(jí)的能力,，如推理和錯(cuò)誤糾正。在這一階段,，Operator學(xué)會(huì)了根據(jù)任務(wù)需求制定執(zhí)行策略,，適應(yīng)意外事件，并在執(zhí)行任務(wù)時(shí)做出智能決策,。

例如：當(dāng)用戶(hù)要求“幫我買(mǎi)一雙運(yùn)動(dòng)鞋”時(shí),，模型會(huì)自動(dòng)搜索、比較價(jià)格,，并選擇最合適的商品,。此外，Operator還學(xué)會(huì)了錯(cuò)誤糾正,；如果模型在填寫(xiě)表單時(shí)出錯(cuò),，它會(huì)重新嘗試或提示用戶(hù)確認(rèn)。

同時(shí),，Operator能夠適應(yīng)意外事件,，例如：當(dāng)網(wǎng)頁(yè)加載緩慢或界面發(fā)生變化時(shí)，模型能夠調(diào)整策略,，繼續(xù)完成任務(wù),。

值得注意的是，Operator的訓(xùn)練數(shù)據(jù)與GPT-4有所不同,。

圖示：模型自主性評(píng)估：不同任務(wù)在不同條件下的通過(guò)率比較

GPT-4的訓(xùn)練數(shù)據(jù),，主要集中在文本理解和生成上，而Operator的訓(xùn)練數(shù)據(jù),，則更偏向于視覺(jué)和交互任務(wù),，這種差異使得Operator在處理圖形界面和復(fù)雜操作時(shí)表現(xiàn)更出色，但純文本任務(wù)上不如GPT-4靈活,。

最后,，通過(guò)人類(lèi)反饋，Operator能夠進(jìn)一步優(yōu)化其性能,。人類(lèi)訓(xùn)練員的反饋幫助模型在實(shí)際應(yīng)用中少走彎路,，提高其在真實(shí)場(chǎng)景下的適應(yīng)性和效率。

總的來(lái)說(shuō),，思路就是：先有數(shù)據(jù),、讓它模仿,、開(kāi)始思考，人類(lèi)使用再進(jìn)化,。

除了這些,，風(fēng)險(xiǎn)意識(shí)測(cè)試，倫理安全問(wèn)題也少不了,，報(bào)告中顯示,，開(kāi)發(fā)Operator的過(guò)程中，OpenAI始終將安全性放在首位,。

畢竟,，讓一個(gè)AI模型操作計(jì)算機(jī)，就像賦予它一雙無(wú)形的手,，因此,，OpenAI在設(shè)計(jì)和訓(xùn)練Operator時(shí)，采取了一系列多層次的防護(hù)措施,。

我看了下,，有三點(diǎn)：

一，它會(huì)主動(dòng)拒絕高風(fēng)險(xiǎn)的任務(wù),。比如,，當(dāng)你要求它購(gòu)買(mǎi)違禁品或執(zhí)行其他潛在有害的操作時(shí)，模型會(huì)直接說(shuō)“不”,。

根據(jù)OpenAI的內(nèi)部評(píng)估,，Operator對(duì)高風(fēng)險(xiǎn)任務(wù)的拒絕率高達(dá)97%，這種機(jī)制有效防止了模型被濫用或執(zhí)行不當(dāng)操作,。

二,，Operator在執(zhí)行高風(fēng)險(xiǎn)操作時(shí)，會(huì)主動(dòng)要求用戶(hù)確認(rèn),。比如,，在發(fā)送重要郵件或完成購(gòu)買(mǎi)之前，它會(huì)先展示相關(guān)內(nèi)容,，并詢(xún)問(wèn)用戶(hù)是否確認(rèn)繼續(xù),，這種機(jī)制確保了用戶(hù)對(duì)關(guān)鍵操作的控制權(quán)，減少了模型錯(cuò)誤帶來(lái)的風(fēng)險(xiǎn),。

在一些敏感網(wǎng)站（如郵箱,、銀行網(wǎng)站）上,，它會(huì)自動(dòng)進(jìn)入“監(jiān)控模式”,；如果離開(kāi)頁(yè)面或長(zhǎng)時(shí)間未操作，模型會(huì)暫停任務(wù)執(zhí)行,，直到用戶(hù)返回并確認(rèn)繼續(xù),。

另外,，為了全面評(píng)估Operator的風(fēng)險(xiǎn)，它們邀請(qǐng)了來(lái)自全球20個(gè)國(guó)家的紅隊(duì)成員,，使用多種語(yǔ)言對(duì)Operator進(jìn)行了測(cè)試,。

圖釋?zhuān)?/span>Operator與GPT-4o在挑戰(zhàn)性拒絕任務(wù)中的性能對(duì)比

紅隊(duì)成員的任務(wù)，是嘗試?yán)@過(guò)模型的安全措施,，例如：

通過(guò)提示注入攻擊或惡意指令誤導(dǎo)模型,，盡管測(cè)試環(huán)境受到限制（例如使用模擬網(wǎng)站和數(shù)據(jù)庫(kù)），但,，紅隊(duì)測(cè)試仍然發(fā)現(xiàn)了關(guān)鍵漏洞,，這些發(fā)現(xiàn)幫助OpenAI進(jìn)一步完善了模型的安全性。

報(bào)告中,，也顯示了Operator也面臨的一些挑戰(zhàn),。

目前，它擅長(zhǎng)處理短任務(wù)和重復(fù)性操作,，但在復(fù)雜任務(wù)（如幻燈片制作,、日歷管理）上表現(xiàn)不佳。

例如：

讓它處理多步驟任務(wù),，模型可能會(huì)因?yàn)榻缑孀兓蛞馔馐录?。還有，在處理長(zhǎng)DNA序列,、隨機(jī)字符串（如API密鑰）或復(fù)雜代碼時(shí),，Operator的光學(xué)字符識(shí)別（OCR）系統(tǒng)表現(xiàn)不佳。

這是因?yàn)槿蝿?wù)超出了訓(xùn)練數(shù)據(jù)的范圍,，導(dǎo)致模型在識(shí)別和操作內(nèi)容時(shí),，容易出錯(cuò)；而且,，盡管OpenAI已經(jīng)采取了多種措施來(lái)防止提示注入攻擊和惡意指令,，但Operator在面對(duì)新型對(duì)抗性攻擊時(shí)仍可能表現(xiàn)出脆弱性。

總的來(lái)說(shuō),，OpenAI對(duì)Operator的未來(lái)發(fā)展充滿(mǎn)信心,，它說(shuō)，要在三個(gè)方面下功夫：

一,，具體的真實(shí)場(chǎng)景,；二，更多代碼編輯和終端操作,；三,，將繼續(xù)優(yōu)化安全防御性能，為真正實(shí)現(xiàn)AGI之路而奮斗,。

目前,，Operator AI Agent已經(jīng)上線,，但目前僅面向Pro用戶(hù)；要200美刀,，扎心,；看完這個(gè)報(bào)告，我只想說(shuō)：這難道不是RPA技術(shù)用到電腦上了嗎,？國(guó)內(nèi)前段時(shí)間流行的手機(jī)點(diǎn)單和這不一樣的嗎,？

希望國(guó)內(nèi)大模型趕緊跟上，彎道超車(chē)它,。

參考：

發(fā)布會(huì)視頻地址：https://www./live/CSE77wAdDLg

技術(shù)報(bào)告鏈接地址：https://cdn./operator_system_card.pdf

————

贊賞

共11人贊賞

久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

【原】OpenAI發(fā)布首個(gè)電腦智能體