o3權(quán)威評(píng)測(cè):AI能力實(shí)現(xiàn)關(guān)鍵躍升,,但仍未達(dá)到AGI水平-36氪 12月21日消息,OpenAI發(fā)布最新一代推理模型o3的同一天,,知名法國(guó)計(jì)算機(jī)科學(xué)家和機(jī)器學(xué)習(xí)研究者,、ARC Prize基金會(huì)的創(chuàng)始人弗朗索瓦·肖萊(Fran?ois Chollet)撰寫報(bào)告稱,o3在ARC-AGI基準(zhǔn)測(cè)試中取得了突破性高分,。ARC-AGI是一個(gè)專門設(shè)計(jì)用來(lái)測(cè)試人工智能模型對(duì)極其困難的數(shù)學(xué)和邏輯問(wèn)題進(jìn)行推理的能力的基準(zhǔn)測(cè)試,。 肖萊在報(bào)告中指出,OpenAI最新推出的o3模型,在基于ARC-AGI-1公共訓(xùn)練集的訓(xùn)練下,,在遵守公開排行榜規(guī)定的1萬(wàn)美元計(jì)算限制(compute limit)的前提下,,在半私有評(píng)估集上取得了75.7%的突破性高分。而在高計(jì)算量(172倍)配置下的o3模型,,得分更是達(dá)到了87.5%,。 這一成績(jī)標(biāo)志著人工智能能力出現(xiàn)了令人震驚且關(guān)鍵的躍升,展現(xiàn)出GPT系列模型中前所未有的新任務(wù)適應(yīng)能力,。舉例來(lái)說(shuō),,在ARC-AGI-1的測(cè)試中,得分從2020年GPT-3的0%增長(zhǎng)到2024年GPT-4o的5%,,這一過(guò)程用了整整四年,。如今,對(duì)于人工智能能力的所有預(yù)設(shè)認(rèn)知都需要因o3而重新評(píng)估,。 ARC Prize,,這項(xiàng)逾百萬(wàn)美元的公共競(jìng)賽,其目標(biāo)不止于超越ARC的首個(gè)基準(zhǔn)測(cè)試,,更旨在成為引領(lǐng)我們通往通用人工智能(AGI)的“北極星”,。ARC Prize基金會(huì)對(duì)于明年與OpenAI團(tuán)隊(duì)及其他合作伙伴共同設(shè)計(jì)下一代、持久的通用人工智能基準(zhǔn)測(cè)試感到興奮,。ARC-AGI-2將于2025年與ARC Prize一同啟動(dòng),。ARC Prize基金會(huì)承諾將持續(xù)舉辦大獎(jiǎng)賽,直至出現(xiàn)一個(gè)高效且開源的解決方案,,其得分達(dá)到85%,。 以下為報(bào)告全文: 我們對(duì)o3系統(tǒng)進(jìn)行了兩項(xiàng)ARC-AGI數(shù)據(jù)集的測(cè)試: --半私有評(píng)估集:用于評(píng)估過(guò)擬合的100個(gè)私有任務(wù); --公開評(píng)估集:400個(gè)公開任務(wù),。 根據(jù)OpenAI的指導(dǎo),,我們?cè)趦蓚€(gè)計(jì)算級(jí)別的不同樣本大小下進(jìn)行了測(cè)試:6(高效率)和1024(低效率,172倍計(jì)算量),。 以下是測(cè)試結(jié)果: 注:由于定價(jià)和功能可用性尚未確定,,目前無(wú)法提供o3高計(jì)算量的成本信息。高計(jì)算量配置的計(jì)算量大約是低計(jì)算量配置的172倍,。 鑒于不同的推理預(yù)算,,效率——尤其是計(jì)算成本——已成為衡量性能時(shí)不可或缺的指標(biāo)。我們已經(jīng)記錄了總成本和每個(gè)任務(wù)的成本,,以此作為衡量效率的初步指標(biāo),。在整個(gè)行業(yè)中,我們需要確定哪個(gè)指標(biāo)最能反映效率,,但從大方向來(lái)看,,成本是一個(gè)合理的起點(diǎn),。 在高效率模式下,75.7%的得分符合ARC-AGI-Pub的預(yù)算規(guī)定(成本低于1萬(wàn)美元),,因此有資格占據(jù)公共排行榜的首位,。 盡管低效率模式下的87.5%得分代價(jià)不菲,但它仍然顯示了隨著計(jì)算量的增加,,新任務(wù)的性能確實(shí)有所提升——至少在這個(gè)層面上是如此,。 這些成績(jī)并非單純依靠增加算力資源來(lái)實(shí)現(xiàn)的。OpenAI的新o3模型在適應(yīng)新任務(wù)方面取得了重大進(jìn)步,,這不僅僅是漸進(jìn)式的改進(jìn),而是一次真正的突破,,標(biāo)志著人工智能能力相比以往的大語(yǔ)言模型有了質(zhì)的飛躍,。o3能夠適應(yīng)它之前從未遇到過(guò)的任務(wù),其在ARC-AGI領(lǐng)域的表現(xiàn)接近人類的水平,。 當(dāng)然,,這種泛化能力的成本相當(dāng)高,目前看來(lái)還不太經(jīng)濟(jì),。你可以支付給人類大約5美元來(lái)完成ARC-AGI任務(wù)(我們確實(shí)這樣做過(guò)),,同時(shí)僅消耗少量能源。而o3在低計(jì)算模式下每個(gè)任務(wù)的成本則在17到20美元之間,。不過(guò),,預(yù)計(jì)在未來(lái)幾個(gè)月到幾年內(nèi),成本性能將顯著提高,,因此我們可以預(yù)見這些能力將在不久的將來(lái)與人類工作形成競(jìng)爭(zhēng),。 o3是不是通用人工智能?ARC-AGI作為一個(gè)關(guān)鍵的基準(zhǔn)測(cè)試,,能夠突顯人工智能的泛化能力,,這是那些已經(jīng)飽和或要求不高的基準(zhǔn)測(cè)試所無(wú)法做到的。然而,,我們必須明確,,ARC-AGI并不是衡量通用人工智能終極標(biāo)準(zhǔn)——這一點(diǎn)我們今年已經(jīng)多次強(qiáng)調(diào)。它是一個(gè)研究工具,,旨在集中精力解決人工智能領(lǐng)域中最棘手的未解問(wèn)題,。過(guò)去五年來(lái),它在這方面發(fā)揮了重要作用,。 通過(guò)ARC-AGI的測(cè)試并不等于實(shí)現(xiàn)了通用人工智能,。實(shí)際上,我認(rèn)為o3尚未達(dá)到通用人工智能的水平,。o3在一些相對(duì)簡(jiǎn)單的任務(wù)上仍然表現(xiàn)不佳,,這表明它與人類智能之間存在本質(zhì)差異。 此外,初步數(shù)據(jù)表明,,即將到來(lái)的ARC-AGI-2基準(zhǔn)測(cè)試對(duì)o3來(lái)說(shuō)仍然是一個(gè)重大挑戰(zhàn),,即使在高計(jì)算量的情況下,也可能將其得分降至30%以下,,而一個(gè)普通人即使沒有經(jīng)過(guò)訓(xùn)練,,也能輕松獲得超過(guò)95%的得分。這顯示了我們有能力創(chuàng)建具有挑戰(zhàn)性,、未達(dá)到飽和狀態(tài)的基準(zhǔn)測(cè)試,,而不必依賴于專家的領(lǐng)域知識(shí)。當(dāng)設(shè)計(jì)出對(duì)普通人容易但對(duì)人工智能困難的任務(wù)變得不可能時(shí),,那就意味著通用人工智能真的到來(lái)了,。 o3與舊模型相比有何區(qū)別?為何o3的得分遠(yuǎn)超過(guò)o1,?同樣,,o1的得分又為何遠(yuǎn)超過(guò)GPT-4o?我認(rèn)為,,這一系列結(jié)果為通用人工智能的持續(xù)追求提供了極有價(jià)值的數(shù)據(jù)點(diǎn),。 我對(duì)大語(yǔ)言模型的理解是,它們像一個(gè)向量程序的倉(cāng)庫(kù),。當(dāng)接收到提示時(shí),,它們會(huì)檢索與提示相匹配的程序,并在當(dāng)前輸入上“執(zhí)行”它,。大語(yǔ)言模型通過(guò)被動(dòng)接觸人類生成的內(nèi)容,,存儲(chǔ)和操作化數(shù)以百萬(wàn)計(jì)的有用小程序。 這種“記憶,、檢索,、應(yīng)用”的模式,在給定適當(dāng)?shù)挠?xùn)練數(shù)據(jù)時(shí),,可以在任意任務(wù)上達(dá)到任意水平的技能,,但它無(wú)法適應(yīng)新情況或即時(shí)掌握新技能(也就是說(shuō),這里沒有所謂的流動(dòng)智能),。這一點(diǎn)在大語(yǔ)言模型在ARC-AGI上的表現(xiàn)中得到了體現(xiàn),,ARC-AGI是專門設(shè)計(jì)來(lái)衡量對(duì)新事物適應(yīng)性的基準(zhǔn)測(cè)試——GPT-3得分為0,GPT-4接近0,,GPT-4o達(dá)到了5%,。將這些模型擴(kuò)展到極限,并沒有使ARC-AGI的得分接近幾年前基本的蠻力枚舉就能達(dá)到的水平(高達(dá)50%),。 要適應(yīng)新事物,,你需要兩樣?xùn)|西,。首先,你需要知識(shí)——一套可重復(fù)使用的功能或程序,。大語(yǔ)言模型已經(jīng)擁有足夠的知識(shí),。其次,你需要在面對(duì)新任務(wù)時(shí)重新組合這些功能成一個(gè)全新的程序——即程序合成,。大語(yǔ)言模型長(zhǎng)期以來(lái)缺乏這一特性,,而o系列模型彌補(bǔ)了這一點(diǎn)。 目前,,我們只能推測(cè)o3的確切工作方式,。但o3的核心機(jī)制似乎是在token空間內(nèi)進(jìn)行自然語(yǔ)言程序搜索和執(zhí)行——在測(cè)試時(shí),模型搜索可能的思維鏈(Chains of Thought, CoTs)描述解決任務(wù)所需的步驟,,這種方式可能與AlphaZero風(fēng)格的蒙特卡洛樹搜索相似,。在o3的情況下,搜索可能由某種評(píng)估模型引導(dǎo),。值得注意的是,Demis Hassabis在2023年6月的一次采訪中暗示DeepMind一直在研究這個(gè)想法——這項(xiàng)工作已經(jīng)醞釀了很長(zhǎng)時(shí)間,。 因此,,雖然單一代大語(yǔ)言模型在新事物上掙扎,但o3通過(guò)生成和執(zhí)行自己的程序克服了這一點(diǎn),,其中程序本身(CoT)成為知識(shí)重組的產(chǎn)物,。盡管這不是測(cè)試時(shí)知識(shí)重組的唯一可行方法(你也可以進(jìn)行測(cè)試時(shí)訓(xùn)練,或在潛在空間中搜索),,但根據(jù)這些新的ARC-AGI得分,,它代表了當(dāng)前技術(shù)的最新水平。 實(shí)際上,,o3代表了一種深度學(xué)習(xí)引導(dǎo)的程序搜索形式,。模型在“程序”空間(在這種情況下,自然語(yǔ)言程序——描述解決手頭任務(wù)步驟的思維鏈空間)上進(jìn)行測(cè)試時(shí)搜索,,由深度學(xué)習(xí)引導(dǎo),。解決單個(gè)ARC-AGI任務(wù)可能最終需要數(shù)千萬(wàn)個(gè)token,成本數(shù)千美元,,是因?yàn)檫@個(gè)搜索過(guò)程必須探索程序空間中的大量路徑--包括回溯,。 然而,這里發(fā)生的事情與我之前描述的“深度學(xué)習(xí)引導(dǎo)的程序搜索”作為達(dá)到通用人工智能的最佳路徑有兩個(gè)顯著的區(qū)別,。關(guān)鍵的是,,o3生成的程序是自然語(yǔ)言指令(由大語(yǔ)言模型“執(zhí)行”),而不是可執(zhí)行的符號(hào)程序,。這意味著兩件事,。首先,,它們不能通過(guò)執(zhí)行和直接評(píng)估任務(wù)與現(xiàn)實(shí)接觸——相反,它們必須通過(guò)另一個(gè)模型進(jìn)行適應(yīng)性評(píng)估,,而缺乏這種基礎(chǔ)的評(píng)估可能在操作分布之外時(shí)出錯(cuò),。其次,系統(tǒng)不能自主地獲得生成和評(píng)估這些程序的能力(就像AlphaZero這樣的系統(tǒng)可以自己學(xué)會(huì)玩棋盤游戲一樣),。相反,,它依賴于專家標(biāo)記的、人類生成的CoT數(shù)據(jù),。 目前尚不清楚新系統(tǒng)的具體局限性以及它可能擴(kuò)展的范圍,。我們需要進(jìn)一步的測(cè)試來(lái)找出答案。無(wú)論如何,,當(dāng)前的性能代表了一項(xiàng)了不起的成就,,并且清楚地證實(shí)了直覺引導(dǎo)的測(cè)試時(shí)程序空間搜索是一個(gè)強(qiáng)大的范式,可以構(gòu)建能夠適應(yīng)任意任務(wù)的AI系統(tǒng),。 接下來(lái)會(huì)發(fā)生什么,?首先,通過(guò)2025年的ARC Prize競(jìng)賽促進(jìn)o3的開源復(fù)制對(duì)于推動(dòng)研究社區(qū)向前發(fā)展至關(guān)重要,。對(duì)o3的優(yōu)勢(shì)和局限性進(jìn)行全面分析是必要的,,這有助于我們理解其擴(kuò)展行為、潛在瓶頸的性質(zhì),,并預(yù)測(cè)進(jìn)一步發(fā)展可能解鎖的能力,。 此外,ARC-AGI-1現(xiàn)在已趨于飽和——除了o3的新得分外,,事實(shí)上,,一個(gè)大型的低計(jì)算量Kaggle解決方案集合現(xiàn)在可以在私有評(píng)估中得到81%的分?jǐn)?shù)。 我們將通過(guò)新版本——ARC-AGI-2——來(lái)提高標(biāo)準(zhǔn),,該版本自2022年以來(lái)一直在開發(fā)中,。它承諾將重置技術(shù)的最新水平。我們希望它通過(guò)具有挑戰(zhàn)性的,、高信號(hào)的評(píng)估來(lái)推動(dòng)AGI研究的界限,,這些評(píng)估突顯了當(dāng)前人工智能的局限性。 我們對(duì)ARC-AGI-2的早期測(cè)試表明,,即使對(duì)于o3來(lái)說(shuō),,它也將是有用且極具挑戰(zhàn)性的。當(dāng)然,,ARC Prize的目標(biāo)是產(chǎn)生一個(gè)高效且開源的解決方案,,以贏得大獎(jiǎng)。我們目前計(jì)劃在ARC Prize 2025(預(yù)計(jì)啟動(dòng)時(shí)間:第一季度末)同時(shí)推出ARC-AGI-2,。 展望未來(lái),,ARC Prize基金會(huì)將繼續(xù)創(chuàng)建新的基準(zhǔn),,以集中研究人員的注意力在通往通用人工智能的道路上最難解決的問(wèn)題上。我們已經(jīng)開始了第三代基準(zhǔn)的工作,,它完全脫離了2019年ARC-AGI的格式,,并融入了一些令人興奮的新想法。 邀請(qǐng)參與開源分析:今天,,我們發(fā)布了高計(jì)算量的o3標(biāo)記任務(wù),,并希望得到外界的幫助進(jìn)行分析。特別是,,我們對(duì)于o3無(wú)法解決的大約9%的公共評(píng)估任務(wù)非常感興趣,,即使在大量計(jì)算資源的支持下,這些任務(wù)對(duì)人類來(lái)說(shuō)卻非常簡(jiǎn)單,。 我們邀請(qǐng)社區(qū)幫助我們?cè)u(píng)估解決和未解決任務(wù)的特征,。 為了激發(fā)外界想法,這里有3個(gè)高計(jì)算量o3未能解決的任務(wù)示例,。 結(jié)論總結(jié)來(lái)說(shuō),,o3代表了向前邁出的重要一步。它在ARC-AGI上的表現(xiàn)凸顯了在適應(yīng)性和泛化方面的真正突破,,這是其他任何基準(zhǔn)測(cè)試都無(wú)法如此明確展現(xiàn)的,。 o3解決了大語(yǔ)言模型范式的根本局限性——在測(cè)試時(shí)無(wú)法重新組合知識(shí)——并且通過(guò)一種大語(yǔ)言模型引導(dǎo)的自然語(yǔ)言程序搜索形式來(lái)實(shí)現(xiàn)這一點(diǎn)。這不僅僅是漸進(jìn)式的進(jìn)步,;它是新領(lǐng)域的開拓,需要嚴(yán)肅的科學(xué)關(guān)注,。 |
|