【新智元導讀】OpenAI下一代模型——o3,,重磅誕生了,!陶哲軒預言難住AI好幾年的數(shù)學測試,它瞬間破解,,編程水平位于全球前200,,在ARC-AGI基準中更是驚人,打破所有AI紀錄接近人類水平,,離AGI更近一步,。12天最后一天,OpenAI下一代推理模型o3真的出世了,!奧特曼,、Mark Chen、任泓宇和ARC Prize基金會主席Greg Kamradt為我們做了介紹正如所爆料那樣,,突如其來的o3成為整場直播的「壓軸菜」,。奧特曼表示,之所以跳過o2,,是因為對伙伴的尊重,,以及延續(xù)OpenAI一貫「起名特別差」的傳統(tǒng)。要知道,,距離9月o1的出世,,才過去了整整3個月的時間。o3的迭代速度,,證明了Scaling Law似乎并未終結,。根據(jù)Keras之父發(fā)布的報告稱,o3在低計算量模式下,,每個任務需要花費高達20美金,,而在高計算量模式中每個任務則需要數(shù)千美元,。在多項基準測試中,,o3再次刷新SOTA,,就數(shù)學、代碼,、軟件工程等領域,,完全粉碎了滿血版o1!在AIME 2024數(shù)學競賽評測中,,o3取得了96.7%的準確率,,性能直接飆升13.4%;在博士級科學問答基準GPQA Diamond上,,o3準確率為87.7%,,相較于上一代o1提升9.7%。在今年11月Epoch AI發(fā)布的數(shù)學基準Frontier Math上,,o3準確率高達25.2%,。這個基準中,今天所有模型的準確率都低于2%,,但是在激進的測試時間設置下,,o3已經(jīng)能夠達到25%的準確率。在軟件工程SWE-bench Verified基準上,o3的代碼性能從o1的48.9%狂飆22.8%,,達到了71.7%,。在Codeforces中,o3的Elo得分為2727,,相較o1提升了800多分,。這個表現(xiàn),已經(jīng)達到了International Grandmaster的水平,,相當于位列175名的人類選手,。除o3之外,,o3-mini同樣在數(shù)學,、編碼、博士級科學問答,、函數(shù)調用等基準上,,取得了新的突破。奧特曼表示,,這兩款新模型將面向研究人員測試,并期待未來盡快推出上線,。OpenAI研究科學家Sebastien Bubeck稱,,o3在Frontier Maths取得25%準確率,在菲爾茲獎得主Tim Gowers看來極其驚人,。這暗示了AI發(fā)展火花加速迸發(fā)。網(wǎng)友紛紛表示,,就在今天,,我們已經(jīng)實現(xiàn)了AGI!o3-mini:三種「思考模式」,,計算越多能力越強 o3-mini作為o3系列的新成員,,與o1-mini一樣,將為開發(fā)者帶來高性價比的AI體驗,。在編程能力評測中,,o3-mini展現(xiàn)出驚人的實力。通過「自適應思考時間」(adaptive thinking time)機制,,o3能夠根據(jù)任務難度自動調整推理深度,。由此,它才實現(xiàn)了在代碼生成方面超越了前代o1,。更令人驚嘆的是,,其運行速度和成本僅為o1的1/10。o3-mini引入了三檔思考級別——低強度推理,、中等強度推理,、高強度推理,可以根據(jù)具體需求去調整模型的推理深度,。簡言之,,簡單任務能夠得到快速響應。而復雜的問題,,模型則可開啟更深度的思考模式,。 任泓宇(左)本科畢業(yè)于北大,后在斯坦福獲得博士學位,,負責o3-mini的訓練具體來說,,在Codeforces測試中,,o3-mini的Elo評分隨著思考時間的增加,性能逐步的到提升,。甚至,,在中等強度思下,o3-mini(medium)已經(jīng)超了滿血版o1的表現(xiàn),。雖然o3-mini(high)在高強度思考下,,仍落后于o3,但幾乎差別不大,。而且,,在成本和思考速度方面,o3-mini取得了超越o1-mini更好的性能,。在演示中,,研究者要求模型使用Python實現(xiàn)代碼生成器和執(zhí)行器。啟動之后,,就像運行Python腳本一樣,,模型將在本地啟動一個服務器,帶有一個包含文本框的UI,。然后我們就可以在其中發(fā)出編碼請求了,,它會請求調用o3-mini API,它將解決任務,,返回一段代碼,。代碼會保存在本地桌面上,然后打開終端自動執(zhí)行代碼,。我們可以在其中輸入代碼,比如打出OpenAI和一個隨機數(shù),,它就會將請求發(fā)送到o3-mini(medium),。模型果然按要求輸出OpenAI,以及41這個數(shù)字,。在下面這個任務中,,研究者要求模型用較低的推理能力,來評估o3-mini在難度很高的GPQA數(shù)據(jù)集上的表現(xiàn),。模型首先需要從該URL下載原始文件,,然后需要識別哪些部分是問題,,哪些是答案,哪些是選項,。最后,,模型需要整理出所有的問題,并嘗試作答,,解析結果,,最后進行評分。模型的運行速度極快,,因為它調用的是o3-mini,,并使用了較低的推理計算。可以看到,,結果為61.62%,,和正式評估幾乎一模一樣。而且這個運行極快的低推理能力模型,,整個評估過程只用了一分鐘,。除了代碼成績亮眼,o3-mini也展現(xiàn)出了卓越的數(shù)學能力,。在AIME 2024數(shù)學競賽測試中,o3-mini(low)已經(jīng)接近o1 mini的水平,。o3-mini(medium)以78.2%的準確率超越了o1(圖中實心部分),,而o3-mini(high)進一步提升了性能。在延遲方面表現(xiàn),,o3-mini(low)大幅降低了延遲,,降低至1秒內,媲美GPT-4的即時響應,。o3-mini(medium)的延遲比o1-mini快一半,。當然,OpenAI為了滿足開發(fā)者的需求,,o3-mini提供了全套API功能,,包括函數(shù)調用、結構化輸出,、開發(fā)者消息,。更難能可貴的是,在這些功能上,,o3-mini的性能不僅完全對標o1,,并在多數(shù)評測中取得了更好的表現(xiàn)。另外,,在具有挑戰(zhàn)性的GPQA數(shù)據(jù)集測試中,,o3-mini展現(xiàn)出穩(wěn)定的性能,,即便是在低強度思考模式下,o3-mini(low)也達到了62%的準確率,。o3-mini暫時只向安全研究院開放測試,,可以直接在OpenAI網(wǎng)站中進行申請。
ARC Prize Foundation是一家非營利組織,,使命是在基準測試期間成為AGI的北極星,。他們的第一個基準ARC-AGI,是由Keras之父Fran?ois Chollet于2019年在關于智力測量的論文中發(fā)表的,,它在AI領域已經(jīng)保持5年不敗,。擊敗ARC-AGI的系統(tǒng),將成為邁向AGI的重要里程碑,。它的全部內容,,都是輸入示例和輸出示例,目標是了解變換的規(guī)則,,猜出輸出的示例,。比如下面這個任務,,憑人類直覺,很容易猜出最后一張圖應該是什么,,但AI很難理解,。在這個任務中,則是需要在黃色方塊中,,數(shù)一下共有多少種顏色的方塊,,然后用它創(chuàng)建一個邊框。研究者使用了兩個ARC-AGI 數(shù)據(jù)集對 o3 進行了測試:半私有評估:100個私有任務,,用于評估過擬合 公共評估:400個公共任務 他們在兩種計算水平下進行了測試,,樣本規(guī)模分別為6(高效模式)和1024(低效模式,計算量是高效模式的172倍),。厲害的是,,在這個基準測試中,o3在低計算模式下,,在半私有評估中的得分為75.7%,;在高計算模式下,得分為87.5%,。具體來說,,高計算模式下的得分為 75.7%,符合 RC-AGI-Pub的預算限制(成本低于1萬美元),因此在公共排行榜上排名第一,。低計算模式下的得分為 87.5%,,雖然成本較高,但仍然表明在新任務上的性能隨著計算量的增加而提升,。這點尤為重要,,因為人類在該任務上的表現(xiàn)通常在85%的水平。超過這一數(shù)字,,就意味著達到了一個重要的里程碑,,因為此前從未有任何AI系統(tǒng)實現(xiàn)過這一成就。這標志著ARC-AGI領域的一個全新突破,。ARC Prize Foundation的主席表示,,看到這些分數(shù)時,他意識到需要稍微改變一下自己的世界觀,,修正對AI究竟能做哪些事情的直覺,。而且要知道,目前還僅是AI的早期階段,,所以我們就更需要ARC-AGI這樣的持久性基準測試,,來對進展進行評估和引導了。總之,,這是AI能力的一次令人驚訝且意義重大的躍升,展現(xiàn)了GPT系列模型前所未有的新任務適應能力,。要知道,,ARC-AGI-1從2020年GPT-3的0%提升到2024年GPT-4o的5%,歷時4年,。盡管成本較高,但o3的這些成績并不僅僅是通過在基準測試上應用暴力計算得來的,。可以說,,o3的性能不是一次漸進式的改進,而是一次真正的突破,,標志著AI能力相比此前的LLM局限性,,實現(xiàn)了質的飛躍。能夠適應從未遇到過的任務,,意味著o3在ARC-AGI領域的表現(xiàn)已接近人類水平,。當然,這種通用性伴隨著高昂的成本,,目前還不算經(jīng)濟:我們可以花大約5美元,,讓人類解決一個ARC-AGI任務,僅消耗幾美分的能源。而o3在低計算模式下每個任務需要17-20美元,。但成本效益可能會在未來顯著提升,,所以,AI在較短的時間內,,將代替人類的動作,。o3 相較于GPT系列的改進,證明了架構的重要性,。要知道,,我們無法通過給GPT-4增加更多計算量,來獲得這樣的結果,。簡單地擴大我們從2019年到2023年所做的事情(采用相同的架構,,在更多數(shù)據(jù)上訓練一個更大的版本)是不夠的。實現(xiàn)AGI了嗎?ARC-AGI以一種飽和或低要求基準測試無法實現(xiàn)的方式,,展現(xiàn)了泛化能力,。然而,需要注意的是,,ARC-AGI并不是AGI的試金石——它只是一種研究工具,,旨在聚焦于AI領域中最具挑戰(zhàn)性的未解決問題。通過ARC-AGI,,并不意味著實現(xiàn)AGI,。我們無法認為o3是AGI,它在簡單任務上仍然表現(xiàn)不佳,,這表明它與人類智能之間存在根本性的差異,。此外,數(shù)據(jù)表明,,即將推出的ARC-AGI-2基準測試對o3來說,,仍將是一個重大挑戰(zhàn),即使在高計算模式下,,其得分可能會低于30%(而一個聰明的人類無需訓練仍能超過95%),。這表明,人類仍然有可能創(chuàng)建具有挑戰(zhàn)性且未飽和的基準測試,,而無需依賴專業(yè)領域知識,。當創(chuàng)建那些對普通人來說很簡單,但對AI來說很困難的任務變得完全不可能時,,就是AGI真正到來的時候,。和舊模型的區(qū)別為什么o3得分比o1高出這么多,?又為什么o1得分比GPT-4o高出這么多?這一系列結果為通用人工智能(AGI)的持續(xù)探索提供了寶貴的數(shù)據(jù)點,。大模型本質上是向量程序的存儲庫,。當給出提示詞時,LLM會提取提示詞對應的程序,,并在當前輸入上「執(zhí)行」,。也就是說,它們是通過被動接觸人類生成內容來存儲和操作化數(shù)百萬個有用的小程序的一種方式,。這種「記憶,、提取、應用」的模式可以在適當?shù)挠柧殧?shù)據(jù)下,,實現(xiàn)對任意任務的任意技能水平,,但它無法適應新任務或即時掌握新技能(也就是說,這里沒有流體智力的作用),。這一局限性在ARC-AGI測試中,,表現(xiàn)得尤為明顯——GPT-3得分為0,GPT-4得分接近0,,而GPT-4o達到了 5%,。將這些模型擴展到可能的極限,也未能讓 ARC-AGI 的得分接近多年前基本的暴力枚舉方法所能達到的水平(高達50%),。第一,,需要知識——一組可重用的函數(shù)或程序供調用,。LLM在這方面已經(jīng)綽綽有余。第二,,需要在面對新任務時將這些函數(shù)重新組合成一個全新的程序的能力——一個能夠建模當前任務的程序,,也就是程序合成。而LLM長期以來缺乏這一特性,,O系列模型卻帶了新的突破,。o3模型的核心創(chuàng)新在于,實現(xiàn)了token空間內自研語言程序搜索和執(zhí)行,。它在測試時會搜索可能的CoT空間,,尋找描述解決任務所需的步驟,,由評估模型引導搜索過程,。這種方式可能與AlphaZero的蒙特卡洛樹搜索并無太大差異。值得注意的是,,Demis Hassabis在去年6月的一次采訪中暗示,,DeepMind一直在研究這一想法——這項研究已經(jīng)醞釀許久。因此,盡管單次生成(single-generation)的LLM在應對新任務方面表現(xiàn)不佳,,但o3通過生成并執(zhí)行自己的程序克服了這一問題,,其中程序本身(即CoT)成為知識重組的產(chǎn)物。盡管這并不是測試時,,知識重組的唯一可行方法(也可以進行測試時訓練,,或在潛在空間中搜索),但根據(jù)這些最新的ARC-AGI數(shù)據(jù),,它代表了當前的最先進水平,。實質上,o3本質上是一種深度學習引導的程序搜索形式,。在測試時搜索「程序」空間,,探索自然語言程序,描述解決當前任務步驟的CoT空間,,并由一個基礎LLM提供引導,。這一過程,可能需要處理千萬個token,,消耗大量的計算資源,,花費數(shù)千美元,因為需要探索眾多路徑并進行回溯,。首先,,其生成了自然語言指令,,而非可執(zhí)行程序,缺乏直接執(zhí)行和評估能力,。其次,,依賴專家標注的、人工生成的CoT數(shù)據(jù),,無法自主獲得程序生成和評估能力,。盡管如此,o3的表現(xiàn)仍證實了直覺引導的測試時搜索的巨大潛力,。可以說,,o3是具有里程碑意義的成就,為未來AGI下一步探索指明了方向,。https:///OpenAI/status/1870164871289155937https:///blog/oai-o3-pub-breakthrough
|