OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,，已經(jīng)沒有了任何阻礙,。

長沙7喜 2024-12-22

展開全文

今天凌晨2點(diǎn)，OpenAI的12天直播,，終于來到了最終章,。

奧特曼，也在一片圣誕的氣息中終于回歸,。

為大家?guī)砹俗詈蟮膲狠S大戲,。

OpenAI o3。

又一次超群,，又一次把模型的能力,，推到了新的高度。

也向全世界證明了,，OpenAI,，依然在鐵王座上牢不可摧,。

我也想起了OpenAI研究員在發(fā)布o(jì)1之前的那句話：

“我們通往AGI的路上，已經(jīng)沒有任何阻礙了”

之所以O(shè)penAI直接發(fā)布o(jì)3沒有o2,，原因也挺簡單的,。

因?yàn)楦?span>英國電信服務(wù)提供商O2可能存在版權(quán)或商標(biāo)沖突，所以直接跳過了,。,。。

直接到o3,。

而OpenAI直播一完,，X上基本就沸騰了。

o3的能力,，對(duì)現(xiàn)在所有模型,，幾乎都直接是降維打擊。

看下o3的能力吧,。

一些粗的評(píng)測集簡單過一下,。

左邊的是軟件工程考試（SWE-Bench Verified），這就像是一個(gè)考寫程序的考試,，比如你寫一個(gè)軟件要它快速,、準(zhǔn)確，還不能有 bug（小錯(cuò)誤）,。這是考察 o3 是否能像一流的軟件工程師一樣寫出完美的代碼,。

o3 的成績：71.7%，比o1還強(qiáng)了不少,。

右邊的那個(gè)基準(zhǔn)比較猛,，Codeforces，一個(gè)全球著名的編碼競賽平臺(tái),。

o3的得分是2727，這個(gè)得分,，相當(dāng)于整個(gè)榜單的第175名,，已經(jīng)超越了99.99%的人類了。

o1的代碼能力已經(jīng)強(qiáng)到爆炸了,，而o3,，又向AGI的山頂，前進(jìn)了一大步,。

數(shù)學(xué)競賽AIEM 2024和博士級(jí)科學(xué)考試GPQA Diamond,。

AIEM 2024接近滿分，如果我沒記錯(cuò)的話,，這應(yīng)該也是第一次AI能達(dá)到有AIEM接近滿分的水平,。

博士級(jí)科學(xué)考試有進(jìn)化,，但沒數(shù)學(xué)和編程進(jìn)化的這么猛。

接下來的這個(gè)數(shù)學(xué)基準(zhǔn)比較有趣一點(diǎn),。

FrontierMath,，Epoch AI 開發(fā)的一個(gè)數(shù)學(xué)基準(zhǔn)測試，由60多位頂尖數(shù)學(xué)家的合作開發(fā),，旨在評(píng)估人工智能在高級(jí)數(shù)學(xué)推理方面的能力,。

而且為了避免數(shù)據(jù)污染，所有的題目都是原創(chuàng)的且從來沒有發(fā)布過的新題目,。

之前GPT-4 和 Gemini 1.5 Pro這種模型去評(píng)估的時(shí)候,，成功功率不足2%，與其他傳統(tǒng)數(shù)學(xué)基準(zhǔn)（如 GSM-8K 和 MATH）中超過90%的成功率形成鮮明對(duì)比,。

而這一次,，o3直接達(dá)到了25.2。

當(dāng)各大其他模型都還在卷傳統(tǒng)數(shù)學(xué)基準(zhǔn)的時(shí)候,，o3真的已經(jīng)進(jìn)入了另一個(gè)世界了,。。,。

就像大家還在大斗師階段互相卷,，你是五星大斗師，我是八星大斗師,。

兩者爭論不休,，正準(zhǔn)備要比試比試，忽然就看到一個(gè)斗宗強(qiáng)者踏空而行,，留下一地的臥槽,。

這還比個(gè)鬼。

然后,，就是我覺得,，整個(gè)基準(zhǔn)里，最有趣的一個(gè)基準(zhǔn)了：

ARC-AGI,。

先說說這是個(gè)啥玩意,。

ARC-AGI于2019年首次提出，旨在通過一系列抽象和推理任務(wù)來測試AI系統(tǒng)的能力,。

主要是因?yàn)閭鹘y(tǒng)的技能測量方法并不能有效代表智能,，因?yàn)樗鼈兺蕾囉谙惹爸R(shí)和經(jīng)驗(yàn)，而真正的智能應(yīng)體現(xiàn)在廣泛的適應(yīng)能力和通用性上,。

所以,，ARC-AGI誕生了，里面的這些任務(wù)要求AI識(shí)別模式并解決新問題,，每個(gè)任務(wù)由輸入輸出示例組成,。這些任務(wù)以網(wǎng)格形式呈現(xiàn),，每個(gè)方塊可以是十種顏色中的一種，網(wǎng)格的大小可以從1x1到30x30不等,。參與者需要根據(jù)給定的輸入生成正確的輸出,，測試其推理和抽象能力。

可以簡單的理解成,，找規(guī)律,。

大概就是這樣的。

非常的難且抽象,。

過去幾代模型的評(píng)分在此：

* GPT-2 (2019): 0%

* GPT-3 (2020): 0%

* GPT-4 (2023): 2%

* GPT-4o (2024): 5%

* o1-preview (2024): 21%

* o1 (2024): 32%

* o1 Pro (2024): ~50%

但是今天,，o3的分?jǐn)?shù)，達(dá)到了恐怖的87.5%,。

從0%到5%,，整整花了5年的時(shí)間，而如今,，從5%到87.5%,，僅僅只花了半年。

而對(duì)應(yīng)的,，人類的閾值分?jǐn)?shù),，是85%。

我們通往AGI的路上,，已經(jīng)沒有任何阻礙了,。

不過o3強(qiáng)歸強(qiáng)，但是又是一個(gè)期貨,，OpenAI目前只對(duì)紅隊(duì)開放,，如果是巨佬的話，可以去申請(qǐng)?jiān)囋嚒?br>

網(wǎng)址在此：https:///index/early-access-for-safety-testing/

目前不知道o3什么時(shí)候放出,，但是OpenAI又基于o3,，訓(xùn)了3個(gè)小尺寸的o3模型。

目前o3-mimi,，預(yù)估在1月底可以對(duì)外開放,，但是感覺到時(shí)候，肯定又是pro會(huì)員專屬的模型了,。

我越來越期待，2025年AI行業(yè)的進(jìn)化了,。

推理模型,、Agent、AI硬件,、世界模型,。

每一個(gè)都是比這個(gè)中間態(tài)的2024,，都更讓人興奮的東西。

2025,，必是AI行業(yè),，真正的星辰大海。

我們也在最后,，回顧一下這12天的直播吧,。

Day 1：滿血o1上線，ChatGPT Pro會(huì)員上線,，o1 pro推出,。

Day 2：基于o1的強(qiáng)化微調(diào)。

Day 3：Sora正式發(fā)布,。

Day 4：ChatGPT Canvas全員開放以及小功能更新,。

Day 5：給蘋果站臺(tái)，宣傳蘋果全系接入GPT,。

Day 6：4o的實(shí)時(shí)視頻理解上線,。

Day 7：ChatGPT發(fā)布新建文件夾“項(xiàng)目”功能。

Day 8：ChatGPT Search全量開放,，搜索體驗(yàn)大幅優(yōu)化,。

Day 9：發(fā)布了o1的API、更新了實(shí)時(shí)語音的API,、發(fā)布了偏好微調(diào)能力（PFT）,。

Day 10：物理意義上的可以給ChatGPT打電話了。

Day 11：炒冷飯,，ChatGPT 桌面版能讀到別的應(yīng)用,。

Day 12：OpenAI o3正式發(fā)布。

這12天,，稍微有點(diǎn)驚喜的日子大概只有2,、3天，其他都是垃圾時(shí)間,。

還好,，今天的大貨，補(bǔ)上了之前的陰霾,。

最后,，還是忍不住感嘆一聲。

這12天,，像一場漫長的馬拉松,。

我們經(jīng)歷了深夜中數(shù)不勝數(shù)的垃圾時(shí)間。

卻也迎來了最后的高光時(shí)刻,。

這感覺,。

還挺AI的,。

以上，既然看到這里了,，如果覺得不錯(cuò),，隨手點(diǎn)個(gè)贊、在看,、轉(zhuǎn)發(fā)三連吧,，如果想第一時(shí)間收到推送，也可以給我個(gè)星標(biāo)?～謝謝你看我的文章,，我們,，下次再見。

>/ 作者：卡茲克

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：長沙7喜 > 《新聞》

舉報(bào)/認(rèn)領(lǐng)