今天凌晨2點(diǎn),OpenAI的12天直播,,終于來到了最終章,。又一次超群,,又一次把模型的能力,,推到了新的高度。 也向全世界證明了,,OpenAI,,依然在鐵王座上牢不可摧,。我也想起了OpenAI研究員在發(fā)布o(jì)1之前的那句話:“我們通往AGI的路上,已經(jīng)沒有任何阻礙了”之所以O(shè)penAI直接發(fā)布o(jì)3沒有o2,,原因也挺簡單的,。 因?yàn)楦?span>英國電信服務(wù)提供商O2可能存在版權(quán)或商標(biāo)沖突,所以直接跳過了,。,。。o3的能力,,對(duì)現(xiàn)在所有模型,,幾乎都直接是降維打擊。 左邊的是軟件工程考試(SWE-Bench Verified),這就像是一個(gè)考寫程序的考試,,比如你寫一個(gè)軟件要它快速,、準(zhǔn)確,還不能有 bug(小錯(cuò)誤),。這是考察 o3 是否能像一流的軟件工程師一樣寫出完美的代碼,。o3 的成績:71.7%,比o1還強(qiáng)了不少,。右邊的那個(gè)基準(zhǔn)比較猛,,Codeforces,一個(gè)全球著名的編碼競賽平臺(tái),。o3的得分是2727,這個(gè)得分,,相當(dāng)于整個(gè)榜單的第175名,,已經(jīng)超越了99.99%的人類了。o1的代碼能力已經(jīng)強(qiáng)到爆炸了,,而o3,,又向AGI的山頂,前進(jìn)了一大步,。 數(shù)學(xué)競賽AIEM 2024和博士級(jí)科學(xué)考試GPQA Diamond,。AIEM 2024接近滿分,如果我沒記錯(cuò)的話,,這應(yīng)該也是第一次AI能達(dá)到有AIEM接近滿分的水平,。 博士級(jí)科學(xué)考試有進(jìn)化,,但沒數(shù)學(xué)和編程進(jìn)化的這么猛。接下來的這個(gè)數(shù)學(xué)基準(zhǔn)比較有趣一點(diǎn),。FrontierMath,,Epoch AI 開發(fā)的一個(gè)數(shù)學(xué)基準(zhǔn)測試,由60多位頂尖數(shù)學(xué)家的合作開發(fā),,旨在評(píng)估人工智能在高級(jí)數(shù)學(xué)推理方面的能力,。而且為了避免數(shù)據(jù)污染,所有的題目都是原創(chuàng)的且從來沒有發(fā)布過的新題目,。 之前GPT-4 和 Gemini 1.5 Pro這種模型去評(píng)估的時(shí)候,,成功功率不足2%,與其他傳統(tǒng)數(shù)學(xué)基準(zhǔn)(如 GSM-8K 和 MATH)中超過90%的成功率形成鮮明對(duì)比,。當(dāng)各大其他模型都還在卷傳統(tǒng)數(shù)學(xué)基準(zhǔn)的時(shí)候,,o3真的已經(jīng)進(jìn)入了另一個(gè)世界了,。。,。 就像大家還在大斗師階段互相卷,,你是五星大斗師,我是八星大斗師,。兩者爭論不休,,正準(zhǔn)備要比試比試,忽然就看到一個(gè)斗宗強(qiáng)者踏空而行,,留下一地的臥槽,。然后,,就是我覺得,,整個(gè)基準(zhǔn)里,最有趣的一個(gè)基準(zhǔn)了: ARC-AGI于2019年首次提出,旨在通過一系列抽象和推理任務(wù)來測試AI系統(tǒng)的能力,。主要是因?yàn)閭鹘y(tǒng)的技能測量方法并不能有效代表智能,,因?yàn)樗鼈兺蕾囉谙惹爸R(shí)和經(jīng)驗(yàn),而真正的智能應(yīng)體現(xiàn)在廣泛的適應(yīng)能力和通用性上,。所以,,ARC-AGI誕生了,里面的這些任務(wù)要求AI識(shí)別模式并解決新問題,,每個(gè)任務(wù)由輸入輸出示例組成,。這些任務(wù)以網(wǎng)格形式呈現(xiàn),,每個(gè)方塊可以是十種顏色中的一種,網(wǎng)格的大小可以從1x1到30x30不等,。參與者需要根據(jù)給定的輸入生成正確的輸出,,測試其推理和抽象能力。但是今天,,o3的分?jǐn)?shù),達(dá)到了恐怖的87.5%,。 從0%到5%,,整整花了5年的時(shí)間,而如今,,從5%到87.5%,,僅僅只花了半年。而對(duì)應(yīng)的,,人類的閾值分?jǐn)?shù),,是85%。我們通往AGI的路上,,已經(jīng)沒有任何阻礙了,。不過o3強(qiáng)歸強(qiáng),但是又是一個(gè)期貨,,OpenAI目前只對(duì)紅隊(duì)開放,,如果是巨佬的話,可以去申請(qǐng)?jiān)囋嚒?br>網(wǎng)址在此:https:///index/early-access-for-safety-testing/目前不知道o3什么時(shí)候放出,,但是OpenAI又基于o3,,訓(xùn)了3個(gè)小尺寸的o3模型。目前o3-mimi,,預(yù)估在1月底可以對(duì)外開放,,但是感覺到時(shí)候,肯定又是pro會(huì)員專屬的模型了,。我越來越期待,2025年AI行業(yè)的進(jìn)化了,。 每一個(gè)都是比這個(gè)中間態(tài)的2024,,都更讓人興奮的東西。 2025,,必是AI行業(yè),,真正的星辰大海。 Day 1:滿血o1上線,ChatGPT Pro會(huì)員上線,,o1 pro推出,。Day 2:基于o1的強(qiáng)化微調(diào)。Day 4:ChatGPT Canvas全員開放以及小功能更新,。Day 5:給蘋果站臺(tái),宣傳蘋果全系接入GPT,。Day 6:4o的實(shí)時(shí)視頻理解上線,。Day 7:ChatGPT發(fā)布新建文件夾“項(xiàng)目”功能。Day 8:ChatGPT Search全量開放,,搜索體驗(yàn)大幅優(yōu)化,。Day 9:發(fā)布了o1的API、更新了實(shí)時(shí)語音的API,、發(fā)布了偏好微調(diào)能力(PFT),。Day 10:物理意義上的可以給ChatGPT打電話了。 Day 11:炒冷飯,,ChatGPT 桌面版能讀到別的應(yīng)用,。Day 12:OpenAI o3正式發(fā)布。這12天,,稍微有點(diǎn)驚喜的日子大概只有2,、3天,其他都是垃圾時(shí)間,。我們經(jīng)歷了深夜中數(shù)不勝數(shù)的垃圾時(shí)間。以上,既然看到這里了,,如果覺得不錯(cuò),,隨手點(diǎn)個(gè)贊、在看,、轉(zhuǎn)發(fā)三連吧,,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,,我們,,下次再見。
|