Altman因DeepSeek“認(rèn)錯(cuò)”：在開(kāi)源上OpenAI站在了歷史的錯(cuò)誤一方

wupin 2025-02-01

展開(kāi)全文

專(zhuān)題：DeepSeek為何能震動(dòng)全球AI圈

　　作者|硅星人Pro 張瀟雪

　　在開(kāi)源上我們站在了歷史的錯(cuò)誤一方,。

　　這是Sam Altman對(duì)DeepSeek沖擊做出的最新回應(yīng)。

　　OpenAI從來(lái)都是主動(dòng)出擊,，這一次因DeepSeek而被動(dòng)調(diào)整了它自己的節(jié)奏,，甚至第一次在開(kāi)源權(quán)重的問(wèn)題上，有了動(dòng)搖,。

　　一切都發(fā)生的太快了,。

　　o3-mini全線開(kāi)放，免費(fèi)用,，可聯(lián)網(wǎng)

　　在DeepSeek壓力之下,， OpenAI今天凌晨突然宣布，其最新推理模型o3-mini全面上線,。

　　而且居然一改往日藏著掖著的調(diào)性,，一次性向所有人開(kāi)放了o3-mini在ChatGPT和API中的使用權(quán)限，包括免費(fèi)用戶,。

　　不僅支持聯(lián)網(wǎng),，也終于舍得展示思考過(guò)程了,。

　　o3-mini 于去年底的技術(shù)直播中首次亮相，是 OpenAI 推理系列中最新,、最具性價(jià)比的小型 AI 模型，在科學(xué),、數(shù)學(xué)和編程領(lǐng)域表現(xiàn)出色,，同時(shí)兼具低成本和低延遲優(yōu)勢(shì)。

　　強(qiáng)度模式上,，o3-mini提供了低,、中、高三種選擇,，用戶可根據(jù)需求在快速響應(yīng)和深度思考之間靈活調(diào)整,。只是o3-mini 尚不支持視覺(jué)任務(wù)，需要進(jìn)行視覺(jué)推理時(shí)仍要調(diào)用o1,。

　　此次發(fā)布,，ChatGPT Pro 用戶可無(wú)限制訪問(wèn) o3-mini；Plus 和 Team 用戶每日消息限制從 o1-mini 的50條提升至150條,；免費(fèi)用戶也可通過(guò)選擇“Reason”模式或重新生成回復(fù)來(lái)體驗(yàn)新模型（具體消息限制未說(shuō)明）,。所有付費(fèi)用戶還可在模型選擇器中選擇 “o3-mini-high”，以獲得需要更長(zhǎng)時(shí)間響應(yīng)的更高智能版本,。

　　此前曾被社區(qū)貼臉對(duì)比DeepSeek有而 OpenAI 沒(méi)有的深度思考 + 聯(lián)網(wǎng)功能,，這次也高亮加入：所有用戶均可選擇 “Search + Reason” 組合，利用搜索功能查找?guī)в邢嚓P(guān)網(wǎng)絡(luò)資源鏈接的最新答案,。

　　來(lái)到開(kāi)發(fā)者這邊,。即日起，API 使用等級(jí) 3-5 的開(kāi)發(fā)者可在Chat Completions API,、Assistants API 和 Batch API 中調(diào)用o3-mini,。OpenAI稱它是自己首款支持函數(shù)調(diào)用、結(jié)構(gòu)化輸出和開(kāi)發(fā)者消息的小型推理模型,，可直接用于生產(chǎn)環(huán)境,。

　　變快變便宜，但仍不如DeepSeek實(shí)惠

　　速度與效率方面,，o3-mini 相較于o1具備更快的響應(yīng)速度和更高的計(jì)算效率,。測(cè)試結(jié)果顯示，o3-mini推理速度比o1-mini快24%,，將平均響應(yīng)時(shí)間從10.16秒縮短至7.7秒,。此外，o3-mini 的首個(gè)token生成時(shí)間也比o1-mini快2500毫秒,，為用戶提供更加流暢的交互體驗(yàn),。

　　而面對(duì)“模型界拼多多”DeepSeek,，OpenAI也不得不加入了價(jià)格戰(zhàn)。官方表示,，自 GPT-4 推出以來(lái),，OpenAI 已將每 token 價(jià)格下調(diào) 95%。

　　最新的定價(jià)方案中,，o3-mini輸入每百萬(wàn)tokens收費(fèi)$1.10,，輸出每百萬(wàn)tokens收費(fèi)$4.40，在使用緩存輸入的情況下,，費(fèi)用可以減半至每百萬(wàn)tokens $0.55,。

　　這個(gè)價(jià)格相比之前有了顯著下降，比o1-mini低63%,，比完整版o1更是降低了93%,。然而即便如此，與DeepSeek R1輸入和輸出費(fèi)用分別為每百萬(wàn)tokens $0.14和$0.55相比,，仍然明顯偏高,。

　　性能超o1，采用“審慎對(duì)齊”技術(shù)

　　OpenAI在官方博客中展示了o3-mini在多個(gè)領(lǐng)域相比o1和o1-mini的性能提升,。

　　數(shù)學(xué)推理方面,，o3-mini于AIME 2024數(shù)學(xué)競(jìng)賽中表現(xiàn)優(yōu)異。使用高推理強(qiáng)度時(shí),，其準(zhǔn)確率達(dá)到87.3%,，全面超越o1。即便在低推理強(qiáng)度模式下,，其表現(xiàn)也能與o1-mini比肩,。

　　在科學(xué)領(lǐng)域評(píng)測(cè)中，o3-mini的高推理強(qiáng)度模式在PhD級(jí)科學(xué)問(wèn)題（GPQA Diamond）上達(dá)到79.7%的準(zhǔn)確率,，顯著優(yōu)于前代模型,。在生物、化學(xué)和物理等高難度學(xué)科問(wèn)題上,，其高推理強(qiáng)度模式的表現(xiàn)與o1相當(dāng),。

　　編程能力方面，o3-mini這次展現(xiàn)出了肉眼可見(jiàn)的顯著優(yōu)勢(shì),。在Codeforces編程競(jìng)賽中,，其高推理強(qiáng)度模式獲得2130的Elo評(píng)分，遠(yuǎn)超前代模型,，即使最低推理強(qiáng)度也與o1持平,。在SWEbench-verified軟件工程測(cè)試中，高推理強(qiáng)度模式達(dá)到49.3%的準(zhǔn)確率,。在LiveBench編程任務(wù)中,，中等推理強(qiáng)度已超越o1-high,，高推理強(qiáng)度模式則更是大幅領(lǐng)先。

　　在一般知識(shí)評(píng)估中,，o3-mini全面超越o1-mini,。同時(shí)，人類(lèi)偏好測(cè)試顯示,，56% 的專(zhuān)家更傾向于選擇 o3-mini 的回答,，認(rèn)為其更準(zhǔn)確且邏輯性更強(qiáng)。此外,，o3-mini 在處理現(xiàn)實(shí)世界高難度問(wèn)題時(shí)，主要錯(cuò)誤率下降了 39%,，凸顯了其在復(fù)雜任務(wù)中的可靠性,。

　　安全性方面，OpenAI表示在o3-mini的安全性工作上取得了重要進(jìn)展,。最顯著的是采用了他們開(kāi)發(fā)的審慎對(duì)齊”（deliberative alignment）技術(shù),，讓o3-mini能在回答用戶問(wèn)題前，主動(dòng)對(duì)安全規(guī)范進(jìn)行推理思考,。這種方法使其在應(yīng)對(duì)各種安全挑戰(zhàn)和越獄測(cè)試時(shí)的表現(xiàn)明顯優(yōu)于GPT-4o,。

　　為確保安全性，o3-mini采用了與o1同樣嚴(yán)格的流程,，包括準(zhǔn)備度評(píng)估,、外部紅隊(duì)測(cè)試等多個(gè)環(huán)節(jié)。評(píng)估結(jié)果顯示,，o3-mini 的總體風(fēng)險(xiǎn)等級(jí)被評(píng)為 “中等”,，其中在說(shuō)服力、危險(xiǎn)物質(zhì),、模型自主性等方面風(fēng)險(xiǎn)為中等,，而在網(wǎng)絡(luò)安全領(lǐng)域的風(fēng)險(xiǎn)則為低。通過(guò)強(qiáng)化 “思維鏈”推理能力,，o3-mini 在處理潛在風(fēng)險(xiǎn)場(chǎng)景（如非法建議和偏見(jiàn)回應(yīng)）時(shí)達(dá)到了目前的最高安全水平,。

　　值得注意的是，隨著模型能力的不斷提升,，OpenAI也意識(shí)到了潛在風(fēng)險(xiǎn)的增加,。為此他們建立了完善的安全評(píng)估和防護(hù)體系，確保只有經(jīng)過(guò)安全處理且風(fēng)險(xiǎn)達(dá)到中等或更低的模型才會(huì)被部署,。

　　奧特曼領(lǐng)銜,，OpenAI團(tuán)隊(duì)上陣Reddit開(kāi)版答疑

　　o3-mini發(fā)布后，OpenAI CEO Sam Altman帶領(lǐng)首席研究員Mark Chen,、首席產(chǎn)品官Kevin Weil,、工程副總裁Srinivas Narayanan,、API 研究主管Michelle Pokrass，和o3-mini團(tuán)隊(duì)研究主管Hongyu Ren,，上陣Reddit和網(wǎng)友們來(lái)了場(chǎng)互動(dòng)Q&A,。

　　下面是幾個(gè)點(diǎn)贊排名靠前的問(wèn)題：

　　問(wèn)題1：我們能看到所有的思維tokens嗎？

　　回答（Sam Altman）：是的,，我們將很快展示一個(gè)更有幫助和詳細(xì)的版本,。感謝r1提醒我們。

　　問(wèn)題2：你們會(huì)考慮發(fā)布一些模型權(quán)重和發(fā)表一些研究嗎,？

　　回答（Sam Altman）：這個(gè)還在討論中,。我個(gè)人認(rèn)為在這個(gè)問(wèn)題上我們站在了歷史的錯(cuò)誤一方，需要找出一個(gè)不同的開(kāi)源策略,。不過(guò)不是所有OpenAI的人都同意這個(gè)觀點(diǎn),，而且目前這也不是我們最高優(yōu)先級(jí)。

　　問(wèn)題3：完整版o3什么時(shí)候發(fā)布,？

　　回答（Sam Altman）：我估計(jì)超過(guò)幾周,，少于幾個(gè)月。

　　問(wèn)題4：語(yǔ)音模式會(huì)更新嗎,？這是GPT-5o的一個(gè)重點(diǎn)嗎,？GPT-5o的大致時(shí)間表是什么？

　　回答（Sam Altman）：語(yǔ)音模式更新即將到來(lái),！我想我們會(huì)直接叫它GPT-5而不是GPT-5o,。目前還沒(méi)有時(shí)間表。

　　問(wèn)題5：你們會(huì)推出基于4o的圖像生成器嗎,？

　　回答（Kevin Weil）：是的,！我們正在開(kāi)發(fā)。而且我認(rèn)為這值得等待,。

　　問(wèn)題6：你們計(jì)劃在未來(lái)推理模型中會(huì)添加文件附件功能嗎,？

　　回答（Srinivas Narayanan）：正在開(kāi)發(fā)中。推理模型未來(lái)將能夠使用包括檢索在內(nèi)的不同工具,。

　　補(bǔ)充回答（Kevin Weil）：我只想說(shuō),，我迫不及待想看到帶工具使用的推理模型了：）

　　問(wèn)題7：Stargate的成功對(duì)OpenAI的未來(lái)有多重要？

　　回答（Kevin Weil）：非常重要,。我們看到的一切都表明,，計(jì)算能力越多，我們就能建立更好的模型,，并制造更有價(jià)值的產(chǎn)品,。我們現(xiàn)在同時(shí)在兩個(gè)維度上擴(kuò)展模型——更大的預(yù)訓(xùn)練和更多的強(qiáng)化學(xué)習(xí)/strawberry訓(xùn)練，這兩者都需要計(jì)算資源,。為數(shù)億用戶提供服務(wù),，并且隨著我們轉(zhuǎn)向更多為您持續(xù)工作的智能產(chǎn)品,，這些也都需要計(jì)算資源。因此可以將Stargate視為我們的工廠,，將算力/GPU轉(zhuǎn)化為令人驚嘆的產(chǎn)品,。

　　目前，大部分評(píng)論區(qū)群眾表示喜聞樂(lè)見(jiàn),，“打起來(lái)了,，愛(ài)看，多發(fā),！”

　　編程軟件Cursor算是手快的,，最新兩條推文相繼宣布DeepSeek模型和o3-mini都已經(jīng)整合進(jìn)來(lái)，但對(duì)平臺(tái)的開(kāi)發(fā)人員們?nèi)匀蛔類(lèi)?ài)Claude Sonnet“表示很驚訝”,。

　　當(dāng)然也有人表示,，既然DeepSeek已經(jīng)免費(fèi)提供這些尖端AI技術(shù)了，為什么要花錢(qián)升級(jí)GPT呢,？

　　就像Lex Fridman說(shuō)的，“OpenAI o3-mini是一個(gè)很好的模型,，但DeepSeek R1的性能相似還更便宜,，并且展示推理過(guò)程（目前大家反映o3-mini并沒(méi)像奧特曼說(shuō)的那樣看到思維鏈顯示）。

　　盡管更好的模型將會(huì)出現(xiàn)（迫不及待地想看 o3pro）,，但'DeepSeek 時(shí)刻’是真實(shí)存在的,。我認(rèn)為 5 年后它仍將作為科技史上的關(guān)鍵事件被人們銘記?！?/p>

責(zé)任編輯：韋子蓉

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： wupin > 《待分類(lèi)》

舉報(bào)/認(rèn)領(lǐng)