受DeepSeek影響,？OpenAI上線O3 Mini,，推理模型首次免費(fèi)

wupin 2025-02-01

展開全文

本文作者：何浩

來源：硬AI

當(dāng)?shù)貢r間1月31日周五，OpenAI正式推出了全新推理模型o3-mini,，并首次向免費(fèi)用戶開放推理模型。這是OpenAI推理系列中最新,、成本效益最高的模型,，OpenAI稱該模型能夠進(jìn)行類似人類的推理，現(xiàn)在已經(jīng)在ChatGPT和API中上線,。隨著DeepSeek發(fā)布開源模型震撼全球,，OpenAI的這款新品備受關(guān)注。

o3-mini能夠以更低的成本、更快的響應(yīng)速度,，為用戶提供STEM能力,，在科學(xué)、數(shù)學(xué)和編程領(lǐng)域表現(xiàn)尤為出色,，同時延續(xù)了o1-mini等之前版本的低成本和低延遲特點,。值得一提的是，開發(fā)者可以根據(jù)需求在低,、中,、高三種不同的“推理努力”選項中進(jìn)行選擇。

OpenAI表示,，雖然OpenAI o1仍然是用于一般知識推理的廣泛模型,，但OpenAI o3-mini為那些需要精確性和快速響應(yīng)的技術(shù)領(lǐng)域提供了一個專門的替代方案。o3-mini采用中等推理努力,，在速度與準(zhǔn)確性之間實現(xiàn)了平衡,。

支持更多開發(fā)者功能

o3-mini是第一個支持開發(fā)者常用功能的小型推理模型，包括：

函數(shù)調(diào)用：可以直接調(diào)用預(yù)設(shè)函數(shù),，實現(xiàn)更高效的任務(wù)處理,。

結(jié)構(gòu)化輸出：讓模型輸出的信息更規(guī)整，便于解析和應(yīng)用,。

開發(fā)者消息：為開發(fā)者提供更多調(diào)試和信息反饋手段,。

與之前的o1-mini一樣，最新的o3-mini同樣支持流式輸出,。

OpenAI介紹稱,，o3-mini支持開發(fā)者調(diào)整“AI推理努力程度”，分為低,、中,、高三個級別。這種靈活性使得o3-mini可以在面對難題時“更努力思考”,，而需要效率時優(yōu)先考慮回應(yīng)速度,。

o3-mini不支持視覺能力，因此對于需要進(jìn)行圖像處理或視覺推理任務(wù)的用戶,，仍需使用OpenAI的o1模型,。

廣泛的接入方式

對于不同類型用戶，o3-mini可以通過多個渠道接入：

API用戶：在Chat Completions,、Assistants和Batch API中,，o3-mini已經(jīng)向部分API用戶開放（適用于使用層級3-5的用戶）。
ChatGPT用戶：ChatGPT Plus,、Team和Pro用戶從周五開始即可使用,，企業(yè)用戶則將在一周后獲得訪問權(quán)限。
免費(fèi)用戶：免費(fèi)用戶也能通過選擇“推理模式”或重新生成回答的方式體驗o3-mini。這是首次免費(fèi)用戶可以使用具備推理能力的模型,。

OpenAI表示,，o3-mini將取代模型選擇器中的OpenAI o1-mini。所有付費(fèi)用戶可以在模型選擇器中選擇o3-mini-high——一個智力更強(qiáng),、但生成響應(yīng)速度略慢的版本,。

Pro用戶可無限制地使用o3-mini和o3-mini-high。OpenAI將Plus和Team用戶的日消息限額從o1-mini的50條提高到o3-mini的150條,。

此外,，o3-mini現(xiàn)已支持搜索功能，能夠查找最新答案并提供相關(guān)網(wǎng)頁鏈接,。這是一個早期原型,，OpenAI稱正在努力將搜索功能整合到所有推理模型中。

模型性能亮點

據(jù)OpenAI披露,，在2024年美國數(shù)學(xué)邀請賽（AIME 2024）的測試中,，低推理努力的o3-mini準(zhǔn)確率為60%，與o1-mini差不多,，但速度更快,；而在中等努力下，o3-mini的準(zhǔn)確率能夠提升到79.6%,，與o1模型相當(dāng),；在最高努力水平時，o3-mini的準(zhǔn)確率則能進(jìn)一步提升至87.3%,。

在博士級科學(xué)問題（GPQA Diamond）方面,，三種努力程度模型的準(zhǔn)確率分別為70.6%、76.8%和79.7%,。

FrontierMath前沿數(shù)學(xué)與Codeforces等編程競賽方面,，o3-mini也顯示出明顯優(yōu)勢，甚至在某些評測中遠(yuǎn)超前代模型,。

在SWE-bench Verified軟件工程任務(wù)測試中,，o3-mini高推理版本的準(zhǔn)確率達(dá)到了超過49%，優(yōu)于舊版本,。

通用知識方面,，在各種知識評測中，o3-mini的表現(xiàn)也超過了o1-mini,，能夠為用戶提供更準(zhǔn)確的答案,。

在智能水平與o1相當(dāng)?shù)那疤嵯拢琽3-mini提供了更快的性能和更高的效率,。除了上述提及的STEM評估之外,，采用中等推理努力的情況下，o3-mini在數(shù)學(xué)和事實性評估中也展現(xiàn)出更出色的表現(xiàn),。在A/B測試中,，o3-mini的響應(yīng)速度比o1-mini快24%，其平均響應(yīng)時間為7.7秒,，而o1-mini為10.16秒,。延遲方面，o3-mini的首個token平均比o1-mini快2500毫秒,。

安全性與風(fēng)險防控

OpenAI表示,，o3-mini采用了“深思熟慮的對齊”方法，即在回答用戶問題之前,，讓模型先思考人類制定的安全規(guī)則,。與o1模型類似，o3-mini在應(yīng)對復(fù)雜安全挑戰(zhàn)和防止繞過安全措施（jailbreak）上,，比GPT-4o表現(xiàn)得更出色,。

在發(fā)布前，OpenAI采用了全面的安全準(zhǔn)備,、外部紅隊測試和多種安全評估方法,，對o3-mini的風(fēng)險進(jìn)行了嚴(yán)格評估。相關(guān)的詳細(xì)評估結(jié)果和風(fēng)險防控措施,，均記錄在o3-mini的系統(tǒng)卡中,。

未來展望

OpenAI公司表示，o3-mini的發(fā)布標(biāo)志著OpenAI在推動低成本智能邊界方面又邁出了一步,。通過為STEM領(lǐng)域優(yōu)化推理能力,，同時保持低成本，使高質(zhì)量的人工智能變得更加普及,。OpenAI指出,，該模型延續(xù)了不斷降低智能成本的傳統(tǒng)——自推出GPT-4以來，每個token的定價降低了95%——同時依然保持頂級的推理能力,。

OpenAI表示,，隨著人工智能的廣泛應(yīng)用，將繼續(xù)走在前沿,，構(gòu)建在智能,、效率和安全性上取得平衡的大規(guī)模模型。

o3-mini發(fā)布前夕

o3-mini的發(fā)布背景頗為引人注目,。

在此前OpenAI宣布Operator AI代理之后僅一天,，特朗普政府就公布了大規(guī)模的“星際之門”AI資助項目。

隨后,，DeepSeek R1的崛起震驚全球,，對市場造成沖擊,，AI領(lǐng)域競爭加劇，OpenAI加快了o3-mini發(fā)布進(jìn)程,，以維持其在AI領(lǐng)域的領(lǐng)先地位,。在o3-mini正式發(fā)布前就有消息稱，OpenAI準(zhǔn)備本周五發(fā)布新一代推理模型ChatGPT o3-mini,，該模型是o3系列的精簡版本,，專為特定任務(wù)優(yōu)化，速度更快且更具成本效益,。

OpenAI CEO Sam Altman于1月17日在社交平臺X上表示,，ChatGPT o3-mini的最終版本已經(jīng)完成，正在進(jìn)入發(fā)布流程,。當(dāng)時他預(yù)計新版本將在"大約幾周后"推出,。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： wupin > 《待分類》

舉報/認(rèn)領(lǐng)