DeepSeek獨立發(fā)現(xiàn)o1核心思路,，OpenAI首席研究官親自證實,！奧特曼被迫發(fā)聲

深圳東方紅 2025-01-31

展開全文

聲明：本文來自于微信公眾號“新智元”，編輯:桃子好困,，授權(quán)站長之家轉(zhuǎn)載發(fā)布,。

DeeSeek掀起的滔天巨浪，讓全世界為之震顫,。

短短幾天,，從R1復(fù)現(xiàn)狂潮,，到登頂美榜APP Store，再到科技股集體重挫,，這股東方神秘力量威力盡顯,。

R1在Hugging Face中的like，從今年1月起直線飆升,。

就連奧特曼本人也不得不打破沉默,，公開承認(rèn)DeepSeek的實力，并劇透了未來會有更多模型的發(fā)布:

DeepSeek R1是一款令人印象深刻的模型,，特別是考慮到他們在這個價格范圍內(nèi)能夠提供的能力,。
我們顯然會推出更好的模型，而且有一個新的競爭對手確實令人振奮!我們會加快一些版本的發(fā)布,，但主要還是專注于推進(jìn)OpenAI研究路線圖,。我們堅信，現(xiàn)在比以往任何時候都更需要更多的算力來實現(xiàn)我們的使命,。
未來,，世界將會需要大量的 AI，并對下一代模型感到驚嘆,。期待為大家?guī)?AGI 和更超前的技術(shù),。

與此同時，OpenAI首席研究官Mark Chen也承認(rèn)道,，DeepSeek的確獨立發(fā)現(xiàn)了一些o1的核心idea,。

但對于外界的各種分析，他顯然是不認(rèn)可的,。

Mark Chen表示,，現(xiàn)代AI系統(tǒng)采用了「預(yù)訓(xùn)練」和「推理」兩大范式，提供了更靈活的優(yōu)化空間,。

在降低成本的同時,，提升模型性能，未來OpenAI可以在這兩個維度上持續(xù)發(fā)力,。

而且,，隨著蒸餾技術(shù)日趨成熟，他們還發(fā)現(xiàn)成本控制和性能提升已經(jīng)不再互相依賴,。

換言之,，OpenAI能以更低成本提供服務(wù)，也不代表就要犧牲模型的能力,。

OpenAI研究科學(xué)家,、德?lián)渲窷oam Brow同樣站出來表示，「算法突破和Scaling是互補的，而不是相互競爭的,。前者使性能與計算量的曲線發(fā)生彎曲，而后者則是在曲線上進(jìn)一步前進(jìn)」,。

作為「對沖」,，OpenAI今天特意冒泡，發(fā)布了一個專為美國政府打造的ChatGPT Gov,。

中國AI撼動硅谷帝國

這場始于一篇22頁學(xué)術(shù)論文的風(fēng)暴,，讓一個約200人的團(tuán)隊，用一個模型摧毀華爾街,，改變了整個硅谷對AI的看法,。

恐怕連DeepSeek自己也沒有想到，這將成為改寫AI競爭格局的一記重拳,。

論文地址:https:///pdf/2501.12948

DeepSeek R1論文發(fā)布之初,，并未引起所有人的警覺。隨著研究者逐漸消化論文內(nèi)容,，一個令人震驚的事實浮出水面:

R1竟以遠(yuǎn)低于科技巨頭的成本,，達(dá)到了可與頂級AI模型較量的水平。

更令人瞠目的是,，這一突破并非依賴昂貴的算力堆砌,，而是通過精妙的工程設(shè)計實現(xiàn)的。

當(dāng)許多專家認(rèn)為中國AI在競賽中望塵莫及之時,，R1的出現(xiàn)無異于平地驚雷,。

紐約時報作者Kevin Roose就此發(fā)表了自己觀點——R1似乎正在動搖美國科技產(chǎn)業(yè)的三個主要的假設(shè)。

平民算力,，也能顛覆游戲規(guī)則

首先,，第一個假設(shè)是，要構(gòu)建頂尖AI模型,，需要在強大的芯片和數(shù)據(jù)中心上投入巨額資金,。

不得不說，這一點早已成為世界公認(rèn)的模型Scaling Law必備要素,。

從微軟,、Meta、谷歌,，到xAI等硅谷巨頭們已經(jīng)斥資數(shù)百億美金,，專為開發(fā)和運行下一代AI打造專用的基礎(chǔ)設(shè)施。

在他們看來,，這些投入遠(yuǎn)遠(yuǎn)不夠,。

上周，特朗普曾官宣了「星際之門」項目，計劃4年內(nèi)砸5000億美金,，在全美建造20座超算,。

要知道，DeepSeek似乎只花費了這個數(shù)額的一小部分就打造了R1,。

雖R1具體訓(xùn)練金額未知,，業(yè)界從V3550萬美元推測，預(yù)計其成本要高于這一金額,。

即便是R1訓(xùn)練成本是DeepSeek聲稱的10倍,，考慮到其他成本，如工程師薪資或基礎(chǔ)研究成本,，這個數(shù)字仍然比美國人工智能公司開發(fā)其最強大模型的支出要低幾個數(shù)量級,。

「大」即是好，也不存在了!

其次,，DeepSeek在成本上的突破,，打破了近年來AI競賽中「越大越好」的觀點。

R1恰恰用實踐證明了,，經(jīng)過精細(xì)的訓(xùn)練,，相對較小的模型也可以媲美，甚至超越更大的模型,。

反過來,，這意味著，AI公司或許能以遠(yuǎn)低于此前預(yù)期的投資,，就能實現(xiàn)非常強大的功能,。

在研究論文中，揭示了一些關(guān)于R1實際構(gòu)建方式的細(xì)節(jié),，包括「模型蒸餾」方面的一些前沿技術(shù),。

從這點可以看出，將大型AI模型壓縮成更小的模型,，不僅運行成本更低,，同時不會損失太多性能。

此外,，論文還有一些細(xì)節(jié)表明,，將「普通」的AI語言模型轉(zhuǎn)換為更復(fù)雜的推理模型，只需要在其基礎(chǔ)上應(yīng)用RL算法,，即可實現(xiàn),。

中國AI落后迷思，正被打破

第三,，DeepSeek逆襲成功,，也動搖了許多專家對中國在AI競賽中處于落后地位的觀點。

事實證明，美國的技術(shù)優(yōu)勢,，可能并不如想象中的牢固,。

多年來，許多AI專家一直認(rèn)為美國至少領(lǐng)先世界幾年,，而且中國公司要快速復(fù)制美國的進(jìn)展是極其困難的,。

截止目前，已有超500個DeepSeek衍生模型登陸HF

但DeepSeek的結(jié)果表明,，中國擁有可以匹配或超越OpenAI，以及其他美國人工智能公司模型的先進(jìn)人工智能能力,。

這場AI巨震帶來的不僅是技術(shù)突破,，更是對全球AI格局的深刻洗牌。

該緊張的,，是OpenAI們

當(dāng)整個市場還在為AI訓(xùn)練成本驟降而恐慌時,，一些業(yè)內(nèi)資深玩家卻看到了不一樣的未來。

硅谷眾多業(yè)內(nèi)人士認(rèn)為,，市場對DeepSeek最新模型的大規(guī)模拋售反應(yīng)過度,。

他們認(rèn)為，該模型通過顯著降低AI成本,，將推動AI的更廣泛應(yīng)用和價值實現(xiàn),，從而持續(xù)維持市場對英偉達(dá)芯片的需求。

近期,，前英特爾首席執(zhí)行官Pat Gelsinger用實際行動給出了答案,，在周一買入了英偉達(dá)的股票。

他在LinkedIn上發(fā)文表示,，「市場的反應(yīng)是錯誤的,，降低AI成本將帶來市場規(guī)模的擴(kuò)張。DeepSeek是一項卓越的工程成就,，將引領(lǐng)AI邁向更廣泛的商業(yè)應(yīng)用」,。

英偉達(dá)也在周一表示，DeepSeek的創(chuàng)新將促進(jìn)其業(yè)務(wù)的發(fā)展,。

DeepSeek是一項杰出的AI技術(shù)進(jìn)展,，也是「測試時Scaling」的完美范例。這種推理運算需要大量英偉達(dá)GPU和高性能網(wǎng)絡(luò)基礎(chǔ)設(shè)施的支持,。

業(yè)內(nèi)專家TechInsights的G Dan Hutcheson分析更是令人深思,。

在他看來，DeepSeek技術(shù)突破對英偉達(dá)的影響有限,，真正應(yīng)該擔(dān)心的是OpenAI這樣提供類似服務(wù)的公司,。

而網(wǎng)友們在Mark Chen推文下面分享的真實體驗，正是這一分析的驗證。

圖解DeepSeek-R1

對于機器學(xué)習(xí)研發(fā)社區(qū)而言,，DeepSeek-R1是尤為重要的一個里程碑:

它是一個開放權(quán)重模型,，并提供了多個經(jīng)過知識蒸餾的輕量級版本
它不僅分享了訓(xùn)練方法，還深入探討了如何復(fù)制類似OpenAI o1這樣的推理模型的實現(xiàn)過程

在最近的一篇博客中,，就職于AI初創(chuàng)Chere的機器學(xué)習(xí)研究工程師Jay Alammar,，便通過圖解DeepSeek-R1的方式，分析了如何打造具有推理能力的大語言模型,。

模型訓(xùn)練第一步的細(xì)節(jié)來自之前的DeepSeek-V3論文,。

R1使用該論文中的基礎(chǔ)模型，并仍然經(jīng)過監(jiān)督微調(diào)（SFT）和偏好微調(diào)步驟,，但其執(zhí)行方式有所不同,。

1. 長鏈推理的監(jiān)督微調(diào)數(shù)據(jù)

這一過程包含了60萬個長思維鏈推理示例。

然而,，想要獲取如此規(guī)模,，并且還是人工標(biāo)注的這類數(shù)據(jù)，既困難又昂貴,。這就是為什么創(chuàng)建這些數(shù)據(jù)的過程成為第二個重要特點,。

2. 一個臨時的高質(zhì)量推理大語言模型（但在非推理任務(wù)上表現(xiàn)較差）

這些數(shù)據(jù)是由R1的前身——一個專注于推理的相關(guān)模型創(chuàng)建的。

其靈感來自于另一款被稱為R1-Zero的模型,。它的重要性不在于它是一個出色的通用大語言模型,，而在于它僅需少量標(biāo)注數(shù)據(jù)，通過大規(guī)模RL就能在解決推理問題方面表現(xiàn)優(yōu)異,。

這個專業(yè)推理模型的輸出隨后被用于訓(xùn)練一個更全面的模型,，使其能夠勝任其他非推理任務(wù)，達(dá)到用戶對大語言模型的預(yù)期水平,。

3. 使用大規(guī)模強化學(xué)習(xí)創(chuàng)建推理模型

3.1大規(guī)模面向推理的強化學(xué)習(xí)（R1-Zero）

在這里,，RL被用于創(chuàng)建臨時推理模型，該模型隨后用于生成監(jiān)督微調(diào)的推理示例,。

而使這一切成為可能的關(guān)鍵在于,，此前創(chuàng)建的DeepSeek-R1-Zero模型的實驗。

R1-Zero的獨特之處在于,，它無需標(biāo)注的監(jiān)督微調(diào)訓(xùn)練集就能在推理任務(wù)上表現(xiàn)優(yōu)異,，甚至可以與o1相媲美。

它的訓(xùn)練直接從預(yù)訓(xùn)練基礎(chǔ)模型通過RL過程進(jìn)行（無需監(jiān)督微調(diào)步驟）,。

一直以來,，數(shù)據(jù)始終是決定機器學(xué)習(xí)模型能力的關(guān)鍵要素。那么這個模型是如何打破這一定律的?這涉及兩個關(guān)鍵因素:

（1）現(xiàn)代基礎(chǔ)模型已經(jīng)達(dá)到了質(zhì)量和能力的新高度(該基礎(chǔ)模型在14.8萬億高質(zhì)量token上進(jìn)行訓(xùn)練),。

（2）與普通的聊天或?qū)懽魅蝿?wù)相比,，推理問題可以通過自動化方式進(jìn)行驗證和標(biāo)注,。

讓我們通過一個例子來說明。以下是RL訓(xùn)練步驟中的一個典型提示詞:

編寫Python代碼,，接受一個數(shù)字列表,，返回排序后的列表，并在開頭添加數(shù)字42,。

當(dāng)正在訓(xùn)練中的模型收到這個問題并生成答案后,，有很多種方式都可以實現(xiàn)自動驗證:

用代碼檢查工具驗證生成內(nèi)容是否為合法的Python代碼
直接運行Python代碼檢驗其執(zhí)行情況
用其他現(xiàn)代編程大語言模型生成單元測試來驗證代碼行為（它們本身無需具備推理能力）
進(jìn)一步測量代碼執(zhí)行時間，引導(dǎo)訓(xùn)練過程優(yōu)先選擇性能更優(yōu)的解決方案,，而不僅僅是能夠解決問題的正確程序

通過這種方式,，我們可以在訓(xùn)練過程中向模型提供類似問題，并獲得多種可能的解決方案,。

通過自動檢查（無需人為干預(yù)）,，我們可以發(fā)現(xiàn):

第一個完成結(jié)果甚至不是代碼;
第二個確實是Python代碼，但并未解決問題;
第三個是一個可能的解決方案,，但未能通過單元測試;
第四個才是正確的解決方案。

這些信號都可以直接用來改進(jìn)模型,。當(dāng)然,，這種改進(jìn)是通過大量示例（在mini-batch中）和連續(xù)的訓(xùn)練步驟來完成的。

這些獎勵信號和模型更新正是模型在RL訓(xùn)練過程中持續(xù)改進(jìn)任務(wù)表現(xiàn)的方式,，正如論文圖2所示,。

與這種能力的提升相對應(yīng)的是,，生成響應(yīng)的長度變化——模型會生成更多的思考token來處理問題。

這個過程確實很有用,，但R1-Zero卻面臨著其他影響其實用性的問題,。

雖然DeepSeek-R1-Zero展現(xiàn)出強大的推理能力，并能自主形成令人驚喜的高效推理模式,，但它仍然面臨著一些挑戰(zhàn),。比如，DeepSeek-R1-Zero在可讀性和語言混合等方面存在明顯的不足,。

R1的目標(biāo)是成為一個更實用的模型,。因此，它并非完全依賴RL過程,，而是在我們前文提到的兩個方面加以運用:

（1）創(chuàng)建中間推理模型以生成SFT數(shù)據(jù)點

（2）訓(xùn)練R1模型以提升推理和非推理問題的處理能力(使用其他類型的驗證器)

3.2使用中間推理模型創(chuàng)建SFT推理數(shù)據(jù)

為了提升中間推理模型的實用性,，需要對其進(jìn)行監(jiān)督式微調(diào)（SFT）訓(xùn)練，訓(xùn)練數(shù)據(jù)包含數(shù)千個推理問題示例(部分來自R1-Zero的生成和篩選),。論文將這些稱為「冷啟動數(shù)據(jù)」,。

與DeepSeek-R1-Zero不同,，DeepSeek-R1為了避免基礎(chǔ)模型在RL訓(xùn)練初期出現(xiàn)不穩(wěn)定的冷啟動現(xiàn)象，我們構(gòu)建并收集了少量思維鏈（CoT）數(shù)據(jù)來微調(diào)模型,，將其作為初始RL代理,。在數(shù)據(jù)收集過程中，我們探索了多種方法:采用長思維鏈作為示例進(jìn)行少樣本提示學(xué)習(xí),，直接通過提示詞引導(dǎo)模型生成包含反思和驗證的詳細(xì)答案,，以可讀格式采集DeepSeek-R1-Zero的輸出，并通過人工標(biāo)注進(jìn)行后期優(yōu)化,。

然而,，既然我們已經(jīng)擁有這些數(shù)據(jù)，為什么還需要依賴RL過程呢?

這主要是數(shù)據(jù)規(guī)模的限制?，F(xiàn)有數(shù)據(jù)集可能只有5,，000個示例，但訓(xùn)練R1則需要600,，000個示例,。

而中間模型正是彌合了這一數(shù)量鴻溝，使得生成如此大規(guī)模的高質(zhì)量數(shù)據(jù)成為可能,。

3.3通用RL訓(xùn)練階段

這使得R1不僅在推理任務(wù)上表現(xiàn)卓越,，在非推理任務(wù)上同樣可以取得優(yōu)異成績。

這一過程與前面提到的RL過程相似,。但由于它延伸到非推理應(yīng)用領(lǐng)域,，因此針對這類應(yīng)用的提示詞，采用了有效性和安全性獎勵模型（與Llama類似）,。

4. 架構(gòu)

與GPT-2和GPT-3奠基時期的模型一樣,，DeepSeek-R1是由Transformer decoder塊堆疊構(gòu)成的。

它總共包含61個decoder塊,，其中前三個是全連接層（dense layer）,，其余則是專家混合(Mixture-of-Experts，簡稱MoE)層,。

關(guān)于模型維度大小和其他超參數(shù)的配置如下:

參考資料:

https://www./content/ee83c24c-9099-42a4-85c9-165e7af35105

https://www./2025/01/28/technology/china-deepseek-ai-silicon-valley.html?unlocked_article_code=1.sk4.hgB2.qjaBLLlA_jiL

https://newsletter./p/the-illustrated-deepseek-r1

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：深圳東方紅 > 《AI》

舉報/認(rèn)領(lǐng)