DeeSeek掀起的滔天巨浪,讓全世界為之震顫,。 短短幾天,,從R1復(fù)現(xiàn)狂潮,,到登頂美榜APP Store,再到科技股集體重挫,,這股東方神秘力量威力盡顯,。 R1在Hugging Face中的like,從今年1月起直線飆升,。 就連奧特曼本人也不得不打破沉默,,公開承認(rèn)DeepSeek的實力,并劇透了未來會有更多模型的發(fā)布:
與此同時,OpenAI首席研究官Mark Chen也承認(rèn)道,,DeepSeek的確獨立發(fā)現(xiàn)了一些o1的核心idea,。 但對于外界的各種分析,他顯然是不認(rèn)可的,。 Mark Chen表示,,現(xiàn)代AI系統(tǒng)采用了「預(yù)訓(xùn)練」和「推理」兩大范式,提供了更靈活的優(yōu)化空間,。 在降低成本的同時,,提升模型性能,未來OpenAI可以在這兩個維度上持續(xù)發(fā)力,。 而且,,隨著蒸餾技術(shù)日趨成熟,他們還發(fā)現(xiàn)成本控制和性能提升已經(jīng)不再互相依賴,。 換言之,,OpenAI能以更低成本提供服務(wù),也不代表就要犧牲模型的能力,。 OpenAI研究科學(xué)家,、德?lián)渲窷oam Brow同樣站出來表示,「算法突破和Scaling是互補的,而不是相互競爭的,。前者使性能與計算量的曲線發(fā)生彎曲,而后者則是在曲線上進(jìn)一步前進(jìn)」,。 作為「對沖」,,OpenAI今天特意冒泡,發(fā)布了一個專為美國政府打造的ChatGPT Gov,。 中國AI撼動硅谷帝國 這場始于一篇22頁學(xué)術(shù)論文的風(fēng)暴,,讓一個約200人的團(tuán)隊,用一個模型摧毀華爾街,,改變了整個硅谷對AI的看法,。 恐怕連DeepSeek自己也沒有想到,這將成為改寫AI競爭格局的一記重拳,。 論文地址:https:///pdf/2501.12948 DeepSeek R1論文發(fā)布之初,,并未引起所有人的警覺。隨著研究者逐漸消化論文內(nèi)容,,一個令人震驚的事實浮出水面:
更令人瞠目的是,,這一突破并非依賴昂貴的算力堆砌,,而是通過精妙的工程設(shè)計實現(xiàn)的。 當(dāng)許多專家認(rèn)為中國AI在競賽中望塵莫及之時,,R1的出現(xiàn)無異于平地驚雷,。 紐約時報作者Kevin Roose就此發(fā)表了自己觀點——R1似乎正在動搖美國科技產(chǎn)業(yè)的三個主要的假設(shè)。 平民算力,,也能顛覆游戲規(guī)則 首先,,第一個假設(shè)是,要構(gòu)建頂尖AI模型,,需要在強大的芯片和數(shù)據(jù)中心上投入巨額資金,。 不得不說,這一點早已成為世界公認(rèn)的模型Scaling Law必備要素,。 從微軟,、Meta、谷歌,,到xAI等硅谷巨頭們已經(jīng)斥資數(shù)百億美金,,專為開發(fā)和運行下一代AI打造專用的基礎(chǔ)設(shè)施。 在他們看來,,這些投入遠(yuǎn)遠(yuǎn)不夠,。 上周,特朗普曾官宣了「星際之門」項目,計劃4年內(nèi)砸5000億美金,,在全美建造20座超算,。 要知道,DeepSeek似乎只花費了這個數(shù)額的一小部分就打造了R1,。 雖R1具體訓(xùn)練金額未知,,業(yè)界從V3550萬美元推測,預(yù)計其成本要高于這一金額,。 即便是R1訓(xùn)練成本是DeepSeek聲稱的10倍,,考慮到其他成本,如工程師薪資或基礎(chǔ)研究成本,,這個數(shù)字仍然比美國人工智能公司開發(fā)其最強大模型的支出要低幾個數(shù)量級,。 「大」即是好,也不存在了! 其次,,DeepSeek在成本上的突破,,打破了近年來AI競賽中「越大越好」的觀點。 R1恰恰用實踐證明了,,經(jīng)過精細(xì)的訓(xùn)練,,相對較小的模型也可以媲美,甚至超越更大的模型,。 反過來,,這意味著,AI公司或許能以遠(yuǎn)低于此前預(yù)期的投資,,就能實現(xiàn)非常強大的功能,。 在研究論文中,揭示了一些關(guān)于R1實際構(gòu)建方式的細(xì)節(jié),,包括「模型蒸餾」方面的一些前沿技術(shù),。 從這點可以看出,將大型AI模型壓縮成更小的模型,,不僅運行成本更低,,同時不會損失太多性能。 此外,,論文還有一些細(xì)節(jié)表明,,將「普通」的AI語言模型轉(zhuǎn)換為更復(fù)雜的推理模型,只需要在其基礎(chǔ)上應(yīng)用RL算法,,即可實現(xiàn),。 中國AI落后迷思,正被打破 第三,,DeepSeek逆襲成功,,也動搖了許多專家對中國在AI競賽中處于落后地位的觀點。 事實證明,美國的技術(shù)優(yōu)勢,,可能并不如想象中的牢固,。 多年來,許多AI專家一直認(rèn)為美國至少領(lǐng)先世界幾年,,而且中國公司要快速復(fù)制美國的進(jìn)展是極其困難的,。 截止目前,已有超500個DeepSeek衍生模型登陸HF 但DeepSeek的結(jié)果表明,,中國擁有可以匹配或超越OpenAI,以及其他美國人工智能公司模型的先進(jìn)人工智能能力,。 這場AI巨震帶來的不僅是技術(shù)突破,,更是對全球AI格局的深刻洗牌。 該緊張的,,是OpenAI們 當(dāng)整個市場還在為AI訓(xùn)練成本驟降而恐慌時,,一些業(yè)內(nèi)資深玩家卻看到了不一樣的未來。 硅谷眾多業(yè)內(nèi)人士認(rèn)為,,市場對DeepSeek最新模型的大規(guī)模拋售反應(yīng)過度,。 他們認(rèn)為,該模型通過顯著降低AI成本,,將推動AI的更廣泛應(yīng)用和價值實現(xiàn),,從而持續(xù)維持市場對英偉達(dá)芯片的需求。 近期,,前英特爾首席執(zhí)行官Pat Gelsinger用實際行動給出了答案,,在周一買入了英偉達(dá)的股票。 他在LinkedIn上發(fā)文表示,,「市場的反應(yīng)是錯誤的,,降低AI成本將帶來市場規(guī)模的擴(kuò)張。DeepSeek是一項卓越的工程成就,,將引領(lǐng)AI邁向更廣泛的商業(yè)應(yīng)用」,。 英偉達(dá)也在周一表示,DeepSeek的創(chuàng)新將促進(jìn)其業(yè)務(wù)的發(fā)展,。
業(yè)內(nèi)專家TechInsights的G Dan Hutcheson分析更是令人深思,。 在他看來,DeepSeek技術(shù)突破對英偉達(dá)的影響有限,,真正應(yīng)該擔(dān)心的是OpenAI這樣提供類似服務(wù)的公司,。 而網(wǎng)友們在Mark Chen推文下面分享的真實體驗,正是這一分析的驗證。 圖解DeepSeek-R1 對于機器學(xué)習(xí)研發(fā)社區(qū)而言,,DeepSeek-R1是尤為重要的一個里程碑:
在最近的一篇博客中,,就職于AI初創(chuàng)Chere的機器學(xué)習(xí)研究工程師Jay Alammar,,便通過圖解DeepSeek-R1的方式,分析了如何打造具有推理能力的大語言模型,。 模型訓(xùn)練第一步的細(xì)節(jié)來自之前的DeepSeek-V3論文,。 R1使用該論文中的基礎(chǔ)模型,并仍然經(jīng)過監(jiān)督微調(diào)(SFT)和偏好微調(diào)步驟,,但其執(zhí)行方式有所不同,。 1. 長鏈推理的監(jiān)督微調(diào)數(shù)據(jù) 這一過程包含了60萬個長思維鏈推理示例。 然而,,想要獲取如此規(guī)模,,并且還是人工標(biāo)注的這類數(shù)據(jù),既困難又昂貴,。這就是為什么創(chuàng)建這些數(shù)據(jù)的過程成為第二個重要特點,。 2. 一個臨時的高質(zhì)量推理大語言模型(但在非推理任務(wù)上表現(xiàn)較差) 這些數(shù)據(jù)是由R1的前身——一個專注于推理的相關(guān)模型創(chuàng)建的。 其靈感來自于另一款被稱為R1-Zero的模型,。它的重要性不在于它是一個出色的通用大語言模型,,而在于它僅需少量標(biāo)注數(shù)據(jù),通過大規(guī)模RL就能在解決推理問題方面表現(xiàn)優(yōu)異,。 這個專業(yè)推理模型的輸出隨后被用于訓(xùn)練一個更全面的模型,,使其能夠勝任其他非推理任務(wù),達(dá)到用戶對大語言模型的預(yù)期水平,。 3. 使用大規(guī)模強化學(xué)習(xí)創(chuàng)建推理模型 3.1大規(guī)模面向推理的強化學(xué)習(xí)(R1-Zero) 在這里,,RL被用于創(chuàng)建臨時推理模型,該模型隨后用于生成監(jiān)督微調(diào)的推理示例,。 而使這一切成為可能的關(guān)鍵在于,,此前創(chuàng)建的DeepSeek-R1-Zero模型的實驗。 R1-Zero的獨特之處在于,,它無需標(biāo)注的監(jiān)督微調(diào)訓(xùn)練集就能在推理任務(wù)上表現(xiàn)優(yōu)異,,甚至可以與o1相媲美。 它的訓(xùn)練直接從預(yù)訓(xùn)練基礎(chǔ)模型通過RL過程進(jìn)行(無需監(jiān)督微調(diào)步驟),。 一直以來,,數(shù)據(jù)始終是決定機器學(xué)習(xí)模型能力的關(guān)鍵要素。那么這個模型是如何打破這一定律的?這涉及兩個關(guān)鍵因素: (1)現(xiàn)代基礎(chǔ)模型已經(jīng)達(dá)到了質(zhì)量和能力的新高度(該基礎(chǔ)模型在14.8萬億高質(zhì)量token上進(jìn)行訓(xùn)練),。 (2)與普通的聊天或?qū)懽魅蝿?wù)相比,,推理問題可以通過自動化方式進(jìn)行驗證和標(biāo)注,。 讓我們通過一個例子來說明。以下是RL訓(xùn)練步驟中的一個典型提示詞:
當(dāng)正在訓(xùn)練中的模型收到這個問題并生成答案后,,有很多種方式都可以實現(xiàn)自動驗證:
通過這種方式,,我們可以在訓(xùn)練過程中向模型提供類似問題,并獲得多種可能的解決方案,。 通過自動檢查(無需人為干預(yù)),,我們可以發(fā)現(xiàn):
這些信號都可以直接用來改進(jìn)模型,。當(dāng)然,,這種改進(jìn)是通過大量示例(在mini-batch中)和連續(xù)的訓(xùn)練步驟來完成的。 與這種能力的提升相對應(yīng)的是,,生成響應(yīng)的長度變化——模型會生成更多的思考token來處理問題。 這個過程確實很有用,,但R1-Zero卻面臨著其他影響其實用性的問題,。
R1的目標(biāo)是成為一個更實用的模型,。因此,它并非完全依賴RL過程,,而是在我們前文提到的兩個方面加以運用: (1)創(chuàng)建中間推理模型以生成SFT數(shù)據(jù)點 (2)訓(xùn)練R1模型以提升推理和非推理問題的處理能力(使用其他類型的驗證器) 3.2使用中間推理模型創(chuàng)建SFT推理數(shù)據(jù) 為了提升中間推理模型的實用性,,需要對其進(jìn)行監(jiān)督式微調(diào)(SFT)訓(xùn)練,訓(xùn)練數(shù)據(jù)包含數(shù)千個推理問題示例(部分來自R1-Zero的生成和篩選),。論文將這些稱為「冷啟動數(shù)據(jù)」,。
然而,,既然我們已經(jīng)擁有這些數(shù)據(jù),為什么還需要依賴RL過程呢? 這主要是數(shù)據(jù)規(guī)模的限制?,F(xiàn)有數(shù)據(jù)集可能只有5,,000個示例,但訓(xùn)練R1則需要600,,000個示例,。 而中間模型正是彌合了這一數(shù)量鴻溝,使得生成如此大規(guī)模的高質(zhì)量數(shù)據(jù)成為可能,。 3.3通用RL訓(xùn)練階段 這使得R1不僅在推理任務(wù)上表現(xiàn)卓越,,在非推理任務(wù)上同樣可以取得優(yōu)異成績。 這一過程與前面提到的RL過程相似,。但由于它延伸到非推理應(yīng)用領(lǐng)域,,因此針對這類應(yīng)用的提示詞,采用了有效性和安全性獎勵模型(與Llama類似),。 4. 架構(gòu) 與GPT-2和GPT-3奠基時期的模型一樣,,DeepSeek-R1是由Transformer decoder塊堆疊構(gòu)成的。 它總共包含61個decoder塊,,其中前三個是全連接層(dense layer),,其余則是專家混合(Mixture-of-Experts,簡稱MoE)層,。 關(guān)于模型維度大小和其他超參數(shù)的配置如下: 參考資料: https://www./content/ee83c24c-9099-42a4-85c9-165e7af35105 https://www./2025/01/28/technology/china-deepseek-ai-silicon-valley.html?unlocked_article_code=1.sk4.hgB2.qjaBLLlA_jiL https://newsletter./p/the-illustrated-deepseek-r1 |
|