久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

DeepSeek獨立發(fā)現(xiàn)o1核心思路,,OpenAI首席研究官親自證實,!奧特曼被迫發(fā)聲

 深圳東方紅 2025-01-31

聲明:本文來自于微信公眾號“新智元”,編輯:桃子 好困,,授權(quán)站長之家轉(zhuǎn)載發(fā)布,。

DeeSeek掀起的滔天巨浪,讓全世界為之震顫,。

短短幾天,,從R1復(fù)現(xiàn)狂潮,,到登頂美榜APP Store,再到科技股集體重挫,,這股東方神秘力量威力盡顯,。

R1在Hugging Face中的like,從今年1月起直線飆升,。

就連奧特曼本人也不得不打破沉默,,公開承認(rèn)DeepSeek的實力,并劇透了未來會有更多模型的發(fā)布:

DeepSeek R1是一款令人印象深刻的模型,,特別是考慮到他們在這個價格范圍內(nèi)能夠提供的能力,。

我們顯然會推出更好的模型,而且有一個新的競爭對手確實令人振奮!我們會加快一些版本的發(fā)布,,但主要還是專注于推進(jìn)OpenAI研究路線圖,。我們堅信,現(xiàn)在比以往任何時候都更需要更多的算力來實現(xiàn)我們的使命,。

未來,,世界將會需要大量的 AI,并對下一代模型感到驚嘆,。期待為大家?guī)?AGI 和更超前的技術(shù),。

與此同時,OpenAI首席研究官Mark Chen也承認(rèn)道,,DeepSeek的確獨立發(fā)現(xiàn)了一些o1的核心idea,。

但對于外界的各種分析,他顯然是不認(rèn)可的,。

Mark Chen表示,,現(xiàn)代AI系統(tǒng)采用了「預(yù)訓(xùn)練」和「推理」兩大范式,提供了更靈活的優(yōu)化空間,。

在降低成本的同時,,提升模型性能,未來OpenAI可以在這兩個維度上持續(xù)發(fā)力,。

而且,,隨著蒸餾技術(shù)日趨成熟,他們還發(fā)現(xiàn)成本控制和性能提升已經(jīng)不再互相依賴,。

換言之,,OpenAI能以更低成本提供服務(wù),也不代表就要犧牲模型的能力,。

OpenAI研究科學(xué)家,、德?lián)渲窷oam Brow同樣站出來表示,「算法突破和Scaling是互補的,而不是相互競爭的,。前者使性能與計算量的曲線發(fā)生彎曲,而后者則是在曲線上進(jìn)一步前進(jìn)」,。

作為「對沖」,,OpenAI今天特意冒泡,發(fā)布了一個專為美國政府打造的ChatGPT Gov,。

中國AI撼動硅谷帝國

這場始于一篇22頁學(xué)術(shù)論文的風(fēng)暴,,讓一個約200人的團(tuán)隊,用一個模型摧毀華爾街,,改變了整個硅谷對AI的看法,。

恐怕連DeepSeek自己也沒有想到,這將成為改寫AI競爭格局的一記重拳,。

論文地址:https:///pdf/2501.12948

DeepSeek R1論文發(fā)布之初,,并未引起所有人的警覺。隨著研究者逐漸消化論文內(nèi)容,,一個令人震驚的事實浮出水面:

R1竟以遠(yuǎn)低于科技巨頭的成本,,達(dá)到了可與頂級AI模型較量的水平。

更令人瞠目的是,,這一突破并非依賴昂貴的算力堆砌,,而是通過精妙的工程設(shè)計實現(xiàn)的。

當(dāng)許多專家認(rèn)為中國AI在競賽中望塵莫及之時,,R1的出現(xiàn)無異于平地驚雷,。

紐約時報作者Kevin Roose就此發(fā)表了自己觀點——R1似乎正在動搖美國科技產(chǎn)業(yè)的三個主要的假設(shè)。

平民算力,,也能顛覆游戲規(guī)則

首先,,第一個假設(shè)是,要構(gòu)建頂尖AI模型,,需要在強大的芯片和數(shù)據(jù)中心上投入巨額資金,。

不得不說,這一點早已成為世界公認(rèn)的模型Scaling Law必備要素,。

從微軟,、Meta、谷歌,,到xAI等硅谷巨頭們已經(jīng)斥資數(shù)百億美金,,專為開發(fā)和運行下一代AI打造專用的基礎(chǔ)設(shè)施。

在他們看來,,這些投入遠(yuǎn)遠(yuǎn)不夠,。

上周,特朗普曾官宣了「星際之門」項目,計劃4年內(nèi)砸5000億美金,,在全美建造20座超算,。

要知道,DeepSeek似乎只花費了這個數(shù)額的一小部分就打造了R1,。

雖R1具體訓(xùn)練金額未知,,業(yè)界從V3550萬美元推測,預(yù)計其成本要高于這一金額,。

即便是R1訓(xùn)練成本是DeepSeek聲稱的10倍,,考慮到其他成本,如工程師薪資或基礎(chǔ)研究成本,,這個數(shù)字仍然比美國人工智能公司開發(fā)其最強大模型的支出要低幾個數(shù)量級,。

「大」即是好,也不存在了!

其次,,DeepSeek在成本上的突破,,打破了近年來AI競賽中「越大越好」的觀點。

R1恰恰用實踐證明了,,經(jīng)過精細(xì)的訓(xùn)練,,相對較小的模型也可以媲美,甚至超越更大的模型,。

反過來,,這意味著,AI公司或許能以遠(yuǎn)低于此前預(yù)期的投資,,就能實現(xiàn)非常強大的功能,。

在研究論文中,揭示了一些關(guān)于R1實際構(gòu)建方式的細(xì)節(jié),,包括「模型蒸餾」方面的一些前沿技術(shù),。

從這點可以看出,將大型AI模型壓縮成更小的模型,,不僅運行成本更低,,同時不會損失太多性能。

此外,,論文還有一些細(xì)節(jié)表明,,將「普通」的AI語言模型轉(zhuǎn)換為更復(fù)雜的推理模型,只需要在其基礎(chǔ)上應(yīng)用RL算法,,即可實現(xiàn),。

中國AI落后迷思,正被打破

第三,,DeepSeek逆襲成功,,也動搖了許多專家對中國在AI競賽中處于落后地位的觀點。

事實證明,美國的技術(shù)優(yōu)勢,,可能并不如想象中的牢固,。

多年來,許多AI專家一直認(rèn)為美國至少領(lǐng)先世界幾年,,而且中國公司要快速復(fù)制美國的進(jìn)展是極其困難的,。

截止目前,已有超500個DeepSeek衍生模型登陸HF

但DeepSeek的結(jié)果表明,,中國擁有可以匹配或超越OpenAI,以及其他美國人工智能公司模型的先進(jìn)人工智能能力,。

這場AI巨震帶來的不僅是技術(shù)突破,,更是對全球AI格局的深刻洗牌。

該緊張的,,是OpenAI們

當(dāng)整個市場還在為AI訓(xùn)練成本驟降而恐慌時,,一些業(yè)內(nèi)資深玩家卻看到了不一樣的未來。

硅谷眾多業(yè)內(nèi)人士認(rèn)為,,市場對DeepSeek最新模型的大規(guī)模拋售反應(yīng)過度,。

他們認(rèn)為,該模型通過顯著降低AI成本,,將推動AI的更廣泛應(yīng)用和價值實現(xiàn),,從而持續(xù)維持市場對英偉達(dá)芯片的需求。

近期,,前英特爾首席執(zhí)行官Pat Gelsinger用實際行動給出了答案,,在周一買入了英偉達(dá)的股票。

他在LinkedIn上發(fā)文表示,,「市場的反應(yīng)是錯誤的,,降低AI成本將帶來市場規(guī)模的擴(kuò)張。DeepSeek是一項卓越的工程成就,,將引領(lǐng)AI邁向更廣泛的商業(yè)應(yīng)用」,。

英偉達(dá)也在周一表示,DeepSeek的創(chuàng)新將促進(jìn)其業(yè)務(wù)的發(fā)展,。

DeepSeek是一項杰出的AI技術(shù)進(jìn)展,,也是「測試時Scaling」的完美范例。這種推理運算需要大量英偉達(dá)GPU和高性能網(wǎng)絡(luò)基礎(chǔ)設(shè)施的支持,。

業(yè)內(nèi)專家TechInsights的G Dan Hutcheson分析更是令人深思,。

在他看來,DeepSeek技術(shù)突破對英偉達(dá)的影響有限,,真正應(yīng)該擔(dān)心的是OpenAI這樣提供類似服務(wù)的公司,。

而網(wǎng)友們在Mark Chen推文下面分享的真實體驗,正是這一分析的驗證。

圖解DeepSeek-R1

對于機器學(xué)習(xí)研發(fā)社區(qū)而言,,DeepSeek-R1是尤為重要的一個里程碑:

  • 它是一個開放權(quán)重模型,,并提供了多個經(jīng)過知識蒸餾的輕量級版本

  • 它不僅分享了訓(xùn)練方法,還深入探討了如何復(fù)制類似OpenAI o1這樣的推理模型的實現(xiàn)過程

在最近的一篇博客中,,就職于AI初創(chuàng)Chere的機器學(xué)習(xí)研究工程師Jay Alammar,,便通過圖解DeepSeek-R1的方式,分析了如何打造具有推理能力的大語言模型,。

模型訓(xùn)練第一步的細(xì)節(jié)來自之前的DeepSeek-V3論文,。

R1使用該論文中的基礎(chǔ)模型,并仍然經(jīng)過監(jiān)督微調(diào)(SFT)和偏好微調(diào)步驟,,但其執(zhí)行方式有所不同,。

1. 長鏈推理的監(jiān)督微調(diào)數(shù)據(jù)

這一過程包含了60萬個長思維鏈推理示例。

然而,,想要獲取如此規(guī)模,,并且還是人工標(biāo)注的這類數(shù)據(jù),既困難又昂貴,。這就是為什么創(chuàng)建這些數(shù)據(jù)的過程成為第二個重要特點,。

2. 一個臨時的高質(zhì)量推理大語言模型(但在非推理任務(wù)上表現(xiàn)較差)

這些數(shù)據(jù)是由R1的前身——一個專注于推理的相關(guān)模型創(chuàng)建的。

其靈感來自于另一款被稱為R1-Zero的模型,。它的重要性不在于它是一個出色的通用大語言模型,,而在于它僅需少量標(biāo)注數(shù)據(jù),通過大規(guī)模RL就能在解決推理問題方面表現(xiàn)優(yōu)異,。

這個專業(yè)推理模型的輸出隨后被用于訓(xùn)練一個更全面的模型,,使其能夠勝任其他非推理任務(wù),達(dá)到用戶對大語言模型的預(yù)期水平,。

3. 使用大規(guī)模強化學(xué)習(xí)創(chuàng)建推理模型

3.1大規(guī)模面向推理的強化學(xué)習(xí)(R1-Zero)

在這里,,RL被用于創(chuàng)建臨時推理模型,該模型隨后用于生成監(jiān)督微調(diào)的推理示例,。

而使這一切成為可能的關(guān)鍵在于,,此前創(chuàng)建的DeepSeek-R1-Zero模型的實驗。

R1-Zero的獨特之處在于,,它無需標(biāo)注的監(jiān)督微調(diào)訓(xùn)練集就能在推理任務(wù)上表現(xiàn)優(yōu)異,,甚至可以與o1相媲美。

它的訓(xùn)練直接從預(yù)訓(xùn)練基礎(chǔ)模型通過RL過程進(jìn)行(無需監(jiān)督微調(diào)步驟),。

一直以來,,數(shù)據(jù)始終是決定機器學(xué)習(xí)模型能力的關(guān)鍵要素。那么這個模型是如何打破這一定律的?這涉及兩個關(guān)鍵因素:

(1)現(xiàn)代基礎(chǔ)模型已經(jīng)達(dá)到了質(zhì)量和能力的新高度(該基礎(chǔ)模型在14.8萬億高質(zhì)量token上進(jìn)行訓(xùn)練),。

(2)與普通的聊天或?qū)懽魅蝿?wù)相比,,推理問題可以通過自動化方式進(jìn)行驗證和標(biāo)注,。

讓我們通過一個例子來說明。以下是RL訓(xùn)練步驟中的一個典型提示詞:

編寫Python代碼,,接受一個數(shù)字列表,,返回排序后的列表,并在開頭添加數(shù)字42,。

當(dāng)正在訓(xùn)練中的模型收到這個問題并生成答案后,,有很多種方式都可以實現(xiàn)自動驗證:

  • 用代碼檢查工具驗證生成內(nèi)容是否為合法的Python代碼

  • 直接運行Python代碼檢驗其執(zhí)行情況

  • 用其他現(xiàn)代編程大語言模型生成單元測試來驗證代碼行為(它們本身無需具備推理能力)

  • 進(jìn)一步測量代碼執(zhí)行時間,引導(dǎo)訓(xùn)練過程優(yōu)先選擇性能更優(yōu)的解決方案,,而不僅僅是能夠解決問題的正確程序

通過這種方式,,我們可以在訓(xùn)練過程中向模型提供類似問題,并獲得多種可能的解決方案,。

通過自動檢查(無需人為干預(yù)),,我們可以發(fā)現(xiàn):

  • 第一個完成結(jié)果甚至不是代碼;

  • 第二個確實是Python代碼,但并未解決問題;

  • 第三個是一個可能的解決方案,,但未能通過單元測試;

  • 第四個才是正確的解決方案。

這些信號都可以直接用來改進(jìn)模型,。當(dāng)然,,這種改進(jìn)是通過大量示例(在mini-batch中)和連續(xù)的訓(xùn)練步驟來完成的。

這些獎勵信號和模型更新正是模型在RL訓(xùn)練過程中持續(xù)改進(jìn)任務(wù)表現(xiàn)的方式,,正如論文圖2所示,。

這些獎勵信號和模型更新正是模型在RL訓(xùn)練過程中持續(xù)改進(jìn)任務(wù)表現(xiàn)的方式,正如論文圖2所示,。

與這種能力的提升相對應(yīng)的是,,生成響應(yīng)的長度變化——模型會生成更多的思考token來處理問題。

這個過程確實很有用,,但R1-Zero卻面臨著其他影響其實用性的問題,。

雖然DeepSeek-R1-Zero展現(xiàn)出強大的推理能力,并能自主形成令人驚喜的高效推理模式,,但它仍然面臨著一些挑戰(zhàn),。比如,DeepSeek-R1-Zero在可讀性和語言混合等方面存在明顯的不足,。

R1的目標(biāo)是成為一個更實用的模型,。因此,它并非完全依賴RL過程,,而是在我們前文提到的兩個方面加以運用:

(1)創(chuàng)建中間推理模型以生成SFT數(shù)據(jù)點

(2)訓(xùn)練R1模型以提升推理和非推理問題的處理能力(使用其他類型的驗證器)

3.2使用中間推理模型創(chuàng)建SFT推理數(shù)據(jù)

為了提升中間推理模型的實用性,,需要對其進(jìn)行監(jiān)督式微調(diào)(SFT)訓(xùn)練,訓(xùn)練數(shù)據(jù)包含數(shù)千個推理問題示例(部分來自R1-Zero的生成和篩選),。論文將這些稱為「冷啟動數(shù)據(jù)」,。

與DeepSeek-R1-Zero不同,,DeepSeek-R1為了避免基礎(chǔ)模型在RL訓(xùn)練初期出現(xiàn)不穩(wěn)定的冷啟動現(xiàn)象,我們構(gòu)建并收集了少量思維鏈(CoT)數(shù)據(jù)來微調(diào)模型,,將其作為初始RL代理,。在數(shù)據(jù)收集過程中,我們探索了多種方法:采用長思維鏈作為示例進(jìn)行少樣本提示學(xué)習(xí),,直接通過提示詞引導(dǎo)模型生成包含反思和驗證的詳細(xì)答案,,以可讀格式采集DeepSeek-R1-Zero的輸出,并通過人工標(biāo)注進(jìn)行后期優(yōu)化,。

然而,,既然我們已經(jīng)擁有這些數(shù)據(jù),為什么還需要依賴RL過程呢?

這主要是數(shù)據(jù)規(guī)模的限制?,F(xiàn)有數(shù)據(jù)集可能只有5,,000個示例,但訓(xùn)練R1則需要600,,000個示例,。

而中間模型正是彌合了這一數(shù)量鴻溝,使得生成如此大規(guī)模的高質(zhì)量數(shù)據(jù)成為可能,。

SFT訓(xùn)練示例

SFT訓(xùn)練示例

3.3通用RL訓(xùn)練階段

這使得R1不僅在推理任務(wù)上表現(xiàn)卓越,,在非推理任務(wù)上同樣可以取得優(yōu)異成績。

這一過程與前面提到的RL過程相似,。但由于它延伸到非推理應(yīng)用領(lǐng)域,,因此針對這類應(yīng)用的提示詞,采用了有效性和安全性獎勵模型(與Llama類似),。

4. 架構(gòu)

與GPT-2和GPT-3奠基時期的模型一樣,,DeepSeek-R1是由Transformer decoder塊堆疊構(gòu)成的。

它總共包含61個decoder塊,,其中前三個是全連接層(dense layer),,其余則是專家混合(Mixture-of-Experts,簡稱MoE)層,。

關(guān)于模型維度大小和其他超參數(shù)的配置如下:

參考資料:

https://www./content/ee83c24c-9099-42a4-85c9-165e7af35105

https://www./2025/01/28/technology/china-deepseek-ai-silicon-valley.html?unlocked_article_code=1.sk4.hgB2.qjaBLLlA_jiL

https://newsletter./p/the-illustrated-deepseek-r1

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多