DeepSeekR1創(chuàng)新點解讀（附概念股）

真友書屋 2025-01-26

展開全文

主要工作：

1）DeepSeek此次發(fā)布了DeepSeek-R1-Zero和DeepSeek-R1模型,。DeepSeek-R1-Zero模型僅依靠大規(guī)模強化學習訓練，沒有監(jiān)督微調(diào),，便實現(xiàn)了推理能力的自主進化，自發(fā)涌現(xiàn)出“反思”,、“多步驗證”等復雜推理行為，尤其是邏輯能力得到大幅飛躍,。

2）但該模型存在可讀性差、語言混合等問題,，為了解決這一問題,，DeepSeek-R1模型通過冷啟動數(shù)據(jù)和迭代強化學習微調(diào)實現(xiàn)：通過數(shù)千條高質(zhì)量長推理鏈數(shù)據(jù)對基礎(chǔ)模型微調(diào),，強制規(guī)范輸出，提高可讀性,，同時在語言一致性上進行了訓練提升，并且融入了人類偏好獎勵模型,，對模型進行了規(guī)范,。

3）使用DeepSeek-R1作為教師模型生成800K數(shù)據(jù),，并對多個小型密集模型微調(diào)，小模型性能飛躍,。以通義千問的15億參數(shù)量大模型為例,，經(jīng)過DeepSeek微調(diào)后,，數(shù)學題上超過GPT4o-0513的水平,。

核心創(chuàng)新點：

1）傳統(tǒng)大模型需要大量人工標注的監(jiān)督數(shù)據(jù)進行訓練,，但DeepSeek-R1-Zero首次驗證了無需任何微調(diào)數(shù)據(jù),，【僅通過強化學習即可實現(xiàn)推理能力的自主進化】,。而且這是沒有獎勵思維鏈長度（通俗講,，沒有引導推理模型用更多的時間去思考）的情況下實現(xiàn)的,，即目標只是為了作對題目，大模型就會自發(fā)進行更長地思考,，并且最后回答效果更好。

2）在這個過程中,，【觀察到了反思,、多步驗證能力的涌現(xiàn)】,，出現(xiàn)問題后，模型會自動糾正早期錯誤,。

#重要性：前兩條非常重要,，一個是指出新道路,，一個是證明這條道路有巨大的潛力,，會進一步加速Agent應(yīng)用。

3）盡管DeepSeek-R1-Zero足夠優(yōu)秀,，但他經(jīng)常會出現(xiàn)中英文混雜、格式混亂的現(xiàn)象,，工程上仍需優(yōu)化,。因此DeepSeek-R1模型通過與人類知識、經(jīng)驗,、規(guī)范相融合,，實現(xiàn)了更好的輸出,。

4）能力可以遷移：把R1蒸餾后可實現(xiàn)推理能力遷移,，小模型也可以在特定任務(wù)中媲美大模型。

#重要性：小算力也可實現(xiàn)復雜功能,，在邊緣場景,，如自動駕駛、機器人等一系列實時應(yīng)用提供更好的方案,。

DeepSeek相關(guān)概念股：

?每日互動：幻方股東/技術(shù)負責人徐進為每日互動聯(lián)合創(chuàng)始人之一,。

?浙江東方：通過旗下杭州東方嘉富基金參投DeepSeek天使輪,。市場傳聞,，注意風險。

?華金資本：珠海國資旗下投資平臺間接參與DeepSeekPre-A輪融資,。市場傳聞，注意風險,。

?浪潮信息：為DeepSeek北京亦莊智算中心提供AI服務(wù)器集群及英偉達H800+自研AIStation管理平臺,。

?中科曙光：承建DeepSeek杭州訓練中心液冷系統(tǒng)。

?航錦科技：旗下超擎數(shù)智為DeepSeek提供光模塊和交換機,，雙方深度合作,。