Deepseek R1可能找到了超越人類的辦法

金蘋果6 2025-02-01

展開全文

我本想寫一篇關(guān)于 DeepSeek R1 的科普文,，但發(fā)現(xiàn)很多人僅僅把它理解為 OpenAI 的復(fù)制品,，而忽略了它在論文中揭示的“驚人一躍”，所以,，我決定重新寫一篇,，講講從 AlphaGo 到 ChatGPT，再到最近的 DeepSeek R1 底層原理的突破,，以及為什么它對所謂的 AGI/ASI 很重要,。作為一名普通的 AI 算法工程師，我可能無法做到非常深入,，如有錯(cuò)誤歡迎指出,。

AlphaGo 突破人類上限

1997 年，IBM 公司開發(fā)的國際象棋 AI 深藍(lán),，擊敗了世界冠軍卡斯帕羅夫而引發(fā)轟動(dòng),；接近二十年后的 2016 年，由 DeepMind 開發(fā)的圍棋 AI AlphaGo 擊敗了圍棋世界冠軍李世石,，再次引發(fā)轟動(dòng),。

表面上看這兩個(gè) AI 都是在棋盤上擊敗了最強(qiáng)的人類棋手，但它們對人類的意義完全不同,。國際象棋的棋盤只有 64 個(gè)格子,，而圍棋的棋盤有 19x19 個(gè)格子，假如我們用一盤棋能有多少種下法(狀態(tài)空間)來衡量復(fù)雜度,，那么二者對比如下：

理論上的狀態(tài)空間

國際象棋：每局約 80 步,，每步有 35 種走法 → 理論狀態(tài)空間為
圍棋：每局約 150 步，每步有 250 種走法 → 理論狀態(tài)空間為

規(guī)則約束后的實(shí)際狀態(tài)空間

國際象棋：棋子移動(dòng)受限（如兵不能倒退,、王車易位規(guī)則） → 實(shí)際值
圍棋：棋子不可移動(dòng)且依賴“氣”的判定 → 實(shí)際值

維度	國際象棋（深藍(lán)）	圍棋（AlphaGo）
棋盤大小	8×8（64 格）	19×19（361 點(diǎn)）
平均每步合法走法	35 種	250 種
平均對局步數(shù)	80 步/局	150 步/局
狀態(tài)空間復(fù)雜度	種可能局面	種可能局面

▲ 國際象棋和圍棋的復(fù)雜度對比

盡管規(guī)則大幅壓縮了復(fù)雜度,，圍棋的實(shí)際狀態(tài)空間仍是國際象棋的倍，這是一個(gè)巨大的量級差異,，要知道,，宇宙中的所有原子數(shù)量大約是個(gè)。在范圍內(nèi)的計(jì)算,，依賴 IBM 計(jì)算機(jī)可以暴力搜索計(jì)算出所有可能的走法,，所以嚴(yán)格意義上來講，深藍(lán)的突破和神經(jīng)網(wǎng)絡(luò)、模型沒有一點(diǎn)關(guān)系,，它只是基于規(guī)則的暴力搜索,，相當(dāng)于一個(gè)比人類快得多的計(jì)算器。

但的量級,，已經(jīng)遠(yuǎn)遠(yuǎn)超出了當(dāng)前超級計(jì)算機(jī)的算力,，這迫使 AlphaGo 放棄暴力搜索，轉(zhuǎn)而依賴深度學(xué)習(xí)：DeepMind 團(tuán)隊(duì)首先用人類棋譜進(jìn)行訓(xùn)練,，根據(jù)當(dāng)前棋盤狀態(tài)預(yù)測下一步棋的最佳走法,。但是，學(xué)習(xí)頂尖棋手走法,，只能讓模型的能力接近頂尖棋手,，而無法超越他們。

AlphaGo 首先用人類棋譜訓(xùn)練神經(jīng)網(wǎng)絡(luò),，然后通過設(shè)計(jì)一套獎(jiǎng)勵(lì)函數(shù),，讓模型自我對弈進(jìn)行強(qiáng)化學(xué)習(xí)。和李世石對弈的第二局,，AlphaGo 的第 19 手棋（第 37 步[^1]）讓李世石陷入長考,，這步棋也被很多棋手認(rèn)為是“人類永遠(yuǎn)不會(huì)下的一步”，如果沒有強(qiáng)化學(xué)習(xí)和自我對弈,，只是學(xué)習(xí)過人類棋譜,，AlphaGo 永遠(yuǎn)無法下出這步棋。

2017 年 5 月,，AlphaGo 以 3:0 擊敗了柯潔,，DeepMind 團(tuán)隊(duì)稱，有一個(gè)比它更強(qiáng)的模型還沒出戰(zhàn),。[^2] 他們發(fā)現(xiàn),，其實(shí)根本不需要給 AI 喂人類高手的對局棋譜，只要告訴它圍棋的基本規(guī)則,，讓模型自我對弈,，贏了就獎(jiǎng)勵(lì)、輸了就懲罰,，模型就能很快從零開始學(xué)會(huì)圍棋并超越人類,，研究人員把這個(gè)模型稱為 AlphaZero，因?yàn)樗恍枰魏稳祟愔R,。

讓我重復(fù)一遍這個(gè)不可思議的事實(shí)：無需任何人類棋局作為訓(xùn)練數(shù)據(jù),，僅靠自我對弈，模型就能學(xué)會(huì)圍棋,，甚至這樣訓(xùn)練出的模型,，比喂人類棋譜的 AlphaGo 更強(qiáng)大。

在此之后，圍棋變成了比誰更像 AI 的游戲,，因?yàn)?AI 的棋力已經(jīng)超越了人類的認(rèn)知范圍,。所以，想要超越人類,，必須讓模型擺脫人類經(jīng)驗(yàn),、好惡判斷(哪怕是來自最強(qiáng)人類的經(jīng)驗(yàn)也不行)的限制，只有這樣才能讓模型能夠自我博弈,，真正超越人類的束縛,。

AlphaGo 擊敗李世石引發(fā)了狂熱的 AI 浪潮，從 2016 到 2020 年,，巨額的 AI 經(jīng)費(fèi)投入最終收獲的成果寥寥無幾。數(shù)得過來的的可能只有人臉識別,、語音識別和合成,、自動(dòng)駕駛、對抗生成網(wǎng)絡(luò)等——但這些都算不上超越人類的智能,。

為何如此強(qiáng)大的超越人類的能力,，卻沒有在其他領(lǐng)域大放異彩？人們發(fā)現(xiàn),，圍棋這種規(guī)則明確,、目標(biāo)單一的封閉空間游戲最適合強(qiáng)化學(xué)習(xí)，現(xiàn)實(shí)世界是個(gè)開放空間,，每一步都有無限種可能,，沒有確定的目標(biāo)(比如“贏”)，沒有明確的成敗判定依據(jù)(比如占據(jù)棋盤更多區(qū)域),，試錯(cuò)成本也很高,，自動(dòng)駕駛一旦出錯(cuò)后果嚴(yán)重。

AI 領(lǐng)域冷寂了下來,，直到 ChatGPT 的出現(xiàn),。

ChatGPT 改變世界

ChatGPT 被 The New Yorker 稱為網(wǎng)絡(luò)世界的模糊照片(ChatGPT Is a Blurry JPEG of the Web[^3])，它所做的只是把整個(gè)互聯(lián)網(wǎng)的文本數(shù)據(jù)送進(jìn)一個(gè)模型,，然后預(yù)測下一個(gè)字是什_

這個(gè)字最有可能是'么',。

一個(gè)參數(shù)量有限的模型，被迫學(xué)習(xí)幾乎無限的知識：過去幾百年不同語言的書籍,、過去幾十年互聯(lián)網(wǎng)上產(chǎn)生的文字,，所以它其實(shí)是在做信息壓縮：將不同語言記載的相同的人類智慧、歷史事件和天文地理濃縮在一個(gè)模型里,。

科學(xué)家驚訝地發(fā)現(xiàn)：在壓縮中產(chǎn)生了智能,。

我們可以這么理解：讓模型讀一本推理小說，小說的結(jié)尾'兇手是_'，如果 AI 能準(zhǔn)確預(yù)測兇手的姓名,，我們有理由相信它讀懂了整個(gè)故事,，即它擁有“智能”，而不是單純的文字拼貼或死記硬背,。

讓模型學(xué)習(xí)并預(yù)測下一個(gè)字的過程,，被稱之為預(yù)訓(xùn)練(Pre-Training)，此時(shí)的模型只能不斷預(yù)測下一個(gè)字,，但不能回答你的問題,，要實(shí)現(xiàn) ChatGPT 那樣的問答，需要進(jìn)行第二階段的訓(xùn)練,，我們稱之為監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT),，此時(shí)需要人為構(gòu)建一批問答數(shù)據(jù)，例如:

# 例子一人類:第二次世界大戰(zhàn)發(fā)生在什么時(shí)候?AI:1939年

# 例子二人類:請總結(jié)下面這段話....{xxx}AI:好的,以下是總結(jié):xxx

值得注意的是,，以上這些例子是人工構(gòu)造的,，目的是讓 AI 學(xué)習(xí)人類的問答模式，這樣當(dāng)你說'請翻譯這句:xxx'時(shí),，送給 AI 的內(nèi)容就是

人類:請翻譯這句:{xxx}AI:

你看,，它其實(shí)仍然在預(yù)測下一個(gè)字，在這個(gè)過程中模型并沒有變得更聰明,，它只是學(xué)會(huì)了人類的問答模式,，聽懂了你在要求它做什么。

這還不夠,，因?yàn)槟Ｐ洼敵龅幕卮鹩袝r(shí)好,、有時(shí)差，有些回答還涉及種族歧視,、或違反人類倫理('如何搶銀行,？')，此時(shí)我們需要找一批人,，針對模型輸出的幾千條數(shù)據(jù)進(jìn)行標(biāo)注：給好的回答打高分,、給違反倫理的回答打負(fù)分，最終我們可以用這批標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,，它能判斷模型輸出的回答是否符合人類偏好,。

我們用這個(gè)獎(jiǎng)勵(lì)模型來繼續(xù)訓(xùn)練大模型，讓模型輸出的回答更符合人類偏好,，這個(gè)過程被稱為通過人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）,。

總結(jié)一下：讓模型在預(yù)測下一個(gè)字的過程中產(chǎn)生智能，然后通過監(jiān)督微調(diào)來讓模型學(xué)會(huì)人類的問答模式,，最后通過 RLHF 來讓模型輸出符合人類偏好的回答,。

這就是 ChatGPT 的大致思路,。

大模型撞墻

OpenAI 的科學(xué)家們是最早堅(jiān)信壓縮即智能的那批人，他們認(rèn)為只要使用更海量優(yōu)質(zhì)的數(shù)據(jù),、在更龐大的 GPU 集群上訓(xùn)練更大參數(shù)量的模型,，就能產(chǎn)生更大的智能，ChatGPT 就是在這樣的信仰之下誕生的,。Google 雖然做出了 Transformer,，但他們無法進(jìn)行創(chuàng)業(yè)公司那樣的豪賭。

DeepSeek V3 和 ChatGPT 做的事差不多,，因?yàn)槊绹?GPU 出口管制,，聰明的研究者被迫使用了更高效的訓(xùn)練技巧(MoE/FP8)，他們也擁有頂尖的基礎(chǔ)設(shè)施團(tuán)隊(duì),，最終只用了 550 萬美元就訓(xùn)練了比肩 GPT-4o 的模型,，后者的訓(xùn)練成本超過 1 億美元。

但本文重點(diǎn)是 R1,。

這里想說的是,，人類產(chǎn)生的數(shù)據(jù)在 2024 年底已經(jīng)被消耗殆盡了，模型的尺寸可以隨著 GPU 集群的增加,，輕易擴(kuò)大 10 倍甚至 100 倍，但人類每一年產(chǎn)生的新數(shù)據(jù),，相比現(xiàn)有的幾十年,、過去幾百年的數(shù)據(jù)來說，增量幾乎可以忽略不計(jì),。而按照 Chinchilla 擴(kuò)展定律（Scaling Laws）：每增加一倍模型大小,，訓(xùn)練數(shù)據(jù)的數(shù)量也應(yīng)增加一倍。

這就導(dǎo)致了預(yù)訓(xùn)練撞墻的事實(shí)：模型體積雖然增加了 10 倍,，但我們已經(jīng)無法獲得比現(xiàn)在多 10 倍的高質(zhì)量數(shù)據(jù)了,。GPT-5 遲遲不發(fā)布、國產(chǎn)大模型廠商不做預(yù)訓(xùn)練的傳聞,，都和這個(gè)問題有關(guān),。

RLHF 并不是 RL

另一方面，基于人類偏好的強(qiáng)化學(xué)習(xí)(RLHF)最大的問題是：普通人類的智商已經(jīng)不足以評估模型結(jié)果了,。在 ChatGPT 時(shí)代,，AI 的智商低于普通人，所以 OpenAI 可以請大量廉價(jià)勞動(dòng)力,，對 AI 的輸出結(jié)果進(jìn)行評測：好/中/差,，但很快隨著 GPT-4o/Claude 3.5 Sonnet 的誕生，大模型的智商已經(jīng)超越了普通人,，只有專家級別的標(biāo)注人員,，才有可能幫助模型提升,。

且不說聘請專家的成本，那專家之后呢,？終究有一天,，最頂尖的專家也無法評估模型結(jié)果了，AI 就超越人類了嗎,？并不是,。AlphaGo 對李世石下出第 19 手棋，從人類偏好來看,，這步棋絕不可能贏,，所以如果讓李世石來做人類反饋(Human Feedback, HF)評價(jià) AI 的這步棋，他很可能也會(huì)給出負(fù)分,。這樣,，AI 就永遠(yuǎn)無法逃出人類思維的枷鎖。

你可以把 AI 想象成一個(gè)學(xué)生,，給他打分的人從高中老師變成了大學(xué)教授,，學(xué)生的水平會(huì)變高，但幾乎不可能超越教授,。RLHF 本質(zhì)上是一種討好人類的訓(xùn)練方式,，它讓模型輸出符合人類偏好，但同時(shí)它扼殺了超越人類的可能性,。

所以我才說,，RLHF 并不是 RL，最近 Andrej Karpathy 也發(fā)表了類似的看法[^4],。

OpenAI 的解法

丹尼爾·卡尼曼在《思考快與慢》里提出,，人腦對待問題有兩種思考模式：一類問題不經(jīng)過腦子就能給出回答，也就是快思考,，一類問題需要類似圍棋的長考才能給出答案,，也就是慢思考。

既然訓(xùn)練已經(jīng)到頭了,，那可否從推理,，也就是給出回答的時(shí)候，通過增加思考時(shí)間,，從而讓回答質(zhì)量變好呢,？這其實(shí)也有先例：科學(xué)家很早就發(fā)現(xiàn)，給模型提問時(shí)加一句：“讓我們一步一步思考”('Let's think step by step'),，可以讓模型輸出自己的思考過程,，最終給出更好的結(jié)果，這被稱為思維鏈(Chain-of-Thought, CoT),。

2024 年底大模型預(yù)訓(xùn)練撞墻后,，使用強(qiáng)化學(xué)習(xí)（RL）來訓(xùn)練模型思維鏈成為了所有人的新共識,。這種訓(xùn)練極大地提高了某些特定、客觀可測量任務(wù)（如數(shù)學(xué),、編碼）的性能,。它需要從普通的預(yù)訓(xùn)練模型開始，在第二階段使用強(qiáng)化學(xué)習(xí)訓(xùn)練推理思維鏈,，這類模型被稱為 Reasoning 模型,，OpenAI 在 2024 年 9 月發(fā)布的 o1 模型以及隨后發(fā)布的 o3 模型，都是 Reasoning 模型,。

不同于 ChatGPT 和 GPT-4/4o,，在 o1/o3 這類 Reasoning 模型的訓(xùn)練過程中，人類反饋已經(jīng)不再重要了,，因?yàn)榭梢宰詣?dòng)評估每一步的思考結(jié)果,，從而給予獎(jiǎng)勵(lì)/懲罰。Anthropic 的 CEO 在昨天的文章中[^5]用轉(zhuǎn)折點(diǎn)來形容這一技術(shù)路線：存在一個(gè)強(qiáng)大的新范式,，它處于 Scaling Law 的早期,，可以快速取得重大進(jìn)展。

雖然 OpenAI 并沒有公布他們的強(qiáng)化學(xué)習(xí)算法細(xì)節(jié),，但最近 DeepSeek R1 的發(fā)布,，向我們展示了一種可行的方法。

DeepSeek R1-Zero

我猜 DeepSeek 將自己的純強(qiáng)化學(xué)習(xí)模型命名為 R1-Zero 也是在致敬 AlphaZero,，那個(gè)通過自我對弈,、不需要學(xué)習(xí)任何棋譜就能超越最強(qiáng)棋手的算法。

要訓(xùn)練慢思考模型,，首先要構(gòu)造質(zhì)量足夠好的、包含思維過程的數(shù)據(jù),，并且如果希望強(qiáng)化學(xué)習(xí)不依賴人類,，就需要對思考的每一步進(jìn)行定量(好/壞)評估，從而給予每一步思考結(jié)果獎(jiǎng)勵(lì)/懲罰,。

正如上文所說：數(shù)學(xué)和代碼這兩個(gè)數(shù)據(jù)集最符合要求,，數(shù)學(xué)公式的每一步推導(dǎo)都能被驗(yàn)證是否正確，而代碼的輸出結(jié)果以通過直接在編譯器上運(yùn)行來檢驗(yàn),。

舉個(gè)例子,，在數(shù)學(xué)課本中，我們經(jīng)?？吹竭@樣的推理過程：

<思考> 設(shè)方程根為x, 兩邊平方得: x2 = a - √(a+x) 移項(xiàng)得: √(a+x) = a - x2 再次平方: (a+x) = (a - x2)2 展開: a + x = a2 - 2a x2 + x? 整理: x? - 2a x2 - x + (a2 - a) = 0</思考><回答>x? - 2a x2 - x + (a2 - a) = 0</回答>

上面這段文本就包含了一個(gè)完整的思維鏈,，我們可以通過正則表達(dá)式匹配出思考過程和最終回答，從而對模型的推理結(jié)果進(jìn)行定量評估,。

和 OpenAI 類似,，DeepSeek 的研究者基于 V3 模型,，在數(shù)學(xué)和代碼這兩類包含思維鏈的數(shù)據(jù)上進(jìn)行了強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練，他們創(chuàng)造了一種名為 GRPO（Group Relative Policy Optimization）的強(qiáng)化學(xué)習(xí)算法,，最終得到的 R1-Zero 模型在各項(xiàng)推理指標(biāo)上相比 DeepSeek V3 顯著提升,，證明僅通過 RL 就能激發(fā)模型的推理能力。

這是另一個(gè) AlphaZero 時(shí)刻,，在 R1-Zero 的訓(xùn)練過程,，完全不依賴人類的智商、經(jīng)驗(yàn)和偏好,，僅靠 RL 去學(xué)習(xí)那些客觀,、可測量的人類真理，最終讓推理能力遠(yuǎn)強(qiáng)于所有非 Reasoning 模型,。

但 R1-Zero 模型只是單純地進(jìn)行強(qiáng)化學(xué)習(xí),，并沒有進(jìn)行監(jiān)督學(xué)習(xí)，所以它沒有學(xué)會(huì)人類的問答模式,，無法回答人類的問題,。并且，它在思考過程中,，存在語言混合問題,，一會(huì)兒說英語、一會(huì)兒說中文,，可讀性差,。所以 DeepSeek 團(tuán)隊(duì)：

先收集了少量高質(zhì)量的 Chain-of-Thought（CoT）數(shù)據(jù)，對 V3 模型進(jìn)行初步的監(jiān)督微調(diào),，解決了輸出語言不一致問題,，得到冷啟動(dòng)模型。
然后,，他們在這個(gè)冷啟動(dòng)模型上進(jìn)行類似 R1-Zero 的純 RL 訓(xùn)練,，并加入語言一致性獎(jiǎng)勵(lì)。
最后,，為了適應(yīng)更普遍,、廣泛的非推理任務(wù)（如寫作、事實(shí)問答）,，他們構(gòu)造了一組數(shù)據(jù)對模型進(jìn)行二次微調(diào),。
結(jié)合推理和通用任務(wù)數(shù)據(jù)，使用混合獎(jiǎng)勵(lì)信號進(jìn)行最終強(qiáng)化學(xué)習(xí),。

這個(gè)過程大概就是：

監(jiān)督學(xué)習(xí)(SFT) -> 強(qiáng)化學(xué)習(xí)(RL) -> 監(jiān)督學(xué)習(xí)(SFT) -> 強(qiáng)化學(xué)習(xí)(RL)

經(jīng)過以上過程,，就得到了 DeepSeek R1。

DeepSeek R1 給世界的貢獻(xiàn)是開源世界上第一個(gè)比肩閉源(o1)的 Reasoning 模型,，現(xiàn)在全世界的用戶都可以看到模型在回答問題前的推理過程,，也就是'內(nèi)心獨(dú)白',，并且完全免費(fèi)。

更重要的是,，R1-Zero向研究者們揭示了 OpenAI 一直在隱藏的秘密：強(qiáng)化學(xué)習(xí)可以不依賴人類反饋,，純 RL 也能訓(xùn)練出最強(qiáng)的 Reasoning 模型。所以在我心目中,，R1-Zero 比 R1 更有意義,。

對齊人類品味 VS 超越人類

幾個(gè)月前，我讀了 Suno 和 Recraft 創(chuàng)始人們的訪談[^6][^7],，Suno 試圖讓 AI 生成的音樂更悅耳動(dòng)聽,，Recraft 試圖讓 AI 生成的圖像更美、更有藝術(shù)感,。讀完后我有一個(gè)朦朧的感覺：將模型對齊到人類品味而非客觀真理,，似乎就能避開真正殘酷的、性能可量化的大模型競技場,。

每天跟所有對手在 AIME,、SWE-bench、MATH-500 這些榜單上競爭多累啊,，而且不知道哪天一個(gè)新模型出來自己就落后了,。但人類品味就像時(shí)尚：不會(huì)提升、只會(huì)改變,。Suno/Recraft 們顯然是明智的,，他們只要讓行業(yè)內(nèi)最有品味的音樂人和藝術(shù)家們滿意就夠了(當(dāng)然這也很難)，榜單并不重要,。

但沒有客觀真理作為Benchmark的壞處也很明顯：你的努力和心血帶來的效果提升也很難被量化,，比如，Suno V4 真的比 V3.5 更好嗎,？我的經(jīng)驗(yàn)是 V4 只是音質(zhì)提升了,，創(chuàng)造力并沒有提升。并且,，依賴人類品味的模型注定無法超越人類：如果 AI 推導(dǎo)出一個(gè)超越當(dāng)代人類理解范圍的數(shù)學(xué)定理，它會(huì)被奉為上帝,，但如果 Suno 創(chuàng)造出一首人類品味和理解范圍外的音樂,，在普通人耳朵里聽起來可能就只是單純的噪音。

對齊客觀真理的競爭痛苦但讓人神往,，因?yàn)樗谐饺祟惖目赡堋?/span>

對質(zhì)疑的一些反駁

DeepSeek 的 R1 模型,，是否真的超越了 OpenAI？

從指標(biāo)上看,，R1 的推理能力超越了所有的非 Reasoning 模型,，也就是 ChatGPT/GPT-4/4o 和 Claude 3.5 Sonnet,，與同為 Reasoning 模型的 o1接近，遜色于 o3,，但 o1/o3 都是閉源模型,。

很多人的實(shí)際體驗(yàn)可能不同，因?yàn)?Claude 3.5 Sonnet 在對用戶意圖理解上更勝一籌,。

DeepSeek 會(huì)收集用戶聊天內(nèi)容用于訓(xùn)練

錯(cuò),。很多人有個(gè)誤區(qū)，認(rèn)為類似 ChatGPT 這類聊天軟件會(huì)通過收集用戶聊天內(nèi)容用于訓(xùn)練而變得更聰明,，其實(shí)不然,，如果真是這樣，那么微信和 Messenger 就能做出世界上最強(qiáng)的大模型了,。

相信你看完這篇文章之后就能意識到：大部分普通用戶的日常聊天數(shù)據(jù)已經(jīng)不重要了,。RL 模型只需要在非常高質(zhì)量的、包含思維鏈的推理數(shù)據(jù)上進(jìn)行訓(xùn)練,，例如數(shù)學(xué)和代碼,。這些數(shù)據(jù)可以通過模型自己生成，無需人類標(biāo)注,。因此做模型數(shù)據(jù)標(biāo)注的公司 Scale AI 的 CEO Alexandr Wang 現(xiàn)在很可能正如臨大敵,，未來的模型對人類標(biāo)注需求會(huì)越來越少。

DeepSeek R1 厲害是因?yàn)橥低嫡麴s了 OpenAI 的模型

錯(cuò),，R1 最主要的性能提升來自強(qiáng)化學(xué)習(xí),，你可以看到純 RL、不需要監(jiān)督數(shù)據(jù)的 R1-Zero 模型在推理能力上也很強(qiáng),。而 R1 在冷啟動(dòng)時(shí)使用了一些監(jiān)督學(xué)習(xí)數(shù)據(jù),，主要是用于解決語言一致性問題，這些數(shù)據(jù)并不會(huì)提升模型的推理能力,。

另外,，很多人對蒸餾有誤解：蒸餾通常是指用一個(gè)強(qiáng)大的模型作為老師(Teacher)，將它的輸出結(jié)果作為一個(gè)參數(shù)更小,、性能更差的學(xué)生(Student)模型的學(xué)習(xí)對象,，從而讓學(xué)生模型變得更強(qiáng)大，例如 R1 模型可以用于蒸餾 LLama-70B,，蒸餾的學(xué)生模型性能幾乎一定比老師模型更差,，但 R1 模型在某些指標(biāo)性能比 o1 更強(qiáng)，所以說 R1 蒸餾自 o1 是非常愚蠢的,。

我問 DeepSeek 它說自己是 OpenAI 的模型,，所以它是套殼的。

大模型在訓(xùn)練時(shí)并不知道當(dāng)前的時(shí)間，自己究竟被誰訓(xùn)練,、訓(xùn)練自己的機(jī)器是 H100 還是 H800,，X 上有位用戶給出了精妙的比喻[^8]：這就像你問一個(gè) Uber 乘客，他坐的這輛車輪胎是什么品牌,，模型沒有理由知道這些信息,。

一些感受

AI 終于除掉了人類反饋的枷鎖。DeepSeek R1-Zero 展示了如何使用幾乎不使用人類反饋來提升模型性能的方法,，這是它的 AlphaZero 時(shí)刻,。很多人曾說“人工智能，有多少人工就有多少智能”,，這個(gè)觀點(diǎn)可能不再正確了,。如果模型能根據(jù)直角三角形推導(dǎo)出勾股定理，我們有理由相信它終有一天,，能推導(dǎo)出現(xiàn)有數(shù)學(xué)家尚未發(fā)現(xiàn)的定理,。

寫代碼是否仍然有意義？我不知道,。今早看到 Github 上熱門項(xiàng)目 llama.cpp,，一個(gè)代碼共享者提交了 PR，表示他通過對 SIMD 指令加速,，將 WASM 運(yùn)行速度提升 2 倍,，而其中 99%的代碼由 DeepSeek R1 完成[^9]，這肯定不是初級工程師級別的代碼了,，我無法再說 AI 只能取代初級程序員,。

ggml : x2 speed for WASM by optimizing SIMD

當(dāng)然，我仍然對此感到非常高興,，人類的能力邊界再次被拓展了,，干得好 DeepSeek！它是目前世界上最酷的公司,。

參考資料

[^1]: Wikipedia: AlphaGo versus Lee Sedol

[^2]: Nature: Mastering the game of Go without human knowledge

[^3]: The New Yorker: ChatGPT is a blurry JPEG of the web

[^4]: X: Andrej Karpathy

[^5]: On DeepSeek and Export Controls

[^6]: Suno 創(chuàng)始人訪談：至少對音樂來說,，Scaling Law 不是萬靈藥

[^7]: Recraft 專訪：20 人，8 個(gè)月做出了最好的文生圖大模型,，目標(biāo)是 AI 版的 Photoshop

[^8]: X: DeepSeek forgot to censor their bot from revealing they use H100 not H800.

[^9]: ggml : x2 speed for WASM by optimizing SIMD

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：金蘋果6 > 《生活用品》

舉報(bào)/認(rèn)領(lǐng)