圖片來源:Anthropic 周三,,Anthropic 首席執(zhí)行官達里奧·阿莫迪 (Dario Amodei) 發(fā)布了一篇長文,對DeepSeek 的成功是否威脅到了美國,,以及意味著美國對人工智能芯片的出口管制不起作用的爭論進行了分析,。 以下是原文翻譯,文中的“我”指代達里奧·阿莫迪,。 圖片來源:Dario Amodei 幾周前,,我主張美國加強對華芯片出口管制。自那以后,,中國人工智能公司 DeepSeek 至少在某些方面以更低的成本接近美國前沿人工智能模型的性能,。 在這里,我不會關(guān)注 DeepSeek 是否對 Anthropic 等美國人工智能公司構(gòu)成威脅(盡管我確實認為,,許多關(guān)于它們對美國人工智能領(lǐng)導(dǎo)地位構(gòu)成威脅的說法都被大大夸大了)1,。相反,我將關(guān)注 DeepSeek 的發(fā)布是否會破壞芯片出口管制政策的理由,。我認為不會,。事實上,, 我認為它們使出口管制政策比一周前更加重要2。 出口管制有一個至關(guān)重要的目的:讓美國走在人工智能發(fā)展的前沿,。需要明確的是,,這不是避開美國和中國之間競爭的方法。歸根結(jié)底,,如果我們想獲勝,,美國的人工智能公司必須擁有比中國更好的模式。我們不應(yīng)該在沒有必要的情況下將技術(shù)優(yōu)勢拱手讓給中國,。 人工智能發(fā)展的三大動力在我提出政策論點之前,,我將描述理解AI系統(tǒng)的三個至關(guān)重要的基本動態(tài): - 擴展定律(Scaling Laws)。人工智能的一個特性(我和我的聯(lián)合創(chuàng)始人 在 OpenAI 工作時是第一批記錄下來的)是,,在其他條件相同的情況下,, 擴大人工智能系統(tǒng)的訓(xùn)練范圍可以全面改善一系列認知任務(wù)的結(jié)果。例如,,一個價值 100 萬美元的模型可能解決 20% 的重要編碼任務(wù),,價值 1000 萬美元的模型可能解決 40%,價值 1 億美元的模型可能解決 60%,,等等,。這些差異在實踐中往往會產(chǎn)生巨大的影響——另一個 10 倍可能對應(yīng)于本科生和博士生技能水平之間的差異——因此公司正在大力投資訓(xùn)練這些模型。
- 改變曲線,。這個領(lǐng)域不斷涌現(xiàn)出大大小小的想法,,使事情變得更加有效或高效:這可能是模型架構(gòu)的改進(對當(dāng)今所有模型使用的 Transformer 基本架構(gòu)進行調(diào)整),也可能只是一種在底層硬件上更有效地運行模型的方法,。新一代硬件也有同樣的效果,。這通常改變曲線:如果創(chuàng)新是 2 倍的“計算乘數(shù)”(CM),那么它可以讓您以 500 萬美元而不是 1000 萬美元的價格獲得 40% 的編碼任務(wù),;或者以 5000 萬美元而不是 1 億美元的價格獲得 60% 的編碼任務(wù),,等等。每個前沿 AI 公司都會定期發(fā)現(xiàn)許多這樣的 CM:通常是小型的(~1.2 倍),,有時是中型的(~2 倍),,偶爾也會發(fā)現(xiàn)非常大的(~10 倍)。由于擁有更智能系統(tǒng)的價值如此之高,,這種曲線的轉(zhuǎn)變通常會導(dǎo)致公司 在訓(xùn)練模型上花費更多,,而不是更少:成本效率的提高最終完全用于訓(xùn)練更智能的模型,僅受公司財務(wù)資源的限制,。人們自然會被“一開始很貴,,然后會變得更便宜”的想法所吸引——好像人工智能是一個質(zhì)量恒定的單一事物,當(dāng)它變得更便宜時,,我們會使用更少的芯片來訓(xùn)練它,。但重要的是縮放曲線:當(dāng)它移動時,我們只是更快地遍歷它,,因為曲線末端的價值是如此之高,。2020 年,我的團隊發(fā)表了一篇論文,,指出由于算法進步導(dǎo)致的曲線變化約為每年 1.68 倍,。自那以后,這一速度可能已經(jīng)大大加快,;它也沒有考慮到效率和硬件,。我猜今天的數(shù)字可能是每年約 4 倍。另一個估計是在這里,。訓(xùn)練曲線的變化也會改變推理曲線,,因此多年來,在模型質(zhì)量保持不變的情況下,,價格大幅下降,。例如,比原始 GPT-4 晚 15 個月發(fā)布的 Claude 3.5 Sonnet 在幾乎所有基準(zhǔn)測試中都勝過 GPT-4,,同時 API 價格降低了約 10 倍,。
- 轉(zhuǎn)變范式。每隔一段時間,,正在擴展的底層內(nèi)容就會發(fā)生一些變化,,或者在訓(xùn)練過程中會添加一種新的擴展類型。從 2020 年到 2023 年,,擴展的主要內(nèi)容是預(yù)訓(xùn)練模型:在越來越多的互聯(lián)網(wǎng)文本上訓(xùn)練模型,,并在其基礎(chǔ)上進行少量其他訓(xùn)練。2024 年,,使用強化學(xué)習(xí)(RL) 訓(xùn)練模型以生成思維鏈的想法已成為擴展的新焦點,。Anthropic、DeepSeek 和許多其他公司(也許最值得注意的是 9 月份發(fā)布了 o1 預(yù)覽模型的 OpenAI)發(fā)現(xiàn),,這種訓(xùn)練極大地提高了某些選定的,、客觀可衡量的任務(wù)(如數(shù)學(xué)、編碼競賽)以及類似于這些任務(wù)的推理的性能,。這種新范式涉及從普通類型的預(yù)訓(xùn)練模型開始,,然后在第二階段使用 RL 添加推理技能。重要的是,,由于這種類型的強化學(xué)習(xí)是新的,,我們?nèi)蕴幱跀U展曲線的早期階段:對于所有參與者來說,在第二個強化學(xué)習(xí)階段花費的金額都很小?;ㄙM 100 萬美元而不是 10 萬美元就足以獲得巨大的收益,。各家公司現(xiàn)在正在迅速將第二階段的規(guī)模擴大到數(shù)億甚至數(shù)十億美元,但重要的是要明白,,我們正處于一個獨特的“交叉點”,,其中有一個強大的新范式處于擴展曲線的早期階段,因此可以快速獲得巨大收益,。
DeepSeek 的模型上述三個動態(tài)可以幫助我們了解 DeepSeek 最近的發(fā)布,。大約一個月前,DeepSeek 發(fā)布了一個名為“ DeepSeek-V3 ”的模型,,這是一個純粹的預(yù)訓(xùn)練模型3 — 即上文第 3 點中描述的第一階段,。然后上周,他們發(fā)布了“ R1 ”,,其中增加了第二階段,。從外部無法確定這些模型的所有內(nèi)容,但以下是我對這兩個版本的最佳理解,。 DeepSeek-V3實際上是真正的創(chuàng)新,, 一個月前就應(yīng)該引起人們的注意(我們確實注意到了)。作為預(yù)訓(xùn)練模型,,它似乎在一些重要任務(wù)上的表現(xiàn)接近4個最先進的美國模型,,同時訓(xùn)練成本大大降低(盡管我們發(fā)現(xiàn) Claude 3.5 Sonnet 在其他一些關(guān)鍵任務(wù)上的表現(xiàn)尤其好)。DeepSeek 團隊通過一些真正的,、令人印象深刻的創(chuàng)新實現(xiàn)了這一點,,這些創(chuàng)新主要集中在工程效率上。在管理稱為“鍵值緩存”的方面以及使一種稱為“專家混合”的方法比以前更進一步方面,,都有特別創(chuàng)新的改進,。 然而,仔細觀察是很重要的: - DeepSeek 不會“以 600 萬美元完成美國 AI 公司花費數(shù)十億美元完成的任務(wù)”,。我只能代表 Anthropic 發(fā)言,,但 Claude 3.5 Sonnet 是一個中型模型,訓(xùn)練成本高達幾千萬美元(我不會給出確切數(shù)字),。此外,,3.5 Sonnet的訓(xùn)練方式并未涉及更大或更昂貴的模型(與一些傳言相反)。Sonnet 的訓(xùn)練是在 9-12 個月前進行的,,DeepSeek 的模型是在 11 月/12 月進行的,,而 Sonnet 在許多內(nèi)部和外部評估中仍然遙遙領(lǐng)先。因此,,我認為一個公平的說法是“ DeepSeek 生產(chǎn)的模型接近 7-10 個月前美國模型的性能,,成本要低得多(但遠不及人們建議的比例) ”
- 如果成本曲線下降的歷史趨勢是每年約 4 倍,,這意味著現(xiàn)在的模型比 3.5 Sonnet/GPT-4o 便宜 3-4 倍。由于 DeepSeek-V3 比美國前沿模型更差——假設(shè)在擴展曲線上差約 2 倍,,我認為這對 DeepSeek-V3 來說相當(dāng)慷慨——這意味著如果 DeepSeek-V3 的訓(xùn)練成本比一年前開發(fā)的當(dāng)前美國模型低約 8 倍,,這將是完全正常的,完全“符合趨勢”,。我不會給出一個數(shù)字,,但從前面的要點可以清楚地看出,,即使你從表面上看 DeepSeek 的訓(xùn)練成本,,它們充其量也符合趨勢,甚至可能甚至不符合趨勢,。例如,,這比原始 GPT-4 到 Claude 3.5 Sonnet 推理價格差異(10 倍)要小,而且 3.5 Sonnet 是一個比 GPT-4 更好的模型,。 所有這些都表明,,DeepSeek-V3 并不是一項獨特的突破,也不是從根本上改變 LLM 經(jīng)濟的東西,;它是持續(xù)成本降低曲線上的一個預(yù)期點,。這次的不同之處在于,第一個展示預(yù)期成本降低的公司是中國公司,。 這種情況從未發(fā)生過,,具有地緣政治意義。然而,,美國公司很快就會效仿——他們不會通過復(fù)制 DeepSeek 來做到這一點,,而是因為他們也在實現(xiàn)成本降低的通常趨勢。
- DeepSeek 和美國 AI 公司都擁有比他們訓(xùn)練主要模型時更多的資金和芯片,。額外的芯片用于研發(fā)以開發(fā)模型背后的理念,,有時用于訓(xùn)練尚未準(zhǔn)備好的大型模型(或需要多次嘗試才能正確)。據(jù)報道 — — 我們不能確定它是否屬實 — — DeepSeek 實際上擁有 50,000 個 Hopper 代芯片6,,我猜這大約是美國主要 AI 公司所擁有芯片的 2-3 倍(例如,,它比 xAI“ Colossus ”集群少 2-3 倍)7。這 50,000 個 Hopper 芯片的成本約為 10 億美元,。 因此,,DeepSeek 作為一家公司的總支出(與訓(xùn)練單個模型的支出不同)與美國 AI 實驗室并沒有太大差別。
值得注意的是,,“縮放曲線”分析有些過于簡單化,,因為模型之間存在一定差異,各有優(yōu)缺點,;縮放曲線數(shù)字是一個粗略的平均值,,忽略了很多細節(jié),。我只能談?wù)?Anthropic 的模型,但正如我上面所暗示的,,Claude 非常擅長編碼,,并且擁有精心設(shè)計的與人互動的風(fēng)格(許多人用它來獲得個人建議或支持)。在這些任務(wù)和其他一些任務(wù)上,,DeepSeek 根本無法與之相比,。這些因素沒有出現(xiàn)在縮放數(shù)字中。
R1是上周發(fā)布的模型,,它引發(fā)了公眾的強烈關(guān)注(包括 Nvidia 股價下跌約 17% ),,但從創(chuàng)新或工程角度來看,它遠不如 V3 那么有趣,。它增加了第二階段的訓(xùn)練——強化學(xué)習(xí),,如上一節(jié)第 3 點所述——并且基本上復(fù)制了 OpenAI 對 o1 所做的事情(它們的規(guī)模似乎相似,結(jié)果也相似) 8,。 但是,,因為我們處于擴展曲線的早期階段,,所以只要從強大的預(yù)訓(xùn)練模型開始,,多家公司都可以生產(chǎn)這種類型的模型,。在 V3 的情況下生產(chǎn) R1 可能非常便宜。因此,,我們處于一個有趣的“交叉點”,,暫時有幾家公司可以生產(chǎn)出好的推理模型。隨著每個人都在這些模型的擴展曲線上進一步向上移動,,這種情況將迅速不再成立,。 出口管制以上只是我感興趣的主要話題的序言:對華芯片出口管制。鑒于上述事實,,我認為情況如下: - 有一種趨勢是,,公司在訓(xùn)練強大的人工智能模型上投入了越來越多的資金 ,盡管曲線會定期發(fā)生變化,,訓(xùn)練特定水平的模型智能的成本會迅速下降,。只是訓(xùn)練越來越智能的模型的經(jīng)濟價值是如此之大,以至于任何成本收益幾乎都會立即被吃掉——它們被重新投入到制作更智能的模型中,,而我們最初計劃花費的成本與此相同,。在美國實驗室尚未發(fā)現(xiàn)的情況下,DeepSeek 開發(fā)的效率創(chuàng)新將很快被美國和中國的實驗室應(yīng)用于訓(xùn)練價值數(shù)十億美元的模型,。這些模型的表現(xiàn)將優(yōu)于他們之前計劃訓(xùn)練的價值數(shù)十億美元的模型——但他們?nèi)詫⒒ㄙM數(shù)十億美元,。這個數(shù)字將繼續(xù)上升,直到我們擁有在幾乎所有事情上都比幾乎所有人類更聰明的人工智能,。
- 制造出在幾乎所有方面都比人類更聰明的人工智能將需要數(shù)百萬個芯片,,數(shù)百億美元(至少),,而且最有可能在 2026-2027 年實現(xiàn)。DeepSeek 的發(fā)布不會改變這一點,,因為它們大致處于預(yù)期的成本降低曲線上,,而這一直被計入這些計算中。
- 這意味著,,在 2026-2027 年,,我們可能會陷入兩個截然不同的世界。在美國,,多家公司肯定會擁有所需的數(shù)百萬個芯片(成本高達數(shù)百億美元),。問題是中國是否也能獲得數(shù)百萬個芯片9。如果可以的話,,我們將生活在一個兩極世界,,美國和中國都擁有強大的人工智能模型,,這將推動科學(xué)技術(shù)的極速進步——我稱之為“數(shù)據(jù)中心的天才國家”,。兩極世界不一定會無限期保持平衡。即使美國和中國在人工智能系統(tǒng)方面勢均力敵,,中國以其龐大的工業(yè)基礎(chǔ),,可以幫助中國在全球舞臺上占據(jù)主導(dǎo)地位,不僅是在人工智能領(lǐng)域,,而是在所有領(lǐng)域,。如果中國無法獲得數(shù)百萬個芯片,我們將(至少暫時)生活在一個單極世界,,只有美國及其盟友擁有這些模型,。目前尚不清楚單極世界是否會持續(xù)下去,但至少存在這樣一種可能性,,即由于人工智能系統(tǒng)最終可以幫助制造更智能的人工智能系統(tǒng),,暫時的領(lǐng)先優(yōu)勢可以轉(zhuǎn)化為持久的優(yōu)勢。因此,,在這個世界上,,美國及其盟友可能會在全球舞臺上占據(jù)主導(dǎo)地位并保持長期領(lǐng)先。
- 只有嚴格執(zhí)行出口管制11才能阻止中國獲得數(shù)百萬芯片,,因此也是決定我們最終是進入單極世界還是兩極世界最重要的因素,。
- DeepSeek 的表現(xiàn)并不意味著出口管制失敗。正如我上面所說,,DeepSeek 擁有中等到大量的芯片,,因此他們能夠開發(fā)并訓(xùn)練出強大的模型也就不足為奇了。他們的資源限制并不比美國 AI 公司嚴重,,出口管制也不是促使他們“創(chuàng)新”的主要因素,。他們只是非常有才華的工程師,,并展示了為什么中國是美國的有力競爭對手。
- DeepSeek 也沒有表明管制總是有漏洞,。10 億美元的經(jīng)濟活動可以隱藏,,但很難隱藏 1000 億美元甚至 100 億美元。100 萬個芯片在物理上也很難走私,。看看 DeepSeek 目前報道的芯片也是有啟發(fā)性的,。 根據(jù) SemiAnalysis 的說法,這是 H100,、H800 和 H20 的混合體,,總計 5 萬個。自發(fā)布以來,,H100 就被出口管制禁止,,所以如果 DeepSeek 有任何芯片,它們一定不是通過正規(guī)渠道來的(請注意,,Nvidia 已聲明 DeepSeek 的進展“完全符合出口管制”),。H800 在 2022 年第一輪出口管制中是被允許的,但在 2023 年 10 月管制 更新時被禁止,,所以這些芯片可能是在禁令之前發(fā)貨的,。H20 的訓(xùn)練效率較低,采樣效率較高——雖然我認為應(yīng)該禁止,,但仍然被允許,。所有這些都表明,DeepSeek 的 AI 芯片群中似乎有相當(dāng)一部分是由尚未被禁止(但應(yīng)該被禁止)的芯片,。這表明出口管制確實在發(fā)揮作用和適應(yīng):漏洞正在被堵塞,。如果我們能夠足夠快地堵塞它們,我們也許能夠增加美國領(lǐng)導(dǎo)單極世界的可能性,。
鑒于我關(guān)注的是出口管制和美國國家安全,,我想明確一點。我不認為 DeepSeek 本身是對手,,重點也不是特別針對他們,。在他們接受的采訪中,他們看起來像是聰明,、好奇的研究人員,,只是想開發(fā)有用的技術(shù)。 但出口管制是我們防止中國追趕美國的最有力工具之一 ,。認為技術(shù)越來越強大,、性價比越來越高是解除出口管制的理由的想法是完全沒有道理的。 腳注 [1] 在本文中,,我不會對西方模型的提煉報告持任何立場,。在這里,,我只是相信 DeepSeek 的說法,他們按照論文中說的方式進行訓(xùn)練 ,。[2] 順便說一句,,我認為 DeepSeek 模型的發(fā)布對 Nvidia 來說顯然不是壞事,而他們的股價因此而出現(xiàn)兩位數(shù)(約 17%)的下跌令人費解,。這次發(fā)布對 Nvidia 來說不是壞事的理由甚至比對 AI 公司來說不是壞事的理由更明顯,。但我在這篇文章中的主要目標(biāo)是捍衛(wèi)出口管制政策 。[3] 準(zhǔn)確地說,,它是一個預(yù)訓(xùn)練模型,,其中包含推理范式轉(zhuǎn)變之前模型中典型的少量 RL 訓(xùn)練 。[4] 它在一些非常狹窄的任務(wù)上表現(xiàn)更強 ,。[5] 這是DeepSeek 論文中引用的數(shù)字 ——我只是照單全收,,并不懷疑這部分內(nèi)容,只是與美國公司模型訓(xùn)練成本的比較,,以及訓(xùn)練特定模型的成本(600 萬美元)與研發(fā)總成本(高得多)之間的區(qū)別,。然而,我們也不能完全確定 600 萬美元——模型大小是可驗證的,,但其他方面(如代幣數(shù)量)則不可驗證 ,。?[6] 在一些采訪中 ,我說他們有“50,000 塊 H100”,,這是對報道的一個微妙的錯誤總結(jié),我想在這里糾正一下,。迄今為止,,最知名的“Hopper 芯片”是 H100(我猜想指的是它),但 Hopper 還包括 H800 和 H20,,據(jù)報道 DeepSeek 擁有這三種芯片的混合,,總計 50,000 塊。這并沒有改變太多情況,,但值得糾正,。當(dāng)我談?wù)摮隹诠苤茣r,我會更多地討論 H800 和 H20,。?[7] 注:由于出口管制,,我預(yù)計這一差距在下一代集群中會大大擴大 。[8] 我懷疑 R1 受到如此多關(guān)注的主要原因之一是它是第一個向 用戶展示模型所展現(xiàn)的思路推理的模型(OpenAI 的 o1 僅顯示最終答案),。DeepSeek 表明用戶對此很感興趣,。需要明確的是,這是一個用戶界面選擇,,與模型本身無關(guān),。[9] 中國自己的芯片短期內(nèi)無法與美國制造的芯片競爭,。 [1] https:///2025/01/29/anthropics-ceo-says-deepseek-shows-that-u-s-export-rules-are-working-as-intended/[2] https:///on-deepseek-and-export-controls
|