國產(chǎn)AI模型DeepSeek R1震動美國科技界,，創(chuàng)始人梁文峰成為英雄

昵稱21405352 2025-01-26

展開全文

如果在AI大模型領域突然出現(xiàn)了一個足以挑戰(zhàn)ChatGPT或者趕超ChatGPT的競爭者,，而且這個競爭者還將先進/強大的AI（推理）模型開源；那么可能就會對ChatGPT的付費商業(yè)模式帶來強烈的沖擊——比如說,，站在普通用戶的角度來想,，既然可以用更低的成本或者接近零成本使用到幾乎同等強大的AI模型，那自然就沒有理由花更多的錢使用ChatGPT（及其API）,。OpenAI的ChatGPT因為有著全球領先的AI大模型如GPT-4o,、o1以及即將上線的o3等，在市場上占得了先機——目前,，ChatGPT的月度活躍用戶超過3億,，付費訂閱用戶超過1千萬；同時可以很確定的是,，OpenAI希望可以借助閉源AI模型在技術上領先的優(yōu)勢繼續(xù)發(fā)展更多的付費用戶,。

被一些人稱為“神秘東方力量”的DeepSeek，最近在AI領域里連續(xù)投下兩個重磅炸彈,，先是推出了DeepSeek V3模型,，后又推出了DeepSeek R1推理模型。DeepSeek V3的表現(xiàn)幾乎追上了Anthropic Claude 3.5 Sonnet和OpenAI GPT-4o,，而DeepSeek R1的表現(xiàn)實在太過驚艷,，已經(jīng)可以與OpenAI的推理模型o1相提并論。網(wǎng)上也流傳,，DeepSeek 正在開發(fā)更強大的推理模型DeepSeek R2,。

有一個ChatGPT Pro付費用戶@Leo Xiang就這樣發(fā)帖說：“在Deepseek R1之前，OpenAI的o1還是領先中國的大模型廠商一代,，Deepseek R1出來之后已經(jīng)不存在代際差了,。OpenAI如何說服大家購買他的200美元/月的ChatGPT Pro？”隨后,，他又補充道：“我也用ChatGPT Pro,，也體驗了DeepSeek R1, ChatGPT o1目前還是最強的存在；DeepSeek系列模型的提升速度讓人刮目相看，我會時不時地體驗一下DeepSeek的模型,，感受一下它的進步,。”

根據(jù)外媒最新報道稱,，由對沖基金經(jīng)理梁文峰創(chuàng)立的DeepSeek,，在本周一發(fā)布了推理模型 DeepSeek R1，并且通過一篇論文做了詳盡的闡述,。美國公司如OpenAI和Google DeepMind等在推理模型領域開辟了先河,，這一相對較新的AI研究領域旨在讓AI模型具備類似人類認知的能力。2024年12月,，OpenAI才正式發(fā)布完整的o1推理模型,。DeepSeek R1的發(fā)布引發(fā)了硅谷科技界關于美國AI公司（如Meta和Anthropic等）能否保持技術領先地位的激烈討論。與此同時,，在中美高科技激烈競爭博弈的當下,，梁文峰也成為了備受矚目的民族英雄。

2021年,，梁文峰在運營量化交易基金幻方的期間,，開始購買數(shù)千塊英偉達圖形處理單元（GPU芯片）用于AI研發(fā)。業(yè)界當時認為這不過是億萬富翁的新興趣愛好,?！白畛跻姷剿麜r，他是個書呆子模樣,，發(fā)型很糟糕,，總是談論用1萬塊芯片搭建集群訓練模型。我們當時沒把他當回事,，”一位商業(yè)伙伴回憶道,，“他無法清晰描述自己的愿景，只是說：'我要做這個,，它會改變游戲規(guī)則,。’我們認為只有像字節(jié)跳動,、阿里巴巴這樣的巨頭才可能做到,。”

然而,，梁文峰在AI領域的“外行”身份反而成為了一種意外的優(yōu)勢,。在幻方，他通過AI和算法分析影響股價的模式積累了財富,。他的團隊熟練使用英偉達芯片進行交易,。2023年,，他創(chuàng)立了DeepSeek,，宣布進軍類人智能研發(fā),。“梁文峰帶領著一支對芯片工作原理有深入了解的優(yōu)秀團隊,，”一家競爭公司創(chuàng)始人表示,，“他從對沖基金將最優(yōu)秀的人才帶入了DeepSeek?！?/span>

在美國禁止英偉達向中國出口高尖端AI GPU芯片之后,，中國AI公司被迫創(chuàng)新，以最大化利用有限的本土芯片計算能力,，而梁文峰的團隊早已掌握了解決之道,。“DeepSeek的工程師們能夠挖掘GPU的潛力,，即使它們并非最新的型號,，”一位接近公司的AI研究員表示。

正因為DeepSeek對研究的專注,，讓自己在全球AI領域成為了一個實力強勁的競爭者,。DeepSeek傾向于分享技術上的突破，而非將AI用于謀取商業(yè)利益,。迄今為止,，DeepSeek沒有接受外部融資，也沒有大規(guī)模商業(yè)化AI模型,。梁文峰自己曾說過：“我們面臨的問題從來不是錢,，而是高端芯片被禁運?！碑斎?，他也說過這樣的話：“我們只是按照自己的步調(diào)來做事，然后核算成本定價,，我們的原則是不賠錢,，也不賺取暴利?！?/span>DeepSeek所需的資金主要由幻方量化提供支持,。幻方量化在2024年的投資回報率不盡如人意,，據(jù)說是與梁文峰將大部分精力放在DeepSeek有關,。

梁文峰將DeepSeek定位為一家純粹“本土化”的公司，DeepSeek核心團隊成員來自北京大學,、清華大學和北京航空航天大學等中國頂尖名校,，而非擁有海外背景的專家,。他曾表示：“我們的核心團隊沒有海外歸來的人才。他們都是本土的……我們必須自己培養(yǎng)頂尖人才,?！?/span>在人才層面，DeepSeek確實走了一條不同的路——這種純粹中國化的身份定位在國內(nèi)贏得了廣泛贊譽,。

DeepSeek僅用了2048張英偉達H800 GPU芯片和560萬美元訓練出了一個擁有6710億參數(shù)的模型,。而OpenAI和Google為訓練出類似規(guī)模的模型，所投入的資源遠遠超過了這一水平,。盡管DeepSeek在資源有限的情況之下獲得了令人印象深刻的成果,，然熱業(yè)界人士仍認為，隨著行業(yè)不斷演變,，DeepSeek未來在AI領域的競爭力尚待觀察,。與此同時，美國的競爭對手們并未止步不前,。舉例來說,，OpenAI日前宣布了資金規(guī)模高達5000億美元的“Stargate（星際之門）”計劃——在美國AI基礎設施領域投資；埃隆·馬斯克的xAI也在擴展超級計算機Colossus,，計劃搭載超過100萬塊先進的GPU芯片,，用于訓練Grok AI模型；等等,?！?/span>DeepSeek在中國擁有最大規(guī)模的高級計算集群之一，”梁文峰的商業(yè)伙伴稱,，“目前他們的計算能力尚足夠,，但這種優(yōu)勢不會持續(xù)太久?！?/span>

前面寫道,，OpenAI在2024年12月才正式面向用戶發(fā)布上線完整的o1推理模型。換言之,，DeepSeek R1推理模型的發(fā)布也就只比o1完整版推理模型晚了大約一個月而已,。在海外社交平臺上，最近幾天關于DeepSeek及其推理模型R1的討論,，熱度頗高,，相關的貼文、評論等有很多很多,。有的外國網(wǎng)友戲謔：DeepSeek才是OpenAI（開源AI）,，OpenAI是Closed AI（閉源AI）。

日前在匿名職場社區(qū)teamblind上,，一位Meta公司員工發(fā)布的匿名貼子特別火——《Meta genai org in panic mode》,，該貼子的中文意思是：

Meta的生成式AI團隊陷入了恐慌狀態(tài),。

這一切的開端是DeepSeek V3的推出，這讓Llama 4在各項基準測試中全面落后,。更讓人雪上加霜的是,，一家“未知的中國公司”用僅550萬美元的預算完成了訓練，直接打臉了現(xiàn)有的大型模型,。

目前,，工程師們正在瘋狂拆解DeepSeek，試圖復制其中的一切,。我不是在夸張，事情就是這么緊迫,。

管理層也在焦慮如何為生成式AI團隊的高昂成本向高層交代,。尤其是，當團隊中每一位所謂的“領導者”拿到的薪水都遠遠超過了訓練整個DeepSeek V3的成本,，而這樣的“領導者”團隊卻有數(shù)十人之多,。

DeepSeek R1的出現(xiàn)讓事情變得更加可怕。雖然有些信息還不能透露,，但很快就會公開,，到時候情況可能更加不利。

本來,，這個團隊應該是一個以工程為核心的小型組織,，但因為一些人想借機刷存在感、搶占資源,，人為地擴大了團隊規(guī)模,，結(jié)果反而讓大家都成了輸家。

就以今天的數(shù)據(jù)為例,，在蘋果App Store上的效率類應用排名榜上,，在中國大陸地區(qū)，DeepSeek已經(jīng)位居第2,，直追第1名的豆包,；在中國香港特區(qū)，DeepSeek位居第1,，豆包降為第2名,；在美國，DeepSeek排名第3,，超過了第4名的谷歌Gemini,，而第1名則是ChatGPT。在蘋果App Store免費總榜排名上,，在中國大陸地區(qū),，DeepSeek排名第24,，豆包排名第2；在美國,，DeepSeek排名第14,，ChatGPT排名第1。可以這么說,，DeepSeek在沒有主動砸錢做營銷推廣的情況下,，卻在包括中國、美國等國內(nèi)外地區(qū)開始“出圈”了,。