中國的7家大模型創(chuàng)業(yè)公司中,,DeepSeek(深度求索)最不聲不響,,但它又總能以出其不意的方式被人記住。 一年前,,這種出其不意源自它背后的量化私募巨頭幻方,,是大廠外唯一一家儲備萬張A100芯片的公司,一年后,,則來自它才是引發(fā)中國大模型價(jià)格戰(zhàn)的源頭,。 在被AI連續(xù)轟炸的5月,DeepSeek一躍成名,。起因是他們發(fā)布的一款名為DeepSeek V2的開源模型,,提供了一種史無前例的性價(jià)比:推理成本被降到每百萬token僅 1塊錢,約等于Llama3 70B的七分之一,,GPT-4 Turbo的七十分之一,。 DeepSeek被迅速冠以“AI界拼多多”之稱的同時,,字節(jié)、騰訊,、百度,、阿里等大廠也按耐不住,紛紛降價(jià),。中國大模型價(jià)格戰(zhàn)由此一觸即發(fā),。 彌漫的硝煙其實(shí)掩蓋了一個事實(shí):與很多大廠燒錢補(bǔ)貼不同,DeepSeek是有利潤的,。 這背后,,是DeepSeek對模型架構(gòu)進(jìn)行了全方位創(chuàng)新。它提出的一種嶄新的MLA(一種新的多頭潛在注意力機(jī)制)架構(gòu),,把顯存占用降到了過去最常用的MHA架構(gòu)的5%-13%,,同時,它獨(dú)創(chuàng)的DeepSeekMoESparse結(jié)構(gòu),,也把計(jì)算量降到極致,,所有這些最終促成了成本的下降。 在硅谷,,DeepSeek被稱作“來自東方的神秘力量”,。SemiAnalysis首席分析師認(rèn)為,DeepSeek V2論文“可能是今年最好的一篇”,。OpenAI前員工Andrew Carr認(rèn)為論文“充滿驚人智慧”,,并將其訓(xùn)練設(shè)置應(yīng)用于自己的模型。而OpenAI前政策主管,、Anthropic聯(lián)合創(chuàng)始人Jack Clark認(rèn)為,,DeepSeek“雇傭了一批高深莫測的奇才”,還認(rèn)為中國制造的大模型,,“將和無人機(jī),、電動汽車一樣,成為不容忽視的力量,?!?/span> 在基本由硅谷牽動故事進(jìn)展的AI浪潮里,這是罕有的情形,。多位行業(yè)人士告訴我們,,這種強(qiáng)烈的反響源自架構(gòu)層面的創(chuàng)新,是國產(chǎn)大模型公司乃至全球開源基座大模型都很罕見的嘗試,。一位AI研究者表示,,Attention架構(gòu)提出多年來,幾乎未被成功改過,更遑論大規(guī)模驗(yàn)證,?!斑@甚至是一個做決策時就會被掐斷的念頭,因?yàn)榇蟛糠秩硕既狈π判??!?/span> 而另一方面,國產(chǎn)大模型之前很少涉足架構(gòu)層面的創(chuàng)新,,也是因?yàn)楹苌儆腥酥鲃尤羝颇菢右环N成見:美國更擅長從0-1的技術(shù)創(chuàng)新,,而中國更擅長從1-10的應(yīng)用創(chuàng)新。何況這種行為非常不劃算——新一代模型,,過幾個月自然有人做出來,,中國公司只要跟隨、做好應(yīng)用即可,。對模型結(jié)構(gòu)進(jìn)行創(chuàng)新,,意味著沒有路徑可依,要經(jīng)歷很多失敗,,時間、經(jīng)濟(jì)成本都耗費(fèi)巨大,。 DeepSeek顯然是逆行者,。在一片認(rèn)為大模型技術(shù)必然趨同,follow是更聰明捷徑的喧嘩聲中,,DeepSeek看重“彎路”中積累的價(jià)值,,并認(rèn)為中國的大模型創(chuàng)業(yè)者除應(yīng)用創(chuàng)新外,也可以加入到全球技術(shù)創(chuàng)新的洪流中,。 DeepSeek的很多抉擇都與眾不同,。截至目前,7家中國大模型創(chuàng)業(yè)公司中,,它是唯一一家放棄“既要又要”路線,,至今專注在研究和技術(shù),未做toC應(yīng)用的公司,,也是唯一一家未全面考慮商業(yè)化,,堅(jiān)定選擇開源路線甚至都沒融過資的公司。這些使得它經(jīng)常被遺忘在牌桌之外,,但在另一端,,它又經(jīng)常在社區(qū)被用戶“自來水”式傳播。 DeepSeek究竟是如何煉成的,?我們?yōu)榇嗽L談了甚少露面的DeepSeek創(chuàng)始人梁文鋒,。 這位從幻方時代,就在幕后潛心研究技術(shù)的80后創(chuàng)始人,在DeepSeek時代,,依舊延續(xù)著他的低調(diào)作風(fēng),,和所有研究員一樣,每天“看論文,,寫代碼,,參與小組討論”。 和很多量化基金創(chuàng)始人都有過海外對沖基金履歷,,多出身物理,、數(shù)學(xué)等專業(yè)不同的是,梁文鋒一直是本土背景,,早年就讀的也是浙江大學(xué)電子工程系人工智能方向,。 多位行業(yè)人士和DeepSeek研究員告訴我們,梁文鋒是當(dāng)下中國AI界非常罕見的“兼具強(qiáng)大的infra工程能力和模型研究能力,,又能調(diào)動資源”,、“既可以從高處做精準(zhǔn)判斷,又可以在細(xì)節(jié)上強(qiáng)過一線研究員”的人,,他擁有“令人恐怖的學(xué)習(xí)能力”,,同時又“完全不像一個老板,而更像一個極客”,。 這是一次尤為難得的訪談,。訪談里,這位技術(shù)理想主義者,,提供了目前中國科技界特別稀缺的一種聲音:他是少有的把“是非觀”置于“利害觀”之前,,并提醒我們看到時代慣性,把“原創(chuàng)式創(chuàng)新”提上日程的人,。 一年前,,DeepSeek剛下場時,我們初次訪談了梁文鋒 :《瘋狂的幻方:一家隱形AI巨頭的大模型之路》 ,。如果說當(dāng)時那句「務(wù)必要瘋狂地懷抱雄心,,且還要瘋狂地真誠」還是一句美麗的口號,一年過去,,它已經(jīng)在成為一種行動,。 以下為對話部分 真正的差距不是一年或兩年,,而是原創(chuàng)和模仿之差 「暗涌」:為什么DeepSeek V2會讓硅谷的很多人驚訝? 梁文鋒:在美國每天發(fā)生的大量創(chuàng)新里,,這是非常普通的一個,。他們之所以驚訝,是因?yàn)檫@是一個中國公司,,在以創(chuàng)新貢獻(xiàn)者的身份,,加入到他們游戲里去,。畢竟大部分中國公司習(xí)慣follow,,而不是創(chuàng)新,。 「暗涌」:但這種選擇放在中國語境里,,也過于奢侈。大模型是一個重投入游戲,,不是所有公司都有資本只去研究創(chuàng)新,,而不是先考慮商業(yè)化,。 梁文鋒:創(chuàng)新的成本肯定不低,,過去那種拿來主義的慣性也和過去的國情有關(guān),。但現(xiàn)在,你看無論中國的經(jīng)濟(jì)體量,,還是字節(jié),、騰訊這些大廠的利潤,放在全球都不低,。我們創(chuàng)新缺的肯定不是資本,而是缺乏信心以及不知道怎么組織高密度的人才實(shí)現(xiàn)有效的創(chuàng)新,。 「暗涌」:為什么中國公司——包括不缺錢的大廠,,這么容易把快速商業(yè)化當(dāng)?shù)谝灰x? 梁文鋒:過去三十年,,我們都只強(qiáng)調(diào)賺錢,,對創(chuàng)新是忽視的。創(chuàng)新不完全是商業(yè)驅(qū)動的,,還需要好奇心和創(chuàng)造欲,。我們只是被過去那種慣性束縛了,,但它也是階段性的。 「暗涌」:但你們究竟是一個商業(yè)組織,,而非一個公益科研機(jī)構(gòu),,選擇創(chuàng)新,又通過開源分享出去,,那要在哪里形成護(hù)城河,?像5月這次MLA架構(gòu)的創(chuàng)新,也會很快被其他家copy吧,? 梁文鋒:在顛覆性的技術(shù)面前,,閉源形成的護(hù)城河是短暫的。即使OpenAI閉源,,也無法阻止被別人趕超,。所以我們把價(jià)值沉淀在團(tuán)隊(duì)上,我們的同事在這個過程中得到成長,,積累很多know-how,形成可以創(chuàng)新的組織和文化,,就是我們的護(hù)城河。 開源,,發(fā)論文,,其實(shí)并沒有失去什么。對于技術(shù)人員來說,,被follow是很有成就感的事,。其實(shí),開源更像一個文化行為,,而非商業(yè)行為,。給予其實(shí)是一種額外的榮譽(yù)。一個公司這么做也會有文化的吸引力,。 「暗涌」:你怎么看類似朱嘯虎的這種市場信仰派觀點(diǎn),? 梁文鋒:朱嘯虎是自洽的,但他的打法更適合快速賺錢的公司,,而你看美國最賺錢的公司,,都是厚積薄發(fā)的高科技公司。 「暗涌」:但做大模型,,單純的技術(shù)領(lǐng)先也很難形成絕對優(yōu)勢,,你們賭的那個更大的東西是什么? 梁文鋒:我們看到的是中國AI不可能永遠(yuǎn)處在跟隨的位置,。我們經(jīng)常說中國AI和美國有一兩年差距,,但真實(shí)的gap是原創(chuàng)和模仿之差。如果這個不改變,,中國永遠(yuǎn)只能是追隨者,,所以有些探索也是逃不掉的,。 英偉達(dá)的領(lǐng)先,不只是一個公司的努力,,而是整個西方技術(shù)社區(qū)和產(chǎn)業(yè)共同努力的結(jié)果,。他們能看到下一代的技術(shù)趨勢,手里有路線圖,。中國AI的發(fā)展,,同樣需要這樣的生態(tài)。很多國產(chǎn)芯片發(fā)展不起來,,也是因?yàn)槿狈ε涮椎募夹g(shù)社區(qū),,只有第二手消息,所以中國必然需要有人站到技術(shù)的前沿,。 「暗涌」:現(xiàn)在的DeepSeek有一種OpenAI早期的理想主義氣質(zhì),,也是開源的。后邊你們會選擇閉源嗎,?OpenAI和Mistral都有過從開源到閉源的過程,。 梁文鋒:我們不會閉源。我們認(rèn)為先有一個強(qiáng)大的技術(shù)生態(tài)更重要,。 「暗涌」:你們有融資計(jì)劃嗎,?看有媒體報(bào)道,幻方對DeepSeek有獨(dú)立拆分上市的計(jì)劃,,硅谷的AI創(chuàng)業(yè)公司,,最終也都難免要和大廠綁定。 梁文鋒:短期內(nèi)沒有融資計(jì)劃,,我們面臨的問題從來不是錢,,而是高端芯片被禁運(yùn)。 「暗涌」:很多人認(rèn)為,,做AGI和做量化是完全不同的兩件事,,量化可以悶聲去做,但AGI可能更需要高舉高打,,需要結(jié)盟,,這樣可以讓你的投入變大。 梁文鋒:更多的投入并不一定產(chǎn)生更多的創(chuàng)新,。否則大廠可以把所有的創(chuàng)新包攬了,。 「暗涌」:你們現(xiàn)在不做應(yīng)用,是因?yàn)槟銈儧]有運(yùn)營的基因嗎,? 梁文鋒:我們認(rèn)為當(dāng)前階段是技術(shù)創(chuàng)新的爆發(fā)期,而不是應(yīng)用的爆發(fā)期,。長遠(yuǎn)來說,,我們希望形成一種生態(tài),,就是業(yè)界直接使用我們的技術(shù)和產(chǎn)出,我們只負(fù)責(zé)基礎(chǔ)模型和前沿的創(chuàng)新,,然后其它公司在DeepSeek 的基礎(chǔ)上構(gòu)建toB,、toC的業(yè)務(wù)。如果能形成完整的產(chǎn)業(yè)上下游,,我們就沒必要自己做應(yīng)用,。當(dāng)然,如果需要,,我們做應(yīng)用也沒障礙,,但研究和技術(shù)創(chuàng)新永遠(yuǎn)是我們第一優(yōu)先級。 「暗涌」:但選擇API的話,,為什么選擇DeepSeek,,而不是大廠? 梁文鋒:未來的世界很可能是專業(yè)化分工的,,基礎(chǔ)大模型需要持續(xù)創(chuàng)新,,大廠有它的能力邊界,并不一定適合,。 「暗涌」:但技術(shù)真的可以拉開差距嗎?你也說過并不存在絕對的技術(shù)秘密,。 梁文鋒:技術(shù)沒有秘密,但重置需要時間和成本,。英偉達(dá)的顯卡,,理論上沒有任何技術(shù)秘密,很容易復(fù)制,,但重新組織團(tuán)隊(duì)以及追趕下一代技術(shù)都需要時間,,所以實(shí)際的護(hù)城河還是很寬。 「暗涌」:你們降價(jià)后,,字節(jié)率先跟進(jìn),,說明他們還是感受到某種威脅。你怎么看創(chuàng)業(yè)公司與大廠競爭的新解法,? 梁文鋒:說實(shí)話我們不太care這件事,,只是順便做了這件事。提供云服務(wù)不是我們的主要目標(biāo),。我們的目標(biāo)還是去實(shí)現(xiàn)AGI,。 目前沒有看到什么新解法,但大廠也沒有明顯占優(yōu),。大廠有現(xiàn)成的用戶,,但它的現(xiàn)金流業(yè)務(wù)也是它的包袱,也會讓它成為隨時被顛覆的對象。 「暗涌」:你怎么看DeepSeek之外的6家大模型創(chuàng)業(yè)公司的終局,? 梁文鋒:可能活下來2到3家?,F(xiàn)在都還處在燒錢階段,所以那些自我定位清晰,、更能精細(xì)化運(yùn)營的,,更有機(jī)會活下來。其它公司可能會脫胎換骨,。有價(jià)值的東西不會煙消云散,,但會換一種方式。 「暗涌」:幻方時代,,面對競爭的姿態(tài)就被評價(jià)為“我行我素”,,很少在意橫向比較。關(guān)于競爭,,你思考的原點(diǎn)是什么,? 梁文鋒:我經(jīng)常思考的是,一個東西能不能讓社會的運(yùn)行效率變高,,以及你能否在它的產(chǎn)業(yè)分工鏈條上找到擅長的位置,。只要終局是讓社會效率更高,就是成立的,。中間很多都是階段性的,,過度關(guān)注必然眼花繚亂。 「暗涌」:OpenAI前政策主管,、Anthropic聯(lián)合創(chuàng)始人Jack Clark認(rèn)為DeepSeek雇傭了“一批高深莫測的奇才”,,做出DeepSeek v2的是怎樣一群人? 梁文鋒:并沒有什么高深莫測的奇才,,都是一些Top高校的應(yīng)屆畢業(yè)生,、沒畢業(yè)的博四、博五實(shí)習(xí)生,,還有一些畢業(yè)才幾年的年輕人,。 「暗涌」:很多大模型公司都執(zhí)著地去海外挖人,很多人覺得這個領(lǐng)域前50名的頂尖人才可能都不在中國的公司,,你們的人都來自哪里,? 梁文鋒:V2模型沒有海外回來的人,都是本土的,。前50名頂尖人才可能不在中國,,但也許我們能自己打造這樣的人。 所有的套路都是上一代的產(chǎn)物 「暗涌」:過去這一年,中國的大模型創(chuàng)業(yè)還是有很多變化的,,比如去年開頭還很活躍的王慧文中場退出了,,后來加入的公司也開始呈現(xiàn)出差異化。 梁文鋒:王慧文自己承擔(dān)了所有的損失,,讓其他人全身而退,。他做了一個對自己最不利,但對大家都好的選擇,,所以他做人是很厚道的,,這點(diǎn)我很佩服,。 「暗涌」:現(xiàn)在你的精力最多放在哪里? 梁文鋒:主要的精力在研究下一代的大模型,。還有很多未解決的問題,。 「暗涌」:其他幾家大模型創(chuàng)業(yè)公司都是堅(jiān)持既要又要,畢竟技術(shù)不會帶來永久領(lǐng)先,,抓住時間窗口把技術(shù)優(yōu)勢落到產(chǎn)品也很重要,,DeepSeek敢于專注在模型研究上是因?yàn)槟P湍芰€不夠嗎? 梁文鋒:所有的套路都是上一代的產(chǎn)物,,未來不一定成立,。拿互聯(lián)網(wǎng)的商業(yè)邏輯去討論未來AI的盈利模式,就像馬化騰創(chuàng)業(yè)時,,你去討論通用電氣和可口可樂一樣,。很可能是一種刻舟求劍。 「暗涌」:過去幻方就有很強(qiáng)的技術(shù)和創(chuàng)新基因,,成長也比較順利,,這是你偏樂觀的原因嗎? 梁文鋒:幻方某種程度上增強(qiáng)了我們對技術(shù)驅(qū)動型創(chuàng)新的信心,,但也不都是坦途,。我們經(jīng)歷了一個漫長的積累過程。外部看到的是幻方2015年后的部分,,但其實(shí)我們做了16年,。 「暗涌」:回到關(guān)于原創(chuàng)式創(chuàng)新的話題。現(xiàn)在經(jīng)濟(jì)開始進(jìn)入下行,,資本也進(jìn)入冷周期,,所以它對原創(chuàng)式創(chuàng)新是否會帶來更多抑制? 梁文鋒:我倒覺得未必,。中國產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整,,會更依賴硬核技術(shù)的創(chuàng)新。當(dāng)很多人發(fā)現(xiàn)過去賺快錢很可能來自時代運(yùn)氣,,就會更愿意俯身去做真正的創(chuàng)新,。 「暗涌」:所以你對這件事也是樂觀的? 梁文鋒:我是八十年代在廣東一個五線城市長大的,。我的父親是小學(xué)老師,,九十年代,廣東賺錢機(jī)會很多,,當(dāng)時有不少家長到我家里來,,基本就是家長覺得讀書沒用。但現(xiàn)在回去看,,觀念都變了,。因?yàn)殄X不好賺了,,連開出租車的機(jī)會可能都沒了。一代人的時間就變了,。 以后硬核創(chuàng)新會越來越多?,F(xiàn)在可能還不容易被理解,是因?yàn)檎麄€社會群體需要被事實(shí)教育,。當(dāng)這個社會讓硬核創(chuàng)新的人功成名就,,群體性想法就會改變。我們只是還需要一堆事實(shí)和一個過程,。 排版|姚楠 |
|