DeepSeek為什么能辦到,? 最近,一家名不見(jiàn)經(jīng)傳的AI企業(yè)突然搞出了一個(gè)震驚AI圈的大新聞,。12月26日晚間,,杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司(以下簡(jiǎn)稱(chēng)“深度求索”)發(fā)布了其全新系列模型DeepSeek-V3的首個(gè)版本,并同步對(duì)模型進(jìn)行了開(kāi)源,。 根據(jù)“深度求索”方面公布的信息,,DeepSeek-V3在知識(shí)類(lèi)任務(wù)(MMLU、MMLU-Pro,、GPQA,、SimpleQA)上的水平相比前代DeepSeek-V2.5有顯著提升,接近當(dāng)前表現(xiàn)最好的模型——An-thropic公司于10月發(fā)布的Claude-3.5-Sonnet-1022,。在2024年的美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)和全國(guó)高中數(shù)學(xué)聯(lián)賽(CNMO)等比賽中,,DeepSeek-V3的表現(xiàn)顯著優(yōu)于其他所有開(kāi)源和閉源模型。另外,,在生成速度上,,DeepSeek-V3的生成吐字速度從20TPS(TransactionsPerSecond,每秒事務(wù)數(shù)量)大幅提高至60TPS,,相比V2.5模型實(shí)現(xiàn)了3倍的提升,,給用戶帶來(lái)了更為流暢的使用體驗(yàn)。 本來(lái),,在AI大模型如過(guò)江之鯽的今天,,一個(gè)新模型的發(fā)布已經(jīng)很難成為一樁新聞。雖然從披露的信息看,,DeepSeek-V3確實(shí)可圈可點(diǎn),但在GPT-o1、Claude-3.5-Sonnet等競(jìng)品面前,,它也很難給人留下深刻的印象,。然而,當(dāng)另一個(gè)數(shù)據(jù)公布之后,,整個(gè)AI圈卻不約而同地為之側(cè)目,。根據(jù)模型附帶的技術(shù)論文,DeepSeek-V3的訓(xùn)練僅使用了278.8萬(wàn)個(gè)H800GPU小時(shí),。按照H800GPU每GPU小時(shí)租金2美元計(jì)算,,其總訓(xùn)練成本僅為557.6萬(wàn)美元。而對(duì)比之下,,和它類(lèi)似體量的Llama3模型的訓(xùn)練則用了3930萬(wàn)H100GPU小時(shí),。按算力計(jì)算,這大約夠訓(xùn)練DeepSeek-V3模型十五次,??紤]到H100GPU的租金價(jià)格要比 H800GPU更高,DeepSeek-V3的訓(xùn)練成本大約僅有Llama3模型的二十分之一,,而其在性能方面毫不遜于后者,,甚至有所超越。 既然訓(xùn)練成本降下來(lái)了,,模型的使用成本自然也就隨之降低,。目前,,DeepSeek-V3模型API服務(wù)的價(jià)格為每百萬(wàn)輸入詞元(token)0.15美元,每百萬(wàn)輸出詞元0.3美元,;對(duì)比之下,,GPT-o1模型的價(jià)格為每百萬(wàn)輸入詞元2.5美元,每百萬(wàn)輸出詞元10美元,;Claude-3.5-Sonnet模型的價(jià)格為每百萬(wàn)輸入詞元3美元,,每百萬(wàn)輸出詞元15美元。也就是說(shuō),,DeepSeek-V3已經(jīng)成功將價(jià)格降到了主要對(duì)手的十分之一以下,。 在DeepSeek-V3模型發(fā)布之后,筆者也第一時(shí)間體驗(yàn)了一下這款新模型,??陀^地說(shuō),如果與GPT-o1等閉源模型相比,,DeepSeek-V3在總體表現(xiàn)上依然稍顯遜色,。不過(guò),考慮到它低廉的成本,,其性價(jià)比優(yōu)勢(shì)可謂彰顯無(wú)遺,。業(yè)界一直戲稱(chēng)DeepSeek模型為“AI界的拼多多”,此言確實(shí)不虛,! 長(zhǎng)期以來(lái),,大模型的訓(xùn)練一直以耗費(fèi)算力、成本高昂著稱(chēng),。那么,,DeepSeek-V3究竟為什么可以以如此低廉的價(jià)格成功完成訓(xùn)練?其中的奧秘,,很大程度上來(lái)自該模型使用的“混合專(zhuān)家模型”(MixtureofExperts,,簡(jiǎn)稱(chēng)MoE)架構(gòu)。 MoE的思想最早可以追溯到上世紀(jì)90年代初,。根據(jù)這一思想,,可以通過(guò)將多個(gè)實(shí)現(xiàn)專(zhuān)門(mén)功能的網(wǎng)絡(luò)組合在一起,構(gòu)成一個(gè)應(yīng)對(duì)多樣化任務(wù)的網(wǎng)絡(luò),。每一個(gè)子網(wǎng)絡(luò)被稱(chēng)為一個(gè)“專(zhuān)家”,,而由它們構(gòu)成的組合則被稱(chēng)為一個(gè)“專(zhuān)家組”。為了讓這些“專(zhuān)家”更好地協(xié)調(diào),,網(wǎng)絡(luò)中會(huì)安排一個(gè)協(xié)調(diào)者,。當(dāng)面對(duì)任務(wù)時(shí),這個(gè)協(xié)調(diào)者負(fù)責(zé)將任務(wù)拆分和歸類(lèi),并分配到最對(duì)口的“專(zhuān)家”那里,。如此一來(lái),,整個(gè)“專(zhuān)家組”結(jié)合在一起,就可以處理各種復(fù)雜任務(wù),。2021年,,谷歌的工程師發(fā)現(xiàn)了MoE架構(gòu)在大模型訓(xùn)練上的價(jià)值。他們指出,,這種架構(gòu)可以將原本訓(xùn)練整個(gè)大模型的任務(wù)分解為訓(xùn)練多個(gè)“專(zhuān)家”模型。由于每個(gè)“專(zhuān)家”模型比整個(gè)大模型小得多,,其訓(xùn)練對(duì)算力的要求也大幅降低,。不僅如此,在MoE架構(gòu)下,,不同“專(zhuān)家”可以并行訓(xùn)練,,訓(xùn)練時(shí)長(zhǎng)也隨之縮短,從而顯著提高訓(xùn)練效率,。 為了幫助讀者更直觀地理解MoE架構(gòu),,我們不妨來(lái)看金庸小說(shuō)《天龍八部》中的一段情節(jié)。在小說(shuō)第十回《劍氣碧煙橫》中,,吐蕃國(guó)師鳩摩智要求大理天龍寺限期交出《六脈神劍劍譜》,。天龍寺的枯榮大師不愿就范,希望與幾位高僧一起緊急修煉六脈神劍以拒敵,。不幸的是,,這幾位高僧的武學(xué)資質(zhì)較為平庸,難以單獨(dú)練成這門(mén)絕世武功,。情急之下,,枯榮大師想出了一個(gè)辦法:讓六位高僧分別修煉“六脈”中的一脈。通過(guò)分工,,六位高僧終于在有限時(shí)間內(nèi)各自練成一脈神劍,。在對(duì)戰(zhàn)鳩摩智時(shí),六位高僧組成“六脈劍陣”,,在枯榮大師的指揮下成功與鳩摩智周旋,。 這段劇情很好地說(shuō)明了MoE的本質(zhì)。如果將六脈神劍中的每一脈視為一個(gè)任務(wù),,六脈神劍便是一個(gè)多任務(wù)的大模型,。故事中,練習(xí)六脈神劍需要強(qiáng)大資質(zhì),,如同現(xiàn)實(shí)中大模型訓(xùn)練對(duì)算力的高要求,。而枯榮大師讓高僧們各修一脈的做法,相當(dāng)于將模型拆分為六個(gè)“專(zhuān)家”,。通過(guò)這樣的任務(wù)分解,,本身資質(zhì)有限的高僧們得以速成六分之一的武功,,并通過(guò)組合達(dá)成類(lèi)似完整版六脈神劍的效果。類(lèi)似地,,幾個(gè)訓(xùn)練好的“專(zhuān)家”模型經(jīng)過(guò)加總與協(xié)調(diào),,也可實(shí)現(xiàn)完整模型的功能,同時(shí)訓(xùn)練門(mén)檻和總成本遠(yuǎn)低于直接訓(xùn)練整個(gè)大模型,。 當(dāng)然,,相比完整訓(xùn)練的模型,用MoE架構(gòu)訓(xùn)練的模型也存在弊端,。例如小說(shuō)中,,鳩摩智趁人不備偷襲劍陣成員之一保定帝,導(dǎo)致劍陣失去威力,。如果保定帝修煉的是完整的六脈神劍,,鳩摩智或許難以輕易得手。同樣,,由于MoE模型的“專(zhuān)家”是分別訓(xùn)練的,,其通用性較差,對(duì)復(fù)雜任務(wù)的完成高度依賴協(xié)調(diào)系統(tǒng),。如果協(xié)調(diào)模塊出現(xiàn)問(wèn)題,,模型能力將大打折扣。 盡管如此,,MoE架構(gòu)在降低模型訓(xùn)練門(mén)檻,、減少訓(xùn)練成本方面的貢獻(xiàn)無(wú)可否認(rèn)。這次DeepSeek-V3的爆冷成功,,充分說(shuō)明了這一技術(shù)路線的價(jià)值,。可以預(yù)見(jiàn),,隨著MoE及其他技術(shù)路線(如模型剪枝,、知識(shí)蒸餾、稀疏性等)的逐步成熟,,AI模型訓(xùn)練將迎來(lái)一個(gè)低成本的新時(shí)代,。那么,接下來(lái)會(huì)發(fā)生什么呢,? 算力不重要了嗎,? DeepSeek-V3問(wèn)世后,不少人預(yù)測(cè),,這將導(dǎo)致AI行業(yè)對(duì)算力需求的大幅回落,,其后果是,以英偉達(dá)為代表的一批算力企業(yè)的業(yè)績(jī)和市值將受到重創(chuàng)。這種觀點(diǎn)頗具影響力,。事實(shí)上,,就在DeepSeek-V3發(fā)布之后,A股算力板塊經(jīng)歷了一輪集體下跌,,一些專(zhuān)家認(rèn)為,,這是對(duì)算力需求預(yù)期回落的直接反應(yīng)。那么,,情況真的會(huì)這樣嗎,?在回答這一問(wèn)題前,我們不妨回顧一段歷史,。 19世紀(jì)中期,,英國(guó)正處于工業(yè)革命高峰期,煤炭作為主要能源,,支撐了蒸汽機(jī)、鋼鐵工業(yè)和交通運(yùn)輸?shù)阮I(lǐng)域的快速發(fā)展,。煤炭的廣泛使用促進(jìn)了工業(yè)化和經(jīng)濟(jì)增長(zhǎng),,但也導(dǎo)致了對(duì)煤炭的過(guò)分依賴和過(guò)度消耗。在這樣的背景下,,許多學(xué)者開(kāi)始反思煤炭使用的可持續(xù)性問(wèn)題,。 英國(guó)經(jīng)濟(jì)學(xué)家威廉·斯坦利·杰文斯(WilliamStanleyJevons)是其中的代表人物之一。熟悉經(jīng)濟(jì)思想史的人對(duì)杰文斯不會(huì)陌生,。他與卡爾·門(mén)格爾(CarlMenger),、萊昂·瓦爾拉斯(LéonWalras)并稱(chēng)“邊際革命三杰”,推動(dòng)了經(jīng)濟(jì)學(xué)研究范式從古典向新古典的轉(zhuǎn)變,。杰文斯在應(yīng)用經(jīng)濟(jì)學(xué)領(lǐng)域也有諸多貢獻(xiàn),,其中之一便是他提出的“杰文斯悖論”(JevonsParadox)。 1865年,,杰文斯在著作《煤炭問(wèn)題》(TheCoalQuestion)中分析了英國(guó)煤炭使用和開(kāi)采的趨勢(shì),,得出一個(gè)令人憂慮的結(jié)論:隨著經(jīng)濟(jì)發(fā)展,煤炭供給將難以滿足需求,,若該趨勢(shì)持續(xù),,煤炭資源將枯竭,英國(guó)經(jīng)濟(jì)將遭受重創(chuàng),。他還反駁了“能源使用效率提升能緩解資源枯竭”這一流行觀點(diǎn),。他寫(xiě)道:“認(rèn)為燃料的節(jié)約使用等于消費(fèi)的減少,這是一個(gè)誤導(dǎo)人的觀點(diǎn),。事實(shí)上,,新的經(jīng)濟(jì)模式反而會(huì)導(dǎo)致消費(fèi)的增加。”杰文斯認(rèn)為,,更高的煤炭使用效率提高了煤炭的性價(jià)比,,刺激了更多人使用煤炭,最終使煤炭總消耗增加,。這一效率與總量之間的矛盾即為“杰文斯悖論”,。 盡管杰文斯對(duì)煤炭枯竭的預(yù)測(cè)未成現(xiàn)實(shí),《煤炭問(wèn)題》并未廣為人知,,但“杰文斯悖論”卻在后續(xù)研究中被多次驗(yàn)證,。例如,歐美交通行業(yè)的研究表明,,雖然汽車(chē)燃油效率不斷提高,,但汽車(chē)保有量和使用量的增長(zhǎng)使能源總消耗未顯著減少。同樣,,在日,、德等國(guó)家的家庭用電研究中,節(jié)能電器的引入并未帶來(lái)預(yù)期的能源需求下降,。 將模型訓(xùn)練算力需求下降與這一歷史對(duì)比,,不難發(fā)現(xiàn)兩者間存在諸多相似點(diǎn)。因此,,有理由推測(cè),,“杰文斯悖論”可能在算力領(lǐng)域再次上演。也就是說(shuō),,模型訓(xùn)練所需算力的下降,,可能非但不會(huì)讓市場(chǎng)上對(duì)算力的總需求下降,反而可能激發(fā)對(duì)算力總需求的增長(zhǎng),。具體來(lái)說(shuō),,目前有如下幾股力量可能導(dǎo)致這一現(xiàn)象的出現(xiàn): 首先,隨著訓(xùn)練模型需要的算力減少,,大量算力資源可能會(huì)被轉(zhuǎn)投入推理端,。從目前算力市場(chǎng)的需求結(jié)構(gòu)來(lái)看,訓(xùn)練和推理的比例大約是7:3,。換言之,,當(dāng)前約有70%的算力用于模型訓(xùn)練,僅30%用于推理,。然而,,這并不意味著推理端的算力需求較少。事實(shí)上,,當(dāng)前各大AI供應(yīng)商的推理算力普遍不足,。以O(shè)penAI為例,,近期不少用戶反映,其旗下的GPT-4o和GPT-4出現(xiàn)了較為明顯的“降智”現(xiàn)象,,而這正是由于推理算力不足所導(dǎo)致的算力使用總體控制問(wèn)題,。即便是像OpenAI這樣資源雄厚的企業(yè)尚且如此,推理算力的稀缺性也可見(jiàn)一斑?,F(xiàn)階段,,多數(shù)AI企業(yè)將大量算力配置于訓(xùn)練端,主要是因?yàn)橛?xùn)練的重要性更高——如果模型本身不夠優(yōu)秀,,后續(xù)推理環(huán)節(jié)便無(wú)從談起,。因此,即使訓(xùn)練算力需求下降,,短期內(nèi)節(jié)省的算力資源也會(huì)迅速被轉(zhuǎn)用于推理端,,從而導(dǎo)致算力總需求難以顯著下降。 其次,,隨著模型訓(xùn)練算力需求的減少,,AI企業(yè)可能會(huì)選擇開(kāi)發(fā)更多、更優(yōu)秀的模型,,從而顯著提升算力總需求,。當(dāng)前,AI大模型賽道內(nèi)卷嚴(yán)重,,每家企業(yè)為了在競(jìng)爭(zhēng)中占據(jù)一席之地,,往往會(huì)選擇在既有算力資源下開(kāi)發(fā)更多的模型,,或?qū)①Y源集中于少數(shù)重點(diǎn)模型的訓(xùn)練中,。無(wú)論采用哪種策略,激烈的競(jìng)爭(zhēng)都將促使企業(yè)最大化利用其可支配的算力,。換言之,,單個(gè)模型訓(xùn)練算力需求的下降,只是放寬了企業(yè)的選擇空間,,而企業(yè)依然會(huì)耗盡其手中所有算力,。 再次,模型訓(xùn)練算力需求的下降可能會(huì)降低行業(yè)門(mén)檻,,吸引更多新企業(yè)進(jìn)入市場(chǎng),,從而顯著提升算力總需求。以往,,模型訓(xùn)練所需的高昂算力成本是進(jìn)入AI市場(chǎng)的主要門(mén)檻,,阻擋了許多創(chuàng)業(yè)者。然而,,隨著訓(xùn)練算力成本的下降,,這些創(chuàng)業(yè)者中的一部分將能夠進(jìn)入市場(chǎng),,創(chuàng)立自己的AI企業(yè),進(jìn)而創(chuàng)造出新的算力需求,。這種新增需求可能是極為龐大的,。 最后,隨著模型訓(xùn)練成本的下降,,模型使用成本也將降低,,從而吸引更多用戶采用大模型,進(jìn)一步推動(dòng)算力需求的增長(zhǎng),。這種情況類(lèi)似于福特T型車(chē)的故事,。20世紀(jì)初,汽車(chē)的平均售價(jià)約為4700美元,,高昂的價(jià)格讓大部分家庭望而卻步,,導(dǎo)致汽車(chē)市場(chǎng)規(guī)模難以擴(kuò)張。亨利·福特在1903年創(chuàng)立公司后,,通過(guò)改進(jìn)制造工藝,、引入流水線技術(shù)等手段,將福特T型車(chē)的生產(chǎn)成本降至800美元,,售價(jià)壓低到850美元,,使得更多家庭能夠負(fù)擔(dān)得起汽車(chē)。這一改變不僅擴(kuò)大了汽車(chē)市場(chǎng)需求,,還推動(dòng)了福特公司的產(chǎn)能增長(zhǎng),,最終實(shí)現(xiàn)了規(guī)模經(jīng)濟(jì)。到1914年,,福特T型車(chē)的生產(chǎn)成本進(jìn)一步降至200美元,,售價(jià)僅為260美元。盡管單車(chē)價(jià)格降至原來(lái)的十分之一,,整個(gè)汽車(chē)市場(chǎng)的規(guī)模卻增長(zhǎng)了許多倍,。在我看來(lái),如今的大模型市場(chǎng)可能正在復(fù)制這一百年前的故事,。 綜合以上分析,,DeepSeek-V3引發(fā)的訓(xùn)練成本下降可能成為“杰文斯悖論”的又一例證??傮w來(lái)看,,算力需求不僅不會(huì)減少,反而可能因此顯著增加,。 算力門(mén)檻降低是一連串的事件 需要指出的是,,雖然在我看來(lái),DeepSeek-V3的成功不會(huì)降低AI對(duì)算力的總需求,,但這并不意味著這個(gè)事件本身并不重要,。事實(shí)上,,在我看來(lái),這一事件的影響十分深遠(yuǎn),,從某種意義上講,,它甚至?xí)淖冋麄€(gè)AI市場(chǎng)的競(jìng)爭(zhēng)格局。要說(shuō)明這一點(diǎn),,我們需要先對(duì)AI市場(chǎng)的結(jié)構(gòu)有一個(gè)基本的了解,。 當(dāng)我們提到AI市場(chǎng)時(shí),實(shí)際上是在討論一個(gè)多層次的市場(chǎng): 底層是基礎(chǔ)支持層,,包括訓(xùn)練和開(kāi)發(fā)AI所需的軟硬件,。在這一層中,GPU市場(chǎng)是最核心,、最受關(guān)注的部分,。眾所周知,目前在這一市場(chǎng)上,,英偉達(dá)可謂一家獨(dú)大,。根據(jù)咨詢機(jī)構(gòu)Techsight發(fā)布的數(shù)據(jù),2023年全球數(shù)據(jù)中心GPU出貨量為385萬(wàn)顆,,其中英偉達(dá)的市場(chǎng)份額高達(dá)98%,,第二名AMD僅占1.2%,英特爾不足1%,。英偉達(dá)能夠取得這樣的市場(chǎng)地位,,很大程度上依賴于大模型訓(xùn)練對(duì)算力的高要求。在訓(xùn)練過(guò)程中,,數(shù)以萬(wàn)計(jì)的GPU需要高效協(xié)同,,而英偉達(dá)在GPU協(xié)同性能方面表現(xiàn)尤為出色。正因如此,,各大AI企業(yè)即使面對(duì)英偉達(dá)的高價(jià)策略,,也不得不被動(dòng)接受——用經(jīng)濟(jì)學(xué)的術(shù)語(yǔ)來(lái)說(shuō),,英偉達(dá)利用了其技術(shù)上的獨(dú)特優(yōu)勢(shì),,成功獲取了高于市場(chǎng)價(jià)的“租”(rent)。 中間層是基礎(chǔ)模型層,,主要參與者是開(kāi)發(fā)和提供基礎(chǔ)大模型的AI企業(yè),。過(guò)去幾年中,這一層的競(jìng)爭(zhēng)最為激烈,。為了爭(zhēng)奪市場(chǎng),,數(shù)百家AI企業(yè)紛紛使出渾身解數(shù)。在“百模大戰(zhàn)”后,,市場(chǎng)逐漸由幾家互聯(lián)網(wǎng)巨頭和少數(shù)新崛起的AI企業(yè)主導(dǎo),,其他眾多參與者則陸續(xù)退出市場(chǎng),。在這一過(guò)程中,有兩點(diǎn)值得注意:首先,,一些失敗的企業(yè)盡管技術(shù)能力優(yōu)秀,,卻因難以負(fù)擔(dān)巨大的算力成本而不得不退出,這無(wú)疑限制了市場(chǎng)的多樣性和可能性,;其次,,即便是那些在“百模大戰(zhàn)”中獲勝的企業(yè),從成本收益的角度來(lái)看,,也未必是真正的贏家,。雖然部分企業(yè)實(shí)現(xiàn)了可觀營(yíng)收,但大部分收入轉(zhuǎn)手支付給了英偉達(dá)等算力供應(yīng)商,。從整體來(lái)看,,大模型企業(yè)普遍難以實(shí)現(xiàn)盈利。 最上層是AI的應(yīng)用層,,即將基礎(chǔ)AI模型與各行業(yè)實(shí)踐相結(jié)合的領(lǐng)域,。最值得關(guān)注的是各種“AI智能體”(AIAgent)。許多專(zhuān)家預(yù)測(cè),,在未來(lái)幾年,,AI智能體將成為AI應(yīng)用的核心。例如,,巴克萊資本公司的一份報(bào)告預(yù)計(jì),,到2026年,消費(fèi)端AI智能體的日活躍用戶將突破10億,,企業(yè)端AI智能體的采用率也可能覆蓋全球70億軟件任務(wù)的5%,。然而,這一趨勢(shì)同樣需要大量算力支持,。巴克萊的報(bào)告指出,,為滿足如此龐大的算力需求,行業(yè)GPU支出需增加4000億美元,,而這筆巨額支出最終將成為新的“租”,,流入英偉達(dá)等GPU供應(yīng)商的口袋。 DeepSeek-V3的成功及其引發(fā)的訓(xùn)練成本大幅下降,,可能對(duì)上述各層市場(chǎng)的競(jìng)爭(zhēng)格局產(chǎn)生深遠(yuǎn)影響,。 基礎(chǔ)支持層的格局可能迎來(lái)巨變。盡管英偉達(dá)仍可憑借既有優(yōu)勢(shì)占據(jù)大部分市場(chǎng)份額,,但其一家獨(dú)大的局面可能被打破,。隨著訓(xùn)練算力門(mén)檻降低,一些企業(yè)或許會(huì)放棄“萬(wàn)卡集群”,,轉(zhuǎn)而選擇更小規(guī)模的GPU集群進(jìn)行模型訓(xùn)練,,對(duì)GPU協(xié)同性能的需求也隨之降低,,從而削弱英偉達(dá)的傳統(tǒng)優(yōu)勢(shì)。這為AMD,、英特爾等競(jìng)爭(zhēng)者提供了機(jī)會(huì),,其他潛在的市場(chǎng)進(jìn)入者也可能因此獲益。市場(chǎng)競(jìng)爭(zhēng)的加劇將削弱英偉達(dá)的議價(jià)權(quán),,讓AI模型企業(yè)保留更多利潤(rùn),。 基礎(chǔ)模型市場(chǎng)的競(jìng)爭(zhēng)可能重新變得激烈。一些意外的“顛覆式創(chuàng)新”也可能隨之出現(xiàn),。如前所述,,在“百模大戰(zhàn)”中,有不少企業(yè)原本具備較好的技術(shù)能力,,卻因難以負(fù)擔(dān)巨大的算力成本而被迫退出市場(chǎng),。可以預(yù)料的是,,隨著算力成本變得更加可控,,其中一部分企業(yè)將重新進(jìn)入市場(chǎng)。再加上一些新競(jìng)爭(zhēng)者的加入,,整個(gè)市場(chǎng)的競(jìng)爭(zhēng)程度可能會(huì)顯著提升,。 需要指出的是,訓(xùn)練成本降低對(duì)基礎(chǔ)模型市場(chǎng)競(jìng)爭(zhēng)格局的改變,,可能不僅體現(xiàn)在“量”的層面,,還會(huì)在“質(zhì)”上產(chǎn)生深遠(yuǎn)影響,。著名戰(zhàn)略學(xué)家克里斯藤森(ClaytonChristensen)提出了“顛覆式創(chuàng)新”(DisruptiveInnovation)的概念。這類(lèi)創(chuàng)新的特點(diǎn)是,,創(chuàng)新者的產(chǎn)品在初期性能通常較差,難以吸引高端用戶群體,。但它們往往以高性價(jià)比為切入點(diǎn),,先從中低端用戶群體中獲得突破,逐步擴(kuò)大市場(chǎng)份額,。在此過(guò)程中,,產(chǎn)品會(huì)快速迭代,,性能持續(xù)提升,,最終可能超越市場(chǎng)上的主流產(chǎn)品,成為新的主流,。 以此為標(biāo)準(zhǔn)觀察AI大模型市場(chǎng),,已經(jīng)有不少企業(yè)在嘗試走“顛覆式創(chuàng)新”的路線,。雖然它們的性能確實(shí)不及GPT、Claude等頭部大模型,,但它們已經(jīng)能夠滿足用戶的基本需求,。而且,這些企業(yè)在實(shí)踐中表現(xiàn)出較快的產(chǎn)品迭代速度,,產(chǎn)品特征也在迭代過(guò)程中日益顯著,。可以說(shuō),,如果給它們足夠的時(shí)間,,即使它們無(wú)法徹底顛覆GPT,也至少有可能開(kāi)發(fā)出與GPT存在明顯差異化的產(chǎn)品,,并在市場(chǎng)上占據(jù)一席之地,。 然而,受限于高昂的訓(xùn)練成本,,這些企業(yè)的創(chuàng)新頻率被嚴(yán)重抑制,,缺乏盈利能力也容易讓投資者喪失耐心。在這種重重壓力下,,能夠堅(jiān)持到開(kāi)發(fā)出符合市場(chǎng)需求產(chǎn)品的企業(yè)可謂鳳毛麟角,。而當(dāng)模型訓(xùn)練成本大幅降低后,這些企業(yè)將迎來(lái)全新的機(jī)會(huì),。相比過(guò)去,,同樣的一筆投資能夠支撐它們更長(zhǎng)時(shí)間,從而顯著提高其實(shí)現(xiàn)“顛覆式創(chuàng)新”的可能性,。 AI應(yīng)用市場(chǎng)可能因此更加繁榮,。訓(xùn)練成本下降后,AI企業(yè)將有更多自由度選擇將算力用于訓(xùn)練還是推理,。許多企業(yè)可能會(huì)選擇在推理端投入更多算力,,從而推動(dòng)AI應(yīng)用生態(tài)的發(fā)展。與基礎(chǔ)支持層和基礎(chǔ)模型層不同,,應(yīng)用層直接面向C端用戶,。當(dāng)這個(gè)市場(chǎng)進(jìn)一步發(fā)展時(shí),反過(guò)來(lái)將對(duì)基礎(chǔ)支持層和模型層形成有力推動(dòng),,實(shí)現(xiàn)整個(gè)AI市場(chǎng)的良性循環(huán),。 綜上所述,模型訓(xùn)練算力需求的下降可能是整個(gè)AI行業(yè)的一個(gè)轉(zhuǎn)折點(diǎn),。它引發(fā)的一系列連鎖效應(yīng)有望在未來(lái)幾年改變市場(chǎng)的基本面貌,。 一些隨想 本來(lái),暢想完DeepSeek-V3可能給整個(gè)行業(yè)帶來(lái)的影響后,本文也該結(jié)束了,。但在擱筆之前,,筆者還是想再說(shuō)幾句隨想。 就在幾天前,,DeepSeek-V3的發(fā)布者——“深度求索”這個(gè)名字,,還幾乎無(wú)人知曉。甚至有幾位業(yè)內(nèi)人士在聽(tīng)到DeepSeek-V3后,,特地來(lái)問(wèn)我,,這家公司到底是何方神圣。這其實(shí)并不奇怪,。畢竟從理論上講,,“深度求索”成立才一年多時(shí)間,在強(qiáng)敵林立的大模型賽道上,,它并不算出名,。事實(shí)上,在此次因DeepSeek-V3一舉出圈之前,,關(guān)于它的最大新聞還是其上一款 AI模型DeepSeek-V2曾將大模型的使用價(jià)格“砍”掉了90%以上,,從而帶頭挑起了大模型的價(jià)格戰(zhàn)。然而,,沒(méi)過(guò)多久,,騰訊、字節(jié)跳動(dòng),、阿里巴巴等巨頭紛紛加入了這場(chǎng)價(jià)格戰(zhàn),,結(jié)果,最初的帶頭人反而被遺忘了,。 盡管“深度求索”本身并不出名,,但其母公司——幻方量化的知名度卻要高得多。早在去年,,就有媒體曝出,,國(guó)內(nèi)GPU數(shù)量最多的企業(yè)并非AI公司,而是這家從事量化投資的金融公司,。更令人驚訝的是,,在眾多AI公司意識(shí)到算力的重要性之前,幻方量化早已悄悄囤積了1.1萬(wàn)張GPU顯卡,。當(dāng)時(shí),,許多人好奇地問(wèn):一家金融公司究竟需要這么多GPU做什么?而隨著DeepSeek-V3的成功,,這個(gè)問(wèn)題似乎已經(jīng)得到了完美的回答,。 有意思的是,,盡管幻方量化手握上萬(wàn)張顯卡,但它并未像許多AI企業(yè)那樣,,通過(guò)“堆算力”的方式訓(xùn)練模型,。相反,,它選擇了“過(guò)緊日子”,,積極探索如何降低模型訓(xùn)練的成本。精打細(xì)算,,這或許正是金融人和技術(shù)人在思維上的根本區(qū)別吧,! 這一次,AI市場(chǎng)或許將因?yàn)檫@種金融思維而發(fā)生不同尋常的變化,。 免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),,投資需謹(jǐn)慎。本平臺(tái)資訊相關(guān)內(nèi)容,、數(shù)據(jù)來(lái)源于公開(kāi)信息或第三方,,可能因網(wǎng)絡(luò)、系統(tǒng),、硬件,、軟件等各種原因存在延遲、遺漏或錯(cuò)誤,,國(guó)泰君安證券股份有限公司對(duì)其真實(shí)性,、準(zhǔn)確性、完整性和及時(shí)性不作任何保證,。本資訊內(nèi)容中如涉及具體股票名稱(chēng),、代碼或技術(shù)圖形等,僅供知識(shí)介紹或操作演示使用,。本資訊內(nèi)容僅供參考,,不構(gòu)成對(duì)所述證券買(mǎi)賣(mài)的意見(jiàn),不應(yīng)作為投資決策的唯一參考因素,,投資者需自主作出投資決策并獨(dú)立承擔(dān)投資風(fēng)險(xiǎn),。在任何情況下,國(guó)泰君安證券股份有限公司不對(duì)任何機(jī)構(gòu)/個(gè)人因使用本資訊內(nèi)容所導(dǎo)致的任何損失負(fù)任何責(zé)任,。 |
|