大概一周多之前,,DeepSeek還算不上太有名氣,在大模型圈之外,,外界對它可能多是一頭霧水,。然而短短幾天,其就一躍成為業(yè)界頂流,,并闖進了公眾視野,。 因接連推出的兩款大模型產品,DeepSeek在華爾街掀起風暴,,美股科技股一度重挫,。周二,英偉達單日蒸發(fā)近6000億美元市值,,博通和美光科技等芯片產業(yè)鏈股票也紛紛大跌,。雖然周三英偉達反彈漲近9%,但DeepSeek帶來的心理沖擊并沒消散,。 “DeepSeek大模型在性能上比肩ChatGpt,,可能意味著國產大模型實現(xiàn)突破,這對美股科技股造成了沖擊,?!鼻昂i_源基金首席經濟學家楊德龍告據記者。在他看來,,科技股是美股牛市的主要推動力,,但投資者擔心其估值產生巨大泡沫。若一些新技術突破或新模型不需要消耗那么多的GPU,可能會引發(fā)像英偉達等公司的大幅下跌,,從而導致美股科技股泡沫破裂,。 作為一家成立不到兩年的大模型公司,,無論在融資,、技術進展還是輿論層面,DeepSeek一向都動靜不大,。而它背后的公司幻方量化(一家頭部量化私募),,在此之前也僅是在私募圈出名。出人意料的是,,一家私募和一家大模型初創(chuàng)公司,,這樣的少見組合誕生了“DeepSeek神話”——無疑令人倍感好奇。 這一切是怎么做到的,? 潛行多年 如果從成立時間上看,,DeepSeek并無特別之處。自2022年底ChatGPT發(fā)布之后,,全球科技圈震動,,隨之一系列國產大模型創(chuàng)業(yè)項目面世。DeepSeek搭乘的也是這股潮流,,2023年4月,,幻方量化高調宣布進軍大模型,三個月之后,,DeepSeek作為獨立公司成立,。 但脫胎于幻方量化的DeepSeek,其實技術積累要更早,。 幻方量化成立于2015年,,創(chuàng)始人是梁文鋒。在該公司官網上,,赫然寫著的是:使用AI投資的對沖基金,。按照幻方量化的披露,在公司成立之前七八年時間,,創(chuàng)始團隊就在探索將技術應用于投資交易,。當時量化投資在國內尚未流行,團隊成員在這方面的經驗同樣寥寥,,出于朦朧的市場感知和技術理想,,梁文鋒團隊仍決定走上這條路。 在這一時期,,幻方量化創(chuàng)始團隊從零開始嘗試全自動交易,,采用機器學習等技術。2010年是一個轉折點,當年股指期貨和融資融券相繼推出,,A股投資更活躍和多樣化,。一時間,量化投資在國內私募基金業(yè)逐漸增加,,報道稱梁文鋒團隊也借此收益頗豐,。 2015年,幻方量化正式成立,,借助AI和數(shù)學進行量化投資,。2016年,幻方量化第一個由深度學習算法模型生成的股票倉位上線實盤交易,,使用GPU進行計算,。而在此之前,算法主要依靠線性模型和傳統(tǒng)機器學習算法,,模型計算主要依賴于CPU,。 自此之后,幻方的量化策略全面AI化,。到2017年底,,幾乎所有量化策略均已采用AI模型計算。隨后不久,,該公司明確宣布AI為主要發(fā)展方向,。 所謂量化投資,指的是借助統(tǒng)計學和數(shù)學方法,,利用計算機程序對大量數(shù)據進行分析,,尋求獲得超額收益的投資策略。在持倉風格上,,量化投資傾向高度分散和多樣化配置,,以降低單一資產波動的風險。在決策上,,不同于傳統(tǒng)的依靠基金經理主觀判斷,,量化公司是基于數(shù)據和模型進行交易。 全面AI化也帶來某些問題,,比如復雜的模型計算需求使得單機訓練遭遇算力瓶頸,,訓練需求和有限的計算資源產生矛盾,幻方量化需要解決大規(guī)模算力的受限難題,。在這個背景下,,幻方量化在2019年成立了一家AI基礎研究公司,并推出自研的“螢火一號”AI集群,,搭載500塊顯卡,。同一年,,幻方量化規(guī)模擴張,躋身百億私募,。2021年,,幻方又斥資10億元加碼建設“螢火二號”,為AI研究提供算力支持,。 從事后來看,,幻方量化在構建AI算力過程中的“囤卡”動作,為它贏得了市場機會,。作為國內早期的英偉達芯片大買家之一,,在ChatGPT爆發(fā)前夜,,幻方量化手中的英偉達顯卡數(shù)量就越攢越多,。據幻方量化稱,在2022年時,,其用于科研支持的閑時算力高達1533萬GPU時,,這意味著每天用于科研而非交易的算力便達4.2萬GPU時。這個水平,,大大超越了后來的很多大模型公司,。 DeepSeek,就是在這樣的加持下問世,。 也交過學費 幻方量化上演了一個“一朝成名天下知”的精彩故事,,在它的敘事版本里,無論做金融交易還是進軍大模型,,都是比較純粹的技術向追求,。 一位接近幻方量化的投資人士告據記者,他一直很關注這家公司,,并且和團隊成員有過交流,。雖然沒有直接接觸過創(chuàng)始人本人,但能感覺出來,,相對于商業(yè)盈利,,這個團隊的技術理想色彩是更為濃厚的。 幻方量化希望通過AI量化交易,,對金融資產進行定價和投資,。金融交易足夠復雜,又是從起家就介入的領域,,對于旨在實現(xiàn)通用人工智能(AGI)的幻方量化而言,,這是一個非常合適的切入場景。 早在2020年,,點拾投資創(chuàng)始人朱昂曾訪談過幻方量化CEO陸政哲,。彼時陸政哲稱,幻方量化將自己定義為一家完全依靠AI來做投資的對沖基金。其模型數(shù)據來源有三個,,分別是行情數(shù)據,、覆蓋全市場的基本面數(shù)據以及經過結構化處理的另類數(shù)據。用這三類數(shù)據來訓練機器模型,,據此構建投資組合,,再用精細化的程序化交易完成交易。 這套打法確實效果顯著,,在2017年-2020年間,,整個量化行業(yè)高速增長,幻方量化的管理規(guī)模也水漲船高,。不過,,量化交易并非完美,幻方量化在這上面也吃過苦頭,。 2021年12月,,由于業(yè)績回撤達歷史最大值,幻方量化就業(yè)績不及格發(fā)文致歉,?;梅搅炕Q,其人工反復檢視了AI的投資決策,,認為AI選出來的股票從長期價值來說基本上沒問題,,但在買賣時點上確實做的不夠好。尤其市場風格劇烈切換時,,AI傾向于冒險博取更多收益,,這進一步加大了回撤。 量化資管行業(yè)擴張?zhí)?,被認為是另一個原因,。幻方量化認為,,行業(yè)規(guī)模猛增,,導致策略同質化嚴重,加大了整體操作的難度,。因此,,當時幻方量化著手控制總的規(guī)模,同時表態(tài)要加大對策略研究的投入,,以重新獲得市場優(yōu)勢,。而在監(jiān)管層面,2024年7月份融券業(yè)務相關政策發(fā)生重大調整,,轉融券業(yè)務暫停,,并且融券保證金比例上調,。此外,程序化交易被進一步強化監(jiān)管,。量化行業(yè)似乎告別一段野蠻發(fā)展期,。 目前,梁文鋒旗下有兩家百億私募,,除了寧波幻方量化(股票策略),,另外一家是浙江九章資產(多資產策略)。就業(yè)績而言,,據私募排排網數(shù)據,,過去兩年量化公司的風頭仍然強勢,如2023年百億私募排行榜中,,前十名中量化公司占據六席,,在104家上榜私募中,九章資產和幻方量化的業(yè)績分列32和33位,。到2024年,,量化私募的整體收益仍高于主觀私募,除東方港灣(主觀投資)牢牢把持行業(yè)首位之外,,前三十名中量化或主觀+量化的機構占據多數(shù)。不過,,幻方量化的業(yè)績同樣算不上突出,,僅排在第19位。 在私募排排網有業(yè)績展示的12只產品中,,幻方量化旗下產品2024年的收益均值為12.18%,,收益中位數(shù)為13.02%。 “還需冷靜看待” 某種程度上,,DeepSeek應該是幻方量化的深度轉型之作,。成立之初,該公司就表示將專注在大模型上,,從語言大模型到視覺大模型,,再到多模態(tài)大模型,堪稱步步為營,。 過去一年多,,從默默無聞到火爆出圈,DeepSeek經歷了一條清晰的產品迭代之路,。 在2024年5月之前,,DeepSeek相繼推出了DeepSeek Coder(免費且開源的首個模型)、DeepSeek LLM(第一個大語言模型),,其中DeepSeek LLM包含670億參數(shù),,在一個包含2萬億token(語言模型中用來表示單詞或短語的符號)的數(shù)據集上進行訓練,。在中文表現(xiàn)上,該模型據稱超越了當時的GPT-3.5,。 這兩款模型都沒有引起波瀾,,直到隨后發(fā)布的DeepSeek-V2,才讓DeepSeek在圈中出名,。DeepSeek-V2是混合專家(MoE)語言模型,,包含總參數(shù)達到2360億,每個token激活210億個參數(shù),。在一些行業(yè)測試中,,DeepSeek-V2有著不錯的表現(xiàn)。 有意思的是,,當時國內業(yè)界對這款模型似乎欠缺技術層面的關注,。DeepSeek-V2之所以被注意到,是由于它在大模型行業(yè)掀起一場價格大戰(zhàn)——DeepSeek在5月出宣布,,DeepSeek-V2降價至每百萬Tokens輸入價格為1元,、輸出價格為2元,開發(fā)者還能獲得500萬Tokens的免費額度,。 這個價格水平,,大約相當于GPT-4 Turbo的七十分之一。 隨即互聯(lián)網大廠紛紛跟進,,甚至不乏有廠家將價格降得比DeepSeek-V2還低,。就在國內玩家為價格戰(zhàn)打的火熱時,有硅谷從業(yè)者發(fā)現(xiàn),,DeepSeek-V2采用的多頭潛在注意力機制,,有效提升了大模型的性能。 這或許是硅谷較早地正視這家中國初創(chuàng)公司,。 據一位行業(yè)相關人士解釋,,多頭潛在注意力機制是DeepSeek-V2提出的一種注意力架構,該架構可以顯著降低推理過程中的KV緩存,。所謂KV緩存,,指的是在大模型的推理過程中,用于存儲先前計算結果的一種技術,。 到2024年底,,DeepSeek繼續(xù)迭代,推出了DeepSeek-V3模型,。DeepSeek終于迎來它的GPT-3時刻,。 今年1月20日,DeepSeek-R1發(fā)布,,在數(shù)學,、代碼,、自然語言推理等任務上,宣稱性能對標OpenAI o1正式版,。而它的蒸餾(將大模型的知識遷移到小模型中)小模型,,也超越了OpenAI o1-mini。此外,,在開源和閉源路線仍有爭議的眼下,,DeepSeek宣布R1開源,允許用戶進行“模型蒸餾”,,以促進技術共享,。 DeepSeek-R1是一枚重磅炸彈,在性能上為全球業(yè)界矚目之外,,更重要的是——它的成本相比競品大大降低,。一周之后,DeepSeek趁熱打鐵,,又推出開源多模態(tài)模型,,被認為在文生圖方面超越OpenAI的DALL-E3。至此,,外界對DeepSeek的討論關注,,達到高潮。 與先進大模型保持相近的性能,,并在訓練成本,、運行成本和服務定價上全面大幅下降,這是DeepSeek震撼科技圈的原因,。在這樣的現(xiàn)象級產品出現(xiàn)之前,過去兩年多時間,,由于AI業(yè)界對高性能顯卡的追逐,,英偉達被一路推上王座。無論在資本市場還是產業(yè)鏈,,這個邏輯似乎已經確立,,沒料到DeepSeek橫空出世,硬生生攪了局,。 不過,,這場沖擊波能持續(xù)多久,還是個未知數(shù),。DeepSeek的勢頭固然很猛,,但是否彌合了國產大模型與國際先進水平之前的技術代差,正在引發(fā)熱議,。另外,,DeepSeek通過算法優(yōu)化提升效率,,是否就意味著對算力需求的明顯減弱,下結論也太早,。 喧鬧之外,,降溫觀察逐漸成為一種聲音?!搬槍ψ罱鼛滋焓虑榈陌l(fā)展,,個人覺得還是冷靜看待,肯定其取得的成就,,但也要避免情緒化,。”上述投資人士如此說道,。 □ .郭.儒.逸 .時.代.周.報
|
|