AI領(lǐng)域“神秘東方力量”震驚世界,，英偉達(dá)的最大空頭出現(xiàn)了

James5291 2024-12-31 發(fā)布于北京

展開(kāi)全文

摘要：

與月之暗面、智譜AI,、Minimax,、百川智能等獲得大廠投資的AI初創(chuàng)公司不同，DeepSeek與科技巨頭間并無(wú)直接關(guān)系,。不過(guò),，DeepSeek自身的算力儲(chǔ)備卻堪與大廠比肩。

鳳凰網(wǎng)科技出品

作者｜Danny

編輯｜董雨晴

被熱議的東方力量

神秘的東方力量再次震驚了世界,，這次是大模型,。

12月26日，國(guó)內(nèi)私募機(jī)構(gòu)幻方量化旗下的DeepSeek（深度求索）發(fā)布新一代開(kāi)源大模型DeepSeek-v3,，深度求索在技術(shù)報(bào)告中提到,，作為一款參數(shù)量高達(dá) 671B 的大型語(yǔ)言模型，DeepSeek-V3在預(yù)訓(xùn)練階段只用 2048 塊 GPU 訓(xùn)練了不到 2 個(gè)月,，總計(jì) 266.4 萬(wàn)個(gè) GPU 小時(shí),，且只花費(fèi)了 557.6 萬(wàn)美元（約4070.1萬(wàn)元人民幣）。

這意味著DeepSeek-V3的訓(xùn)練成本約為GPT-4o的二十分之一,。Anthropic的CEO達(dá)里奧·阿莫迪不久前曾透露，GPT-4o這樣的模型訓(xùn)練成本約為1億美元,，而目前正在開(kāi)發(fā)的AI大模型訓(xùn)練成本可能高達(dá)10億美元,。未來(lái)三年內(nèi),，AI大模型的訓(xùn)練成本將上升至100億美元甚至1000億美元,。

性能方面,，據(jù)DeepSeek-V3 技術(shù)報(bào)告稱,，在英語(yǔ),、代碼,、數(shù)學(xué),、漢語(yǔ)以及多語(yǔ)言任務(wù)上,，基礎(chǔ)模型 DeepSeek-V3 Base 的表現(xiàn)非常出色,，在 AGIEval,、CMath,、MMMLU-non-English 等一些任務(wù)上甚至遠(yuǎn)遠(yuǎn)超過(guò)其它開(kāi)源大模型。就算與 GPT-4o 和 Claude 3.5 Sonnet 這兩大領(lǐng)先的閉源模型相比,，DeepSeek-V3 也毫不遜色,，并且在 MATH 500,、AIME 2024,、Codeforces 上都有明顯優(yōu)勢(shì)。

廣發(fā)證券分析稱,，DeepSeek-V3算力成本降低的原因有兩點(diǎn)：第一,，DeepSeek-V3采用的DeepSeekMoE是通過(guò)參考了各類訓(xùn)練方法后優(yōu)化得到的,，避開(kāi)了行業(yè)內(nèi)AI大模型訓(xùn)練過(guò)程中的各類問(wèn)題；第二,，DeepSeek-V3采用的MLA架構(gòu)可以降低推理過(guò)程中的kv緩存開(kāi)銷,，其訓(xùn)練方法在特定方向的選擇也使得其算力成本有所降低,。

行業(yè)外少有人知道的是,，DeepSeek也是大模型價(jià)格戰(zhàn)的最早發(fā)起者,，被稱為“AI界拼多多”。2024年5月,，DeepSeek發(fā)布的DeepSeek V2的開(kāi)源模型,，提供了一種史無(wú)前例的性價(jià)比：推理成本被降到每百萬(wàn)token僅1塊錢(qián),，約等于Llama3 70B的七分之一，GPT-4 Turbo的七十分之一,。

在DeepSeek-V3的定價(jià)上，API定價(jià)為輸入每百萬(wàn)tokens 0.5元（緩存命中）/2元（緩存未命中）,，輸出每百萬(wàn)tokens 8元,，與字節(jié)Doubao-pro-256k定價(jià)輸入每百萬(wàn)tokens 5元，輸出每百萬(wàn)tokens 9元的水平相當(dāng),，在國(guó)產(chǎn)模型中性價(jià)比較高。

“今天,，一家中國(guó)AI公司輕而易舉地發(fā)布了一個(gè)前沿大語(yǔ)言模型?！敝斯ぶ悄芸茖W(xué)家和特斯拉前人工智能和自動(dòng)駕駛視覺(jué)總監(jiān)、OpenAI早期成員安德烈·卡帕西（Andrej Karpathy）評(píng)價(jià)DeepSeek-V3的表現(xiàn)時(shí)稱,，“如果此模型還能通過(guò)各項(xiàng)評(píng)估,，那么這將是資源受限條件下研究與工程能力的高度令人印象深刻的展示,?！?/p>

“我一直在關(guān)注DeepSeek,。去年他們擁有最好的開(kāi)源編碼模型之一,。卓越的開(kāi)源模型給前沿的大語(yǔ)言模型商業(yè)公司帶來(lái)了巨大的壓力,，迫使他們加快步伐,。”英偉達(dá)高級(jí)科學(xué)家范麟熙（Jim Fan）認(rèn)為,，在競(jìng)爭(zhēng)激烈的人工智能領(lǐng)域中,，生存本能是推動(dòng)突破的主要?jiǎng)恿Α?/p>

千億量化私募的AI創(chuàng)業(yè)

在眾多中國(guó)大模型創(chuàng)業(yè)公司中，Deepseek的路線最不同,。它的中文名是“深度求索”,，為知名私募巨頭幻方量化創(chuàng)立的子公司。

2023年4月,，幻方宣布成立新組織,，集中資源和力量，探索AGI的本質(zhì)，在一年多時(shí)間里進(jìn)展迅速,。當(dāng)時(shí)幻方就表示,，多年以來(lái)，該公司堅(jiān)持把營(yíng)收的大部分投入人工智能領(lǐng)域,，建設(shè)領(lǐng)先的AI硬件基礎(chǔ)設(shè)施,，進(jìn)行大規(guī)模的研究，探索人類未知的奧秘,。

與月之暗面、智譜AI,、Minimax、百川智能等獲得大廠投資的AI初創(chuàng)公司不同,，DeepSeek與科技巨頭間并無(wú)直接關(guān)系。不過(guò),，DeepSeek自身的算力儲(chǔ)備卻堪與大廠比肩,。

有云計(jì)算專家提出,，1萬(wàn)枚英偉達(dá)A100芯片是做AI大模型的算力門(mén)檻,。當(dāng)中國(guó)云廠商受限于緊缺的GPU芯片時(shí),，幻方卻早早押中了大模型賽道的入場(chǎng)券,。據(jù)報(bào)道,，除商湯科技,、百度、騰訊,、字節(jié),、阿里等科技巨頭外，幻方也手握著超1萬(wàn)枚GPU,。

幻方量化和Deepseek創(chuàng)始人梁文鋒曾在媒體采訪中表示,，幻方對(duì)算力的儲(chǔ)備并不突然,。在2019年,，幻方就已投資2億元自研深度學(xué)習(xí)訓(xùn)練平臺(tái)“螢火一號(hào)”,，搭載了1100塊GPU,。到了2021年，“螢火二號(hào)”的投入增加到10億元，搭載了約1萬(wàn)張英偉達(dá)A100顯卡,。一年后,，OpenAI發(fā)布ChatGPT的公開(kāi)測(cè)試版本,，拉開(kāi)全球新一輪AI熱潮的序幕,。

事實(shí)上,，在量化投資領(lǐng)域,，幻方也是一個(gè)特立獨(dú)行的存在,?；梅搅炕欢仁侵袊?guó)首家突破千億私募的量化大廠,，準(zhǔn)確的說(shuō)也是迄今為止業(yè)內(nèi)唯一規(guī)模曾邁過(guò)千億大關(guān)的量化私募,。

“我們做大模型，其實(shí)跟量化和金融都沒(méi)有直接關(guān)系,，”被媒體問(wèn)及為什么一家量化基金選擇入局大模型時(shí),，梁文鋒解釋道,，“當(dāng)時(shí)我們嘗試了很多場(chǎng)景，最終切入了足夠復(fù)雜的金融,，而通用人工智能可能是下一個(gè)最難的事之一，所以對(duì)我們來(lái)說(shuō),，這是一個(gè)怎么做的問(wèn)題，而不是為什么做的問(wèn)題,。”

公開(kāi)資料顯示,，梁文鋒是一個(gè)極致的80后技術(shù)理想主義者,，從幻方時(shí)代,，就在幕后潛心研究技術(shù)，在DeepSeek時(shí)代,，依舊延續(xù)著他的低調(diào)作風(fēng),，和所有研究員一樣，每天“看論文,，寫(xiě)代碼,，參與小組討論”。值得一提是,，這家公司還曾對(duì)外招聘文科人才,，職位定位為“數(shù)據(jù)百曉生”，提供人類歷史,、文化,、科學(xué)等相關(guān)的知識(shí)來(lái)源，和數(shù)據(jù)工程師一起構(gòu)建完善的世界語(yǔ)言知識(shí)庫(kù),。

“我們相信幾乎所有的創(chuàng)新都是從大膽嘗試和點(diǎn)滴積累中孕育而來(lái),。我們將充分而持續(xù)地投入，不做中庸的事,，用最長(zhǎng)期的眼光去回答最大的問(wèn)題,。”梁文鋒曾表示,。

在接受媒體《暗涌》的采訪時(shí),，梁文鋒表示，降價(jià)一方面是因?yàn)樵谔剿飨乱淮Ｐ偷慕Y(jié)構(gòu)中,，成本先降下來(lái)了,，另一方面也覺(jué)得無(wú)論API,，還是AI,，都應(yīng)該是普惠的、人人可以用得起的東西,。

“過(guò)去很多年,，中國(guó)公司習(xí)慣了別人做技術(shù)創(chuàng)新，我們拿過(guò)來(lái)做應(yīng)用變現(xiàn),，但這并非是一種理所當(dāng)然,。這一波浪潮里，我們的出發(fā)點(diǎn),，就不是趁機(jī)賺一筆,，而是走到技術(shù)的前沿，去推動(dòng)整個(gè)生態(tài)發(fā)展,?！绷何匿h稱,。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： James5291 > 《戰(zhàn)爭(zhēng)及戰(zhàn)后清算》

舉報(bào)/認(rèn)領(lǐng)