中國工程院院士揭秘：DeepSeek究竟厲害在哪里

嘟嘟7284 2025-01-27

展開全文

快科技1月17日消息，在AI領(lǐng)域,，DeepSeek帶來的影響力,，一點(diǎn)也不亞于“六代機(jī)”。那么,，DeepSeek究竟厲害在哪里,？

據(jù)新浪科技報(bào)道，今日,，中國工程院院士,、清華大學(xué)計(jì)算機(jī)系教授鄭緯民指出了DeepSeek其成功出圈的關(guān)鍵所在。

讓美國硅谷恐慌,！中國工程院院士揭秘：DeepSeek究竟厲害在哪里

目前，業(yè)界對(duì)于DeepSeek的喜愛與贊美,，主要集中在三個(gè)方面,。

第一，在技術(shù)層面,，DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1兩款模型,，分別實(shí)現(xiàn)了比肩OpenAI 4o和o1模型的能力。

第二,，DeepSeek研發(fā)的這兩款模型成本更低,，僅為OpenAI 4o和o1模型的十分之一左右。

第三，DeepSeek把這一兩大模型的技術(shù)都開源了,，這讓更多的AI團(tuán)隊(duì),，能夠基于最先進(jìn)同時(shí)成本最低的模型，開發(fā)更多的AI原生應(yīng)用,。

DeepSeek是如何實(shí)現(xiàn)模型成本的降低的呢,？鄭緯民指出，“DeepSeek自研的MLA架構(gòu)和DeepSeek MOE架構(gòu),，為其自身的模型訓(xùn)練成本下降,，起到了關(guān)鍵作用?！?/strong>

他指出,，“MLA主要通過改造注意力算子壓縮了KV Cache大小，實(shí)現(xiàn)了在同樣容量下可以存儲(chǔ)更多的KV Cache,，該架構(gòu)和DeepSeek-V3模型中FFN 層的改造相配合,，實(shí)現(xiàn)了一個(gè)非常大的稀疏MoE 層，這成為DeepSeek訓(xùn)練成本低最關(guān)鍵的原因,?！?/p>

據(jù)了解，KV Cache是一種優(yōu)化技術(shù),，常被用于存儲(chǔ)人工智能模型運(yùn)行時(shí)產(chǎn)生的token的鍵值對(duì)（即key- value數(shù)值）,，以提高計(jì)算效率。

具體而言,，在模型運(yùn)算過程中,，KV cache會(huì)在模型運(yùn)算過程中充當(dāng)一個(gè)內(nèi)存庫的角色，以存儲(chǔ)模型之前處理過的token鍵值,，通過模型運(yùn)算計(jì)算出注意力分?jǐn)?shù),，有效控制被存儲(chǔ)token的輸入輸出，通過“以存換算”避免了多數(shù)大模型運(yùn)算每次都是從第一個(gè)token開始運(yùn)算的重復(fù)計(jì)算,，提升了算力使用效率,。

此外，據(jù)鄭緯民透露,，DeepSeek還解決了“非常大同時(shí)非常稀疏的MoE模型”使用的性能難題,，而這也成了“DeepSeek訓(xùn)練成本低最關(guān)鍵的原因”。

“DeepSeek比較厲害的是訓(xùn)練MoE的能力,，成為公開MoE模型訓(xùn)練中第一個(gè)能訓(xùn)練成功這么大MoE的企業(yè),。”鄭緯民說

此外,，DeepSeek還充分利用專家網(wǎng)絡(luò)被稀疏激活的設(shè)計(jì),，限制了每個(gè)token被發(fā)送往GPU集群節(jié)點(diǎn)（node）的數(shù)量,，這使得GPU之間通信開銷穩(wěn)定在較低的水位。

早先,，圖靈獎(jiǎng)得主,、主導(dǎo)Meta AI研究的首席科學(xué)家楊立昆（Yann LeCun）認(rèn)為，DeepSeek成功的最大收獲并非中國競(jìng)爭對(duì)其他國家?guī)砀笸{,，而是AI開源的價(jià)值使任何人都能受益,。

“對(duì)那些看到DeepSeek表現(xiàn)并認(rèn)為'中國在AI領(lǐng)域正超越美國’的人而言，你的解讀錯(cuò)了”,，楊立昆在Threads寫道,，“正確解讀應(yīng)是'開源模型正超越專有模型’”。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：嘟嘟7284 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)