Karpathy表示,,DeepSeek僅用了280萬(wàn)小時(shí)的GPU算力,,就訓(xùn)練出了比Llama-3
405B(使用3080萬(wàn)小時(shí)GPU)更強(qiáng)的前沿模型,,整體成本節(jié)省了11倍左右,將算力發(fā)揮到了極致,。 這為小模型和受算力限制的組織打開(kāi)了全新世界——即便在算力有限的情況下,,使用高質(zhì)量數(shù)據(jù)、更好的算法同樣能訓(xùn)練出高性能大模型,。 此外,, DeepSeek在MMLU、DROP,、Codeforces,、AIME等多個(gè)主流基準(zhǔn)測(cè)試中,性能大幅度超過(guò)了GPT-4o,、Claude-3.5-Sonnet,、Qwen2.5-72B等著名開(kāi)閉源模型,成為目前最強(qiáng)開(kāi)源大模型之一,。 國(guó)外網(wǎng)友表示,,看來(lái)限制對(duì)中國(guó)的芯片供應(yīng)并沒(méi)有扼殺他們的進(jìn)步,反而促進(jìn)了技術(shù)創(chuàng)新,。有趣的是,,資源限制不僅僅是障礙,它們還能強(qiáng)有力地推動(dòng)創(chuàng)造力,。 看了這個(gè)網(wǎng)友評(píng)論還是挺心酸的,,國(guó)內(nèi)被限制AI芯片,無(wú)法獲得更高的算力,,我們靠著智慧,、創(chuàng)新精神依然沖破封鎖——天行健 君子以自強(qiáng)不息! 美國(guó)真的確定要把中國(guó)“排除在人工智能競(jìng)賽之外”嗎,?在我看來(lái),,我們可能會(huì)在后面追趕…… 中國(guó)人得到“檸檬”后,會(huì)榨干它的每一滴汁,,然后做出美味的檸檬水,。希望美國(guó)那些資源受限的實(shí)驗(yàn)室也能取得同樣的成就。 中國(guó)即將成為超級(jí)人工智能大國(guó),。 這個(gè)模型很出色,,但實(shí)現(xiàn)這一成就的團(tuán)隊(duì)更優(yōu)秀,人類(lèi)的創(chuàng)造力真是無(wú)窮無(wú)盡,。 DeepSeek為彌補(bǔ)較小模型限制,,進(jìn)行的改進(jìn)是否也可以應(yīng)用于更大的模型?我們能否期待在使用 10 萬(wàn)個(gè) GPU 的集群時(shí)也獲得類(lèi)似11倍的能力提升,? 很想嘗試DeepSeek的API,,但是從今早開(kāi)始一直失敗的,。 非常喜歡開(kāi)源模型,他們迫使西方世界不得不降低價(jià)格,。 Deepseek的團(tuán)隊(duì)是一群超有才華的前量化分析師,。量化分析師以榨取每一點(diǎn)性能提升而聞名。他們又一次成功了,,只是這次是在不同的領(lǐng)域,。高智商的人真是世界的福音。 他們的訓(xùn)練效率非常瘋狂,。 使用的訓(xùn)練數(shù)據(jù)與 Llama 3 405B 大致相同,,約為15萬(wàn)億。但在相同的訓(xùn)練數(shù)據(jù)下,,算力卻減少了10倍,。 哇塞,終于有人破解了訓(xùn)練效率難題,。當(dāng)其他人都在用數(shù)十億美元計(jì)算他們的AI預(yù)算時(shí),,DeepSeek僅用他們的零頭就能開(kāi)發(fā)出前沿大模型??磥?lái),,僅僅投入更多的GPU并不總是解決問(wèn)題的辦法。 這位老哥直接上圖片,,DeepSeek直接打跑OpenAI、Meta~ Deep Seek
v3模型簡(jiǎn)單介紹 Deep Seek
V3的架構(gòu)延續(xù)了第二代的高效推理和低成本訓(xùn)練策略,,主要包括多頭潛在注意力(MLA)和混合專(zhuān)家(MoE)兩大塊,。 MLA是V3的核心創(chuàng)新之一,主要用于減少推理過(guò)程中的內(nèi)存占用,。MLA將鍵和值壓縮為一個(gè)潛在向量,,并在推理過(guò)程中僅緩存該向量,而不是完整的鍵和值矩陣,。 MLA的壓縮過(guò)程通過(guò)下投影矩陣和上投影矩陣實(shí)現(xiàn),。下投影矩陣將輸入向量壓縮為潛在向量,上投影矩陣將潛在向量還原為鍵和值,。通過(guò)這種方式,,MLA在推理過(guò)程中僅需緩存潛在向量和分離的鍵,從而顯著減少了內(nèi)存占用,。 MLA還對(duì)查詢進(jìn)行了低秩壓縮,,進(jìn)一步減少了訓(xùn)練過(guò)程中的激活內(nèi)存。所以,,MLA是V3極大降低算力的主要原因之一,。 傳統(tǒng)的MoE架構(gòu),,面對(duì)大規(guī)模的數(shù)據(jù)處理任務(wù)時(shí),容易出現(xiàn)專(zhuān)家負(fù)載不均衡的情況,。這種不均衡會(huì)導(dǎo)致嚴(yán)重的后果,,其中最為突出的就是路由崩潰問(wèn)題。當(dāng)某些專(zhuān)家承擔(dān)了過(guò)多的負(fù)載,,而其他專(zhuān)家則相對(duì)空閑時(shí),,路由機(jī)制可能會(huì)因?yàn)闊o(wú)法有效分配任務(wù)而陷入混亂,進(jìn)而導(dǎo)致模型無(wú)法正常工作,。 由于專(zhuān)家負(fù)載的不平衡,,計(jì)算資源無(wú)法得到合理分配,使得整體計(jì)算過(guò)程變得緩慢且低效,。在處理復(fù)雜的語(yǔ)言任務(wù)時(shí),,需要大量的算力來(lái)支持模型的推理和決策過(guò)程。 而V3對(duì)MoE進(jìn)行了改良,,引入了一套先進(jìn)的動(dòng)態(tài)調(diào)整機(jī)制,,專(zhuān)門(mén)用于優(yōu)化專(zhuān)家負(fù)載。在訓(xùn)練過(guò)程中,,使得MoE會(huì)實(shí)時(shí)監(jiān)測(cè)每個(gè)專(zhuān)家的負(fù)載情況,,通過(guò)一系列復(fù)雜而精確的算法,根據(jù)實(shí)際負(fù)載動(dòng)態(tài)地調(diào)整任務(wù)分配,。這種動(dòng)態(tài)調(diào)整并非簡(jiǎn)單的平均分配,,而是根據(jù)專(zhuān)家的實(shí)時(shí)處理能力和當(dāng)前任務(wù)的特點(diǎn)進(jìn)行智能分配。 例如,,當(dāng)某個(gè)專(zhuān)家的負(fù)載過(guò)高時(shí),,模型會(huì)自動(dòng)將一部分任務(wù)轉(zhuǎn)移到負(fù)載較輕的專(zhuān)家上,確保每個(gè)專(zhuān)家都能在合理的負(fù)載范圍內(nèi)工作,。 此外,,V3的MoE 還使用了特殊的方法,會(huì)為每個(gè)專(zhuān)家設(shè)置一個(gè)動(dòng)態(tài)的負(fù)載閾值,,當(dāng)負(fù)載超過(guò)該閾值時(shí),,觸發(fā)負(fù)載調(diào)整機(jī)制。在調(diào)整過(guò)程中,,模型會(huì)綜合考慮多個(gè)因素,,例如,專(zhuān)家的歷史處理效率,、當(dāng)前任務(wù)的緊急程度以及整個(gè)系統(tǒng)的負(fù)載均衡情況等,,所以,V3的 MoE 既解讀了路由崩潰的難題,還將算力發(fā)揮到了極致,。 其實(shí)寫(xiě)到這里心里有一個(gè)疑問(wèn),,Deep Seek要是有10萬(wàn)張H100,能開(kāi)發(fā)出像o3那樣的超強(qiáng)大模型嗎,? Deep Seek除了開(kāi)源最新模型之外,,他們還提供了免費(fèi)的在線服務(wù),想嘗試的小伙伴可以去體驗(yàn)一下,。值得一提的是,,還可以使用像o1模型那樣的深度思考模式,并且會(huì)把整個(gè)推理過(guò)程全部寫(xiě)出來(lái),。 開(kāi)源地址:https://github.com/deepseek-ai/DeepSeek-V3 在線體驗(yàn):https://chat./ 笑臉:https:///collections/deepseek-ai/deepseek-v3-676bc4546fb4876383c4208b 本文素材來(lái)源Deep Seek,,如有侵權(quán)請(qǐng)聯(lián)系刪除 END |
|