近日,,量化巨頭幻方量化的子公司深度求索(DeepSeek)發(fā)布了全新系列模型DeepSeek-V3,,并同步開源。這一事件迅速引爆AI圈,,DeepSeek-V3不僅霸榜開源模型,,更在性能上與全球頂尖閉源模型GPT-4o和Claude-3.5-Sonnet不相上下。 更令人矚目的是,,該模型的訓(xùn)練成本僅約558萬美元,,僅為GPT-4o的二十分之一,資源運用效率極高,。國外獨立評測機構(gòu)Artificial Analysis測試評價其“超越了迄今為止所有開源模型”。 與此同時,,在2024年的年末,,“雷軍千萬年薪挖角95后AI'天才少女’羅福莉”的詞條刷屏社交網(wǎng)絡(luò)。羅福莉是DeepSeek-V2的關(guān)鍵開發(fā)者之一,,據(jù)報道,,雷軍欲讓其領(lǐng)導(dǎo)小米AI大模型團隊。國產(chǎn)大模型DeepSeek一定程度也因此走向大眾視野,。 DeepSeek-V3的成功,,不僅是中國AI技術(shù)的一次重大突破,更是全球AI格局重塑的重要標志,。 “來自東方的神秘力量” DeepSeek再進化 2024年12月26日,,深度求索官方微信公眾號推文稱,旗下全新系列模型DeepSeek-V3首個版本上線并同步開源,。該國產(chǎn)大模型性能對齊海外領(lǐng)軍閉源模型,,多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲,。 在百科知識、長文本,、代碼,、數(shù)學(xué)及中文能力上的表現(xiàn),DeepSeek-V3超越其他模型,,尤其是在數(shù)學(xué)上,,在美國數(shù)學(xué)競賽(AIME 2024, MATH)和全國高中數(shù)學(xué)聯(lián)賽(CNMO 2024)上,DeepSeek-V3大幅超過了所有開源閉源模型,。 更重要的是,,深度求索使用英偉達H800 GPU在短短兩個月內(nèi)就訓(xùn)練出了DeepSeek-V3,僅花費了約558萬美元,。其訓(xùn)練費用相比GPT-4o等大模型要少得多,。Open AI CEO山姆·奧特曼曾表示,GPT-4o的訓(xùn)練成本大約1億美元,,未來訓(xùn)練大模型的成本將高于10億美元,。尚未完成訓(xùn)練的GPT-5大模型,為時約半年的一輪訓(xùn)練就消耗了大約5億美元,。 消息一出,,引發(fā)了海外AI圈熱議。Open AI創(chuàng)始成員Karpathy甚至對此稱贊道:“DeepSeek-V3讓在有限算力預(yù)算上進行模型預(yù)訓(xùn)練這件事變得容易,?!?/p> 深度求索被硅谷譽為“來自東方的神秘力量”,在2024年5月6日發(fā)布由AI“天才少女”羅福莉參與研發(fā)的DeepSeek-V2開源MoE模型時,,就以其高效性能在全球AI界掀起了一波熱度,。 而其API接口價格與同類產(chǎn)品相比斷崖式定為每百萬tokens輸入1元、輸出2元(32K上下文),,僅為GPT-4 Turbo的近百分之一,。 花小錢辦大事,“四兩撥千斤” 低成本高效能的創(chuàng)新路徑 DeepSeek做到了花小錢辦大事,,通過更先進的MoE架構(gòu),、多技術(shù)融合優(yōu)化、FP8混合精度訓(xùn)練框架等技術(shù),,以及與開源社區(qū)合作的方法,,在成本較低的情況下,就訓(xùn)練出文字生成和邏輯推理能力不輸乃至領(lǐng)先主流AI大模型DeepSeek-V3,。 DeepSeek-V3的成功離不開其獨特的技術(shù)創(chuàng)新。首先,,其采用的混合專家(MoE)架構(gòu)通過稀疏激活機制,,僅激活37億參數(shù),顯著降低了計算量,,同時提升了模型的處理能力,。其次,DeepSeek團隊開發(fā)的多頭潛在注意力(MLA)機制和FP8混合精度訓(xùn)練框架,,進一步優(yōu)化了模型的訓(xùn)練效率和生成速度,,使其生成速度從每秒20個token提升至60個token(token 是計算機科學(xué)中的信息或價值的基本單位,用于表示,、傳輸或存儲數(shù)據(jù)),。此外,,DualPipe算法的引入,有效降低了跨節(jié)點通信的開銷,,使得訓(xùn)練成本大幅降低,。 這些技術(shù)創(chuàng)新不僅讓DeepSeek-V3在性能上比肩頂尖閉源模型,更在成本控制上實現(xiàn)了突破,,展現(xiàn)了“四兩撥千斤”的技術(shù)實力,。 訓(xùn)練成本高昂、競爭愈發(fā)激烈已成趨勢,,如何開源與節(jié)流已成全球AI公司必須思考的難題,,DeepSeek這種低成本高效能的模式,為全球AI大模型的開發(fā)提供了新的思路,。 突破封鎖:硬件限制催生軟件創(chuàng)新 DeepSeek-V3的成功,,某種程度上是中國在AI領(lǐng)域突破外國技術(shù)封鎖的縮影。2022年,,美國對中國實施芯片出口限制,,旨在遏制中國在AI領(lǐng)域的發(fā)展。然而,,DeepSeek團隊通過軟件層面的創(chuàng)新,充分利用性能受限的H800 GPU,,實現(xiàn)了訓(xùn)練效率的顯著提升,。 例如,F(xiàn)P8混合精度訓(xùn)練框架的運用,,不僅降低了內(nèi)存占用,,還加快了計算速度,使得在硬件性能受限的情況下,,依然能夠高效完成大規(guī)模模型的訓(xùn)練,。這種“硬件不足,軟件補足”的策略,,不僅讓DeepSeek-V3在技術(shù)上實現(xiàn)了突破,,更在某種程度上打破了美國對中國的技術(shù)封鎖。 正如一位硅谷AI工程師所言:“DeepSeek的成功證明,,創(chuàng)新并不一定依賴于最先進的硬件,,而是可以通過聰明的工程設(shè)計和高效的訓(xùn)練方法實現(xiàn)?!边@種由需求驅(qū)動的創(chuàng)新,,不僅為中國AI技術(shù)的發(fā)展注入了新的活力,也為全球AI領(lǐng)域提供了新的可能性,。 |
|
來自: 只摘不看 > 《智能軟件區(qū)塊機器人》