【AI大模型】開源模型：DeepSeek

netouch 2025-01-27

展開全文

在全球人工智能模型快速發(fā)展的浪潮中,，DeepSeek-V3和Qwen 2.5系列的亮相為開源模型注入了新的活力,。這兩大模型通過技術(shù)創(chuàng)新和高效優(yōu)化，成功將訓(xùn)練成本和資源消耗降至最低,，同時(shí)實(shí)現(xiàn)了與閉源頂級模型相媲美的性能,。

DeepSeek-V3技術(shù)報(bào)告

報(bào)告內(nèi)容詳見：

https://wcn4il2c5x2d./wiki/G28mwxSAsis8Zykfyqbcsdzenbf

DeepSeek-V3模型–一個(gè)100%開源的LLM，在許多基準(zhǔn)上擊敗了GPT 4o和Claude 3.5 Sonnet,；一個(gè)強(qiáng)大的混合專家（MoE）語言模型,，總參數(shù)為671B，每個(gè)token激活了37B,。DeepSeek團(tuán)隊(duì)在HuggingFace上共享了模型,，并在他們的“DeepSeek-V3技術(shù)報(bào)告”中提供了有關(guān)模型的詳細(xì)信息。

DeepSeek MoE架構(gòu)是一個(gè)精細(xì)的MoE,，每個(gè)token有1個(gè)共享專家和256個(gè)路由專家,，8個(gè)活躍路由專家。該架構(gòu)還包括多頭潛在注意力,，具有低等級聯(lián)合壓縮,，用于關(guān)注鍵和值。它還具有多token預(yù)測,，有助于投機(jī)解碼和更好地利用訓(xùn)練數(shù)據(jù),。

Deepseek-V3使用14.8萬億個(gè)token進(jìn)行訓(xùn)練，使用了2788K H800 GPU小時(shí),，成本僅為560萬美元,。DeepSeek-V3的這種具有成本效益的訓(xùn)練是由于精細(xì)的MoE架構(gòu)，在訓(xùn)練中使用FP8混合精度，以及在訓(xùn)練期間調(diào)整和擴(kuò)展上下文長度,。

他們通過算法-框架-硬件共同設(shè)計(jì)克服了大型MoE模型訓(xùn)練中的通信瓶頸,，實(shí)現(xiàn)了在訓(xùn)練中有效使用計(jì)算。兩階段的上下文長度擴(kuò)展首先將上下文從4k令牌擴(kuò)展到32k令牌,，然后擴(kuò)展到128k令牌,。與Llama、Claude和類似的人工智能模型相比,，這些優(yōu)化的綜合結(jié)果是訓(xùn)練效率極高,，成本降低了10倍。

訓(xùn)練后使用SFT和RL來與人類的偏好保持一致,，并提煉DeepSeek-R1推理能力,，他們的推理模型，這增強(qiáng)了其推理和數(shù)學(xué)能力,。多令牌預(yù)測（MTP）可用于增強(qiáng)模型性能,，并實(shí)現(xiàn)推理加速的投機(jī)解碼。

DeepSeek-V3對MoE LLM的基準(zhǔn)非常令人印象深刻,，只有37B個(gè)活動(dòng)參數(shù)：MMLU上88.5,，GPQA上59.1，MMLU-Pro上75.9,，MATH上90.2,，CodeForces上51.6等。DeepSeek-V3是目前最強(qiáng)的開源模型,，其性能可與GPT-4o和Claude-3.5-Sonnet等領(lǐng)先的閉源模型相媲美,。

Qwen2.5技術(shù)報(bào)告

報(bào)告內(nèi)容詳見：

https://wcn4il2c5x2d./wiki/PwpEwDPdMiJetPkaKY9cK4XFnOg

Qwen 2.5系列LLM于9月發(fā)布，從那時(shí)起,，阿里巴巴Qwen團(tuán)隊(duì)發(fā)布了有用的更新,，包括Qwen-2.5編碼器32B模型，擴(kuò)展了100萬個(gè)令牌上下文支持,，以及基于Qwen 32B的推理人工智能模型Qwen QwQ,。本周，他們發(fā)布了QvQ,，這是一個(gè)基于Qwen2-VL-72B的視覺推理模型。這一系列版本使Qwen成為領(lǐng)先的LLM家族,，擁有一些用于編碼,、推理和本地使用的最佳人工智能模型。

阿里巴巴Qwen團(tuán)隊(duì)發(fā)布了Qwen2.5技術(shù)報(bào)告,，以提供有關(guān)該開放式權(quán)重系列LLM的更多詳細(xì)信息,。Qwen2.5系列由幾個(gè)開放式權(quán)重基礎(chǔ)和指令調(diào)整模型組成，參數(shù)范圍從0.5B到72B,。此外,，還有兩種專有的混合專家（MoE）型號,，Qwen2.5-Turbo和Qwen2.5-Plus。開放式Qwen2.5-72B-Instruct的性能可與Llama-3-405B-Instruct相媲美,。

一些關(guān)鍵功能&以前版本的對比

Qwen2.5 LLMs維護(hù)基于變壓器的解碼器架構(gòu),，利用分組查詢注意力（GQA）、SwiGLU激活,、旋轉(zhuǎn)位置嵌入（RoPE）,、QKV偏置和RMSNorm。令牌化采用字節(jié)級字節(jié)對編碼（BBPE）,，并具有擴(kuò)展的控制令牌集,。

Qwen團(tuán)隊(duì)將訓(xùn)練前數(shù)據(jù)集擴(kuò)展到18萬億個(gè)代幣，納入了更多樣和高質(zhì)量的數(shù)據(jù),。預(yù)培訓(xùn)包括復(fù)雜的數(shù)據(jù)過濾,、專注于知識、代碼和數(shù)學(xué)的戰(zhàn)略數(shù)據(jù)混合以及長上下文培訓(xùn),。

對于訓(xùn)練后,，他們使用了超過100萬個(gè)樣本的復(fù)雜監(jiān)督微調(diào)（SFT），并結(jié)合了多階段強(qiáng)化學(xué)習(xí)（DPO,，然后是GRPO）,。兩階段強(qiáng)化學(xué)習(xí)涉及用于復(fù)雜推理的離線學(xué)習(xí)和用于細(xì)微差別輸出質(zhì)量的在線學(xué)習(xí)。

這些模型利用YARN和Dual Chunk Attention（DCA）來延長上下文長度,，Qwen2.5-Turbo高達(dá)100萬個(gè)代幣,。
訓(xùn)練的這些進(jìn)步導(dǎo)致了更好的人類偏好調(diào)整，增強(qiáng)了長文本生成,，并改善了結(jié)構(gòu)化數(shù)據(jù)分析,。

評估展示了在語言理解、數(shù)學(xué),、編碼和人類偏好調(diào)整方面的頂級表現(xiàn),，該報(bào)告還強(qiáng)調(diào)了Qwen2.5的長上下文能力。例如,，Qwen2.5-Turbo在1M令牌密碼檢索任務(wù)中實(shí)現(xiàn)了100%的準(zhǔn)確率,。Qwen2.5進(jìn)一步成為他們最新和最偉大的專業(yè)模型的基礎(chǔ)：Qwen2.5-Math、Qwen2.5-Coder,、QwQ和QvQ等多模態(tài)模型,。

總結(jié)

雖然大多數(shù)專有人工智能模型供應(yīng)商都對技術(shù)細(xì)節(jié)保密，但Qwen團(tuán)隊(duì)和DeepSeek團(tuán)隊(duì)通過各自的技術(shù)報(bào)告對他們的模型及其細(xì)節(jié)進(jìn)行了令人耳目一新的開放,。這些模型的發(fā)布不僅標(biāo)志著開源技術(shù)的進(jìn)步,，也凸顯了開放性在推動(dòng)行業(yè)前行中的關(guān)鍵作用。隨著這些領(lǐng)先團(tuán)隊(duì)的不斷努力，開源模型正在快速縮小與閉源頂級模型的差距,，為全球人工智能的發(fā)展注入新的動(dòng)力,。

最后的最后

感謝你們的閱讀和喜歡，作為一位在一線互聯(lián)網(wǎng)行業(yè)奮斗多年的老兵,，我深知在這個(gè)瞬息萬變的技術(shù)領(lǐng)域中,，持續(xù)學(xué)習(xí)和進(jìn)步的重要性。

為了幫助更多熱愛技術(shù),、渴望成長的朋友,，我特別整理了一份涵蓋大模型領(lǐng)域的寶貴資料集。

這些資料不僅是我多年積累的心血結(jié)晶,，也是我在行業(yè)一線實(shí)戰(zhàn)經(jīng)驗(yàn)的總結(jié),。

這些學(xué)習(xí)資料不僅深入淺出，而且非常實(shí)用,，讓大家系統(tǒng)而高效地掌握AI大模型的各個(gè)知識點(diǎn),。如果你愿意花時(shí)間沉下心來學(xué)習(xí)，相信它們一定能為你提供實(shí)質(zhì)性的幫助,。

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： netouch > 《我的圖書館》

舉報(bào)/認(rèn)領(lǐng)