在全球人工智能模型快速發(fā)展的浪潮中,,DeepSeek-V3和Qwen 2.5系列的亮相為開源模型注入了新的活力,。這兩大模型通過技術(shù)創(chuàng)新和高效優(yōu)化,成功將訓(xùn)練成本和資源消耗降至最低,,同時(shí)實(shí)現(xiàn)了與閉源頂級模型相媲美的性能,。 DeepSeek-V3技術(shù)報(bào)告報(bào)告內(nèi)容詳見: https://wcn4il2c5x2d./wiki/G28mwxSAsis8Zykfyqbcsdzenbf DeepSeek-V3模型–一個(gè)100%開源的LLM,在許多基準(zhǔn)上擊敗了GPT 4o和Claude 3.5 Sonnet,;一個(gè)強(qiáng)大的混合專家(MoE)語言模型,,總參數(shù)為671B,每個(gè)token激活了37B,。DeepSeek團(tuán)隊(duì)在HuggingFace上共享了模型,,并在他們的“DeepSeek-V3技術(shù)報(bào)告”中提供了有關(guān)模型的詳細(xì)信息。 DeepSeek MoE架構(gòu)是一個(gè)精細(xì)的MoE,,每個(gè)token有1個(gè)共享專家和256個(gè)路由專家,,8個(gè)活躍路由專家。該架構(gòu)還包括多頭潛在注意力,,具有低等級聯(lián)合壓縮,,用于關(guān)注鍵和值。它還具有多token預(yù)測,,有助于投機(jī)解碼和更好地利用訓(xùn)練數(shù)據(jù),。 Deepseek-V3使用14.8萬億個(gè)token進(jìn)行訓(xùn)練,使用了2788K H800 GPU小時(shí),,成本僅為560萬美元,。DeepSeek-V3的這種具有成本效益的訓(xùn)練是由于精細(xì)的MoE架構(gòu),在訓(xùn)練中使用FP8混合精度,以及在訓(xùn)練期間調(diào)整和擴(kuò)展上下文長度,。 他們通過算法-框架-硬件共同設(shè)計(jì)克服了大型MoE模型訓(xùn)練中的通信瓶頸,,實(shí)現(xiàn)了在訓(xùn)練中有效使用計(jì)算。兩階段的上下文長度擴(kuò)展首先將上下文從4k令牌擴(kuò)展到32k令牌,,然后擴(kuò)展到128k令牌,。與Llama、Claude和類似的人工智能模型相比,,這些優(yōu)化的綜合結(jié)果是訓(xùn)練效率極高,,成本降低了10倍。 訓(xùn)練后使用SFT和RL來與人類的偏好保持一致,,并提煉DeepSeek-R1推理能力,,他們的推理模型,這增強(qiáng)了其推理和數(shù)學(xué)能力,。多令牌預(yù)測(MTP)可用于增強(qiáng)模型性能,,并實(shí)現(xiàn)推理加速的投機(jī)解碼。 DeepSeek-V3對MoE LLM的基準(zhǔn)非常令人印象深刻,,只有37B個(gè)活動(dòng)參數(shù):MMLU上88.5,,GPQA上59.1,MMLU-Pro上75.9,,MATH上90.2,,CodeForces上51.6等。DeepSeek-V3是目前最強(qiáng)的開源模型,,其性能可與GPT-4o和Claude-3.5-Sonnet等領(lǐng)先的閉源模型相媲美,。 Qwen2.5技術(shù)報(bào)告報(bào)告內(nèi)容詳見: https://wcn4il2c5x2d./wiki/PwpEwDPdMiJetPkaKY9cK4XFnOg Qwen 2.5系列LLM于9月發(fā)布,從那時(shí)起,,阿里巴巴Qwen團(tuán)隊(duì)發(fā)布了有用的更新,,包括Qwen-2.5編碼器32B模型,擴(kuò)展了100萬個(gè)令牌上下文支持,,以及基于Qwen 32B的推理人工智能模型Qwen QwQ,。本周,他們發(fā)布了QvQ,,這是一個(gè)基于Qwen2-VL-72B的視覺推理模型。這一系列版本使Qwen成為領(lǐng)先的LLM家族,,擁有一些用于編碼,、推理和本地使用的最佳人工智能模型。 阿里巴巴Qwen團(tuán)隊(duì)發(fā)布了Qwen2.5技術(shù)報(bào)告,,以提供有關(guān)該開放式權(quán)重系列LLM的更多詳細(xì)信息,。Qwen2.5系列由幾個(gè)開放式權(quán)重基礎(chǔ)和指令調(diào)整模型組成,參數(shù)范圍從0.5B到72B,。此外,,還有兩種專有的混合專家(MoE)型號,,Qwen2.5-Turbo和Qwen2.5-Plus。開放式Qwen2.5-72B-Instruct的性能可與Llama-3-405B-Instruct相媲美,。 一些關(guān)鍵功能&以前版本的對比 Qwen2.5 LLMs維護(hù)基于變壓器的解碼器架構(gòu),,利用分組查詢注意力(GQA)、SwiGLU激活,、旋轉(zhuǎn)位置嵌入(RoPE),、QKV偏置和RMSNorm。令牌化采用字節(jié)級字節(jié)對編碼(BBPE),,并具有擴(kuò)展的控制令牌集,。 Qwen團(tuán)隊(duì)將訓(xùn)練前數(shù)據(jù)集擴(kuò)展到18萬億個(gè)代幣,納入了更多樣和高質(zhì)量的數(shù)據(jù),。預(yù)培訓(xùn)包括復(fù)雜的數(shù)據(jù)過濾,、專注于知識、代碼和數(shù)學(xué)的戰(zhàn)略數(shù)據(jù)混合以及長上下文培訓(xùn),。 對于訓(xùn)練后,,他們使用了超過100萬個(gè)樣本的復(fù)雜監(jiān)督微調(diào)(SFT),并結(jié)合了多階段強(qiáng)化學(xué)習(xí)(DPO,,然后是GRPO),。兩階段強(qiáng)化學(xué)習(xí)涉及用于復(fù)雜推理的離線學(xué)習(xí)和用于細(xì)微差別輸出質(zhì)量的在線學(xué)習(xí)。 這些模型利用YARN和Dual Chunk Attention(DCA)來延長上下文長度,,Qwen2.5-Turbo高達(dá)100萬個(gè)代幣,。 評估展示了在語言理解、數(shù)學(xué),、編碼和人類偏好調(diào)整方面的頂級表現(xiàn),,該報(bào)告還強(qiáng)調(diào)了Qwen2.5的長上下文能力。例如,,Qwen2.5-Turbo在1M令牌密碼檢索任務(wù)中實(shí)現(xiàn)了100%的準(zhǔn)確率,。Qwen2.5進(jìn)一步成為他們最新和最偉大的專業(yè)模型的基礎(chǔ):Qwen2.5-Math、Qwen2.5-Coder,、QwQ和QvQ等多模態(tài)模型,。 總結(jié)雖然大多數(shù)專有人工智能模型供應(yīng)商都對技術(shù)細(xì)節(jié)保密,但Qwen團(tuán)隊(duì)和DeepSeek團(tuán)隊(duì)通過各自的技術(shù)報(bào)告對他們的模型及其細(xì)節(jié)進(jìn)行了令人耳目一新的開放,。這些模型的發(fā)布不僅標(biāo)志著開源技術(shù)的進(jìn)步,,也凸顯了開放性在推動(dòng)行業(yè)前行中的關(guān)鍵作用。隨著這些領(lǐng)先團(tuán)隊(duì)的不斷努力,開源模型正在快速縮小與閉源頂級模型的差距,,為全球人工智能的發(fā)展注入新的動(dòng)力,。 最后的最后感謝你們的閱讀和喜歡,作為一位在一線互聯(lián)網(wǎng)行業(yè)奮斗多年的老兵,,我深知在這個(gè)瞬息萬變的技術(shù)領(lǐng)域中,,持續(xù)學(xué)習(xí)和進(jìn)步的重要性。 為了幫助更多熱愛技術(shù),、渴望成長的朋友,,我特別整理了一份涵蓋大模型領(lǐng)域的寶貴資料集。 這些資料不僅是我多年積累的心血結(jié)晶,,也是我在行業(yè)一線實(shí)戰(zhàn)經(jīng)驗(yàn)的總結(jié),。 這些學(xué)習(xí)資料不僅深入淺出,而且非常實(shí)用,,讓大家系統(tǒng)而高效地掌握AI大模型的各個(gè)知識點(diǎn),。如果你愿意花時(shí)間沉下心來學(xué)習(xí),相信它們一定能為你提供實(shí)質(zhì)性的幫助,。
|
|