這兩天,中國AI公司讓全球AI圈再次興奮了一把,。 起因是,,DeepSeek和 Kimi幾乎同時分別官宣了全新推理模型——R1和k1.5。 讓業(yè)內驚訝的是,, DeepSeek-R1和 Kimi k1.5的性能都相當“能打”,。 其中,文本推理模型DeepSeek-R1的性能追上o1正式版,,關鍵模型還是開源的,。而Kimi k1.5的文本和視覺多模態(tài)推理性能也已經(jīng)全面追上現(xiàn)役全球最強模型——OpenAI o1正式版。 具體來說,,在Long-CoT(思維鏈)模式下,,Kimi k1.5的數(shù)學、代碼,、視覺多模態(tài),、通用推理能力,達到了長思考SOTA模型OpenAI o1滿血版的水平。這也是全球范圍內,,首次有OpenAI之外的公司達到,。而在Short CoT模式下,Kimi k1.5大幅領先GPT-4o和Claude 3.5的水平,。 值得一提的是,,在發(fā)布k1.5模型的同時,Kimi還首次公布了詳細的模型研發(fā)技術報告,。透過這份技術報告,,我們也能夠從中找到一些k1.5模型的實踐經(jīng)驗。 / 01 / 中國雙子星再次炸場硅谷,,性能比肩OpenAI o1 雖然DeepSeek R1和Kimi k-1.5有不少相似之處,,比如都是以強化學習(RL)為核心驅動力。但從具體技術路線上,,兩者卻又有著很多不同,。 在兩個模型發(fā)布的第一時間,英偉達AI科學家Jim Fan詳細對比了兩個模型的相似處和差異點,。他發(fā)現(xiàn),,,Kimi和Deepseek的研究成果相似的地方在于: 1,、不需要像MCTS那樣復雜的樹搜索,。只需將思維軌跡線性化,然后進行傳統(tǒng)的自回歸預測即可,; 2,、不需要需要另一個昂貴的模型副本的價值函數(shù); 3,、無需密集獎勵建模,。盡可能依賴事實和最終結果。 而兩者的差異點在于: 1,、DeepSeek采用AlphaZero方法-純粹通過RL引導,,無需人工輸入,即“冷啟動”,。Kimi采用AlphaGo-Master方法:通過即時設計的CoT跟蹤進行輕度SFT預熱,。 2、DeepSeek權重是MIT許可證,;Kimi K1.5是閉源模型,。 3、Kimi在MathVista等基準測試中表現(xiàn)出強大的多模式性能,,這需要對幾何,、智商測試等有視覺理解(DeepSeek目前只能識別文字,,不支持圖片識別)。 4,、Kimi的論文在系統(tǒng)設計上有更多細節(jié):RL基礎設施,、混合集群、代碼沙箱,、并行策略,;以及學習細節(jié):長上下文、CoT 壓縮,、課程,、采樣策略、測試用例生成等,。 當然,,除了這些技術細節(jié)外,回歸市場層面,,之所以DeepSeek與Kimi發(fā)布推理模型能夠引發(fā)如此高的關注,,一個核心原因是,相比過去發(fā)布的類o1-preview模型,,這兩家公司發(fā)布的都是滿血版o1,。 無論是數(shù)學,還是代碼基準測試分數(shù),,DeepSeek與Kimi的得分都接近甚至超過OpenAIo1模型,。 與Deepseek不同的一點是,,Kimi k1.5是OpenAI之外首個多模態(tài)o1,。 Kimi k1.5在文本和視覺數(shù)據(jù)上進行訓練,使其能夠同時處理文本和視覺數(shù)據(jù),。這種多模態(tài)能力使得模型能夠聯(lián)合推理文本和圖像信息,,從而在多模態(tài)任務中表現(xiàn)出色。 例如,,在視覺問答(Visual Question Answering,VQA)和數(shù)學推理任務中,,模型能夠通過理解和分析圖像內容來生成準確的答案。這種多模態(tài)設計不僅擴展了模型的應用范圍,,還提升了其在復雜任務中的表現(xiàn)能力,。 Kimi k1.5出色的多模態(tài)能力,也引發(fā)了業(yè)內的熱議,。在X平臺上,,知名AI博主Mark Kretschmann大呼,“這是多模態(tài)AI的巨大突破,?!?/span> 第三,,短模型能力全面領先,在短思考模式(short-CoT)模式下,,數(shù)學能力無論是gpt-4o還是claude3.5-sonnet都遠不如Kimi 1.5,,尤其是在AIME榜單上,Kimi 1.5有60.8,,而最高模型里最高的只有39.2,,堪稱斷層式碾壓。 除了數(shù)學能力外,,在代碼視覺多模態(tài)和通用能力等場景下,,Kimi 1.5也超越了目前的開源模型。 在強勁的模型性能背后,,肯定有很多人關心,,這個滿血版o1水平的模型究竟是如何實現(xiàn)的?對此,,月之暗面也大方公開了Kimi 1.5模型的相關訓練技術細節(jié),。 / 02 / “l(fā)ong2short“訓練方案引人關注 在Kimi k1.5技術報告里,最大的亮點莫過于“Long2Short”訓練方案,,其方法是先讓長CoT模型學會長鏈式思維,,再將“長模型”與“短模型”進行合并,然后對短模型進行額外的強化學習微調,,進而顯著提升短推理路徑模型的性能,。 具體來說,主要有以下四種方法: 模型合并:之前都是通過模型合并來提高模型的泛化性,,k1.5發(fā)現(xiàn)long-cot模型和short-cot模型也可以合并,,進而提高輸出效率,中和輸出內容,,并且無需訓練,。 最短拒絕采樣:對于模型輸出結果進行n次采樣(實驗中n=8),選擇最短的正確結果進行模型微調,。 DPO:與最短拒絕采樣類似,,利用long-cot模型生成多個輸出結果,將最短的正確輸出作為正樣本,,而較長的響應(包括:錯誤的長輸出,、比所選正樣本長1.5倍的正確長輸出)作為負樣本,通過構造的正負樣本進行DPO偏好學習,。 Long2Short的強化學習:在標準的強化學習訓練階段之后,,選擇一個在性能和輸出效率之間達到最佳平衡的模型作為基礎模型,并進行單獨的long-cot到short-cot的強化學習訓練階段,。在這一階段,,采用長度懲罰,,進一步懲罰超出期望長度,但保證模型仍然可能正確,。 Long2Short方案的優(yōu)勢在于,,最大化保留原先長模型的推理能力,避免了常見的“精簡模型后能力減弱”難題,,同時有效挖掘短模型在特定場景下的高效推理或部署優(yōu)勢,。 這意味著,即使在有限的計算資源下,,模型也能表現(xiàn)出良好的推理能力,。 對于這種獨特的訓練方法,國外AI從業(yè)人士也給了很高的評價: ”long2short方法很有趣,。首先,,它顯示了將思維先驗從長期CoT模型轉移到短期CoT模型的潛力。這對于提高有限測試時token預算的性能非常有用,。他們表明,,與DPO和模型合并等其他方法相比,它可以獲得最高的推理效率,?!?/span> / 03 / 推理模型,或成大模型競爭分水嶺 過去三個月里,,能明顯感受到,,Kimi在推理模型上進化速度之快。 2024年11月,,他們首次推出的數(shù)學推理模型K0-math,,就展現(xiàn)出了在數(shù)學領域的領先性。 12月,,Kimi發(fā)布了視覺思考模型k1,,在k0-math的基礎上,k1 的推理能力不僅大大提升,,還突破了數(shù)學題的范圍,更解鎖了強大的視覺理解能力,。 現(xiàn)在,,Kimi又往前進了一步,推出了推理能力更強大的k1.5,。 從產(chǎn)業(yè)維度看,,這事的意義不僅在于模型性能的升級,也直接影響產(chǎn)業(yè)競爭格局的變化,。由于數(shù)據(jù)瓶頸和成本等原因,,預訓練scaling law的魔法正在面臨著更多的考驗,。 而o1被認為是提升模型智能的新路徑。正如OpenAI研究科學家Noam Brown所說,,相比預訓練的巨額投入,,測試時間計算的成本相對較低,且算法改進空間巨大,,具有巨大的提升潛力,。 也就是說,大模型升級正在經(jīng)歷從預訓練到后訓練+測試時計算的范式轉換,。 從這個角度上說,,“o1”類模型將是下一步國內一線實驗室角逐的分水嶺。誰能盡快做出自己的“o1”,,誰才有資格繼續(xù)留在牌桌,。毫無疑問,隨著DeepSeek R1和Kimi k-1.5模型的發(fā)布,,月之暗面和幻方已經(jīng)拿到了一張門票,。 考慮到o1大大提升模型解決復雜問題的能力,將推動模型進入越來越多垂直領域,,從數(shù)學,、編程開始,進入到法律,、科研,、金融、咨詢等領域,。在這個過程中,,國內大模型在商業(yè)化層面取得更多的突破也值得期待。 文/林白 |
|