本文系基于公開資料撰寫,,僅作為信息交流之用,不構成任何投資建議
刷屏討論的DeepSeek-V3模型,消息稱只用了極少數卡,,就完成了訓練。周末復盤,,也就中國股市有這反饋,美股根本不為所動,。 簡單想想,,今年字節(jié)在算力投入800億,明年預估1600億,。會因為這一個模型的訓練成本變化,,就減少投入嗎?更何況,,經過周末的調查了解,,這個DeepSeek是走了捷徑的模型。相當于走迷宮,,直接有了地圖,,而不需要逐一開圖試錯的模式。 DeepSeek V3 671B,,使用2048塊H800訓練2個月,,而Llama 3.1 405B使用1.6萬H100訓練80天。需要注意的是:2048塊H800并非全部訓練算力投入,。1) 不包括DeepSeek R1模型(對標OpenAI o1)生成的高質量數據消耗的算力,。(關鍵詞:蒸餾,。蒸餾過的小模型訓練成本本來就是指數級下降,。因為前面有大模型踩完了所有的坑,它千辛萬苦收斂成功了,,它作為一個“teacher”模型去教一個“student”模型如何做個好模型,,時間正好就是兩個月,幾百張卡的事,。可是之前踩的坑 都不算成本是吧,?幻方去年底就有超過10000張gpu,囤這么多卡都是為了吃灰,?小米的卡都沒它多,。要做新聞也行,不要玩文字游戲太狠,。 可是之前踩的坑 都不算成本是吧,?幻方去年底就有超過10000張gpu,囤這么多卡都是為了吃灰,?小米的卡都沒它多,。要做新聞也行,不要玩文字游戲太狠,。——來源:小熊跑的快)
|