1000字說清周末的“算力之爭”

天承辦公室 2025-01-01 發(fā)布于北京

展開全文

本文系基于公開資料撰寫,，僅作為信息交流之用，不構成任何投資建議

周末最大的分歧,，估計就是算力之爭了,。

刷屏討論的DeepSeek-V3模型，消息稱只用了極少數卡,，就完成了訓練。

導致周五的算力板塊大跌,。

周末復盤,，也就中國股市有這反饋，美股根本不為所動,。

簡單想想,，今年字節(jié)在算力投入800億，明年預估1600億,。會因為這一個模型的訓練成本變化,，就減少投入嗎？

更何況,，經過周末的調查了解,，這個DeepSeek是走了捷徑的模型。

相當于走迷宮,，直接有了地圖,，而不需要逐一開圖試錯的模式。

以調研的結果做個解析：

DeepSeek V3 671B,，使用2048塊H800訓練2個月,，而Llama 3.1 405B使用1.6萬H100訓練80天。

需要注意的是：2048塊H800并非全部訓練算力投入,。

1）不包括DeepSeek R1模型（對標OpenAI o1）生成的高質量數據消耗的算力,。

2）不包括模型架構的探索調試階段消耗的算力。

第一條,，相當于走迷宮直接開了地圖,。

第二條，相當于走迷宮之前搭建程序的時間忽略不計。

（關鍵詞：蒸餾,。蒸餾過的小模型訓練成本本來就是指數級下降,。因為前面有大模型踩完了所有的坑，它千辛萬苦收斂成功了,，它作為一個“teacher”模型去教一個“student”模型如何做個好模型,，時間正好就是兩個月，幾百張卡的事,。

可是之前踩的坑都不算成本是吧,？幻方去年底就有超過10000張gpu，囤這么多卡都是為了吃灰,？小米的卡都沒它多,。要做新聞也行，不要玩文字游戲太狠,。

可是之前踩的坑都不算成本是吧,？幻方去年底就有超過10000張gpu，囤這么多卡都是為了吃灰,？小米的卡都沒它多,。要做新聞也行，不要玩文字游戲太狠,。——來源：小熊跑的快）

本站是提供個人知識管理的網絡存儲空間,，所有內容均由用戶發(fā)布，不代表本站觀點,。請注意甄別內容中的聯系方式,、誘導購買等信息，謹防詐騙,。如發(fā)現有害或侵權內容,，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：天承辦公室 > 《010參謀必備》

舉報/認領

0條評論

請遵守用戶評論公約

類似文章 更多

天承辦公室

關注對話

喜歡該文的人也喜歡更多

熱門閱讀換一換

久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久