久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

1000字說清周末的“算力之爭”

 天承辦公室 2025-01-01 發(fā)布于北京

本文系基于公開資料撰寫,,僅作為信息交流之用,不構成任何投資建議
圖片

周末最大的分歧,,估計就是算力之爭了,。
刷屏討論的DeepSeek-V3模型,消息稱只用了極少數卡,,就完成了訓練。
導致周五的算力板塊大跌,。
周末復盤,,也就中國股市有這反饋,美股根本不為所動,。
簡單想想,,今年字節(jié)在算力投入800億,明年預估1600億,。會因為這一個模型的訓練成本變化,,就減少投入嗎?
更何況,,經過周末的調查了解,,這個DeepSeek是走了捷徑的模型。
相當于走迷宮,,直接有了地圖,,而不需要逐一開圖試錯的模式。
以調研的結果做個解析:
DeepSeek V3 671B,,使用2048塊H800訓練2個月,,而Llama 3.1 405B使用1.6萬H100訓練80天。
需要注意的是:2048塊H800并非全部訓練算力投入,。
1) 不包括DeepSeek R1模型(對標OpenAI o1)生成的高質量數據消耗的算力,。
2) 不包括模型架構的探索調試階段消耗的算力。
第一條,,相當于走迷宮直接開了地圖,。
第二條,相當于走迷宮之前搭建程序的時間忽略不計。
關鍵詞:蒸餾,。蒸餾過的小模型訓練成本本來就是指數級下降,。因為前面有大模型踩完了所有的坑,它千辛萬苦收斂成功了,,它作為一個“teacher”模型去教一個“student”模型如何做個好模型,,時間正好就是兩個月,幾百張卡的事,。

可是之前踩的坑 都不算成本是吧,?幻方去年底就有超過10000張gpu,囤這么多卡都是為了吃灰,?小米的卡都沒它多,。要做新聞也行,不要玩文字游戲太狠,。

可是之前踩的坑 都不算成本是吧,?幻方去年底就有超過10000張gpu,囤這么多卡都是為了吃灰,?小米的卡都沒它多,。要做新聞也行,不要玩文字游戲太狠,。——來源:小熊跑的快

    本站是提供個人知識管理的網絡存儲空間,,所有內容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內容中的聯系方式,、誘導購買等信息,謹防詐騙,。如發(fā)現有害或侵權內容,,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多