近日,通用人工智能模型AGI研發(fā)商DeepSeek受到了廣泛關(guān)注,。1月26日,,DeepSeek相關(guān)話題已位列熱榜話題榜第二名。 27日,,DeepSeek應(yīng)用登頂蘋果中國(guó)地區(qū)和美國(guó)地區(qū)應(yīng)用商店免費(fèi)App下載排行榜,,在美區(qū)下載榜上超越了ChatGPT。 據(jù)悉,,DeepSeek于2025年1月發(fā)布了性能比肩OpenAI o1正式版的DeepSeek-R1模型,,該模型在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,,極大提升了模型推理能力。 模型發(fā)布后引起了廣泛熱議,,CNBC稱:“一家鮮為人知的中國(guó)人工智能實(shí)驗(yàn)室發(fā)布了人工智能模型,,盡管其搭建成本更低,但性能卻超越美國(guó)最好的人工智能模型,,這引發(fā)了整個(gè)硅谷的恐慌,。” 1月26日,,有消息稱DeepSeek出現(xiàn)閃崩,,提示服務(wù)器繁忙。當(dāng)日16點(diǎn),,上證報(bào)記者實(shí)測(cè)發(fā)現(xiàn),,DeepSeek大模型已可以正常使用。 公開信息顯示,,DeepSeek所屬企業(yè)為杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,,該公司由梁文鋒間接控股83.2945%。據(jù)悉,,梁文鋒出生于廣東,,畢業(yè)于浙江大學(xué),,此前曾從事量化投資工作。 低成本,、高性能 DeepSeek-R1模型最顯著的特點(diǎn)是較強(qiáng)的性能與較低的成本,。 公開信息顯示,DeepSeek-R1的性能可對(duì)標(biāo)OpenAI o1正式版,,但DeepSeek-R1 API服務(wù)定價(jià)為每百萬輸入tokens1元(緩存命中)/4元(緩存未命中),,每百萬輸出tokens16元。有業(yè)內(nèi)人士向記者表示,,這個(gè)收費(fèi)標(biāo)準(zhǔn)大約是OpenAI o1運(yùn)行成本的三十分之一,。 DeepSeek-AI團(tuán)隊(duì)的論文顯示,DeepSeek R1的技術(shù)關(guān)鍵點(diǎn)在于其創(chuàng)新的訓(xùn)練方法——DeepSeek-R1-Zero路線,,傳統(tǒng)LLM的推理能力通常需要大量人工標(biāo)注的監(jiān)督數(shù)據(jù),,而該路線直接將強(qiáng)化學(xué)習(xí)(RL)應(yīng)用于基礎(chǔ)模型,無需依賴監(jiān)督微調(diào)(SFT)和已標(biāo)注數(shù)據(jù),。 事實(shí)上,,低成本、高性能一直是DeepSeek模型的“賣點(diǎn)”,。 DeepSeek曾于2024年12月推出DeepSeek-V3模型,,其多項(xiàng)評(píng)測(cè)成績(jī)超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲,。 值得注意的是,,該模型僅用了兩個(gè)月的時(shí)間和不到600萬美元就開發(fā)完成,且模型訓(xùn)練使用的是性能受限的英偉達(dá)H800顯卡,。與之相對(duì)的,,Meta的Llama-3.1-405B的訓(xùn)練成本高達(dá)6000萬美元,使用的計(jì)算資源是 DeepSeek-V3的11倍,。 在美國(guó)匿名職場(chǎng)社區(qū)teamblind上,,已有Meta員工表示DeepSeek的低成本和高效能讓團(tuán)隊(duì)面臨預(yù)算合理性的問題:“生成式AI開發(fā)團(tuán)隊(duì)中的每個(gè)領(lǐng)導(dǎo)的薪酬都比整個(gè)DeepSeek-V3的成本還要高,而我們有好幾十個(gè)這樣的領(lǐng)導(dǎo),?!?/p> 市場(chǎng)反響激烈 DeepSeek-R1模型的發(fā)布引起了激烈的討論。有關(guān)業(yè)內(nèi)人士表示,,市場(chǎng)反響如此劇烈的原因在于,,DeepSeek的實(shí)例表明,AI技術(shù)并不存在明顯的“護(hù)城河”,,模型技術(shù)的相互超越已成為常態(tài),。 微軟首席執(zhí)行官薩提亞·納德拉(Satya Nadella)在達(dá)沃斯世界經(jīng)濟(jì)論壇上表示:“DeepSeek的新模型令人印象深刻,他們不僅有效地開發(fā)出了一個(gè)能夠進(jìn)行推理時(shí)計(jì)算的開源模型,,而且計(jì)算效率極高,?!?/p> 經(jīng)濟(jì)學(xué)人指出,目前美國(guó)訓(xùn)練一個(gè)大語言模型要花費(fèi)數(shù)千萬美元,,而DeepSeek的支出不到600萬美元,。這種廉價(jià)訓(xùn)練正隨著模型設(shè)計(jì)的發(fā)展改變整個(gè)行業(yè),可能導(dǎo)致更多針對(duì)特定用途的專業(yè)模型涌現(xiàn),,打破贏者通吃的市場(chǎng)格局,。 此外,AMD宣布DeepSeek-V3模型已集成至Instinct MI300X GPU上,,并借助SGLang進(jìn)行了性能優(yōu)化,。AMD還表示,此次集成將有助于加速尖端人工智能應(yīng)用的發(fā)展,。 DeepSeek的熱度高漲也引起了國(guó)內(nèi)資本市場(chǎng)的關(guān)注,。相關(guān)業(yè)內(nèi)人士表示,人工智能有望在春節(jié)前后繼續(xù)成為資本市場(chǎng)追逐的熱點(diǎn)板塊,。 |
|