DeepSeek,，“引起硅谷恐慌”

耕讀傳家V 2025-01-27

展開全文

近日，通用人工智能模型AGI研發(fā)商DeepSeek受到了廣泛關(guān)注,。1月26日,，DeepSeek相關(guān)話題已位列熱榜話題榜第二名。

27日,，DeepSeek應(yīng)用登頂蘋果中國(guó)地區(qū)和美國(guó)地區(qū)應(yīng)用商店免費(fèi)App下載排行榜,，在美區(qū)下載榜上超越了ChatGPT。

據(jù)悉,，DeepSeek于2025年1月發(fā)布了性能比肩OpenAI o1正式版的DeepSeek-R1模型,，該模型在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù)，在僅有極少標(biāo)注數(shù)據(jù)的情況下,，極大提升了模型推理能力。

模型發(fā)布后引起了廣泛熱議,，CNBC稱：“一家鮮為人知的中國(guó)人工智能實(shí)驗(yàn)室發(fā)布了人工智能模型,，盡管其搭建成本更低，但性能卻超越美國(guó)最好的人工智能模型,，這引發(fā)了整個(gè)硅谷的恐慌,。”

1月26日,，有消息稱DeepSeek出現(xiàn)閃崩,，提示服務(wù)器繁忙。當(dāng)日16點(diǎn),，上證報(bào)記者實(shí)測(cè)發(fā)現(xiàn),，DeepSeek大模型已可以正常使用。

公開信息顯示,，DeepSeek所屬企業(yè)為杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,，該公司由梁文鋒間接控股83.2945%。據(jù)悉,，梁文鋒出生于廣東,，畢業(yè)于浙江大學(xué),，此前曾從事量化投資工作。

低成本,、高性能

DeepSeek-R1模型最顯著的特點(diǎn)是較強(qiáng)的性能與較低的成本,。

公開信息顯示，DeepSeek-R1的性能可對(duì)標(biāo)OpenAI o1正式版,，但DeepSeek-R1 API服務(wù)定價(jià)為每百萬輸入tokens1元（緩存命中）/4元（緩存未命中）,，每百萬輸出tokens16元。有業(yè)內(nèi)人士向記者表示,，這個(gè)收費(fèi)標(biāo)準(zhǔn)大約是OpenAI o1運(yùn)行成本的三十分之一,。

DeepSeek-AI團(tuán)隊(duì)的論文顯示，DeepSeek R1的技術(shù)關(guān)鍵點(diǎn)在于其創(chuàng)新的訓(xùn)練方法——DeepSeek-R1-Zero路線,，傳統(tǒng)LLM的推理能力通常需要大量人工標(biāo)注的監(jiān)督數(shù)據(jù),，而該路線直接將強(qiáng)化學(xué)習(xí)（RL）應(yīng)用于基礎(chǔ)模型，無需依賴監(jiān)督微調(diào)（SFT）和已標(biāo)注數(shù)據(jù),。

事實(shí)上,，低成本、高性能一直是DeepSeek模型的“賣點(diǎn)”,。

DeepSeek曾于2024年12月推出DeepSeek-V3模型,，其多項(xiàng)評(píng)測(cè)成績(jī)超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型，并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲,。

值得注意的是,，該模型僅用了兩個(gè)月的時(shí)間和不到600萬美元就開發(fā)完成，且模型訓(xùn)練使用的是性能受限的英偉達(dá)H800顯卡,。與之相對(duì)的,，Meta的Llama-3.1-405B的訓(xùn)練成本高達(dá)6000萬美元，使用的計(jì)算資源是 DeepSeek-V3的11倍,。

在美國(guó)匿名職場(chǎng)社區(qū)teamblind上,，已有Meta員工表示DeepSeek的低成本和高效能讓團(tuán)隊(duì)面臨預(yù)算合理性的問題：“生成式AI開發(fā)團(tuán)隊(duì)中的每個(gè)領(lǐng)導(dǎo)的薪酬都比整個(gè)DeepSeek-V3的成本還要高，而我們有好幾十個(gè)這樣的領(lǐng)導(dǎo),?！?/p>

市場(chǎng)反響激烈

DeepSeek-R1模型的發(fā)布引起了激烈的討論。有關(guān)業(yè)內(nèi)人士表示,，市場(chǎng)反響如此劇烈的原因在于,，DeepSeek的實(shí)例表明，AI技術(shù)并不存在明顯的“護(hù)城河”,，模型技術(shù)的相互超越已成為常態(tài),。

微軟首席執(zhí)行官薩提亞·納德拉（Satya Nadella）在達(dá)沃斯世界經(jīng)濟(jì)論壇上表示：“DeepSeek的新模型令人印象深刻，他們不僅有效地開發(fā)出了一個(gè)能夠進(jìn)行推理時(shí)計(jì)算的開源模型,，而且計(jì)算效率極高,?！?/p>

經(jīng)濟(jì)學(xué)人指出，目前美國(guó)訓(xùn)練一個(gè)大語言模型要花費(fèi)數(shù)千萬美元,，而DeepSeek的支出不到600萬美元,。這種廉價(jià)訓(xùn)練正隨著模型設(shè)計(jì)的發(fā)展改變整個(gè)行業(yè)，可能導(dǎo)致更多針對(duì)特定用途的專業(yè)模型涌現(xiàn),，打破贏者通吃的市場(chǎng)格局,。

此外，AMD宣布DeepSeek-V3模型已集成至Instinct MI300X GPU上,，并借助SGLang進(jìn)行了性能優(yōu)化,。AMD還表示，此次集成將有助于加速尖端人工智能應(yīng)用的發(fā)展,。

DeepSeek的熱度高漲也引起了國(guó)內(nèi)資本市場(chǎng)的關(guān)注,。相關(guān)業(yè)內(nèi)人士表示，人工智能有望在春節(jié)前后繼續(xù)成為資本市場(chǎng)追逐的熱點(diǎn)板塊,。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：耕讀傳家V > 《投資》

舉報(bào)/認(rèn)領(lǐng)