久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

揭秘DeepSeek:一個更極致的中國技術(shù)理想主義故事

 zyiy2017 2025-01-28



中國的7家大模型創(chuàng)業(yè)公司中,,DeepSeek(深度求索)最不聲不響,,但它又總能以出其不意的方式被人記住。

一年前,,這種出其不意源自它背后的量化私募巨頭幻方,,是大廠外唯一一家儲備萬張A100芯片的公司,一年后,,則來自它才是引發(fā)中國大模型價(jià)格戰(zhàn)的源頭,。

在被AI連續(xù)轟炸的5月,DeepSeek一躍成名,。起因是他們發(fā)布的一款名為DeepSeek V2的開源模型,,提供了一種史無前例的性價(jià)比:推理成本被降到每百萬token僅 1塊錢,約等于Llama3 70B的七分之一,,GPT-4 Turbo的七十分之一,。

DeepSeek被迅速冠以“AI界拼多多”之稱的同時,,字節(jié)、騰訊,、百度,、阿里等大廠也按耐不住,紛紛降價(jià),。中國大模型價(jià)格戰(zhàn)由此一觸即發(fā),。

彌漫的硝煙其實(shí)掩蓋了一個事實(shí):與很多大廠燒錢補(bǔ)貼不同,DeepSeek是有利潤的,。

這背后,,是DeepSeek對模型架構(gòu)進(jìn)行了全方位創(chuàng)新。它提出的一種嶄新的MLA(一種新的多頭潛在注意力機(jī)制)架構(gòu),,把顯存占用降到了過去最常用的MHA架構(gòu)的5%-13%,,同時,它獨(dú)創(chuàng)的DeepSeekMoESparse結(jié)構(gòu),,也把計(jì)算量降到極致,,所有這些最終促成了成本的下降。

在硅谷,,DeepSeek被稱作“來自東方的神秘力量”,。SemiAnalysis首席分析師認(rèn)為,DeepSeek V2論文“可能是今年最好的一篇”,。OpenAI前員工Andrew Carr認(rèn)為論文“充滿驚人智慧”,,并將其訓(xùn)練設(shè)置應(yīng)用于自己的模型。而OpenAI前政策主管,、Anthropic聯(lián)合創(chuàng)始人Jack Clark認(rèn)為,,DeepSeek“雇傭了一批高深莫測的奇才”,還認(rèn)為中國制造的大模型,,“將和無人機(jī),、電動汽車一樣,成為不容忽視的力量,?!?/span>

在基本由硅谷牽動故事進(jìn)展的AI浪潮里,這是罕有的情形,。多位行業(yè)人士告訴我們,,這種強(qiáng)烈的反響源自架構(gòu)層面的創(chuàng)新,是國產(chǎn)大模型公司乃至全球開源基座大模型都很罕見的嘗試,。一位AI研究者表示,,Attention架構(gòu)提出多年來,幾乎未被成功改過,更遑論大規(guī)模驗(yàn)證,?!斑@甚至是一個做決策時就會被掐斷的念頭,因?yàn)榇蟛糠秩硕既狈π判??!?/span>

而另一方面,國產(chǎn)大模型之前很少涉足架構(gòu)層面的創(chuàng)新,,也是因?yàn)楹苌儆腥酥鲃尤羝颇菢右环N成見:美國更擅長從0-1的技術(shù)創(chuàng)新,,而中國更擅長從1-10的應(yīng)用創(chuàng)新。何況這種行為非常不劃算——新一代模型,,過幾個月自然有人做出來,,中國公司只要跟隨、做好應(yīng)用即可,。對模型結(jié)構(gòu)進(jìn)行創(chuàng)新,,意味著沒有路徑可依,要經(jīng)歷很多失敗,,時間、經(jīng)濟(jì)成本都耗費(fèi)巨大,。

DeepSeek顯然是逆行者,。在一片認(rèn)為大模型技術(shù)必然趨同,follow是更聰明捷徑的喧嘩聲中,,DeepSeek看重“彎路”中積累的價(jià)值,,并認(rèn)為中國的大模型創(chuàng)業(yè)者除應(yīng)用創(chuàng)新外,也可以加入到全球技術(shù)創(chuàng)新的洪流中,。

DeepSeek的很多抉擇都與眾不同,。截至目前,7家中國大模型創(chuàng)業(yè)公司中,,它是唯一一家放棄“既要又要”路線,,至今專注在研究和技術(shù),未做toC應(yīng)用的公司,,也是唯一一家未全面考慮商業(yè)化,,堅(jiān)定選擇開源路線甚至都沒融過資的公司。這些使得它經(jīng)常被遺忘在牌桌之外,,但在另一端,,它又經(jīng)常在社區(qū)被用戶“自來水”式傳播。

DeepSeek究竟是如何煉成的,?我們?yōu)榇嗽L談了甚少露面的DeepSeek創(chuàng)始人梁文鋒,。

這位從幻方時代,就在幕后潛心研究技術(shù)的80后創(chuàng)始人,在DeepSeek時代,,依舊延續(xù)著他的低調(diào)作風(fēng),,和所有研究員一樣,每天“看論文,,寫代碼,,參與小組討論”。

和很多量化基金創(chuàng)始人都有過海外對沖基金履歷,,多出身物理,、數(shù)學(xué)等專業(yè)不同的是,梁文鋒一直是本土背景,,早年就讀的也是浙江大學(xué)電子工程系人工智能方向,。

多位行業(yè)人士和DeepSeek研究員告訴我們,梁文鋒是當(dāng)下中國AI界非常罕見的“兼具強(qiáng)大的infra工程能力和模型研究能力,,又能調(diào)動資源”,、“既可以從高處做精準(zhǔn)判斷,又可以在細(xì)節(jié)上強(qiáng)過一線研究員”的人,,他擁有“令人恐怖的學(xué)習(xí)能力”,,同時又“完全不像一個老板,而更像一個極客”,。

這是一次尤為難得的訪談,。訪談里,這位技術(shù)理想主義者,,提供了目前中國科技界特別稀缺的一種聲音:他是少有的把“是非觀”置于“利害觀”之前,,并提醒我們看到時代慣性,把“原創(chuàng)式創(chuàng)新”提上日程的人,。

一年前,,DeepSeek剛下場時,我們初次訪談了梁文鋒 :《瘋狂的幻方:一家隱形AI巨頭的大模型之路》 ,。如果說當(dāng)時那句「務(wù)必要瘋狂地懷抱雄心,,且還要瘋狂地真誠」還是一句美麗的口號,一年過去,,它已經(jīng)在成為一種行動,。

以下為對話部分

圖片
價(jià)格戰(zhàn)第一槍是怎么打響的?
「暗涌」:DeepSeek V2模型發(fā)布后,,迅速引發(fā)一場血雨腥風(fēng)的大模型價(jià)格戰(zhàn),,有人說你們是行業(yè)的一條鯰魚。
梁文鋒:我們不是有意成為一條鯰魚,,只是不小心成了一條鯰魚,。

「暗涌」:這個結(jié)果讓你們意外嗎,?
梁文鋒:非常意外。沒想到價(jià)格讓大家這么敏感,。我們只是按照自己的步調(diào)來做事,,然后核算成本定價(jià)。我們的原則是不貼錢,,也不賺取暴利,。這個價(jià)格也是在成本之上稍微有點(diǎn)利潤。

「暗涌」:5天后智譜AI就跟進(jìn)了,,之后是字節(jié),、阿里、百度,、騰訊等大廠,。
梁文鋒:智譜AI降的是一個入門級產(chǎn)品,和我們同級別的模型仍然收費(fèi)很貴,。字節(jié)是真正第一個跟進(jìn)的,。旗艦?zāi)P徒档胶臀覀円粯拥膬r(jià)格,然后觸發(fā)了其它大廠紛紛降價(jià),。因?yàn)榇髲S的模型成本比我們高很多,,所以我們沒想到會有人虧錢做這件事,最后就變成了互聯(lián)網(wǎng)時代的燒錢補(bǔ)貼的邏輯,。

「暗涌」:外部看來,,降價(jià)很像在搶用戶,互聯(lián)網(wǎng)時代的價(jià)格戰(zhàn)通常如此,。
梁文鋒:搶用戶并不是我們的主要目的。我們降價(jià)一方面是因?yàn)槲覀冊谔剿飨乱淮P偷慕Y(jié)構(gòu)中,,成本先降下來了,,另一方面也覺得無論API,還是AI,都應(yīng)該是普惠的、人人可以用得起的東西,。

「暗涌」:在這之前,,大部分中國公司都會直接copy這一代的 Llama結(jié)構(gòu)去做應(yīng)用,為什么你們會從模型結(jié)構(gòu)切入,?
梁文鋒:如果目標(biāo)是做應(yīng)用,,那沿用 Llama結(jié)構(gòu),短平快上產(chǎn)品也是合理選擇,。但我們目的地是AGI,,這意味著我們需要研究新的模型結(jié)構(gòu),在有限資源下,,實(shí)現(xiàn)更強(qiáng)的模型能力,。這是scale up到更大模型所需要做的基礎(chǔ)研究之一,。除了模型結(jié)構(gòu),我們還做了大量其他的研究,,包括怎么構(gòu)造數(shù)據(jù),,如何讓模型更像人類等,這都體現(xiàn)在我們發(fā)布的模型里,。另外,,Llama的結(jié)構(gòu),在訓(xùn)練效率和推理成本上,,和國外先進(jìn)水平估計(jì)也已有兩代差距,。

「暗涌」:這種代差主要來自哪里?
梁文鋒:首先訓(xùn)練效率有差距,。我們估計(jì),,國內(nèi)最好的水平和國外最好的相比,模型結(jié)構(gòu)和訓(xùn)練動力學(xué)上可能有一倍的差距,,光這一點(diǎn)我們要消耗兩倍的算力才能達(dá)到同樣效果,。另外數(shù)據(jù)效率上可能也有一倍差距,也就是我們要消耗兩倍的訓(xùn)練數(shù)據(jù)和算力,,才能達(dá)到同樣的效果,。合起來就要多消耗4倍算力。我們要做的,,正是不停地去縮小這些差距,。

「暗涌」:大部分中國公司都選擇既要模型又要應(yīng)用,為什么DeepSeek目前選擇只做研究探索,?
梁文鋒:因?yàn)槲覀冇X得現(xiàn)在最重要的是參與到全球創(chuàng)新的浪潮里去,。過去很多年,中國公司習(xí)慣了別人做技術(shù)創(chuàng)新,,我們拿過來做應(yīng)用變現(xiàn),,但這并非是一種理所當(dāng)然。這一波浪潮里,,我們的出發(fā)點(diǎn),,就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,,去推動整個生態(tài)發(fā)展,。

「暗涌」:互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)時代留給大部分人的慣性認(rèn)知是,美國擅長搞技術(shù)創(chuàng)新,,中國更擅長做應(yīng)用,。
梁文鋒:我們認(rèn)為隨著經(jīng)濟(jì)發(fā)展,中國也要逐步成為貢獻(xiàn)者,,而不是一直搭便車,。過去三十多年IT浪潮里,,我們基本沒有參與到真正的技術(shù)創(chuàng)新里。我們已經(jīng)習(xí)慣摩爾定律從天而降,,躺在家里18個月就會出來更好的硬件和軟件,。Scaling Law也在被如此對待。
但其實(shí),,這是西方主導(dǎo)的技術(shù)社區(qū)一代代孜孜不倦創(chuàng)造出來的,,只因?yàn)橹拔覀儧]有參與這個過程,以至于忽視了它的存在,。

圖片

真正的差距不是一年或兩年,,而是原創(chuàng)和模仿之差

「暗涌」:為什么DeepSeek V2會讓硅谷的很多人驚訝?

梁文鋒:在美國每天發(fā)生的大量創(chuàng)新里,,這是非常普通的一個,。他們之所以驚訝,是因?yàn)檫@是一個中國公司,,在以創(chuàng)新貢獻(xiàn)者的身份,,加入到他們游戲里去,。畢竟大部分中國公司習(xí)慣follow,,而不是創(chuàng)新,。

「暗涌」:但這種選擇放在中國語境里,,也過于奢侈。大模型是一個重投入游戲,,不是所有公司都有資本只去研究創(chuàng)新,,而不是先考慮商業(yè)化,。

梁文鋒:創(chuàng)新的成本肯定不低,,過去那種拿來主義的慣性也和過去的國情有關(guān),。但現(xiàn)在,你看無論中國的經(jīng)濟(jì)體量,,還是字節(jié),、騰訊這些大廠的利潤,放在全球都不低,。我們創(chuàng)新缺的肯定不是資本,而是缺乏信心以及不知道怎么組織高密度的人才實(shí)現(xiàn)有效的創(chuàng)新,。

「暗涌」:為什么中國公司——包括不缺錢的大廠,,這么容易把快速商業(yè)化當(dāng)?shù)谝灰x?

梁文鋒:過去三十年,,我們都只強(qiáng)調(diào)賺錢,,對創(chuàng)新是忽視的。創(chuàng)新不完全是商業(yè)驅(qū)動的,,還需要好奇心和創(chuàng)造欲,。我們只是被過去那種慣性束縛了,,但它也是階段性的。

「暗涌」:但你們究竟是一個商業(yè)組織,,而非一個公益科研機(jī)構(gòu),,選擇創(chuàng)新,又通過開源分享出去,,那要在哪里形成護(hù)城河,?像5月這次MLA架構(gòu)的創(chuàng)新,也會很快被其他家copy吧,?

梁文鋒:在顛覆性的技術(shù)面前,,閉源形成的護(hù)城河是短暫的。即使OpenAI閉源,,也無法阻止被別人趕超,。所以我們把價(jià)值沉淀在團(tuán)隊(duì)上,我們的同事在這個過程中得到成長,,積累很多know-how,形成可以創(chuàng)新的組織和文化,,就是我們的護(hù)城河。

開源,,發(fā)論文,,其實(shí)并沒有失去什么。對于技術(shù)人員來說,,被follow是很有成就感的事,。其實(shí),開源更像一個文化行為,,而非商業(yè)行為,。給予其實(shí)是一種額外的榮譽(yù)。一個公司這么做也會有文化的吸引力,。

「暗涌」:你怎么看類似朱嘯虎的這種市場信仰派觀點(diǎn),?

梁文鋒:朱嘯虎是自洽的,但他的打法更適合快速賺錢的公司,,而你看美國最賺錢的公司,,都是厚積薄發(fā)的高科技公司。

「暗涌」:但做大模型,,單純的技術(shù)領(lǐng)先也很難形成絕對優(yōu)勢,,你們賭的那個更大的東西是什么

梁文鋒我們看到的是中國AI不可能永遠(yuǎn)處在跟隨的位置,。我們經(jīng)常說中國AI和美國有一兩年差距,,但真實(shí)的gap是原創(chuàng)和模仿之差。如果這個不改變,,中國永遠(yuǎn)只能是追隨者,,所以有些探索也是逃不掉的,。

英偉達(dá)的領(lǐng)先,不只是一個公司的努力,,而是整個西方技術(shù)社區(qū)和產(chǎn)業(yè)共同努力的結(jié)果,。他們能看到下一代的技術(shù)趨勢,手里有路線圖,。中國AI的發(fā)展,,同樣需要這樣的生態(tài)。很多國產(chǎn)芯片發(fā)展不起來,,也是因?yàn)槿狈ε涮椎募夹g(shù)社區(qū),,只有第二手消息,所以中國必然需要有人站到技術(shù)的前沿,。

圖片

更多的投入并不一定產(chǎn)生更多的創(chuàng)新

「暗涌」:現(xiàn)在的DeepSeek有一種OpenAI早期的理想主義氣質(zhì),,也是開源的。后邊你們會選擇閉源嗎,?OpenAI和Mistral都有過從開源到閉源的過程,。

梁文鋒:我們不會閉源。我們認(rèn)為先有一個強(qiáng)大的技術(shù)生態(tài)更重要,。

「暗涌」:你們有融資計(jì)劃嗎,?看有媒體報(bào)道,幻方對DeepSeek有獨(dú)立拆分上市的計(jì)劃,,硅谷的AI創(chuàng)業(yè)公司,,最終也都難免要和大廠綁定。

梁文鋒:短期內(nèi)沒有融資計(jì)劃,,我們面臨的問題從來不是錢,,而是高端芯片被禁運(yùn)。

「暗涌」:很多人認(rèn)為,,做AGI和做量化是完全不同的兩件事,,量化可以悶聲去做,但AGI可能更需要高舉高打,,需要結(jié)盟,,這樣可以讓你的投入變大。

梁文鋒:更多的投入并不一定產(chǎn)生更多的創(chuàng)新,。否則大廠可以把所有的創(chuàng)新包攬了,。

「暗涌」:你們現(xiàn)在不做應(yīng)用,是因?yàn)槟銈儧]有運(yùn)營的基因嗎,?

梁文鋒:我們認(rèn)為當(dāng)前階段是技術(shù)創(chuàng)新的爆發(fā)期,而不是應(yīng)用的爆發(fā)期,。長遠(yuǎn)來說,,我們希望形成一種生態(tài),,就是業(yè)界直接使用我們的技術(shù)和產(chǎn)出,我們只負(fù)責(zé)基礎(chǔ)模型和前沿的創(chuàng)新,,然后其它公司在DeepSeek 的基礎(chǔ)上構(gòu)建toB,、toC的業(yè)務(wù)。如果能形成完整的產(chǎn)業(yè)上下游,,我們就沒必要自己做應(yīng)用,。當(dāng)然,如果需要,,我們做應(yīng)用也沒障礙,,但研究和技術(shù)創(chuàng)新永遠(yuǎn)是我們第一優(yōu)先級。

「暗涌」:但選擇API的話,,為什么選擇DeepSeek,,而不是大廠?

梁文鋒:未來的世界很可能是專業(yè)化分工的,,基礎(chǔ)大模型需要持續(xù)創(chuàng)新,,大廠有它的能力邊界,并不一定適合,。

「暗涌」:但技術(shù)真的可以拉開差距嗎?你也說過并不存在絕對的技術(shù)秘密,。

梁文鋒:技術(shù)沒有秘密,但重置需要時間和成本,。英偉達(dá)的顯卡,,理論上沒有任何技術(shù)秘密,很容易復(fù)制,,但重新組織團(tuán)隊(duì)以及追趕下一代技術(shù)都需要時間,,所以實(shí)際的護(hù)城河還是很寬。

「暗涌」:你們降價(jià)后,,字節(jié)率先跟進(jìn),,說明他們還是感受到某種威脅。你怎么看創(chuàng)業(yè)公司與大廠競爭的新解法,?

梁文鋒:說實(shí)話我們不太care這件事,,只是順便做了這件事。提供云服務(wù)不是我們的主要目標(biāo),。我們的目標(biāo)還是去實(shí)現(xiàn)AGI,。

目前沒有看到什么新解法,但大廠也沒有明顯占優(yōu),。大廠有現(xiàn)成的用戶,,但它的現(xiàn)金流業(yè)務(wù)也是它的包袱,也會讓它成為隨時被顛覆的對象。

「暗涌」:你怎么看DeepSeek之外的6家大模型創(chuàng)業(yè)公司的終局,?

梁文鋒:可能活下來2到3家?,F(xiàn)在都還處在燒錢階段,所以那些自我定位清晰,、更能精細(xì)化運(yùn)營的,,更有機(jī)會活下來。其它公司可能會脫胎換骨,。有價(jià)值的東西不會煙消云散,,但會換一種方式。

「暗涌」:幻方時代,,面對競爭的姿態(tài)就被評價(jià)為“我行我素”,,很少在意橫向比較。關(guān)于競爭,,你思考的原點(diǎn)是什么,?

梁文鋒:我經(jīng)常思考的是,一個東西能不能讓社會的運(yùn)行效率變高,,以及你能否在它的產(chǎn)業(yè)分工鏈條上找到擅長的位置,。只要終局是讓社會效率更高,就是成立的,。中間很多都是階段性的,,過度關(guān)注必然眼花繚亂。

圖片
一群做“高深莫測”事的年輕人

「暗涌」:OpenAI前政策主管,、Anthropic聯(lián)合創(chuàng)始人Jack Clark認(rèn)為DeepSeek雇傭了“一批高深莫測的奇才”,,做出DeepSeek v2的是怎樣一群人?

梁文鋒并沒有什么高深莫測的奇才,,都是一些Top高校的應(yīng)屆畢業(yè)生,、沒畢業(yè)的博四、博五實(shí)習(xí)生,,還有一些畢業(yè)才幾年的年輕人,。

「暗涌」:很多大模型公司都執(zhí)著地去海外挖人,很多人覺得這個領(lǐng)域前50名的頂尖人才可能都不在中國的公司,,你們的人都來自哪里,?

梁文鋒V2模型沒有海外回來的人,都是本土的,。前50名頂尖人才可能不在中國,,但也許我們能自己打造這樣的人。


「暗涌」:這次MLA創(chuàng)新是如何發(fā)生的,?聽說idea最早來自一個年輕研究員的個人興趣,?
梁文鋒:在總結(jié)出Attention架構(gòu)的一些主流變遷規(guī)律后,他突發(fā)奇想去設(shè)計(jì)一個替代方案。不過從想法到落地,,中間是一個漫長的過程,。我們?yōu)榇私M了一個team,花了幾個月時間才跑通,。

「暗涌」:這種發(fā)散性靈感的誕生和你們完全創(chuàng)新型組織的架構(gòu)很有關(guān)系?;梅綍r代,,你們就很少自上而下地指派目標(biāo)或任務(wù)。但AGI這種充滿不確定性的前沿探索,,是否多了管理動作,?
梁文鋒:DeepSeek也全是自下而上。而且我們一般不前置分工,,而是自然分工,。每個人有自己獨(dú)特的成長經(jīng)歷,都是自帶想法的,,不需要push他,。探索過程中,他遇到問題,,自己就會拉人討論,。不過當(dāng)一個idea顯示出潛力,我們也會自上而下地去調(diào)配資源,。

「暗涌」:聽說DeepSeek對于卡和人的調(diào)集非常靈活,。
梁文鋒:我們每個人對于卡和人的調(diào)動是不設(shè)上限的。如果有想法,,每個人隨時可以調(diào)用訓(xùn)練集群的卡無需審批,。同時因?yàn)椴淮嬖趯蛹壓涂绮块T,也可以靈活調(diào)用所有人,,只要對方也有興趣,。

「暗涌」:一種松散的管理方式也取決于你們篩選到了一批強(qiáng)熱愛驅(qū)動的人。聽說你們很擅長從細(xì)節(jié)招人,, 可以讓一些非傳統(tǒng)評價(jià)指標(biāo)里優(yōu)秀的人被選出來,。
梁文鋒:我們選人的標(biāo)準(zhǔn)一直都是熱愛和好奇心,所以很多人會有一些奇特的經(jīng)歷,,很有意思,。很多人對做研究的渴望,遠(yuǎn)超對錢的在意,。

「暗涌」: transformer誕生在谷歌的AI Lab,,ChatGPT誕生在OpenAI,你覺得大公司的AILab 和一個創(chuàng)業(yè)公司對于創(chuàng)新產(chǎn)生的價(jià)值有什么不同?
梁文鋒:不管是Google實(shí)驗(yàn)室,還是OpenAI,,甚至中國大廠的AI Lab,,都很有價(jià)值的。最后是OpenAI做出來,,也有歷史的偶然性,。

「暗涌」:創(chuàng)新很大程度也是一種偶然嗎?我看你們辦公區(qū)中間那排會議室左右兩側(cè)都設(shè)置了可以隨意推開的門,。你們同事說,,這就是給偶然留出空隙。transfomer誕生中就發(fā)生過那種偶然經(jīng)過的人聽到后加入,,最終把它變成一個通用框架的故事,。
梁文鋒:我覺得創(chuàng)新首先是一個信念問題。為什么硅谷那么有創(chuàng)新精神,?首先是敢,。Chatgpt出來時,整個國內(nèi)對做前沿創(chuàng)新都缺乏信心,,從投資人到大廠,,都覺得差距太大了,還是做應(yīng)用吧,。但創(chuàng)新首先需要自信,。這種信心通常在年輕人身上更明顯。

「暗涌」:但你們不參與融資,,很少對外發(fā)聲,,社會聲量上肯定不如那些融資活躍的公司,怎么確保DeepSeek就是做大模型的人的首選,?
梁文鋒:因?yàn)槲覀冊谧鲎铍y的事,。對頂級人才吸引最大的,肯定是去解決世界上最難的問題,。其實(shí),,頂尖人才在中國是被低估的。因?yàn)檎麄€社會層面的硬核創(chuàng)新太少了,,使得他們沒有機(jī)會被識別出來,。我們在做最難的事,對他們就是有吸引力的,。

「暗涌」:前一段OpenAI的發(fā)布并沒有等來GPT5,很多人覺得這是技術(shù)曲線明顯在放緩,,也很多人開始質(zhì)疑Scaling Law,你們怎么看,?
梁文鋒:我們偏樂觀,,整個行業(yè)看起來都符合預(yù)期,。OpenAI也不是神,不可能一直沖在前面,。

「暗涌」:你覺得AGI還要多久實(shí)現(xiàn),,發(fā)布DeepSeek V2前,你們發(fā)布過代碼生成和數(shù)學(xué)的模型,,也從dense模型切換到了MOE,所以你們的AGI路線圖有哪些坐標(biāo),?
梁文鋒:可能是2年、5年或者10年,,總之會在我們有生之年實(shí)現(xiàn),。至于路線圖,即使在我們公司內(nèi)部,,也沒有統(tǒng)一意見。但我們確實(shí)押注了三個方向,。一是數(shù)學(xué)和代碼,,二是多模態(tài),三是自然語言本身,。數(shù)學(xué)和代碼是AGI天然的試驗(yàn)場,,有點(diǎn)像圍棋,是一個封閉的,、可驗(yàn)證的系統(tǒng),,有可能通過自我學(xué)習(xí)就能實(shí)現(xiàn)很高的智能。另一方面,,可能多模態(tài),、參與到人類的真實(shí)世界里學(xué)習(xí),對AGI也是必要的,。我們對一切可能性都保持開放,。

「暗涌」:你覺得大模型終局是什么樣態(tài)?
梁文鋒:會有專門公司提供基礎(chǔ)模型和基礎(chǔ)服務(wù),會有很長鏈條的專業(yè)分工,。更多人在之上去滿足整個社會多樣化的需求,。

圖片

所有的套路都是上一代的產(chǎn)物

「暗涌」:過去這一年,中國的大模型創(chuàng)業(yè)還是有很多變化的,,比如去年開頭還很活躍的王慧文中場退出了,,后來加入的公司也開始呈現(xiàn)出差異化。

梁文鋒:王慧文自己承擔(dān)了所有的損失,,讓其他人全身而退,。他做了一個對自己最不利,但對大家都好的選擇,,所以他做人是很厚道的,,這點(diǎn)我很佩服,。

「暗涌」:現(xiàn)在你的精力最多放在哪里?

梁文鋒:主要的精力在研究下一代的大模型,。還有很多未解決的問題,。

「暗涌」:其他幾家大模型創(chuàng)業(yè)公司都是堅(jiān)持既要又要,畢竟技術(shù)不會帶來永久領(lǐng)先,,抓住時間窗口把技術(shù)優(yōu)勢落到產(chǎn)品也很重要,,DeepSeek敢于專注在模型研究上是因?yàn)槟P湍芰€不夠嗎?

梁文鋒:所有的套路都是上一代的產(chǎn)物,,未來不一定成立,。拿互聯(lián)網(wǎng)的商業(yè)邏輯去討論未來AI的盈利模式,就像馬化騰創(chuàng)業(yè)時,,你去討論通用電氣和可口可樂一樣,。很可能是一種刻舟求劍。

「暗涌」:過去幻方就有很強(qiáng)的技術(shù)和創(chuàng)新基因,,成長也比較順利,,這是你偏樂觀的原因嗎?

梁文鋒:幻方某種程度上增強(qiáng)了我們對技術(shù)驅(qū)動型創(chuàng)新的信心,,但也不都是坦途,。我們經(jīng)歷了一個漫長的積累過程。外部看到的是幻方2015年后的部分,,但其實(shí)我們做了16年,。

「暗涌」:回到關(guān)于原創(chuàng)式創(chuàng)新的話題。現(xiàn)在經(jīng)濟(jì)開始進(jìn)入下行,,資本也進(jìn)入冷周期,,所以它對原創(chuàng)式創(chuàng)新是否會帶來更多抑制?

梁文鋒:我倒覺得未必,。中國產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整,,會更依賴硬核技術(shù)的創(chuàng)新。當(dāng)很多人發(fā)現(xiàn)過去賺快錢很可能來自時代運(yùn)氣,,就會更愿意俯身去做真正的創(chuàng)新,。

「暗涌」:所以你對這件事也是樂觀的?

梁文鋒:我是八十年代在廣東一個五線城市長大的,。我的父親是小學(xué)老師,,九十年代,廣東賺錢機(jī)會很多,,當(dāng)時有不少家長到我家里來,,基本就是家長覺得讀書沒用。但現(xiàn)在回去看,,觀念都變了,。因?yàn)殄X不好賺了,,連開出租車的機(jī)會可能都沒了。一代人的時間就變了,。

以后硬核創(chuàng)新會越來越多?,F(xiàn)在可能還不容易被理解,是因?yàn)檎麄€社會群體需要被事實(shí)教育,。當(dāng)這個社會讓硬核創(chuàng)新的人功成名就,,群體性想法就會改變。我們只是還需要一堆事實(shí)和一個過程,。

排版|姚楠


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多