DeepSeek V2 模型發(fā)布意外引發(fā)大模型價(jià)格戰(zhàn),,并非有意成為鯰魚,。智譜AI跟進(jìn)后,字節(jié)率先在旗艦?zāi)P徒档胶虳eepSeek一樣的價(jià)格,,觸發(fā)大廠紛紛降價(jià),。大廠模型成本高,沒想到會(huì)有人虧錢做這件事,,演變成類似互聯(lián)網(wǎng)燒錢補(bǔ)貼邏輯,。搶用戶不是主要目的,。一方面是探索下一代模型結(jié)構(gòu)使成本下降,,另一方面認(rèn)為API和AI應(yīng)普惠。模型結(jié)構(gòu)與創(chuàng)新目標(biāo)為AGI,,需研究新模型結(jié)構(gòu),,在有限資源下實(shí)現(xiàn)更強(qiáng)模型能力,做了大量基礎(chǔ)研究,,如構(gòu)造數(shù)據(jù),、讓模型更像人類等。Llama結(jié)構(gòu)在訓(xùn)練效率和推理成本上與國(guó)外先進(jìn)水平有兩代差距,。國(guó)內(nèi)在模型結(jié)構(gòu)和訓(xùn)練動(dòng)力學(xué),、數(shù)據(jù)效率上與國(guó)外有差距,要消耗更多算力,,需要不斷縮小差距,。中國(guó)公司習(xí)慣拿國(guó)外技術(shù)做應(yīng)用變現(xiàn),這波浪潮中DeepSeek出發(fā)點(diǎn)是走到技術(shù)前沿推動(dòng)生態(tài)發(fā)展,,中國(guó)應(yīng)成為技術(shù)創(chuàng)新貢獻(xiàn)者,。創(chuàng)新成本雖高,但中國(guó)現(xiàn)在不缺資本,,缺的是信心和組織高密度人才實(shí)現(xiàn)有效創(chuàng)新的能力,。在中國(guó)語境下,只做研究創(chuàng)新較奢侈,,但隨著經(jīng)濟(jì)發(fā)展應(yīng)逐步改變,。把價(jià)值沉淀在團(tuán)隊(duì)上,形成創(chuàng)新的組織和文化是護(hù)城河,,開源是文化行為,,技術(shù)人員被跟進(jìn)會(huì)有成就感。幻方做通用人工智能(AGI)與量化和金融無直接關(guān)系,,團(tuán)隊(duì)很多人做人工智能,,AGI是下一個(gè)難事,,是怎么做而非為什么做的問題。要做通用人工智能,,從語言大模型開始,,因?yàn)樗赡苁峭ㄍ鵄GI的必經(jīng)之路,后續(xù)還會(huì)涉及視覺等,。不會(huì)過早設(shè)計(jì)基于模型的應(yīng)用,,專注大模型研究。從長(zhǎng)期看,,大模型應(yīng)用門檻會(huì)越來越低,,初創(chuàng)公司有機(jī)會(huì),目標(biāo)是做研究,、做探索,。研究受好奇心驅(qū)動(dòng),從遠(yuǎn)處想驗(yàn)證人類智能本質(zhì)相關(guān)猜想,,從近處想揭秘GPT4等未解之謎,。幻方有研發(fā)預(yù)算,,捐款預(yù)算也可調(diào)整用于研究,正在找不同出資方,,VC因有退出需求較難提供融資,。考慮將訓(xùn)練結(jié)果公開共享,與商業(yè)化結(jié)合,,大廠模型可能與平臺(tái)或生態(tài)捆綁,,幻方是完全自由的。從1張卡逐步儲(chǔ)備到1萬張卡,,主要是好奇心驅(qū)動(dòng),,源于對(duì)AI能力邊界的好奇。2012年AlexNet帶來沖擊后,,研究員對(duì)算力渴求是永無止境的,,做了小規(guī)模實(shí)驗(yàn)后想做更大規(guī)模實(shí)驗(yàn)。搭計(jì)算機(jī)集群不是為量化私募業(yè)務(wù)做價(jià)格預(yù)測(cè),,在投資外做了大量研究,。電費(fèi)和維護(hù)費(fèi)用占硬件造價(jià)1%左右,人工成本雖高但視為對(duì)未來的投資,。2021年幻方是亞太地區(qū)第一批拿到A100顯卡的公司,,早于一些云廠商,因?yàn)閷?duì)新卡做了預(yù)研,、測(cè)試和規(guī)劃,,云廠商之前需求分散,,大廠更多是業(yè)務(wù)需求驅(qū)動(dòng)。DeepSeek V2模型由本土人才研發(fā),,多是Top高校應(yīng)屆畢業(yè)生,、博四博五實(shí)習(xí)生和畢業(yè)幾年的年輕人。MLA創(chuàng)新源于年輕研究員個(gè)人興趣,,從想法到落地經(jīng)歷漫長(zhǎng)過程,,組團(tuán)隊(duì)花幾個(gè)月跑通。DeepSeek組織架構(gòu)全是自下而上,,不前置分工而是自然分工,,遇到問題員工自己拉人討論,有潛力的idea會(huì)自上而下調(diào)配資源,。人員對(duì)卡和人的調(diào)動(dòng)不設(shè)上限,,選人標(biāo)準(zhǔn)是熱愛和好奇心,很多人對(duì)做研究渴望遠(yuǎn)超對(duì)錢的在意,。創(chuàng)新首先是信念問題,,硅谷有創(chuàng)新精神源于敢做,,中國(guó)之前對(duì)前沿創(chuàng)新缺乏信心,,頂尖人才在中國(guó)被低估,做最難的事對(duì)頂級(jí)人才有吸引力,。對(duì)AGI實(shí)現(xiàn)時(shí)間不確定,,可能2年、5年或10年,,押注數(shù)學(xué)和代碼,、多模態(tài)、自然語言本身三個(gè)方向,。認(rèn)為大模型終局是有專門公司提供基礎(chǔ)模型和服務(wù),,有長(zhǎng)鏈條專業(yè)分工。對(duì)AGI發(fā)展樂觀,,行業(yè)發(fā)展符合預(yù)期,,OpenAI也不是一直能沖在前面。經(jīng)濟(jì)下行,、資本冷周期未必抑制原創(chuàng)式創(chuàng)新,,中國(guó)產(chǎn)業(yè)結(jié)構(gòu)調(diào)整會(huì)更依賴硬核技術(shù)創(chuàng)新。DeepSeek不會(huì)閉源,,認(rèn)為先有強(qiáng)大技術(shù)生態(tài)更重要,。短期內(nèi)無融資計(jì)劃,面臨高端芯片被禁運(yùn)問題,。關(guān)于市場(chǎng)競(jìng)爭(zhēng)更多投入不一定產(chǎn)生更多創(chuàng)新,,當(dāng)前階段是技術(shù)創(chuàng)新爆發(fā)期而非應(yīng)用爆發(fā)期,,長(zhǎng)遠(yuǎn)希望形成產(chǎn)業(yè)生態(tài)。選擇DeepSeek API而非大廠是因?yàn)榛A(chǔ)大模型需要持續(xù)創(chuàng)新,,大廠有能力邊界,。技術(shù)雖無秘密但重置有時(shí)間和成本,大廠有現(xiàn)成用戶但現(xiàn)金流業(yè)務(wù)也是包袱,。其他大模型創(chuàng)業(yè)公司可能活下來2 - 3家,,自我定位清晰、精細(xì)化運(yùn)營(yíng)的更有機(jī)會(huì),。思考競(jìng)爭(zhēng)原點(diǎn)是能否提高社會(huì)運(yùn)行效率以及在產(chǎn)業(yè)分工鏈上找到擅長(zhǎng)位置,。深度求索團(tuán)隊(duì)初始集結(jié)到位,還需更多人,,招人更看基礎(chǔ)能力,、創(chuàng)造性、熱愛等,,國(guó)內(nèi)有不少合適候選人,。經(jīng)驗(yàn)不是做創(chuàng)新業(yè)務(wù)的關(guān)鍵,無經(jīng)驗(yàn)的人可能更認(rèn)真探索解決辦法,。幻方招人看能力不看經(jīng)驗(yàn),,核心技術(shù)崗位以應(yīng)屆和畢業(yè)一兩年的人為主。創(chuàng)新型組織要少干預(yù)和管理,,讓員工自由發(fā)揮和試錯(cuò),,通過招人時(shí)價(jià)值觀一致和企業(yè)文化確保步調(diào)一致,管理者以身示范決策準(zhǔn)則,。考核銷售更鼓勵(lì)發(fā)展圈子,、產(chǎn)生影響力,而非只看重下單量,。創(chuàng)新往往自己產(chǎn)生而非刻意安排或教出來的,,很難被直接模仿。https://finance.sina.com.cn/tech/2025-01-26/doc-inehhksk9178057.shtml
|