人工智能熱潮正快速點燃AI科學家的創(chuàng)業(yè)熱情,。繼原京東高級副總裁周伯文離職創(chuàng)業(yè)后,,京東另一AI大牛梅濤同樣在近日宣布創(chuàng)業(yè)。今年春節(jié)前,,梅濤告別京東集團副總裁一職,,決心投身大模型創(chuàng)業(yè),。一個月后,,HiDream.ai成立,公司方向確定為生成式視覺多模態(tài)基礎(chǔ)模型與應用,。梅濤畢業(yè)于中國科學技術(shù)大學,,是加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow,。多年來,,梅濤主要在計算機視覺和多媒體領(lǐng)域建樹,是多媒體領(lǐng)域獲得國際最佳論文獎最多的華人學者,。目前,,梅濤博士還是中國科學技術(shù)大學和香港中文大學(深圳)的兼職教授和博士生導師。由多位中科大校友組成的投資方評價梅濤,,“是一個足夠有野心,,且有CEO才能的人”。正式創(chuàng)業(yè)前,,梅濤與周伯文,、何曉冬三人是京東AI部門的牽頭人物,負責了京東拍照購,、多模態(tài)內(nèi)容審核與生成,、多模態(tài)數(shù)字人、智能機械臂等技術(shù)的研發(fā),。更早之前,,梅濤在微軟亞洲研究院工作了12年,支持了微軟圖像,、視頻搜索與摘要,、Office圖文混排等AIGC項目。從能力板塊上看,,與許多AI科學家只擁有技術(shù)的極致長板不同,,在微軟與京東這兩家世界五百強的職業(yè)經(jīng)歷一定程度上為他補充了產(chǎn)品與市場視角。至今,,HiDream.ai已經(jīng)成立三個月,。機器之心在位于北京中關(guān)村蘇州街上的HiDream.ai辦公室看到的Demo顯示,,HiDream.ai的模型不僅能夠支持文生圖,還能支持文生視頻,、圖生視頻以及文生3D內(nèi)容,。其中,文生圖產(chǎn)品支持輸入Prompt生成圖片,,還能夠?qū)θ我鈭D片中的想要修改的部分進一步編輯,。比如要求修改所生成圖片的背景、主體等,。輸入“小熊拉琴”,,文生視頻產(chǎn)品能夠生成相應的短視頻或者動圖。
輸入“冰激凌”,,文生3D產(chǎn)品能夠?qū)崟r生成具有高度真實感冰激凌的3D原型,。紅杉美國所發(fā)布的《Generative AI: A Creative New World》一文中提到,世界范圍內(nèi),,文生圖片,、視頻、3D領(lǐng)域的技術(shù)成熟度遠遠低于文生文,。在大語言模型訓練中面臨的數(shù)據(jù)緊缺,、商業(yè)邊界不清晰等問題在生成式視覺模型上更為緊張。隨著全球大模型生態(tài)的二八效應逐步加劇,,追隨者的成本快速增長,。梅濤團隊的初步目標是年底前在基礎(chǔ)模型上超越Stable Diffusion最新版本,而在產(chǎn)品上則要趕超MidJourney,。機器之心:HiDream.ai的整體目標是什么,?梅濤:我們希望構(gòu)建一個全球領(lǐng)先的視覺多模態(tài)基礎(chǔ)模型,可以用一個基礎(chǔ)模型實現(xiàn)不同模態(tài)之間的生成轉(zhuǎn)換,,支持文字到圖片,、文字到視頻、圖片到視頻,、文字到3D等不同應用,。我們的整體構(gòu)想是模型層和應用層一起發(fā)力。機器之心:目前許多AI科學家選擇在大語言模型方向創(chuàng)業(yè),,你在多模態(tài)視覺底層模型投入的理由是什么,?梅濤:從大的角度看,我認為人與人的交流天然就是多模態(tài)的形式,,而不僅僅只是一個文字和語言的模塊,。我們現(xiàn)在講語言模型,,其實忽略了一點,,語言模型本身就應該是多模態(tài)的,,而并非僅是像目前ChatGPT所實現(xiàn)的——僅僅是文字的交流。視覺信息其實占據(jù)了我們?nèi)祟惷刻焖a(chǎn)生和接受的信息量的80%以上,,因此視覺是非常重要的一種模態(tài),。其次,我是技術(shù)出身,,因此創(chuàng)業(yè)一定是根據(jù)自身的特長,。多年以來,我們在視覺領(lǐng)域做得非常深入,,因此有足夠的競爭力和全球視野,。雖然我們拿到算力資源開始訓練不到8周,但是我們短期的目標是在今年年底前,,在基礎(chǔ)模型領(lǐng)域超越Stable Diffusion,,在文生圖產(chǎn)品上趕超MidJourney,,我們相信自己可以做得更好,。梅濤:現(xiàn)在大語言模型基本已經(jīng)固化在GPT的架構(gòu)上,,只是大家用不一樣的訓練數(shù)據(jù)和訓練技巧,。并且GPT架構(gòu)的天花板也很高,許多模型的參數(shù)量已經(jīng)接近萬億級別,。但是目前的視覺基礎(chǔ)模型卻還有很大的進步空間,。以被應用較多的Diffussion模型來看,它的天花板比較低,,參數(shù)量只有十幾億到二十幾億,。所以我們就在想能不能做出一個比Diffusion框架更好更智能的底層模型,使得現(xiàn)在的視覺多模態(tài)基礎(chǔ)模型可以從類似GPT-2的時代,,向3.0甚至4.0時代進步,。GPT-2的時候,參數(shù)量是幾十億,,GPT-3進入了百億,。那今天的視覺(類)模型還處于2.0時代,有沒有哪家公司能做到百億參數(shù),,使得模型在提升自己能力的同時甚至可以出現(xiàn)智能涌現(xiàn),。機器之心:要做到這個目標,目前有哪些限制性問題需要解決,?梅濤:首先是數(shù)據(jù)問題,。市場上高質(zhì)量的圖文配對以及用于視頻理解訓練的數(shù)據(jù)非常稀缺。我們在冷啟動的情況下,,目前大概有60億參數(shù)的訓練數(shù)據(jù),。我們希望將來產(chǎn)品上線后,,數(shù)據(jù)能形成一個飛輪反哺到模型,這樣我們就可以實現(xiàn)算法和數(shù)據(jù)的雙輪驅(qū)動,。其次是模型容量問題,。當下就算我們給Diffussion模型投喂更多的數(shù)據(jù),因為模型容量小,、天花板低,,它可能也記不住這么多的視覺信息。也就是說,,即使我們擁有百億級的數(shù)據(jù),,放到現(xiàn)有的模型里去訓練,可能也只能得出10-20億左右的參數(shù),。所以我們會去增加一些強有力的補丁,,比如說記憶增強。只有一個系統(tǒng)模型的容量大了,,記憶力增強了,,相當于我們?nèi)四X的神經(jīng)元多了,這個時候你就能記住更多的信息和知識,。首先,,對于我們來說,,并不需要像大語言模型那樣需要上千甚至上萬張卡。按照要將參數(shù)做到百億這個目標去算,,我們預計只需要幾百張A100,,這對我們來說不構(gòu)成困難。其次,,根據(jù)摩爾定律,,在不遠的將來,算力成本將會成倍降低,,同時運算能力會指數(shù)增長,,因此算力將不再是稀缺資源。機器之心:你們的技術(shù)優(yōu)勢是什么,?首先是我們在視覺信號的編碼方面有獨到的方法。視覺信號與文字信號不一樣,,文字的tokenization相對簡單,,因為每個單詞就是一個token,并且它的語義也是相對固定的;但是從一張照片或一段視頻中去做tokenization,,則是一個很難的問題,。如果用像素作為token,則意味著爆炸式的計算量,,同時像素之間的相關(guān)性也很差,。而我們采用的方法是構(gòu)建一個能夠處理更高維度像素之間的視覺相關(guān)性的Transformer編碼器(Contextual Vision Transformer),這樣的好處是不僅能夠顯著增強視覺自注意力的學習能力,,并且可以擴大視覺編碼器的感受野,,使得我們學習到的視覺token具備更強的表達能力。其次是模型方面的創(chuàng)新,,我們會通過訓練一個單獨的記憶模塊,,讓現(xiàn)有模型的記憶力得到增強,能夠接受和學習更多的視覺信息,。最后,,我們希望能將現(xiàn)在的Diffusion框架在模型的深度和寬度兩個維度做得更深,通過一些工程上的精細化調(diào)整,,使得我們的模型規(guī)模能上一個量級,,將來可以實現(xiàn)更精細化的和可控的視覺內(nèi)容生成。當然,,在模型本身的理論創(chuàng)新方面,,我自己的博士生們也在努力攻關(guān),,希望在原創(chuàng)模型上能有所突破,。機器之心:現(xiàn)在基于底層模型,你們有文生圖,、文生視頻,、文生3D內(nèi)容三個具體應用,三個應用的研發(fā)節(jié)奏是怎樣的,?梅濤:整體上,,我們希望做一個通用的生產(chǎn)力工具,之后變成一個生產(chǎn)力平臺,,最終形成一個社區(qū),,大家在社區(qū)中去共享共創(chuàng)。工具化驗證后,,希望可以做成一個相對通用的產(chǎn)品線,,不僅服務游戲和營銷等相關(guān)領(lǐng)域,更多其他行業(yè)的客戶可以通過調(diào)用API接口,,或者定制模型來服務,。目前,我們是一邊做模型,一邊做文生圖產(chǎn)品,。文生圖產(chǎn)品將會直接面向市場,,我們正在與一些大行業(yè)客戶旗下的設(shè)計師共同合作打磨產(chǎn)品,預計在7月底正式上線,,年底前將實現(xiàn)規(guī)?;膶嵤A硗?,文生視頻我們會同步做,,不過可能會在年底前推出。文生3D內(nèi)容相對優(yōu)先級較后,,我們保持探索,。機器之心:為什么文生圖產(chǎn)品的優(yōu)先級是最高的?第一,,文生圖是做好文生視頻和3D的基礎(chǔ),如果沒有好的文字到圖像的模型,,那我們也很難做好文字到視頻和3D,,因此文生圖是基礎(chǔ)。 第二,,我們希望用文生圖的產(chǎn)品來驗證自己的底層模型能力和商業(yè)化路徑,,也可以在效果上很快就能做得比現(xiàn)有模型好。第三,,先做文生圖,,也是因為文生視頻和文生3D在技術(shù)和市場上仍然處于早期,需要一定的時間去探索,。梅濤:文生圖的市場空間其實很大。參考MidJourney只有11個人的團隊,,已經(jīng)做到超過1個億美金的收入了,。在文生圖的商業(yè)化上,我們目前希望切入產(chǎn)品設(shè)計和營銷這兩個價值鏈中最重要也是最普遍的環(huán)節(jié),。在產(chǎn)品設(shè)計上,,我們希望首先面向?qū)I(yè)設(shè)計師群體,通過可控,、可交互的圖片生成服務,,幫助他們更好地實現(xiàn)創(chuàng)意,提升生產(chǎn)力,,讓設(shè)計師形成較好的使用和付費習慣,,之后再不斷外延到UGC用戶。全球有9000萬設(shè)計師,中國有2000萬,,設(shè)計師所面臨的痛點主要在于沒有足夠多的創(chuàng)意,,以及驗證創(chuàng)意的成本太高。我們希望這個工具可以幫助設(shè)計師提升個人的競爭力,,可以幫助他們快速產(chǎn)生更多更好的創(chuàng)意,,并加速生產(chǎn)流程。而文生視頻的市場空間會比文生圖賽道更大,,它可能會顛覆目前短視頻的玩法,。參考目前用戶對短視頻內(nèi)容的大量消費情況,當PGC驗證過后,,文生視頻工具在UGC領(lǐng)域的需求會是顛覆性的爆發(fā),。同時,文生視頻目前還沒有一家可以做到像素級絲滑(沒有任何抖動)的生成,,可提升空間很大,,當然技術(shù)壁壘也是非常的高。文生3D在游戲和AR/VR領(lǐng)域的想象空間則非常大,。我們在做游戲領(lǐng)域的客戶訪談時發(fā)現(xiàn),,客戶最大的需求在3D內(nèi)容創(chuàng)建。我們團隊本身在3D方向擁有很多學術(shù)積累,,雖然目前整體技術(shù)還很不成熟,,但是值得探索。機器之心:那么文生圖將會是你們第一個面世的產(chǎn)品,。從去年到現(xiàn)在,,許多大廠和小廠都在文生圖賽道上做了嘗試。此刻切入這個市場,,你們的優(yōu)勢是什么,?梅濤:目前文生圖賽道確實很卷,市場競爭非常激烈,。我們看到雖然很多公司做得還不錯,但仍然有人臉,、手指,、景深、可控性等很多技術(shù)問題沒有解決,。從技術(shù)上講,,市場上的眾多文生圖產(chǎn)品,相當于一桌滿漢全席,,各家有不同的搭配方法,。我們清晰地知道這些是怎么搭配的,因此我們知道怎么去更好地去把這一桌菜做搭配。從結(jié)果上看,,我們模型迭代的速度很快,,不到6個禮拜就從0到1研發(fā)并迭代了一個相對穩(wěn)定的模型,其他團隊可能需要幾倍的時間,。別人可能需要訓練十次才能拿到一個比較滿意的結(jié)果,,而我們只需要兩三次。市場方面,,我們是面向全球市場,。而且文生圖只是我們基于底層視覺模型來打樣的一個產(chǎn)品,對于其他的文生圖公司,,我們本質(zhì)上也并非競爭關(guān)系,,未來他們也能夠選擇調(diào)用我們的基礎(chǔ)模型來做微調(diào)(finetuning)訓練或直接使用我們的API接口服務。ChatGPT的出現(xiàn)加速了我的創(chuàng)業(yè)進程機器之心:你此前的職業(yè)路徑都在大廠,。創(chuàng)業(yè)這件事,,在你的預期之中嗎?梅濤:在,。我之前的職業(yè)生涯實際上是在有意識的為創(chuàng)業(yè)做準備,。在微軟期間,我主要在技術(shù)方向上磨練,,之后去到京東,,所做的工作離產(chǎn)品和市場更近了,幫我補充了技術(shù)之外的視角,,是一段非常好的經(jīng)歷,。但沒有預料到的是ChatGPT的爆火,為生成式AI帶來了爆炸式的熱度,,這加速了我的創(chuàng)業(yè)計劃,。但即使沒有這件事,我仍然會創(chuàng)業(yè),,早晚的事,。創(chuàng)業(yè)這件事,在我看來,,一輩子注定要做一次,;如果不做,我會后悔,。另外,,我創(chuàng)業(yè)的一個重大原因是大廠的節(jié)奏相對比較慢,而我做事特別快,,我認為創(chuàng)業(yè)公司在節(jié)奏上會快很多,。因為在這個賽道上我們已經(jīng)比國外落后了9個月甚至1年,,所以我認為應該用更快的加速度去追趕、甚至超越它,,而不是說按部就班地去做,。我現(xiàn)在經(jīng)常拿著背包,時刻準備著出差,。有時我不知道明天會在哪個城市,,感覺創(chuàng)業(yè)的生活有點像我們現(xiàn)在所做的Decoding,每天都在解鎖未知的事情,,很辛苦但也很充實,!機器之心:你認為這次的人工智能創(chuàng)業(yè)潮與以往的有什么區(qū)別?梅濤:這次人工智能創(chuàng)業(yè)的門檻非常之高,。在模型層,,需要你有高密度的算法科學家,其次還需要有足夠的算力,,足夠的數(shù)據(jù),。以往的判別式AI公司(如人臉識別),雖然有頭部公司,,但是小公司跟隨起來不是特別費勁,,但是現(xiàn)在完全不同。機器之心:公開資料顯示,,你已經(jīng)完成了來自阿爾法公社,、中喝大種子一號基金參與的種子輪融資,近期還將完成第二輪融資,。目前公司在人才和資金方面的進展如何,?梅濤:公司已經(jīng)運營了接近三個月的時間,目前我們的辦公場所,,還有早期的人才和算力已經(jīng)基本到位,。資金方面,我們正在采用小步快跑的模式快速迭代,,種子輪只是起步資金,,今年年底前預計會分兩輪完成數(shù)千萬美金額度的天使輪融資。下一輪資金將用來擴張團隊,、購買算力資源以及商業(yè)化探索,。目前團隊共有十一人,預期在年底前會擴張到二十至三十人左右,。我希望構(gòu)建一個小規(guī)模的精干團隊。 機器之心:聽下來年底對你們來說是一個比較重要的節(jié)點,。那接下來的半年,,你們會著重解決哪些問題,?梅濤:第一個是模型方面,我能否將它做到百億級,,模型效果在參加評測時能否對標甚至略超過目前的模型,;其次,在文生圖產(chǎn)品上,,我們的效果能不能超過目前世界上最好的公司,;第三,我們內(nèi)心完整的商業(yè)模式能否得到初步驗證,,比如我們能否服務好行業(yè)中的小B客戶以及我們的用戶到底喜不喜歡我們的種子產(chǎn)品,,這對我來說是很重要的指標。我未來的半年主要就是把這三件事做好,。
|