最近一年里,AIGC 是人工智能領(lǐng)域里最火的詞匯之一,。 1 月 10 到 11 日,,機器之心「AI 科技年會」在線舉行,。本次活動中,基于對 2022 年人工智能研究,、技術(shù)和應(yīng)用的觀察,,機器之心邀請業(yè)內(nèi)知名專家、高管及本年度深度合作企業(yè),,共同總結(jié)了過去一年人工智能的重要經(jīng)歷與成果,,討論了未來 AI 的發(fā)展方向。在大會第二天「AIGC 技術(shù)應(yīng)用論壇」上,,百度文心一格總架構(gòu)師肖欣延博士作了主題為《跨模態(tài)內(nèi)容生成與技術(shù)與應(yīng)用》的演講,。以下為演講全文,本文進行了不改變原意的整理,。我叫肖欣延,,現(xiàn)在主要在百度負(fù)責(zé)內(nèi)容生成及 AIGC 技術(shù),也是「文心一格」的總架構(gòu)師,。今天我報告的題目是《跨模態(tài)內(nèi)容生成技術(shù)與應(yīng)用》,。今年大家都很關(guān)注人工智能領(lǐng)域的一個方向 —— 內(nèi)容生成。從圖像生成角度來看,,下圖左邊是 2020 年圖像生的水平,,是很有代表性的一個拍賣畫作。到了 2022 年,,技術(shù)已經(jīng)相比之前強了很多,。我們?nèi)我庹f一句話就能生成一張非常精致的圖,,不管是非常復(fù)雜的山水圖,還是很精致很細(xì)膩的人物畫像,,都能做得很好了,。我們可以感受到整個內(nèi)容生成方向的進展是非常迅速的。其實除了圖像生成,,語言生成的進展也很快,。直觀來講,以前更多的是在比較短的文本上生成得比較好,。但到了今年,,長文本的內(nèi)容,比如故事生成,、長文案生成,,還有多輪聊天,文本生成都能做得很好,。它能兼顧到前后的連貫性,,甚至有時能保證邏輯上的一致性。更綜合的就是視頻創(chuàng)作,。視頻創(chuàng)作是讓機器能夠自動創(chuàng)作出一個完整的視頻,。視頻會涉及到文案、畫面和歌曲等很多元素,。這是百度最近在萬象大會上發(fā)布的,,由 AI 度曉曉作詞作曲演唱的 MV《啟航星》,里面所有的畫面都是用百度的文心一格畫出來的,。能夠看到 AI 能根據(jù)歌詞的變化,,每個變化切換一個場景。整體上,,前面講到的這些都是智能內(nèi)容生產(chǎn),,也就是今年大家常說的 AIGC。所謂 AIGC 就是用人工智能來進行內(nèi)容生產(chǎn),,它的特點是有非常強大的內(nèi)容生產(chǎn)力,,大幅提升內(nèi)容生產(chǎn)的質(zhì)量和效率,將來也會極大地豐富大家的數(shù)字生活,。這里給了一個簡單的對比圖,,整個內(nèi)容生產(chǎn)從專業(yè)的 PGC 到用戶生產(chǎn)的 UGC,現(xiàn)在已經(jīng)進入了 AIGC 的時代,。相信 在 AIGC 的時代,整個內(nèi)容生產(chǎn)的方式,還有內(nèi)容消費的模式都會有極大的改變,。百度在 AIGC 的技術(shù)上有比較多的布局,。不管從底層的文心大模型,包括語言,、視覺,、跨模態(tài)大模型,還是在生成能力上面,,包括語言生成,、圖像生成,,語音合成和數(shù)字人等,,各方面都有涉及。今天要介紹的是其中的一部分 —— 跨模態(tài)內(nèi)容生成,。核心來講,,我們希望用文本的描述來生成視覺的內(nèi)容。比如說一句話能生成一個圖像,,或者我們寫一篇文章,能把文章自動轉(zhuǎn)成視頻,。報告主要分成兩大塊,一塊是文生圖,,我會介紹 百度的 AI 作畫產(chǎn)品文心一格,;另外一塊是文章轉(zhuǎn)視頻。最后,,我會進行討論和展望。首先是文生圖的部分,。整體來講,文生圖在 2018 年或更早就有很多研究,,我們能看到從 2020 年之后該方向進展很多。從應(yīng)用角度來講,,很大的一個變化還是在 2022 年擴散模型的圖像生成出現(xiàn),使得整個跨模態(tài)生成有了一種跨越式的發(fā)展,。我們可以看到,,2022 年的圖像生成質(zhì)量相比之前有非常大幅的提升,不管是從構(gòu)圖,,還是細(xì)節(jié)刻畫上,。這種擴展生成模型如圖所示,,其實是依照原有圖像,逐步增加高斯噪聲,,將圖像轉(zhuǎn)化為高斯分布,。這樣的處理序列是一張清晰的圖片,,逐漸變成噪聲的過程,,這是一個前向過程。而模型要學(xué)習(xí)的是把噪聲去除掉,,逐漸的恢復(fù)出原始照片,。一旦我們的模型有這樣能力,也就是從噪聲里面去逐步地去噪,,生成更好的圖片,,它其實上就具備了這種生成圖像的能力了。這是一個簡單的描述,,擴展生成從應(yīng)用的角度來講有這樣幾個優(yōu)勢:首先,,模型的記憶能力是非常強的。我們可以通過提高數(shù)據(jù)的規(guī)模持續(xù)地優(yōu)化,。在 2020 年到 2021 年的時候,,像 DALL-E 這些模型的數(shù)據(jù)量的訓(xùn)練規(guī)模大概在千萬到億級別這樣的量級。到了今年,,像 Stable Diffusion 這樣的模型的訓(xùn)練規(guī)模已經(jīng)達到了 10 億的量級,。這么大的數(shù)據(jù)之下,它對原來圖片的記憶能力也挺好的,,不會說因為有很多圖片,,有些東西就沒記住。因為記憶能力很強,,它的模仿能力就有一定的保證,。另外現(xiàn)在它的建模是像素粒度的建模,所以更適合視覺的建模,。它能夠生成大像素的圖片,,甚至有一些技術(shù)能夠無限地擴大整個圖片的像素,這樣就能夠生成一些實用的高清圖片,。從技術(shù)上來看,,Stable Diffusion 確實打開了一個天花板,把效果的上限提升了很多,。但在實際的應(yīng)用當(dāng)中,,并不是直接使用這樣一個模型,就能滿足應(yīng)用要求的。好的模型不是簡單就等于好的體驗,。在實際應(yīng)用當(dāng)中,,從創(chuàng)作過程來講有三個步驟是需要去解決的。第一個是創(chuàng)作的需求理解,。在跨模態(tài)生成里面,,我們都是需要輸入語言去跟模型交互的,用戶到底怎樣簡單地輸入就能拿到一個他希望的圖,,這就需要一定的需求理解,。第二個,圖像的生成,,也是跨模態(tài)生成的核心的部分,,在這一部分里用戶的需求也很多,有藝術(shù)的,、寫實的,,創(chuàng)作的模型該如何去滿足,。最后是創(chuàng)作需求的滿足,。很多時候生成一張結(jié)果,可能只是部分滿意,,怎樣進行一定的調(diào)整滿足用戶的需求,,也是需要通過模型優(yōu)化去解決的。面對這些問題,,百度研發(fā)了一套基于知識與大模型的文生圖系統(tǒng),。整體來看,當(dāng)輸入文字描述之后,,會先通過知識圖譜做需求的理解,,進行一定的文本聯(lián)想擴展。生成文本之后再真正進行跨模態(tài)生成,,這里面我們有很多跨模態(tài)生成模型上面的創(chuàng)新優(yōu)化,。生成完圖之后,又會有基于圖到圖的擴散生成,,來支持用戶做圖像的編輯,。最后,因為系統(tǒng)應(yīng)用到產(chǎn)品上生成圖像結(jié)果后,,用戶會有一些反饋,,我們也要利用用戶的反饋去指導(dǎo)整個學(xué)習(xí)的模型優(yōu)化過程,形成一個根據(jù)用戶需求去進行反饋的閉環(huán),。首先要做文本理解,,也就是我們常說的 Prompt 學(xué)習(xí),這里面其實主要是要做一些理解,并根據(jù)知識進行擴充,。比如用戶可能想畫一個大樓,,一開始可能沒有想得很明白需要什么,會輸入一個很簡單的「大樓」單詞,。而真正的生成畫作,,可能有很多方面要去考慮。這個時候,,模型就會進行一定的文本理解,。根據(jù)分析理解的結(jié)果,算法主動地幫輸入加上一些風(fēng)格,,比如到底是寫實風(fēng)格還是藝術(shù)風(fēng)格,,它的色調(diào)是怎么樣的。當(dāng)然理解跟擴充從算法上也可以做端到端的生成,。不管是哪種方式生成了擴展之后,, 所有構(gòu)建出來的 Prompt 都會進行排序,最后分別生成圖片供用戶去選擇,。Prompt 學(xué)習(xí)是非常重要的,,這里給一些例子,我們能看到加不加這些 Prompt 的擴展,,效果影響還很大的,。比如我們的在文心一格上面輸入「微笑女孩」,可能生成的是左邊這張圖,,但是模型會幫他加很多擴展,。比如會把這種數(shù)字繪畫、逆光,、電影照明,,包括超精細(xì)這樣一些修飾詞都加入進來。加入之后,,我們能看到圖片生成會更加有藝術(shù)感,,質(zhì)量也會更高。類似的,,像天空,,大海等景色的圖片,都可以通過一些 Prompt 擴展能夠使效果有顯著的提升,。當(dāng)然,,最核心的部分還是文生圖。文本已經(jīng)確定下來了,,輸入到系統(tǒng)里面,,效果一定要足夠的好,。為此,百度提出了 ERNIE-ViLG 2. 0,,這是一個知識增強的混合降噪專家模型,。從圖文相關(guān)性上面來看,在跨模態(tài)生成里面,,語言跟視覺之間的對應(yīng)關(guān)系要做得很好,,才能保證用戶說什么就生成什么。技術(shù)上主要通過對語言,、視覺還有跨模態(tài)做一些知識增強,,更好的實現(xiàn)跨模態(tài)知識之間的映射,從而實現(xiàn)圖文相關(guān)性的提升,。另外我們也提出了一個混合專家擴散模型,,擴散模型就像前面說的,是有從有噪聲的圖像逐步生成一個清晰的畫面,。這個過程在不同的階段,,對擴散生成的要求是不一樣的,所以我們設(shè)計了混合專家模型,,自動地根據(jù)不同階段選擇合適的網(wǎng)絡(luò),,生成最優(yōu)的結(jié)果。這樣整體上模型的建模能力也會更強,,生成圖片會更加的細(xì)膩,,構(gòu)圖也更加的清晰。從實驗上也能很直觀地看到效果的提升,。我們在 MS-COCO 數(shù)據(jù)集上面做了自動評估,可以看到 ERNIE-ViLG 2.0 在 FID 自動評估上面是當(dāng)前業(yè)界最好的效果,。從人工的評估的角度,,不管從圖像的質(zhì)量還是圖文的對齊,ERNIE 的效果都會更好,。這邊給了幾個例子,,能看到 ERNIE 能生成很精細(xì)的圖,同時也會生成一些很有創(chuàng)意的圖,,比如孫悟空穿西裝,、熊貓在擼串。可以看到,,現(xiàn)在 AI 的創(chuàng)意能力是很強的,,至少它能從過去的數(shù)據(jù)當(dāng)中學(xué)習(xí)到組合關(guān)系。并且從我們的觀感上會認(rèn)為它有一定的創(chuàng)造力,,雖然它還是在模仿,,但會感覺它的組合能力很強,,會展現(xiàn)一定的創(chuàng)造能力。在模型上我們還有更進一步的創(chuàng)新,。像前面介紹的模型,,它其實本質(zhì)上需要一個文本的輸入作為條件去進行擴散生成。這種模式其實就是咱們常見 Stable Diffusion 模型,。它通常能生成的圖就是比較具象的圖,,比如畫人物,畫一些具體的物體,,它能畫得很好,。其實還有另外一類叫做 Disco Diffusion 的模型,它是通過跨模態(tài)來引導(dǎo)的,,通常能生成意向的圖,,它比較重視整體的構(gòu)圖,整個構(gòu)圖會比較復(fù)雜,。我們的想法也比較直觀:能不能把兩種引導(dǎo)都融合在一起去支持?jǐn)U散生成,?讓擴散生成既依賴于條件的輸入,也依賴于整個跨模態(tài)匹配的在線的指導(dǎo),,這樣就能同時做好兩種場景,,不管是畫人物,還是做很復(fù)雜的構(gòu)圖生成,。為此,,我們提出了文本與跨模態(tài)聯(lián)合引導(dǎo)的統(tǒng)一圖像生成 UPainting。對 UPainting 這樣的模型,,我們研發(fā)出來之后也做了一些評估,。能看到它在圖像的各方面能力上都做得更好。這里展示了圖片,,不管是畫一些具體的如熊貓,,還是畫一些具體的物體,甚至比較復(fù)雜的大場景構(gòu)圖,,而且中間包含細(xì)節(jié)的圖,,現(xiàn)在我們都是畫得比較好的。最后一塊是圖像編輯,。我們畫了一個圖之后,,有時可能不是自己最滿意的,希望再進行一次修改,。所以我們研發(fā)了基于文本驅(qū)動的圖到圖的生成,。簡單來講,擴散生成除了依賴于編輯文本的描述,,也會依賴于圖片的輸入,。并且我們有個注意力機制來保證擴散過程當(dāng)中能夠更關(guān)注用戶輸入的編輯指令,。具體來講,圖像編輯主要有以下幾種功能,。首先是元素修改,,比如我們已經(jīng)畫了一只貓,但突然想給貓再加一點裝飾,,給它戴上個眼鏡,,戴上金鏈子,就可以通過這樣的功能去生成,。另外也可以做風(fēng)格轉(zhuǎn)換,,比如像前面輸入大樓,已經(jīng)生成一個真實景觀的風(fēng)格了,,但是我們希望把它改成一種比較科幻的,,也可以做修改。最后是基于模型已經(jīng)生成的一張圖做二次生成,,讓模型重新生成一下,,它會生成一個比較相近的同款圖。這些都是圖像編輯,。這些功能都已經(jīng)集成在文心一格產(chǎn)品上,,能夠?qū)崿F(xiàn)一語成畫,別具一格的圖像生成,。這里給了一些我們產(chǎn)品上能生成的圖像的例子,,能看到不管是復(fù)雜的構(gòu)圖,還是細(xì)節(jié)刻畫都是能做得很好的,。比如最左邊的這兩張圖是偏復(fù)雜構(gòu)圖的,,講究整個場景意境及整體構(gòu)圖。中間這三張是偏具象的,,更關(guān)鍵的是能夠把單獨物體的精細(xì)度畫出來,。最右邊就有點綜合了,既要兼顧整體的構(gòu)圖,,也要兼顧細(xì)節(jié)上的精細(xì)度。所以從整體創(chuàng)作的角度來看,,各種不同的圖像生成能力我們都做得不錯,。除了通過產(chǎn)品讓用戶去體驗 AI 作畫的能力,一格也在很多重要場合進行應(yīng)用,。如一格跟人民日報合作,,根據(jù)二十大的部分關(guān)鍵詞去生成 AI 眼中的未來的中國。除此之外,,文心一格上也在做一些新的探索與合作,,尋找到底 AI 繪畫的邊界會在哪,。比如我們跟時尚雜志 《COSMO》 合作,一起畫了二十四節(jié)氣的專題,,并且發(fā)布了首個 AI 生成的雜志封面,。另外我們也跟朵云軒合作,在全球完成了山水畫風(fēng)格的 AI 作畫,,并實現(xiàn)了全球首次 AI 山水畫拍賣,。這幅畫作是非常復(fù)雜的,我們根據(jù)陸小曼的初稿生成了一幅新的山水畫,,受到了很多專家的肯定,,最后也成功地拍賣了。以上的第一個部分都是文生圖,,主要是基于語言來進行 AI 繪畫,。第二塊是關(guān)于視頻創(chuàng)作的,我們能夠根據(jù)一篇文章來生成一個視頻,。這個功能非常簡單,,如圖所示,用戶輸入圖文信息,,可能是一篇文章,,一個搜索 query,甚至可能是一個 PPT,,系統(tǒng)就能生成一個視頻,。視頻的生產(chǎn)其實是比較復(fù)雜的,它需要生成其中的文本,、視覺,,還有語音,有些時候還需要把數(shù)字人做出來,。還會有視頻腳本,,規(guī)定了整個場景怎么劃分,轉(zhuǎn)場建議等,。這里面要涉及到模型計算特別多,。為了解決這樣的問題,并不能用一個簡單的模塊完成,,而是需要一個系統(tǒng),。整體來講,我們研發(fā)的 TTV 系統(tǒng)邏輯上是模仿人的創(chuàng)作過程的,。首先要做文案的理解和組織,。還要有一個素材庫,這個素材庫里有些是從網(wǎng)上獲取的真實素材,,也有可能是通過 AI 生成的素材,。素材都有了之后,,再去做所謂的編排,把素材跟文案做對齊,,保證最后生成出來的字幕音頻和展示的視覺畫面是對齊的,。這里面的思路有幾種。一種是全部使用生成的素材,,也就是原生生成,,一種是在已經(jīng)給定素材之后,進行所謂的素材采編,。接下來我就先說一下采編方面的技術(shù),。介紹完之后,再說一下純原生的技術(shù),。首先在視頻采編中,,給定一篇文章,類似于文生圖里面要做 Prompt 構(gòu)造一樣,,我們要主動地去構(gòu)造一個 query,,它能夠幫助我們?nèi)z索相關(guān)的素材。整體上簡化可以用標(biāo)簽的技術(shù)去做,,但是更理想的是通過結(jié)構(gòu)化的分析,,生成組合的 有完整語義的 query 來保證效果。構(gòu)建完 Query 后,,我們要做素材的擴充,,主要是通過匹配的模型,用一個多域多屬性的統(tǒng)一匹配,,確保有一個非常好的效果,。當(dāng)素材已經(jīng)都選回來之后,要把它們放到合適的字幕位置上面,。這里主要通過一些語義相關(guān)性的計算,,計算字幕和素材的語義相關(guān)性,計算完之后,,素材被放在合適的位置,,保證了整個視頻的流暢度。我們也做了一些原生的視頻生成,。最早一開始展示的《啟航星》的視頻,,是通過文生圖的技術(shù)來做的。給到一篇文章之后,,我們通過文生圖的技術(shù)生成一些關(guān)鍵幀,再把這關(guān)鍵幀結(jié)合起來,,生成一個視頻,。更進一步,,我們還可以做端到端的文生視頻,不止真人圖像,,還可以把動態(tài)效果都做出來,。這里是百度自研的 VideoDream 模型。整體上來講,,它跟文生圖是比較像的,,但相比之下它除了生成一張圖像,還會生成多幀,,形成動態(tài)的效果,。這里是一些展示的效果。這些技術(shù)已經(jīng)在百家號的一些場景上落地,,能夠助力創(chuàng)作者進行高效創(chuàng)作,。它的生產(chǎn)效率會相比人工會至少有一個量級的提升,同時從用戶的體驗指標(biāo)上和人工基本持平,。同時,,我們也在融合一些新的技術(shù),包括數(shù)字人,,完成數(shù)字人 TTV,。我們還針對專門的場景,研發(fā)專題 TTV,,比如大會報道,,我們有一些線上直播流數(shù)據(jù)原始高清數(shù)據(jù),可以使用這些專項數(shù)據(jù)來優(yōu)化視頻質(zhì)量,,支持一些行業(yè)級應(yīng)用,。文生圖、文章轉(zhuǎn)視頻都是基于語言來生成視覺內(nèi)容的技術(shù),。最后我們進行一些討論跟展望,。從應(yīng)用的角度來看,AIGC 當(dāng)下正在發(fā)生,,它已經(jīng)在大幅地提升內(nèi)容創(chuàng)作的質(zhì)量和效率,。我們至少從文生圖上觀察到它提升了幾個量級的效率。以前專業(yè)的畫師,,在一些復(fù)雜的畫作上,,可能需要積累好幾年才能構(gòu)建的素材,現(xiàn)在通過 AI 作畫能短時間大量生成,。對于普通用戶來講,,它也會成為普惠的人類助手,讓每個人將來都可以擁有很強的創(chuàng)作力。最后是跨模態(tài)生成的一些現(xiàn)存的問題,。首先是易用性問題,。在應(yīng)用中,用戶需要輸入文本描述,。但事實上,,輸入文本描述是很復(fù)雜的。比如左側(cè)的例子,,需要這里密密麻麻的文字才能生成一個圖片,。再比如右邊文心一格的例子上,通用需要這么一大串文字,,不管是主體,、內(nèi)容、風(fēng)格各方面都需要描述才能生成足夠好,。所以易用性是要進一步提升的,。另一個是可控性。現(xiàn)在模型雖然能生成很精致的圖片,,但是對于用戶指定的數(shù)量,、位置關(guān)系等,并不一定能準(zhǔn)確生成,。同時有些時候用戶輸入風(fēng)格描述之后,,因為風(fēng)格模型會過度擬合到特定場景上面,導(dǎo)致圖像結(jié)果不符合預(yù)期,。比如這里,,豐收的麥田上用加入了動漫風(fēng)設(shè)定,就容易會出現(xiàn)人物,,可見模型的可控性也是需要提升的,。最后總結(jié)一下,AIGC 時代已經(jīng)到來了,,百度研發(fā)了文生圖的技術(shù),,發(fā)布了 AI 作畫的創(chuàng)意產(chǎn)品文心一格。在文章轉(zhuǎn)視頻上,,目前已經(jīng)綜合各種 AI 能力實現(xiàn)工業(yè)化的,、可落地的文章自動轉(zhuǎn)視頻能力。展望未來,, AIGC 的技術(shù)會不斷地提升,,打造出更強大的用戶體驗,它的應(yīng)用場景也會越來越拓寬,。最終 AIGC 會無處不在,。相信這個過程里面也會產(chǎn)生一些新的職業(yè),如 AI 繪畫師、 AI 自媒體,,帶來更多的就業(yè)機會,,對社會產(chǎn)生正面的影響。
|