GauGAN發(fā)布第二代！訓(xùn)練超1000萬張圖片,，兩個(gè)詞就能生成風(fēng)景畫

520jefferson 2021-12-01

展開全文

人工智能算法與Python大數(shù)據(jù)

致力于提供深度學(xué)習(xí),、機(jī)器學(xué)習(xí)、人工智能干貨文章,，為AI人員提供學(xué)習(xí)路線以及前沿資訊

22篇原創(chuàng)內(nèi)容

點(diǎn)上方人工智能算法與Python大數(shù)據(jù)獲取更多干貨

在右上方 ··· 設(shè)為星標(biāo) ★,，第一時(shí)間獲取資源

僅做學(xué)術(shù)分享，如有侵權(quán),，聯(lián)系刪除

轉(zhuǎn)載于：新智元

英偉達(dá)的藝術(shù)家神器GauGAN最近發(fā)布了第二代,，生成風(fēng)景畫的能力進(jìn)一步提升，原來還需要自己指定一些材料合成圖像,，現(xiàn)在只需要一句話即可生成你想要的風(fēng)景畫,，甚至季節(jié)等常識(shí)他也懂！

最近,，英偉達(dá)發(fā)布了實(shí)時(shí)繪畫工具GauGAN的第二代,，主要特性是支持輸入文本來生成圖像。

在新版本中,，GauGAN2集成了segmentation mapping, inpainting和text-to-image生成技術(shù),，用戶可以生成一些在現(xiàn)實(shí)生活中并不存在的風(fēng)景。

GauGAN2的目標(biāo)是創(chuàng)造一種混合文字和圖像的一種攝像技術(shù)！

與專門用于文本到圖像或圖像到圖像分割應(yīng)用的最新模型相比,，GauGAN2背后的神經(jīng)網(wǎng)絡(luò)模型能夠產(chǎn)生了更加多樣,、質(zhì)量更高的圖像。

用戶不必繪制想象場(chǎng)景中的每一個(gè)元素,，只需要輸入一個(gè)簡(jiǎn)短的短語(yǔ)就能夠快速生成圖像的關(guān)鍵特征和主題,，例如輸入雪山，就能夠生成一個(gè)雪山的草圖,。然后以這個(gè)草圖為起點(diǎn),，進(jìn)行下一步的圖像修改，例如把山變高,，加幾棵樹,，換一個(gè)天空等等，可以說是十分方便了,！

GauGAN這個(gè)名字的靈感來自于印象派畫家保羅·高更（Paul Gaugin）,，他死后作品才開始名聲大噪。他是印象派的代表人物,，除去繪畫之外,，在雕塑、陶藝,、版畫和寫作上也有一定的成就,。他對(duì)色彩的使用導(dǎo)致了綜合主義的產(chǎn)生，加上分隔主義的影響,，也為原始主義的產(chǎn)生鋪平了道路,。

從2019年開始，Nvidia就給GauGAN系統(tǒng)喂了超過100萬張公共Flickr圖片進(jìn)行模型訓(xùn)練,。

2019年3月,，在加州圣何塞舉行的GPU技術(shù)大會(huì)（GTC）上，Nvidia揭開了GauGAN的面紗,，這是一種生成對(duì)抗性AI系統(tǒng),，可以讓用戶創(chuàng)建實(shí)際并不存在的逼真風(fēng)景圖像。GauGAN測(cè)試版在Playground平臺(tái)上發(fā)布后的第一個(gè)月,，就已經(jīng)生成了50萬張圖片,，包括電影、視頻游戲等概念藝術(shù)領(lǐng)域均有應(yīng)用,。

Nvidia表示,，GauGAN已經(jīng)被一家醫(yī)療保健組織用于探索性治療工具使用，動(dòng)畫建模師Colie Wertz也在使用GauGAN,，他的作品包括《星球大戰(zhàn)》,、《變形金剛》和《復(fù)仇者聯(lián)盟》等,。

GauGAN的首次公開使用是在GANPaint Studio中，這是一個(gè)公開的人工智能工具,，可讓用戶上傳任何照片并編輯所描繪的建筑物,，植物群和固定裝置的外觀。在其他地方,，生成機(jī)器學(xué)習(xí)模型已被用于通過觀看YouTube剪輯,，從自然語(yǔ)言標(biāo)題創(chuàng)建圖像和故事板，以及使用包含人類語(yǔ)音的音頻剪輯來動(dòng)畫和同步面部運(yùn)動(dòng)來生成逼真的視頻,。

與GauGAN的第一代一樣,，GauGAN2知道雪、樹,、水、花,、灌木,、山和山等物體之間的關(guān)系，例如降水類型隨季節(jié)變化這種常識(shí)在圖像生成中也能夠保持,。

GauGAN和GauGAN2同樣還是基于對(duì)抗生成網(wǎng)絡(luò)（GAN）,，模型中包含一個(gè)生成器和判別器。生成器用來接收輸入樣本（一個(gè)文本和一個(gè)圖像）然后預(yù)測(cè)出這個(gè)文本描述是否和風(fēng)景圖像內(nèi)容能對(duì)應(yīng)上,。

生成器的訓(xùn)練過程是通過試圖欺騙判別器,，使其無法分辨生成圖片和現(xiàn)實(shí)場(chǎng)景的圖片。雖然GAN在初期生成的質(zhì)量很差,，一眼假,，但它的生成器會(huì)隨著判別器的反饋而不斷變強(qiáng)。

在第一代基礎(chǔ)上,，GauGAN2接收了超過1000萬張圖片的訓(xùn)練,，已經(jīng)能夠很好地將自然語(yǔ)言轉(zhuǎn)換為風(fēng)景圖像。

例如輸入「海灘上的日落」就會(huì)產(chǎn)生一對(duì)應(yīng)的風(fēng)景圖,，在這基礎(chǔ)上添加諸「落基山海灘上的日落」或?qū)ⅰ溉章洹固鎿Q為「下午」或「雨天」等形容詞也會(huì)立即生成修改后的圖片,。

使用GauGAN2，用戶可以生成一個(gè)分割圖（segmentation map）,，能夠顯示場(chǎng)景中物體位置,。用戶可以將生成的圖像切換到繪圖模式，用天空,、樹,、巖石和河流等標(biāo)簽將場(chǎng)景繪制成粗糙的草圖，并能夠使用畫筆將涂鴉嵌入圖像中,。

GauGAN2和OpenAI的DALL-E差不多,，DALL-E也是根據(jù)文本提示來生成圖像,。這類系統(tǒng)本質(zhì)上是視覺創(chuàng)意的創(chuàng)造器，在電影,、軟件,、視頻游戲、產(chǎn)品,、時(shí)尚和室內(nèi)設(shè)計(jì)方面有潛在的應(yīng)用場(chǎng)景,。

Nvidia聲稱，GauGAN的第一個(gè)版本已經(jīng)被用來創(chuàng)造電影和視頻游戲的概念藝術(shù),。并且與第一版相同,，Nvidia計(jì)劃在GitHub上開源GauGAN2 的代碼，并在Playground上進(jìn)行交互式演示,，Playground是Nvidia AI和深入學(xué)習(xí)研究的網(wǎng)絡(luò)中心,。

但，像GauGAN2這樣的生成模型的一個(gè)缺點(diǎn)是可能存在模型偏見,。

在Dall-E的生成樣例中,，OpenAI使用了一個(gè)特殊的模型CLIP來提高圖像質(zhì)量，用到的方法是在DALL-E生成的每條樣本中把頂層樣本給覆蓋掉,，換成其他的提示圖,。

但是一項(xiàng)研究發(fā)現(xiàn)，CLIP錯(cuò)誤分類的黑人個(gè)人照片的比例更高,，并且它會(huì)認(rèn)為從事諸如保姆,、和家政工人等職業(yè)是和婦女相關(guān)的。

在相關(guān)新聞材料中,，Nvidia并沒有說明他們的研發(fā)團(tuán)隊(duì)如何審核GauGAN2中的社會(huì)偏見,。

但Nvidia發(fā)言人在郵件中說過，該模型有超過1億參數(shù),，并使用風(fēng)景數(shù)據(jù)集中訓(xùn)練了一個(gè)月,。這個(gè)專用的模型完全專注于風(fēng)景景觀，研究人員審計(jì)以確保在訓(xùn)練圖像中沒有人物的出現(xiàn),。目前來說,，GauGAN2只是一個(gè)研究演示。

另一個(gè)GauGAN的應(yīng)用是Nvidia Canvas,，能夠讓創(chuàng)作者通過材料而不是顏色來繪畫,。這個(gè)程序能夠?qū)崟r(shí)現(xiàn)實(shí)繪畫結(jié)果，而不需要等待完整的繪畫,。

用戶首先用現(xiàn)實(shí)世界的材料,，如草地或云彩，畫出簡(jiǎn)單的形狀和線條,。人工智能模型然后立即填充屏幕顯示停止的結(jié)果,。四個(gè)快速的形狀和一個(gè)驚人的山脈出現(xiàn),。再多幾條線就會(huì)形成一片美麗的田野。

NVIDIA canvas也提供了多種材料可供使用,。NVIDIA畫布有九種風(fēng)格,，修改的外觀和感覺的繪畫和15種不同的材料，從天空和山脈,，河流和石頭,。在不同的圖層上繪制，使元素保持分離,。從頭開始,，或啟動(dòng)和修改應(yīng)用程序的預(yù)制場(chǎng)景之一，以獲得更完美的靈感提示,。

在池塘里畫畫,，附近的元素如樹木和巖石就會(huì)出現(xiàn)在水中的倒影。換一種材料,，把雪變成草,，整個(gè)形象就從一個(gè)冬天的仙境變成了一個(gè)熱帶的天堂。

該工具允許藝術(shù)家使用樣式過濾器,，改變生成的圖像，以采用特定的畫家的風(fēng)格,。不僅僅是把其他圖片拼接起來,，或者剪切和粘貼紋理，而是創(chuàng)造全新的圖像,，就像藝術(shù)家一樣,。

有了英偉達(dá)的GauGAN，人人都能成為藝術(shù)家了,！

參考資料：

https:///2021/11/22/nvidias-latest-ai-tech-translates-text-into-landscape-images/

---------?---------

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： 520jefferson > 《機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/tensorflow》

舉報(bào)/認(rèn)領(lǐng)