英偉達又一次突破了大家的想象力——一句話生成照片,。 近日,英偉達官方推出GauGAN2的人工智能系統(tǒng),,它是其GauGAN模型的繼承者,,它不僅能根據(jù)字詞描述生成逼真的風景圖像,還能實時用文字P圖,。 GauGAN2將分割映射,、修復和文本到圖像生成等技術(shù)結(jié)合在一個工具中,通過輸入文字和簡單的繪圖來創(chuàng)建逼真的圖像。 英偉達團隊在一篇博客文章中寫道:“用戶無需繪制想象場景的每個元素,,只需輸入一個簡短的短語即可快速生成圖像的關(guān)鍵特征和主題,,例如雪山山脈。然后可以用草圖定制這個起點,,使特定的山更高,,或在前景中添加幾棵樹,或在天空中添加云彩,?!币韵拢珽njoy: 來源 / 量子位(ID:QbitAI) 在“一句話生成照片”這件事上,,英偉達又一次突破了大伙的想象力,。 他們最新的AI模型GauGAN2,不僅能根據(jù)字詞生成逼真風景照,,還能實時用文字P圖,!
輸入一句“海浪擊打岸邊石”,立刻輸出一張逼真照片:
從單詞到短語,,這只AI全都能get,!
那感覺,簡直是要山得山,,要水得水:
要是覺得哪部分你不喜歡,,直接打字就能“P圖”:
上面這些效果,都是英偉達這個叫做“GauGAN2”的模型做出來的,,而它的“完整版”功能,,還遠不止這些。 1 從草圖到文字,,都能生成風景照 GauGAN2的繪制模式,,一共分為三種。 第一種,,打字生成圖片,。 我們先試了一下單個詞組,“陽光(sunshine)”,,生成如下圖片:
加上限定詞in the forest后,,AI立刻就將場景換到了樹林里,變成光灑在樹林中的場景:
再多來點限定詞也沒問題,。 像“冬日樹林中的陽光”,,輸入in winter后,眼前本來郁郁蔥蔥的樹林立刻“全禿了”,,換成了雪景下的一幕:
這效果,,u1s1(有一說一)確實不錯,。 還能輸出不同style的風景圖,例如輸入“大山(mountain)”一詞,,立刻要山有山,,還能給你換不同風格:
當然,這些不同的風景照也都能繼續(xù)生成新細節(jié),,在mountain后加上“beside a river”就能生成山水:
第二種,,“打字P圖”,直接用文字編輯部分圖像,。 只需要把想替換掉的部分圈出來,,輸入你想要的東西,就能立刻造出各種新穎的風景圖:
嗯……英偉達給出的這個demo,,思路也是非常清奇了,,“浮在空中的城堡”:
第三種,用涂鴉生成風景照,。 這是上一代GauGAN2(2019年英偉達推出的GauGAN)的看家本領(lǐng),。 例如,要是想實現(xiàn)下面這樣的“一片天空兩個太陽”,,就完全可以在通過文本生成的圖像上,,自己手動再加一個。
這幾種玩法疊加在一起,,簡直讓網(wǎng)友們腦洞大開,。 像外媒ZDNet就惡搞出來了一種神奇的玩法,在已有的風景上畫個人頭:
然后讓GauGAN2根據(jù)已有的畫面,,再重新生成圖畫,,就會得到如下“人頭海島”的神奇景觀:
不過這可能也對個人畫技有所要求,在我們的靈魂畫風下,,效果看上去就有些……不太聰明的亞子,。
那么,生成這一系列風景照的GauGAN2,,背后究竟用了什么原理? 它與OpenAI今年發(fā)布的DALL·E和CLIP,,又究竟有什么區(qū)別,? 2 與DALL·E有什么不同? 2019年,,英偉達GauGAN2的“前身”GauGAN正式開源,。 當時的它,還只擁有其中一個能力,,就是將涂鴉直接變成風景畫,,就像「神筆馬良」一樣,,還推出了對應(yīng)的軟件Canvas:
當然,這時GauGAN已經(jīng)能隨意改變畫面風格了,,從白天黑夜到春夏秋冬的氣質(zhì)都能穩(wěn)穩(wěn)“拿捏”:
據(jù)英偉達介紹,,GauGAN采用了一種基于空間適應(yīng)標準化(SPADE)算法。 SPADE算法不僅使用隨機的輸入圖像,,還采用了一種被稱作“分割圖”的圖像,。在分割圖中,每一個像素都會被歸類,,來生成更接近于真實的圖像,,這種模式被稱作“圖對圖翻譯”。
△GauGAN的技能點(狗頭) 現(xiàn)在,,英偉達將GauGAN升級成了GauGAN2,,后者一共采用了1000萬張高質(zhì)量的圖片、在英偉達Selene超算上進行訓練,,這臺超算在Green500排行榜上排到世界第二,。 生成這些風景畫的效果和“手法”,是不是感覺有點熟悉,? 沒錯,,大多數(shù)人看到GauGAN2的第一眼,可能都會覺得它和OpenAI的DALL·E+CLIP有點像,。 今年年初,,OpenAI用DALL·E和CLIP兩個模型,做了個“圖像版”GPT-3,,同樣能用一句話生成圖片,。
不過,這兩個模型生成的內(nèi)容其實不太一樣,。 GauGAN2專注于生成風景照,,DALL·E+CLIP則更多地生成具體的物體,例如一把椅子或者一個鬧鐘等,。
這與它們的原理差異也有關(guān)系,,GauGAN2更加注重“單詞與視覺效果”之間的關(guān)系,例如“冬天”這種模糊的狀態(tài)詞給照片帶來的效果,;DALL·E+CLIP則更注重“文字-圖像”這種有明確對應(yīng)關(guān)系的物體效果,。 據(jù)英偉達介紹,GauGAN2不同于“文本-圖像”和“分割圖像-圖像”一類的模型,,它所能產(chǎn)生的照片種類更多,,質(zhì)量也會更高。 不過,,偶爾也會出現(xiàn)點bug…… 比如給出“沙灘(beach)”一詞后,,有些生成的畫面中出現(xiàn)了語言無法描述的事物,。
對此,英偉達表示,,他們在訓練中“完全沒有用到任何人像照片”,。(所以可能是偶然?) 但這樣一來,,網(wǎng)友想要的“瑞克搖(Rick roll)”和“鬼畜視頻生成”,,GauGAN2大概也是沒辦法實現(xiàn)了。 但是能生成仿佛夢境中才能見到的畫面,,也吸引了不少人來試玩,。 這不,有人就曬出了自己生成的抽象畫大作,,并表示自己非常喜歡這個模型:
還有人表示,,GauGAN2給出了一些建筑設(shè)計的新idea啊。
也有網(wǎng)友覺得這種能夠自動生成景觀的功能,,未來Adobe可能也會用上,。 或許就是下一個畫手利器? 最后,,GauGAN2在瀏覽器上就能試玩,,歡迎大家留言討論自己的體驗感受~ GauGAN2試玩Demo地址: http:///gaugan2/ 參考鏈接: [1]https://twitter.com/NVIDIAAI/status/1462835802266902535 [2]https://blogs./blog/2021/11/22/gaugan2-ai-art-demo/?ncid=so-twit-261232-vt16#cid=nr01_so-twit_en-us [3]https:///2021/11/22/nvidias-latest-ai-tech-translates-text-into-landscape-images/ [4]https://www./article/the-absurd-beauty-of-hacking-nvidias-gaugan-2-ai-image-machine/ [5]https://blogs.microsoft.com/ai/drawing-bot/ [6]https://www./en-us/studio/canvas/ |
|