【原】AI繪畫被忽視的這些逆天功能，以前我做夢(mèng)都想不到

游戲葡萄 2022-11-03 發(fā)布于北京

展開全文

見證真正的魔法吧,。

文/以撒

AI繪畫的浪潮卷起后,，我們幾乎進(jìn)入了“AI美術(shù)時(shí)代”。足夠低的門檻,，讓每個(gè)人都有機(jī)會(huì)成為“畫家”,，人們也開始思考這場(chǎng)技術(shù)變革到底會(huì)走向何方。但與此同時(shí),，絕大部分人實(shí)際上只對(duì)AI繪畫一知半解,，更別提有一個(gè)系統(tǒng)的認(rèn)知，卻在這種前提下陷入了無休無止的爭(zhēng)論之中,。

越是如此,，我們就越需要跳出思維定式,，把注意力放到技術(shù)本身。因此,，在前一陣的直播中,，葡萄君邀請(qǐng)到了靈游坊CEO梁其偉、專業(yè)PPT設(shè)計(jì)師&知名設(shè)計(jì)美學(xué)博主Simon_阿文,，以及網(wǎng)易雷火藝術(shù)中心的原畫師HS聊了聊AI美術(shù)的現(xiàn)狀和發(fā)展,。（直播回放可在游戲葡萄視頻號(hào)觀看）

在直播中，不少觀眾都對(duì)他們的分享和見解表示了高度肯定,，如果你也想更了解AI美術(shù),，這篇文章或許會(huì)對(duì)你有用。耐心看完,，你會(huì)發(fā)現(xiàn)畫澀圖可能是對(duì)AI繪畫最低級(jí)和缺乏想象力的應(yīng)用,，而那些日新月異卻被大多數(shù)人忽視的新技術(shù)，或許就是下一次技術(shù)革命的基礎(chǔ),。（本文發(fā)出時(shí),，技術(shù)亦已有不少更新?lián)Q代，感興趣的讀者可于@Simon_阿文,、@Simon的白日夢(mèng) 的微博自行了解）

由于直播較長(zhǎng),，我們將分兩次整理圖文內(nèi)容,。本文整理了阿文的分享,，以及他和HS有關(guān)AI繪畫的一些實(shí)操心得。你可以按以下索引選擇自己感興趣的部分閱讀：

01 AI繪畫的前世：梗圖（AI繪畫的源頭及發(fā)展歷程）

02 AI諸神之戰(zhàn)的第一階段（各種繪畫工具及其對(duì)比）

03 AI諸神之戰(zhàn)的過渡階段（最值得關(guān)注的那些AI繪畫逆天功能）

04 AI諸神之戰(zhàn)的第二階段（AI生成視頻,、3D模型等未來趨勢(shì)）

附：AI繪畫實(shí)戰(zhàn)小心得

以下為直播中阿文分享的整理,，為方便閱讀，部分內(nèi)容有調(diào)整（圖片來自直播截圖,，以及@Simon_阿文,、@Simon的白日夢(mèng) 的微博）：

今天我要分享的主題是《AI繪畫的諸神之戰(zhàn)》。首先簡(jiǎn)單介紹一下,，我是一名PPT設(shè)計(jì)師,，因?yàn)槠綍r(shí)經(jīng)常在網(wǎng)上分享一些設(shè)計(jì)神器，偶然間接觸到AI繪畫,，就一直玩到現(xiàn)在了,。

在開始前做一個(gè)免責(zé)聲明：我只是一位普通設(shè)計(jì)師，本次分享僅代表個(gè)人觀點(diǎn)和使用體驗(yàn),。如果我有專業(yè)技術(shù)概念錯(cuò)誤,，各位一定要及時(shí)糾正，謝謝大家,。

AI繪畫的前世：梗圖

AI繪畫技術(shù)的源頭,，最早可以追溯到2015年AI圈子里一項(xiàng)重要的研究——機(jī)器可以識(shí)別圖像上的物體了,。比如你給他一張這樣的圖片，機(jī)器就會(huì)識(shí)別出圖像上的蝴蝶和貓,，并返回一個(gè)描述句,。

這項(xiàng)技術(shù)在當(dāng)年挺轟動(dòng)的，當(dāng)時(shí)就有一群科學(xué)家跑出來說,，我能不能把這個(gè)過程給調(diào)換一下,？把這句話告訴AI，讓它給我一張類似的圖,？這應(yīng)該算是目前AI繪畫的發(fā)展源頭——這群科學(xué)家真的跑去研究了,。

第二年他們就發(fā)表了一篇論文，里面舉了很多例子,。比如告訴AI我需要“一輛綠色的校巴停在停車場(chǎng)上”,，AI就真的生成了類似的圖像。這組圖還非常模糊,，因?yàn)樗挥?2×32像素,，這就是6年前的技術(shù)水平，但當(dāng)時(shí)你已經(jīng)能隱約看到AI繪畫的現(xiàn)狀了,。

到2021年左右,，一家叫Open AI的偉大公司發(fā)表了另一篇論文，說我們已經(jīng)可以把清晰度提得很高了,。這項(xiàng)技術(shù)就是初代DALL·E,，當(dāng)時(shí)也非常轟動(dòng)。比如你需要“一把牛油果形狀的椅子”,，它就會(huì)返回這樣的圖像,。

你需要“一只大蒜做的蝸牛”/“一只蘋果做的大象”,，它也能給出類似的結(jié)果,。

大家看到這些圖可能會(huì)笑——這不是一些低清的梗圖嗎？拿來使用幾乎是不可能的,。2021年,，整個(gè)社交網(wǎng)絡(luò)、學(xué)術(shù)圈幾乎也是像看段子一樣看待這項(xiàng)技術(shù),。但大家沒想到的是,，2022年，AI繪畫元年來了,。

今年我們?cè)佼嬵愃频臇|西會(huì)怎么樣,？你畫一只蘋果做的大象，DALL·E 2已經(jīng)能做到這樣——它畫出的形態(tài),、結(jié)構(gòu)都非常準(zhǔn)確了,。

這樣的質(zhì)量和清晰度,，直接用來當(dāng)PPT封面都是可以的。

當(dāng)初我是在一位藝術(shù)家朋友@瘋景CrazyJN的微博上看到AI繪畫技術(shù)的,，這是我第一次跟Disco Diffusion相遇,，看到時(shí)我也非常非常震驚。他畫出來的作品,，放在4個(gè)月以前,，對(duì)我的沖擊已經(jīng)非常之大。

于是我馬上去了解了AI繪畫,，5分鐘之后,，我在Disco Diffusion里打下了一句話：“星空下的向日葵花海”,，看著畫面漸漸從模糊變清晰,，我至今依然記得當(dāng)時(shí)的那種興奮和震驚，真的非常的夸張——我只需要一句話就能畫出這樣的畫面,。

我非常興奮地告訴周圍的朋友,，并且讓AI給我畫了一個(gè)通宵。

而且讓我完全沒想到的就是,，這僅僅是個(gè)開始而已,。我也沒想到。這個(gè)技術(shù)在半年以后的今天已經(jīng)發(fā)展到這么夸張——我們已經(jīng)進(jìn)入到AI諸神之戰(zhàn)的第一階段,。

AI諸神之戰(zhàn)的第一階段

在這個(gè)階段里,，你會(huì)看到很多優(yōu)秀AI繪畫應(yīng)用的誕生，以及各個(gè)大廠的進(jìn)場(chǎng),。因?yàn)樵谧魑豢赡軐?duì)AI繪畫工具有一定的了解,，我簡(jiǎn)單過一下這個(gè)階段里的優(yōu)秀代表：第一個(gè)當(dāng)然是Disco Diffusion,，它是免費(fèi)開源的,。

(https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb?hl=zh_TW#scrollTo=Prompts）

我對(duì)它的評(píng)價(jià)是「最早出圈的AI繪畫工具」。因?yàn)樗羌兇a界面,、部署在Google上,，所以用戶友好度并不那么高。

生成速度上,，相信早期體驗(yàn)過的人也能感覺到絕望——如果不買Colab會(huì)員,，至少是半小時(shí)到40分鐘一張。當(dāng)初我買了會(huì)員就掛機(jī)一個(gè)通宵,，第二天早上再起來收?qǐng)D,。這樣持續(xù)了大半個(gè)月，我做了很多嘗試和調(diào)教,，生成了不少我當(dāng)時(shí)還挺滿意的作品,，比如讓AI模仿水墨畫,、油畫風(fēng)格，甚至是模仿一些大師,，比如Joseph Gandy,、異形之父 H. R. Giger、吉卜力等等,。

我個(gè)人非常喜歡靜物油畫,，但當(dāng)時(shí)只能畫出一些厚涂畫面，要讓AI畫出一組非常清晰的靜物幾乎不可能,。于是我就對(duì)AI進(jìn)行了調(diào)教——找不同的關(guān)鍵詞,、藝術(shù)家去嘗試。

上圖是我的調(diào)教過程,，結(jié)果我當(dāng)時(shí)還挺滿意的,。當(dāng)然，為了遮丑我做了一些排版,，美滋滋地發(fā)了一條微博,，說我調(diào)教了一整天，終于讓機(jī)器人學(xué)會(huì)了畫靜物畫,。

結(jié)果沒想到,，這條微博發(fā)出去沒幾天，我就被打臉了,。因?yàn)榱硪粋€(gè)更強(qiáng)大的AI誕生了——MidJourney,。（discord.gg/midjourney）

你甚至不用調(diào)教，它就能生成非常美觀的圖片,。

它最直觀的特點(diǎn)就是「快」,。同樣一句話，它在1~2分鐘內(nèi)就能很好地生成結(jié)果,。

當(dāng)時(shí)我用的第一個(gè)關(guān)鍵詞,，是“一組記錄早期麥當(dāng)勞的油畫”。當(dāng)時(shí)我5分鐘內(nèi)就得到了大量結(jié)果,。

回過頭來看前幾天花了一整天調(diào)教的Disco Diffusion,，我就傻了——這種新技術(shù)討厭的地方，就是它直接否認(rèn)了你以前的一些努力,，而且后續(xù)MidJourney甚至發(fā)展得更好,。這是它在5月份時(shí)的表現(xiàn)，后面我們可以再看看它現(xiàn)在的表現(xiàn),。

之后我還沒從MidJourney的震驚里醒過來,，另一個(gè)工具又出現(xiàn)了——Open AI開發(fā)的DALL·E，我對(duì)他的評(píng)價(jià)幾乎是滿星的,，無論是友好度,、生成速度,、精準(zhǔn)度還是藝術(shù)性。（labs.openai.com/waitlist）

它的缺點(diǎn)就是太貴了,，現(xiàn)在普通用戶基本用不起,，點(diǎn)一次生成就是一塊錢人民幣，除非你對(duì)自己的關(guān)鍵詞非常自信,，要么你就是人民幣玩家不在乎,。

除了速度和精準(zhǔn)度，DALL·E的優(yōu)點(diǎn)凸顯在它的真實(shí)性和對(duì)關(guān)鍵詞的還原度,。大家可以比一下剛才和現(xiàn)在的案例——筆觸,、細(xì)節(jié)是完全不一樣的。這是我生成的“一組記錄早期人們沒有WiFi怎么辦的圖片”,，看到結(jié)果時(shí)我非常興奮,。

而且它對(duì)人類語言描述的理解度非常高，高到什么程度,？可以看這兩個(gè)例子：分別是“暴雨后城市人行道水坑上的浮油”——大家可以看到它的反光,、倒影；右邊這道抖機(jī)靈的題目更夸張：“4個(gè)角的三角形你要怎么畫”,？這是AI給出的答案,。

出于這種精準(zhǔn)的理解力，我對(duì)它的概括是：它有可能是「乙方設(shè)計(jì)師的終極形態(tài)」,。無論你下什么需求,，它都能接得住。所以有了它之后,，我就覺得世上再?zèng)]有傻逼需求了,，為什么這么說？因?yàn)槲曳词纸o了他一個(gè)非常經(jīng)典的需求——以前甲方不是總說想讓一頭大象轉(zhuǎn)身嘛,，我就嘗試讓大象轉(zhuǎn)身了,。

它背后的原理，就是我把這張圖片上大象的背面擦掉,，再給AI輸入一個(gè)大象面對(duì)鏡頭的描述,。由于它對(duì)風(fēng)格和語言的理解非常精確，所以結(jié)果看起來就真的是轉(zhuǎn)過來了,。評(píng)論區(qū)的網(wǎng)友非常逗，他們覺得這個(gè)需求不夠變態(tài),，說能不能把大象塞進(jìn)冰箱,？我真的塞進(jìn)去了。

還有同學(xué)說,，能不能把大象放到海洋館,？我也真的讓大象去游泳了,。

還有大象和鯊魚跳舞，大象騎著哈雷狂飆……評(píng)論區(qū)的甲方真的太可怕了,，但是一點(diǎn)都難不住DALL·E,。

甚至還有更扯的——能不能讓大象稱一下曹沖？AI表示我盡力了……

以上就是在五六月份時(shí)DALL·E的表現(xiàn),。這三個(gè)工具幾乎統(tǒng)治了上半年AI繪畫的話語權(quán),，但我完全沒想到的是，這只是一個(gè)開始,。

在接下來的六七八月,，各個(gè)大廠陸續(xù)進(jìn)場(chǎng)。比如Google發(fā)表了一個(gè)叫Imagen的AI繪畫工具,，他敢直接叫板DALL·E,，他說我們有前所未有的寫實(shí)感和深度的語言理解。Imagen生成的圖像,，也確實(shí)證明了它有這個(gè)能力,。

（gweb-research-imagen.appspot.com）

看看這些圖的清晰度，對(duì)比剛才DALL·E的生成結(jié)果,。其實(shí)你細(xì)看時(shí)還是會(huì)感覺到邊緣有一些筆觸感,，但真的越來越像照片了。

除此之外,，Google是很喜歡一題多解的,、非常卷的一家公司，所以沒多久他又推出了另外一個(gè)工具叫Parti,，效果同樣也非常好,。這些大廠的模型你可以簡(jiǎn)單地理解為DALL·E的高清版或加強(qiáng)版——大家都在卷圖像的清晰度，以及對(duì)語言的理解能力,。（parti.research.google）

除了Google,，Meta也發(fā)布了叫Make a scene的工具，在創(chuàng)造場(chǎng)景方面非常厲害,。

（https://twitter.com/MetaAI/status/1547598454922153985）

后來微軟也下場(chǎng)發(fā)布了一個(gè)叫女媧的產(chǎn)品,，也非常酷,，但生成效果在我看來其實(shí)還是DALL·E的加強(qiáng)版,。

（https://nuwa-infinity.microsoft.com/#/）

他們紛紛下場(chǎng)，都是為了證明自己也有“制造核武器”的能力——AI繪畫嘛,，誰不會(huì)呀,？但是說了這么多，沒有一家開放內(nèi)測(cè)。他們只是跑出來發(fā)一篇論文或是發(fā)表一些demo,，就沒有下文了,。為什么會(huì)這樣？其實(shí)里面有很多顧慮,，首先最重要的就是現(xiàn)在吵得最兇的版權(quán)問題,。另外就是考慮到不開源可以造一些壁壘，給自己公司偷跑的機(jī)會(huì),。

但是這些在另一家公司看來都沒用——非常有名的Stability,，他們?cè)?月份發(fā)布了Stable Diffusion。我當(dāng)初對(duì)它的形容是「目前AI繪畫的王者」,。

（https:///blog/stable-diffusion-public-release）

為什么這么說,？同樣是模仿大師，我們可以看看它的效果,。左邊是好幾個(gè)月前MidJourney畫的梵高,，雖然顏色和構(gòu)圖很像梵高本人，但你會(huì)發(fā)現(xiàn)筆觸不太干凈——不過現(xiàn)在已經(jīng)解決了,；右邊是讓Stable Diffusion畫的“梵高的長(zhǎng)城一日游”,，這個(gè)語言和風(fēng)格的理解能力就很夸張了。

而且我讓它畫了一些從來沒有出現(xiàn)過的靜物——比如“一個(gè)種滿了珊瑚的花瓶”,。結(jié)果它真的畫出來了,，而且清晰度也很高。

我讓它模仿一位科幻概念作家Simon的風(fēng)格,、日本畫家的浮世繪風(fēng)格,，也都有不錯(cuò)的結(jié)果。按理說日本的浮世繪畫家基本不會(huì)去過歐洲,，但我讓它嘗試用浮世繪畫歐洲風(fēng)景，這個(gè)味道卻還是很對(duì),。

而在能力如此強(qiáng)大的前提下，Stability最后做出了一個(gè)非常重要的選擇——它不像前面的那些大廠選擇保存實(shí)力,，而是將Stable Diffusion開源,。

這意味著什么？我們可以先了解一下Stable Diffusion為什么這么厲害：其中一個(gè)原因是巨大的訓(xùn)練數(shù)據(jù)量,。它一共有20億張圖片,、數(shù)據(jù)量高達(dá)10萬GB的訓(xùn)練集。最終訓(xùn)練完后,，它的模型又被壓縮到兩個(gè)GB,，也就是說現(xiàn)在要生成任何圖像，它都只需要通過這2GB的模型來搞定,。

目前很多畫風(fēng)抄襲之類的爭(zhēng)議,，其實(shí)都偏向于藝術(shù)領(lǐng)域。但我跟開發(fā)者聊過,，他們表示我們所謂的藝術(shù)作品,，在這20億圖片里只是很小的一個(gè)子集——它采集的更多是真實(shí)照片和圖像，但大家往往只是熱衷于讓AI模仿概念設(shè)計(jì)和藝術(shù)家的畫風(fēng),。所以Stable Diffusion目前展示出來的能力,，還是被我們小看了的，它還有更強(qiáng)大的能力有待挖掘,，這個(gè)我們之后再講,。

這么大的訓(xùn)練量，它的訓(xùn)練成本有多高,？據(jù)說整體的訓(xùn)練費(fèi)用在60萬美元左右,。這對(duì)于一家小公司來說已經(jīng)是天文數(shù)字了，但他們最后選擇了開源,，幾乎就改變了整個(gè)游戲規(guī)則,。

開源就意味著，任何一家公司都可以直接引用它的技術(shù),，魔改它的模型,。所以我說Stable Diffusion的開源,，其實(shí)宣告了諸神之戰(zhàn)第一階段的結(jié)束。

關(guān)于第一階段的工具,，我個(gè)人首先建議不用全都了解,，而是熟練掌握其中至少一個(gè)就可以了,。我比較推薦Stable Diffusion、MidJourney和DALL·E，其中MidJourney是設(shè)計(jì)師必修的工具。

第二個(gè)建議是我們永遠(yuǎn)只相信大廠的模型,，不要去用那些民間開發(fā)的換皮野雞模型,。比較具有代表性的一個(gè)案例，就是引起了無限爭(zhēng)議的二次元模型NovelAI,。我之前在微博上說過不建議大家使用,，就是出于這樣的原因,。因?yàn)榇髲S建立模型經(jīng)過了很多風(fēng)險(xiǎn)的規(guī)避,，用它們是相對(duì)安全的,。

回到剛才的話題，為什么我建議設(shè)計(jì)師必修MidJourney,？因?yàn)镸idJourney在每一波的技術(shù)潮流里都沒有特別耀眼,，沒有跟風(fēng)地追一些新功能，一點(diǎn)都不激進(jìn),。但是它能踏踏實(shí)實(shí)地把每一個(gè)功能做好,，在跟Stable Diffusion合作之后，它推出的模型質(zhì)量也非常高,。

所以我之前有這樣的評(píng)價(jià)：如果說Stable Diffusion是班里的富二代+天才,，特別耀眼；MidJourney就是那種踏踏實(shí)實(shí)做功課,，最后考全班第一的學(xué)生,。我們可以看看MidJourney的變化：從5月份開始到前一陣的9月份，它的進(jìn)步是有目共睹的,。

這是我用AI畫的一組“窗邊少女”,，很有意思的是當(dāng)我調(diào)整了窗邊的風(fēng)景，窗外的風(fēng)景也會(huì)隨之改變,。

另外一個(gè)非常值得設(shè)計(jì)師們關(guān)注的功能是無縫圖片生成,，我們用在一些3D貼圖或背景上都非常好用。

AI諸神之戰(zhàn)的過渡階段

以上就是AI繪畫最長(zhǎng)的第一階段,。所謂的過渡階段,，就是在Stable Diffusion開源之后，大家沒有必要再卷新模型了,，所以這一階段井噴式地涌現(xiàn)了很多基于Stable Diffusion的插件和應(yīng)用,。在第一周誕生的插件數(shù)量，我粗略地?cái)?shù)了一下,，大概有十幾個(gè),。還有一些是撞型的，比如與Blender,、PS相關(guān)的就分別都有兩三個(gè),。

有些同學(xué)會(huì)問有哪些值得關(guān)注的插件，這個(gè)問題是完全錯(cuò)誤的,。為什么,？因?yàn)槲覀兪紫纫愣?AI繪畫的傳統(tǒng)藝能，再來談插件——90%的插件應(yīng)用,，其實(shí)都是直接調(diào)用官方的API而已,，并沒有多少功能上的創(chuàng)新,。如果連工具本身都搞不懂就去用插件，肯定會(huì)被插件帶偏,。

至于AI繪畫的傳統(tǒng)藝能,，我總結(jié)起來一共只有三個(gè)，非常重要：第一個(gè)叫Inpainting/Outpainting,，即局部的重繪或畫面擴(kuò)展,，也可以粗暴地理解為PS的內(nèi)容識(shí)別——把一部分內(nèi)容擦掉,、識(shí)別為其他內(nèi)容,。

但是它無敵的地方在于，你擦掉的地方可以無中生有,。下面這兩個(gè)例子,，第一個(gè)是Inpainting，即我剛才演示的大象轉(zhuǎn)身,；

Outpainting很好理解——擴(kuò)展畫布,，你可以把一幅名畫擴(kuò)展為一幅非常巨大的寬幕畫。當(dāng)你理解了AI的這些功能之后,，我們?cè)賮砜催@些插件,，你就會(huì)淡定很多。

（https://twitter.com/_dschnurr/status/1565011278371794944）

這是當(dāng)初剛發(fā)出來就非常轟動(dòng)的一個(gè)PS插件,，它不就是Outpainting嗎,？把兩張圖片之間的空白區(qū)域，用文字描述生成的內(nèi)容連接起來,。

（https://twitter.com/CitizenPlain/status/1563278101182054401）

這是新版PS自帶的AI功能,，不就是Inpainting嗎？擦掉一個(gè)區(qū)域再重新生成一只貓頭鷹,。

(https://blog.adobe.com/en/publish/2022/10/18/bringing-next-wave-ai-creative-cloud?utm_content=225122458&utm_medium=social&utm_source=twitter&hss_channel=tw-708994126205865985）

這同樣也是PS自帶的AI功能,，據(jù)說在新版的PS里都會(huì)實(shí)裝。這不也是Outpainting嗎,？

還有一個(gè)特別唬人的演示,，它看起來似乎能直接擦掉視頻里的主體，然后重新生成一個(gè)其他主體,。非?？犰艑?duì)吧？其實(shí)它的原理也是Inpainting,。演示中被修改的內(nèi)容其實(shí)是一個(gè)靜幀,，只是配合鏡頭的推拉之后，它會(huì)顯得像是修改了視頻里的動(dòng)態(tài)片段,，大家千萬不要被嚇到,。

（https:///）

AI的第二個(gè)傳統(tǒng)藝能是image to image——以圖生圖,。這個(gè)功能也非常常用，早在4月份時(shí)Disco Diffusion就已經(jīng)有了,，大家可以粗暴地理解為墊圖生成,。比如我隨便畫了張構(gòu)圖給AI，就能生成右邊的圖像,。當(dāng)然,，這要配合一句描述文本。

了解了這個(gè)技術(shù)概念之后,，再來看這個(gè)插件演示,，就會(huì)發(fā)現(xiàn)它其實(shí)也是墊圖生成的一種。只是因?yàn)閾Q了Stable Diffusion的模型之后,，它生成的結(jié)果變得更好了,。

（github.com/CompVis/stable-diffusion）

這也是同樣的一張草圖+一句描述，生成一個(gè)非常精美的畫面,。

（https://twitter.com/HanneMaez/status/1556960748592631809）

還有一個(gè)非?；Ｈ说腂lender插件AI Render，看起來好像直接用AI就能渲染了,。

(https://airender./l/ai-render?continueFlag=9b370bd6ba97021f1b1a646918a103d5）

當(dāng)時(shí)我發(fā)微博時(shí),，其實(shí)很多沒玩過AI繪畫的同學(xué)都誤以為，我直接在blender里拉一個(gè)場(chǎng)景,，AI就能直接渲染出這么酷炫的畫面,。其實(shí)說到底它的原理還是墊圖生成——在你當(dāng)前的渲染畫面生成一個(gè)靜幀，加一句描述,，再用Stable Diffusion渲染成另一個(gè)場(chǎng)景,，不得不說看起來特別唬人。

AI的第三個(gè)傳統(tǒng)藝能是無縫紋理生成,。這其實(shí)是針對(duì)3D用戶的一項(xiàng)細(xì)分功能,，現(xiàn)在MidJourney已經(jīng)做得非常好了，而且清晰度非常高,。它最高能生成2048×2048——也就是2K的清晰度,，用來鋪背景已經(jīng)相當(dāng)夠用了。

（https://weibo.com/1757693565/M6WpRqNP8?pagetype=profilefeed）

這樣的功能也被很多廠商或個(gè)人開發(fā)者做成插件,，比如做到blender里,。這是其中一個(gè)，乍一看也是非?？犰?，但其實(shí)這些技術(shù)在各個(gè)模型的官方網(wǎng)站里都能做到，且非常成熟,。

（github.com/carson-katri/dream-textures）

這些分享是為了告訴大家：第一,，在AI繪畫的過渡階段里,，我們不要過分迷信那些插件或應(yīng)用，永遠(yuǎn)只相信大廠的模型就好了,。因?yàn)槟Ｐ屠镌撚械墓δ芏加?，所以我們至少掌握其中一種，你就沒那么焦慮了,。

第二,，我們可以密切關(guān)注一些大廠的產(chǎn)品。這里的大廠指的是設(shè)計(jì)公司中的大廠,，比如Adobe,、微軟等。他們發(fā)布的一些內(nèi)置功能,，可能比任何插件都靠譜,。如果你懶得關(guān)注，也可以密切關(guān)注我的微博,，我會(huì)經(jīng)常轉(zhuǎn)發(fā)一些較新的技術(shù)新聞。

前幾天在Adobe max大會(huì)上,，Adobe發(fā)布了他們未來有關(guān)AI工具的演示,。我剛才提到所有的傳統(tǒng)藝能，它幾乎都內(nèi)置到了PS等一系列全家桶產(chǎn)品里了,，而且非常絲滑,。用這樣的官方插件，效果肯定比那些民間插件要好,。

包括微軟的office系列,，他們非常聰明，直接選擇跟Open AI——也就是DALL·E合作,，發(fā)布了一款叫Microsoft Designer的產(chǎn)品,。當(dāng)然，它的實(shí)際效果可能沒有宣傳片那么夸張——微軟是出了名的宣傳片大廠,。但是其中演示的文字生成圖片,、自動(dòng)排版等功能，都是可以實(shí)現(xiàn)的,。

（https://designer.microsoft.com/）

吐槽完插件和應(yīng)用之后,，有同學(xué)會(huì)問Text to image真的已經(jīng)玩到頭了嗎？其實(shí)還有幾個(gè)值得我們關(guān)注的模型,。如果說AI諸神之戰(zhàn)第一階段,，我們要關(guān)注的是模型生成能力，那么過渡階段我們就應(yīng)該關(guān)注編輯能力——也就是AI對(duì)畫面的微調(diào)能力,。

這里我推薦大家關(guān)注兩個(gè)產(chǎn)品或方向：第一個(gè)叫DreamBooth,，它由Google開發(fā),，現(xiàn)在已經(jīng)有大神把它做成開源版本了。它能做到完美解決畫面的連貫性問題,。

(https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast-DreamBooth.ipynb）

傳統(tǒng)的AI工具生成的圖片都是獨(dú)立分開的,，你沒法讓同一個(gè)主體出現(xiàn)在連續(xù)的畫面里，也就是說我們沒辦法讓AI自己畫連續(xù)的漫畫或分鏡,。但在這個(gè)產(chǎn)品中,，你上傳幾張圖片之后，AI就會(huì)記住你圖片中的主體,。當(dāng)你再在AI里輸出時(shí),，它就能記住主體的樣子，并且套用到你的描述句中,。

比如我給AI識(shí)別一條小狗,，只需要給它3到4張圖片，就能生成右邊這一大堆不同風(fēng)格的小狗,。

這招如果被用在一些分鏡設(shè)計(jì)或漫畫的演示里,，會(huì)非常酷炫,。國(guó)外有一個(gè)整活天團(tuán),，就嘗試用人來做這樣的生成——他們給同事拍了幾張照片，丟到AI里訓(xùn)練,，最后用Stable Diffusion生成出來,。可以看到,，當(dāng)AI記住了一個(gè)人的面部特征后,，它就能直接將其作為關(guān)鍵詞生成各種不同風(fēng)格的圖片。

有些同學(xué)可能會(huì)吐槽：這不是早就有的換臉技術(shù)嗎,？大家可以仔細(xì)看看,，這跟換臉是完全不一樣的——它可以生成不同扮相的圖像，甚至是樂高風(fēng)格,，這是換臉換不出來的效果,。

另一個(gè)值得關(guān)注的產(chǎn)品，是Google最近發(fā)表的Imagic,，它可以讓整項(xiàng)技術(shù)“快進(jìn)到甲方說唱出需求”,。

(github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb）

我們知道，Inpainting就是擦掉畫面的一部分再重新生成內(nèi)容,，但是現(xiàn)在的技術(shù)已經(jīng)能做到不擦除畫面上的任何東西,，而是改變描述文本，AI就會(huì)直接相應(yīng)地改變圖像,。

AI諸神之戰(zhàn)的第二階段

說了這么多,，其實(shí)所有事情幾乎都發(fā)生在9月份之前,。而在9月份的最后一天，AI繪畫諸神之戰(zhàn)的第二階段開始了——他們開始卷卷視頻和3D模型了,。這里我快速給大家過一下,，我們要關(guān)注哪些大廠的模型或產(chǎn)品。

首先,，最快發(fā)表Text to video技術(shù)的是Meta,。它在那天深夜發(fā)了一條推特，看得我完全睡不著了,。第一,，它能做到一句話生成這樣的視頻。

（https://udio/）

第二,，它能讓一段素材視頻衍生出不一樣的風(fēng)格,。

第三，你上傳兩張相近的圖片,，它能自動(dòng)用視頻生成過渡內(nèi)容,。這里的過渡可不是指直接的淡入淡出或追蹤，而是重新生成,。

第四,，它能讓圖片動(dòng)起來。我們以前在AE里想做到下面這件事,，起碼要先把海龜摳出來再做一些綁定，但是用AI一句話就搞定了,，甚至還能轉(zhuǎn)身,，非常夸張,。

這是讓一張油畫動(dòng)起來的效果,。這些水的效果，我相信現(xiàn)在有很多插件也能做,，但是做到這種程度應(yīng)該要花很多時(shí)間,。

以上幾個(gè)小功能，是大廠未來絕對(duì)會(huì)卷的另一個(gè)方向,。

Meta發(fā)布這個(gè)論文之后沒多久,， Google也下場(chǎng)了，而且連發(fā)兩條,。第一個(gè)就是根據(jù)之前Imagen模型發(fā)布的視頻版本,，它能做到素材級(jí)別的清晰度。

（https://search.google/video）

在同一天,，Google又發(fā)布了另一個(gè)模型Phenaki,。Google真的很卷,，他們的科學(xué)家團(tuán)隊(duì)最近瘋了一樣地對(duì)外發(fā)表論文，而且每一篇都非?？鋸?。有同學(xué)提出，AI能不能讓生成的視頻具有邏輯上的連續(xù)性,？比如我輸入一段劇本,，AI為我輸出一部電影——這個(gè)模型似乎證明了，這種設(shè)想是可以實(shí)現(xiàn)的,。

（https:///）

大家可以細(xì)看這圖片下方的描述,，感受一下AI在描述與描述之間的畫面切換，非常流暢,。而且它除了模擬實(shí)物,，還能套用風(fēng)格。

除此之外他們測(cè)試了一下,，用了一個(gè)老模型生成了兩分鐘的視頻,。當(dāng)然，生成內(nèi)容看起來還是有瑕疵,，清晰度也不夠,，但是大家想想，當(dāng)初AI繪畫最早期不也是這樣嗎,？所以我們可以大膽暢想未來,。

這就是在Text to video方面我們需要關(guān)注的一些產(chǎn)品。值得一提的是,，這三個(gè)模型居然是在同一天發(fā)表的,，可見他們卷成什么樣了。

Text to model——也就是AI生成3D模型方面,，又有哪些需要我們關(guān)注呢,？這里我簡(jiǎn)單列舉一下：首先是dreamfusion3d——文字直出模型。還有通過單張圖片生成3D模型,，它的做法非常巧妙,，并不是直接到3D模型這一步，而是用AI繪畫把桌子或椅子的三視圖腦補(bǔ)出來再生成模型,。

（dreamfusion3d.github.io）

如果大家對(duì)Text to 3D有興趣,，可以關(guān)注我的好朋友@Simon的白日夢(mèng)，他是這方面的專家,，在微博上發(fā)表了很多關(guān)于AI生成3D模型的知識(shí),。

以上就是我今天所有的分享，這么長(zhǎng)的一個(gè)階段，在我們?nèi)祟愒O(shè)計(jì)師看來,，這種進(jìn)步放在自己身上是不可想象的,，但整個(gè)過程確實(shí)只過了6個(gè)月而已。未來會(huì)發(fā)展成什么樣,？我也不知道,。

有人會(huì)說，知道這些有什么用,？我想說的是,，想要彎道超車，我們就要學(xué)會(huì)足夠多的歪門邪道,。況且我以上說的這些技術(shù)并非歪門邪道——它們很可能就是下一次技術(shù)革命的基礎(chǔ),。

附：AI繪畫實(shí)戰(zhàn)小心得

HS：在實(shí)際的AI繪畫中，有些同學(xué)對(duì)關(guān)鍵詞的描述不是特別清晰,。我們先用“絲綢之路”來試試——如果單純輸入這個(gè)詞的機(jī)翻,，它會(huì)生成一個(gè)非常單一的沙漠場(chǎng)景。因?yàn)楝F(xiàn)在它對(duì)關(guān)鍵詞的理解,，其實(shí)更多會(huì)偏向美國(guó)公路之類的描述,。

我們可能需要到網(wǎng)站或維基百科上找尋一些官方翻譯，另外也可以再拓展一些元素,，比如它是中國(guó)唐代絲綢之路,、有一些商隊(duì)駱駝、參考了一些游戲,，比如《刺客信條》,、有夜晚星空，再加上虛幻引擎的渲染,，呈現(xiàn)出的效果就會(huì)和之前完全不同,，會(huì)有一些故事性。

另一位同學(xué)提供的詞是“大鬧天宮”,，它的機(jī)翻是“the Monkey King”，直接輸入會(huì)生成一個(gè)妖猴,，跟大鬧天宮還是有點(diǎn)差異的,。

如果調(diào)整為“孫悟空在天宮制造了一場(chǎng)災(zāi)難”，畫出來就會(huì)有不一樣的效果,。作為方案參考的話,，這些已經(jīng)足夠了。如果你想?yún)⒖紕?dòng)畫片的風(fēng)格,，還可以輸入電影制片廠或動(dòng)畫片名之類的關(guān)鍵詞,。

所以我們?cè)谳斎腙P(guān)鍵詞時(shí)，一定要經(jīng)過大腦的思考和演變，才能讓AI更好理解你要的是什么,。

Simon_阿文：我個(gè)人的繪畫思路其實(shí)非常簡(jiǎn)單——抄作業(yè),。相信很多同學(xué)剛接觸AI繪畫時(shí)都是小白，不知道怎么寫關(guān)鍵詞,。但現(xiàn)在我們有很多可供參考的關(guān)鍵詞庫,，比如你買了MidJourney的付費(fèi)服務(wù)，就會(huì)得到一個(gè)官方的主頁面,，它的社區(qū)里會(huì)每天推送不同的優(yōu)秀作品,。

這些首頁AI作品的質(zhì)量都非常恐怖,，所用的關(guān)鍵詞也絕對(duì)是頂流,。我平時(shí)的習(xí)慣就是把這個(gè)頁面設(shè)為瀏覽器的默認(rèn)打開頁，每天進(jìn)來時(shí)收收菜——收藏一些關(guān)鍵詞以備之后參考,。

但是大家在抄作業(yè)時(shí)要注意一點(diǎn)：直接復(fù)制這些關(guān)鍵詞,，效果往往不是最好的，因?yàn)楹芏喔呤謺?huì)加修改器指令,。正確的方法是復(fù)制它的命令,，命令包含了這張圖的關(guān)鍵詞和所有修改器指令。

指令是AI工具獨(dú)有的一些快捷設(shè)置,。比如設(shè)置比例是--ar 加上比例（如16：9）,，調(diào)用測(cè)試模型要加--test，要讓畫面更有創(chuàng)意,，更接近原畫質(zhì)感,，那最好加一個(gè)--creative。

這些指令你要翻工具對(duì)應(yīng)的文檔才會(huì)知道,，很多同學(xué)就是因?yàn)槁┝诉@些,，所以生成效果沒那么好。如果你有某個(gè)需求想不出關(guān)鍵詞,，還可以在社區(qū)直接搜索,，這是一個(gè)快速學(xué)習(xí)的方法。

但是這也有一點(diǎn)不好：很多時(shí)候我們復(fù)制了一大段描述,，卻不知道文本在說什么,。我們平時(shí)輸入關(guān)鍵詞可能只是寫一句話而已，但很多高手是像寫小說一樣,。這時(shí)我們要怎么去學(xué)習(xí),？我的方法是翻譯一下，找到這段關(guān)鍵詞里最終產(chǎn)生需求畫面的部分,。像是high detAIl,、UE5等，都是非常通用的關(guān)鍵詞，看多了就會(huì)找到規(guī)律,。

還有一個(gè)大招,，就是去第三方的關(guān)鍵詞推薦庫查找。推薦大家兩個(gè)網(wǎng)站,，一個(gè)是KREA（krea.AI）,，能直接搜到很多現(xiàn)成的關(guān)鍵詞。

同類的還有另一個(gè)網(wǎng)站lexcia（lexcia.art）,，它們只針對(duì)于Stable Diffusion,，但除了修改器指令不同之外，關(guān)鍵詞都可以通用,。