【原】我們嘗試讓繪畫AI成為負責插圖的新同事丨觸樂

觸樂 2022-12-26 發(fā)布于北京

展開全文

技術正在突飛猛進。

隨著討論熱度逐漸褪去,，“AI繪畫”的話題在最近這段時間似乎已經(jīng)漸漸不再掀起波瀾,，卻已有不少游戲公司悄無聲息地將AI繪畫加入了自己的工作流程中,。在探索AI繪畫工具化的浪潮中，作為一群繪畫方面的外行人,，觸樂也踏出了自己的第一步——在祝佳音老師的指示下,，我們正在嘗試使用AI繪畫工具生成文章所需的插圖。

文章插圖的版權問題對大部分使用者而言都是個不小的隱患,，要想在開源或有版權的圖片網(wǎng)站上為文章找到切合主題的插圖也不是件容易的事。AI繪畫似乎成了一個不錯的選擇——在我們的想象中,，只要為AI提供幾段描述或是關鍵詞,，AI就能“讀懂并畫出”我們想要的圖片。事實真的如此簡單嗎,？為了實現(xiàn)“讓AI幫我們畫插圖”的目標,，最大程度上解放勞動力，我們做出了一些嘗試,。

畫風,、付費、本地化,？

要想生成對應風格的插圖,，第一步當然是挑選一個合適的模型。AI繪畫的模型演化進度在最近短短半年間可謂突飛猛進,，光是國內(nèi)外主流模型便已有五六個,，各類風格化模型更是百花齊放。不過,，要找到一個適合生成文章插圖的模型并不容易,。有些模型是開源的，有些需要付費才能使用,，有些游走于法律的灰色地帶,，被人破解后偷偷下載……

無論是哪種，總要上手試試才行,。我們在最后選擇了4種模型作為備選方案：開源后支持本地部署,，曾經(jīng)一度號稱“最強繪畫AI”的Stable Diffusion；老牌AI研究團隊OpenAI旗下最早的幾個圖像生成AI之一DALL·E,；架設在Discord頻道中,，持續(xù)更新模型的Midjourney；以及最后,，支持日式畫風的NovelAI本地部署版本,。

首先必須聲明的是，盡管目前的AI繪畫版權問題仍不明朗,，但“本地部署版NovelAI”一定是其中最不靠譜的一個——不提圖片庫的版權問題,，模型的來源本身便游走在法律的灰色地帶,。相比起來，本地部署的Stable Diffusion則“名正言順”得多,。自Stable Diffusion宣布開源之后,，在GitHub上即可下載Stable Diffusion的新舊版本，在本地架設后,，借助WebUI工具便可以直觀地調(diào)整生成圖片的各項參數(shù)與圖片預覽,。

不過，天下沒有免費的午餐——雖然開源的行為接近于“將午餐送到你的嘴里”,，但運行程序同樣需要有足夠的算力,。幾年前還算得上配置不錯的GeForce RTX 2060顯卡如今多少有些力不從心。有人曾統(tǒng)計過不同的顯卡利用Stable Diffusion模型生成512×512大小圖像時所耗費的時間,，2060顯卡需要17秒,，3080只需要7秒——不一定足夠精準，但也有參考價值,。

3080的用時還不到2060的二分之一

當然,，實際使用過程中，你會意識到17秒只是一種理想狀況,。隨著迭代步數(shù)的增加,、畫幅的調(diào)整與生成數(shù)量的增多，生成圖片所需的時間幾乎呈指數(shù)式上漲,。最合理的方式,，還是先生成512大小的圖片，再通過圖片擴大算法將其放大,。即便如此,，當你把迭代步數(shù)不斷調(diào)高，也可能面臨內(nèi)存溢出的風險,。更直觀的感受是,，在圖片生成過程中，電腦的風扇聲幾乎沒有停過,。

相比起來,，另外兩家付費的繪畫AI——DALL·E與Midjourney就對電腦顯卡友善得多。它們的圖片生成并不需要你緊張地監(jiān)控顯卡溫度,，防止燒壞,，只需要向它們的服務器發(fā)送對應描述詞，服務器便會吐出一組圖片以供用戶選擇,。只是與此相應,，每次占用服務器資源生成圖片需要消耗用戶一定量的積分，開始你可以免費試用,，試用完每個賬號的免費額度之后,，必須得為賬號充值積分才能繼續(xù)生成,。

一般而言，用一組關鍵字生成4張512×512的例圖大約需要1積分,。每個繪畫AI的積分定價略有差別——DALL·E的付費積分相對更貴一些,，大約是15美元115積分，折合人民幣大約1元生成一次,；Midjourney提供了每月10美元約200張圖的包月套餐,，算下來便宜不少。

不管是DALL·E,、Midjourney還是Stable Diffusion,，最關鍵的，當然還是圖片生成的質(zhì)量,。我們使用了幾組不同的關鍵詞，測試AI們的表現(xiàn),。

描述與關鍵詞

在插圖這方面,，相比起精美的3D建模圖片或是貼近照片的現(xiàn)實風格圖片，祝佳音老師更加青睞的是手繪雜志插圖風格,。但在風格的描述上卻遇見了不少麻煩：該怎樣告訴AI我們需要什么,？

一開始，我們嘗試用某一本雜志的刊名籠統(tǒng)地描述它的插圖風格：例如,，在關鍵詞里加上《紐約客》（New Yorker）,。問題隨之而來：即使在同一本雜志里，插圖風格并非單一不變,。在這一點上,，免費的Stable Diffusion為我們提供了不少試錯的案例——即便你加入了“手繪”“無模糊”“清晰線稿”與藝術家的名字等關鍵詞，繪畫AI還是不太明白你究竟想要什么,，只能一次給你端上來幾張不同風格的圖片任你挑選,，你可以看得出來，這些風格確實都曾出現(xiàn)在雜志中,。至于是否能夠找到你想要的,，就得指望運氣了。

指定的范圍比較寬泛時,，Stable Diffusion會一次生成數(shù)張不同風格的圖片

想知道某種具體繪畫風格的名字也不算容易,。在大多數(shù)情況下，我們想了半天也只能想出來“手繪”或是“水彩”等籠統(tǒng)的描述,。好在我們找到了搜索引擎Lexica,，網(wǎng)站上整理了不少描述詞與生成圖片的案例，可以通過文字或是圖片搜索找到你想要的詞匯,。

Lexica上可以搜索到其他用戶分享的案例

不過,，Lexica也并非百試百靈,。一方面，如果你瞄準的是不那么大眾的藝術家,，嘗試生成對應風格圖片的用戶不多,，能提供的例子也十分有限。另一方面,，AI生成圖片的過程伴隨不小的隨機性,，用戶上傳的圖片與關鍵詞不是每次都足夠準確——上傳的例圖看起來不錯，實際生成時怎么也跑不出類似的圖片更是常態(tài),。

Stable Diffusion的問題在這里也漸漸顯露：模型在生成真實照片風格或是細膩的原畫風格上可謂一騎絕塵,，特別是更新后的Stable Diffusion2.1版本，生成的照片風格圖像幾乎可以以假亂真,。但相對應的,，當涉及相對平面的藝術風格時，想要生成出合適的圖片,，需要做出不少嘗試,。

Stable Diffusion在生成真實照片風格的圖片上做得相當好

生成平面風格的圖像，則需要更多嘗試

當然,，描述詞帶來的門檻也是問題之一——任何人在生成圖片的過程中,，不斷調(diào)整、修正并找到合適的關鍵詞同樣需要時間,。從這一點上來說,，Stable Diffusion對零基礎使用者并非那么友好。如果不細致調(diào)整關鍵詞,，直接用自然語言描述想要的圖片,，可能需要生成不少圖片才能獲得一張令人滿意的圖像。例如,，我們描述了一個具體的場景：“一個女孩在堆滿了雜物的辦公桌前,，桌上的外賣袋和泡面摞得很高，墻上有個日歷,，日歷上'發(fā)售日’后面的數(shù)字被紅筆劃掉了好幾道,。女孩抱著頭，顯得非常痛苦,?！?/span>

直接將這一整段描述塞給Stable Diffusion之后，它展現(xiàn)出了前所未有的疑惑,。

如果描述不太準確,，Stable Diffsion生成的圖片并不總能令人滿意

相比起來，付費的DALL·E與Midjourney模型在經(jīng)歷了不斷的迭代與調(diào)整之后，生成無法使用的“廢圖”的概率要低得多,。在Midjourney中使用同一組關鍵詞,，只需要一個簡單的關鍵詞“by Yuko Shimizu”來指定畫風，便可得到表現(xiàn)相當不錯的結(jié)果,。

可以看出,，Midjourney正確理解了“外賣盒”，但對于“痛苦的”（Painful）的理解則有些奇怪

DALL·E對畫風的理解不太到位,，卻正確理解了描述的內(nèi)容,。在數(shù)個模型中，DALL·E描繪的人物情感可謂惟妙惟肖,。

DALL·E將“痛苦”與“雙手抱頭”聯(lián)系了起來

在生成文章插圖的需求當中,，如果考慮實際投入使用，付費的DALL·E與Midjourney看起來確實是更好的選擇,。在風格化插畫方面,，Midjourney的表現(xiàn)又更勝一籌。只需要幾個關于繪畫風格或作者的關鍵詞,，Midjourney就能很快“理解”你想要的究竟是什么,。

美式漫畫與故事板風格

版權，與接下來的麻煩

顯而易見,，目前已經(jīng)有一些繪畫AI投入商業(yè)運營了，它的用戶中也有一些要將AI生成的圖片投入商業(yè)使用,。既然如此,，版權自然是個繞不過去的話題。在這一點上,，由于AI繪畫領域的發(fā)展速度實在太快,，總體上，相關的法律法規(guī)都沒來得及跟上,。目前,，大部分AI繪畫模型的版權條款都秉承著“撒手掌柜”的風格。Midjourney與Stable Diffusion都明確表示,，生成圖片的版權將歸于生成者所有,，但同時也這樣指出：請勿嘗試創(chuàng)建涉及色情、歧視等可能對他人造成傷害的圖像,。如若引起爭議,，一切職責與平臺無關，由爭議雙方自行解決,。

判定內(nèi)容是否合法,，最后還是落在了具體的作品上。如果是已經(jīng)不再受到版權法保護的畫家作品（一般是畫家去世50年以后），模仿他們的風格進行再次創(chuàng)作當然沒有問題,。如果要模仿仍受版權法保護的現(xiàn)代畫家們,，便要好好斟酌尺度才行。

Stable Diffusion生成的梵高風格畫作

盡管在大多數(shù)情況下,，AI繪畫并不能完美地生成你所想要的單一風格,，看起來更像是多種風格的雜糅，但如果針對某種風格或某一位畫師的作品進行訓練,，AI生成的作品難免會出現(xiàn)跟模仿對象過于相似的問題,。在這一點上，主流的幾個大型模型其實都“做得不錯”：即便指定了作者,，在DALL·E或Midjourney中,，也很難做到和作者畫得一模一樣。

值得再次強調(diào)的是,，在最近短短半年的時間里,，AI繪畫模型的進化速度可謂突飛猛進，但法律法規(guī)還沒能趕上這個速度,，目前國際上仍不存在對應的法律法規(guī)用以規(guī)范AI繪畫的版權問題,。AI圖像的商業(yè)使用仍舊存在一定的風險——當我們向AI繪畫平臺付費后，平臺是否應當為訓練所使用的網(wǎng)絡圖片集付費,？

個人使用者面對的問題相對簡單,，只要AI繪畫平臺不倒打一耙，突然宣稱版權不歸屬于生成者,，一般來說在版權上不會出現(xiàn)什么幺蛾子,，尤其是個人非商業(yè)的使用，并無太大風險,。對借助AI工具輔助工作的美術工作者們來說,，另一方面的問題是，AI生成圖像并不一定能被所有受眾接受,。幾天前,，某款移動端游戲的宣傳圖片便被懷疑是借助AI工具進行了輔助繪畫——背景中的金屬部件很明顯“不像是人畫的”。這件事在玩家間激起了一陣波瀾——一些玩家對此十分失望,，在他們看來,，“AI繪畫”似乎天然與“廉價”“不認真”等描述掛鉤。

這件事并不是個例,，不少游戲開發(fā)者透露,，他們已將AI繪畫加入自己的工作流，卻不敢將這個事實公之于眾,。但從另一個角度出發(fā),，如果將AI繪畫作為輔助工具，排除訓練庫版權上的隱患問題，它與Blender,、Enscape等3D輔助軟件的差別在哪里,？如果將AI繪畫作為圖片素材庫，它與Unsplash等無版權素材庫得到的結(jié)果又有多大的差別,？

無論如何,，現(xiàn)在的AI繪畫模型確實還不太成熟，但你可以直觀地感受到技術的快速進步——說不定過不了多久,，我們真的會使用AI生成插圖,，那會是更逼真、更像是人畫的插圖,，到那時,，不知各位讀者是否能發(fā)現(xiàn)呢？

Midjourney生成的“手握柯基與蘸醬薯片的教皇”,，看起來真是有模有樣

（本文題圖均由繪畫AI Midjourney生成,。）

編輯丨劉翁婳

麩皮苦巧克力歐包