這是一條關(guān)于目前 AI 繪畫的現(xiàn)狀,、入口,、困難和我的展望的長微博。 算是我自己的學習筆記,。 因為這個領(lǐng)域發(fā)展過快,,我的了解很可能已過時或者不準確,歡迎指正,。 目錄 第一部分:現(xiàn)狀,。 第二部分:暫時做不到但可能很快能做到的,以及暫時不知道怎么做的,。 第三部分:視覺和設(shè)計從業(yè)者如何有效使用 AI 做輔助(或者為 AI 做輔助) 結(jié)語,。 ?? 第一部分:現(xiàn)狀。 AI 繪畫此刻正在以前所未有的速度爆發(fā)性增長,。 很少有機會目睹一個領(lǐng)域里新的產(chǎn)品會忽然像雨后春筍一樣不斷涌現(xiàn),每個月甚至每一天都在進步,,你上個月對這個領(lǐng)域形成的印象可能現(xiàn)在已經(jīng)過時了,。 一個標志性的事件是本周一 Stable Diffusion 宣布開源——不僅僅是程序,包括訓練好的模型也開源。 它是目前水平最高的繪畫 AI 之一,,它的開源意味著可以預期接下來會有很多包裝 stable fusion 內(nèi)核的產(chǎn)品出現(xiàn),,這是一個指數(shù)型增長的前夜。 目前最好的繪畫 AI 大致有下面這些: 普通人可以用的: - Stable Diffusion 可以直接在 http:///A6SVqslf 試用,,不需要排隊,,但有免費額度限制,額度用完后可以購買,。 普通人推薦首先試用這個,。 - Dall-E 2 申請免費試用需要排隊,可以直接在 http:///A6awnf8h 玩一個網(wǎng)頁版,,但很慢,。 - MidJourney 需要有 Discord 賬號才能試用,微博教程見 @海辛Hyacinth 寫的 http:///A6S6WytF - 百度 文心·一格 http:///A6S6Wyc7 申請免費試用需要排隊 MidJourney,,Dall-E 2 和 Stable Diffusion 基本上是目前公認效果最好的三個 AI,。 推上有人做了一個非常好玩的對比 http:///A6Sxvwa7 ,用同樣的提示詞給三個 AI 讓它們同時出圖,,放在一起,,風格區(qū)別一目了然,很像美術(shù)課考試,。 附圖里 1-3 是我選的幾個典型例子,。 已發(fā)表但還并未開放給普通用戶的: - 來自谷歌的 Parti - 來自微軟的女媧 - 來自臉書的 Make-A-Scene 以上不是完全名單。 @Simon_阿文 這里有更長的一個單子:http:///A6av46yy 如果是完全不懂任何技術(shù)的小白,,只想試著玩一下,,上面給出的 Stable Diffusion 試用版可能是最簡單的入口。 需要說明的是,,要獲得比較好的效果,,你給的提示詞越詳細越好。 這是目前繪畫 AI 的一個特點(也可以說是缺點,,目前大多數(shù) AI 都有這個問題):你只提示一兩個主題詞,,效果就乏善可陳,但如果比方輸入 portrait of Zelda, robot steampunk, floral, intricate, elegant, highly detailed, ray tracing, digital painting, concept art, smooth, sharp focus, illustration, Mucha, HQ 這樣長長一大串,,效果就會好很多,。 提示詞不需要是一個句子,一堆詞組放在一起就可以,。 如果懂一點技術(shù),,知道神經(jīng)網(wǎng)絡 model 大概是怎么回事,會用 google colab,,有 hugging face 賬號,,那可以走專業(yè)一點的入口通道,。 Dall-E 的 model card: http:///A6S6Wycv Stable Fusion 的 model card:http:///A6SIgAW3 甚至可以直接在 google colab 里跑 Stable Diffusion:http:///A6SMwce5 如果會用 Python 安裝腳本,有自己的顯卡,,你還可以直接在本地機上跑 Stable Diffusion 模型,,這里有一個非常清晰的指南:http:///A6S6WycZ 從如何設(shè)置 conda 環(huán)境到如何下載已經(jīng)訓練好的模型都有說明。 自己運行模型意味著可以玩一些復雜功能,,比如輸入一個簡筆畫,,讓 AI 生成一個復雜的圖片,例如附圖4-9這樣,。 ?? 第二部分:暫時做不到但可能很快能做到的,,以及暫時不知道怎么做的。 AI 暫時做不到或者做不好的事情主要是在下面這幾個方面: 1. 目前 AI 理解提示詞以風格和內(nèi)容描述為主,,比如這幅畫包含什么東西,,是哪位藝術(shù)家的風格等等。 一旦牽涉到語義邏輯就困難一些,,比如「窗前有一個桌子,,桌子上有兩個盤子,盤子里沒有香蕉只有蘋果」這種描述,。 Google 的 Parti 號稱在這一點上更好,,但因為還沒有開放公測,無法驗證是否如此,。 目前開放的幾個 AI 在這一點表現(xiàn)都不佳,。 這在理論上本身是個有點麻煩的問題,牽涉到自然語言理解,,所以只有伴隨著自然語言人工智能模型一道進步,。 2. AI 不理解空間和物理。 比方說幾乎所有的 AI 都畫不好鏡子,,因為鏡子內(nèi)外的圖像需要用到光學知識,,而 AI 模型是基于統(tǒng)計的,不懂光學,。 類似的,,AI 的透視學的很糟,一個典型的例子是你會發(fā)現(xiàn) AI 畫的輪子都不太圓,,AI 首先不知道「輪子必須非常圓才能轉(zhuǎn)動」這個人類生活常識,,其次也不知道側(cè)面看圓應該壓扁到什么程度才合理。 另一個例子是 AI 畫的透明玻璃酒杯細節(jié)上都不太對,。 這一條在理論上也有點困難,,目前沒有特別好的解決方案。 3. AI 做不到內(nèi)容統(tǒng)一性,。 比如你覺得 AI 某一張人像畫的很好,,你無法對它說:再畫一張同一個人,,穿同樣的衣服,但讓頭轉(zhuǎn)過來一點,。 —— AI 不理解什么是「同一個人」,甚至也不理解什么是「同一件衣服」,。 這聽起來有點荒謬,,因為在別的領(lǐng)域里(比如攝像頭人臉識別)AI 分明很擅長判斷是不是同一張人臉,但繪畫的 AI 并沒有內(nèi)置這個邏輯,。 這導致了一個問題:AI 畫畫是一張張彼此無關(guān)的,,你很難讓它畫成套的作品,比如一個有故事性的有復雜人物關(guān)系的連環(huán)畫,。 這個在理論上解決起來有希望,,但并不容易,預期在一年內(nèi)可以有進展,。 現(xiàn)在有一些這樣的嘗試,,譬如 http:///A6SiPEIq,但很初級,。 (更新:就在這條微博發(fā)出幾個小時后就有一個新的工作算是基本解決了這個問題,,見 http:///A6SXBosf 4. AI 不會畫文字,因為 AI 不識字…… 這倒不是什么理論上的困難問題,,單純是個軟件工程上的挑戰(zhàn),。 可能很快就可以解決了。 ?? 第三部分:視覺和設(shè)計從業(yè)者如何有效使用 AI 做輔助(或者為 AI 做輔助) 根據(jù) AI 目前的特長來看,,直接生成全圖是個有趣但很快就會玩膩的事,,因為人對最終的成圖沒有什么控制,只能挑挑揀揀,。 更好的使用方式可能是讓人負責打出大的框架,,讓 AI 來填充細節(jié)。 AI 在繪制紋理和材質(zhì)質(zhì)感上非常出色,,筆觸和技法一流,,但越宏觀的能力越弱。 目前這樣的工作流還不夠傻瓜化,,但我相信在接下來的幾個月里會有大量應用涌現(xiàn)出來,。 一個此刻就能采用的工作思路是讓 AI 生成圖像的「組分」,比如一只蝴蝶,,一片草坪,,一樁大樓,一個機器人,,然后人把它拼接起來,。 附圖10是一個例子,,作者是推特上的 NekroXIII http:///A6S6THtj 另一個已經(jīng)存在的工作場景是針對設(shè)計師的:可以用 AI 為 Figma 這類工具做插件,使得設(shè)計師只需要畫出寥寥幾筆,,AI 就可以渲染出細節(jié),。 例如附圖11,左邊是輸入,,右邊是輸出,。 這個插件叫 Ando,作者是 Antonio Cao http:///A6SJyvzD AI 也可以和 3D 渲染工具結(jié)合在一起,,比如 Blender,。 微博上的 @Simon_阿文 對此就有介紹:http:///A6S6THtY 當然還有最簡單的方法:讓 AI 提供設(shè)計靈感,比如服裝設(shè)計,。 圖12-15是一個日本創(chuàng)作者用 MidJourney 畫的日本神道服飾:http:///A6S6THtH 注意文字都是 AI 瞎寫的,。 ?? 結(jié)語: 沒有什么可總結(jié)的,可能這篇微博本下個月就過時了,,發(fā)展過于迅速,。 一個有趣的科研進展:目前最好的 AI 模型是 diffusion model,在過去一年里一舉取代了之前被廣泛采用的 GAN 和 VAE,。 Diffusion model 的數(shù)學原理有點復雜,,建立于朗之萬擴散模型之上,這使得所有 diffusion model 的論文讀起來都很累人,。 但馬里蘭大學的 Tom Goldstein 前幾天發(fā)了一條推 http:///A6S6THtl 指出:目前所有這些關(guān)于 diffusion model 數(shù)學理解都是錯的,。 細節(jié)在這里不展開了,但他的這個發(fā)現(xiàn)在我看來非常有說服力,。 很可能一些理論上的新突破還在前面,。 |
|