機(jī)器之心報(bào)道 編輯:張倩
從騎馬的宇航員到三次元小姐姐,,在不到一年的時(shí)間里,AI 繪畫似乎已經(jīng)取得了革命性的進(jìn)展,。 這個(gè)「騎馬的宇航員」由 OpenAI 2022 年 4 月推出的文生圖模型 DALL?E 2 繪制,。它的前輩 ——DALL?E 在 2021 年向人們展示了直接用文本生成圖像的能力,打破了自然語言與視覺的次元壁,。在此基礎(chǔ)上,,DALL?2 更進(jìn)一步,允許人們對(duì)原始圖像進(jìn)行編輯,,比如在畫面中添加一只柯基,。這一個(gè)看似簡(jiǎn)單的操作其實(shí)體現(xiàn)了 AI 繪畫模型可控性的提升。 不過,,就影響力而言,,2022 年最火的文生圖模型并不是 DALL?E 2,而是另一個(gè)和它功能相似的模型 ——Stable Diffusion,。和 DALL?E 2 一樣,,Stable Diffusion 也允許創(chuàng)作者對(duì)生成的圖像進(jìn)行編輯,,但優(yōu)勢(shì)在于,這個(gè)模型是開源的,,而且可以在消費(fèi)級(jí) GPU 上運(yùn)行,。因此,在 2022 年 8 月發(fā)布之后,,Stable Diffusion 迅速走紅,,短短幾個(gè)月就成了最火的文生圖模型。 在此期間,,人們也在進(jìn)一步探索各種控制這類模型的方法,,比如 Stable Diffusion 背后團(tuán)隊(duì)之一的 Runway 公司發(fā)布了一個(gè)圖像擦除和替換(Erase and Replace)工具,該工具可以修改圖像任何部分,。用戶需要做的就是擦除該區(qū)域并編寫自然語言描述,,剩下的交給程序就可以了。 谷歌和波士頓大學(xué)的研究者則提出了一種「?jìng)€(gè)性化」的文本到圖像擴(kuò)散模型 DreamBooth,,用戶只需提供 3~5 個(gè)樣本 + 一句話,,AI 就能定制照片級(jí)圖像。 此外,,來自 UC 伯克利的研究團(tuán)隊(duì)還提出了一種根據(jù)人類指令編輯圖像的新方法 InstructPix2Pix,,這個(gè)模型結(jié)合了 GPT-3 和 Stable Diffusion。給定輸入圖像和告訴模型要做什么的文本描述,,模型就能遵循描述指令來編輯圖像,。例如,要把畫中的向日葵換成玫瑰,,你只需要直接對(duì)模型說「把向日葵換成玫瑰」,。 進(jìn)入 2023 年,一個(gè)名為 ControlNet 的模型將這類控制的靈活度推向了高峰,。 ControlNet 的核心思想是在文本描述之外添加一些額外條件來控制擴(kuò)散模型(如 Stable Diffusion),,從而更好地控制生成圖像的人物姿態(tài)、深度,、畫面結(jié)構(gòu)等信息,。 這里的額外條件以圖像的形式來輸入,模型可以基于這張輸入圖像進(jìn)行 Canny 邊緣檢測(cè),、深度檢測(cè),、語義分割、霍夫變換直線檢測(cè),、整體嵌套邊緣檢測(cè)(HED),、人體姿態(tài)識(shí)別等,然后在生成的圖像中保留這些信息。利用這一模型,,我們可以直接把線稿或涂鴉轉(zhuǎn)換成全彩圖,,生成具有同樣深度結(jié)構(gòu)的圖等等,通過手部關(guān)鍵點(diǎn)還能優(yōu)化人物手部的生成,。 這一模型在 AI 繪畫領(lǐng)域掀起了巨浪,,相關(guān)項(xiàng)目 GitHub star 量已破萬。 項(xiàng)目鏈接:https://github.com/lllyasviel/ControlNet 雖然當(dāng)前很多人只是用它來生成二次元,、三次元小姐姐,,但其更廣泛的用途也被逐漸挖掘出來,比如房屋設(shè)計(jì),、攝影攝像,、影視制作、廣告設(shè)計(jì)等,。在這些場(chǎng)景中,,ControlNet 被拿來和之前的一些工具一起使用,比如處理大模型微調(diào)問題的 LoRA,、視頻 - 動(dòng)畫轉(zhuǎn)換工具 EbSynth 等,。這些工具的組合應(yīng)用加速了 AI 繪畫模型與生產(chǎn)過程的融合。 利用 ControlNet 和 EbSynth 等工具重新進(jìn)行室內(nèi)裝潢設(shè)計(jì),。圖源:https://creativetechnologydigest./p/controlling-artistic-chaos-with-controlnet (內(nèi)附完整教程) 利用 ControlNet 和 Houdini 工具生成 3D 模型,。圖源:https://www./r/StableDiffusion/comments/115eax6/im_working_on_api_for_the_a1111_controlnet/ 用 Dreambooth 和 ControlNet 改變 2D 圖像光照,可用于照片,、視頻的后期制作,。圖源:https://www./r/StableDiffusion/comments/1175id9/when_i_say_mindblowing_i_mean_it_new_experiments/ 用 ControlNet 和 EbSynth 實(shí)現(xiàn)動(dòng)畫轉(zhuǎn)真人。雖然效果還不太好,,但已經(jīng)顯示出了把動(dòng)漫改編成真人版但無需演員出鏡的潛力,。圖源 https://www./r/StableDiffusion/comments/117ewr9/anime_to_live_action_with_controlnet_ebsynth_not/ 某設(shè)計(jì)師利用 ControlNet 生成的著名品牌「新 logo」。圖源:https://twitter.com/fofrAI/status/1628882166900744194 驚喜之余,,這些技術(shù)的進(jìn)展也讓繪畫等領(lǐng)域的從業(yè)者陷入焦慮和憤怒。焦慮的是,,AI 可能會(huì)奪走自己的飯碗,。憤怒的是,AI 生成的圖像很多是對(duì)當(dāng)前畫師的抄襲和模仿,,畫師的知識(shí)產(chǎn)權(quán)受到了侵犯,。 圖源:https://www.zhihu.com/question/583294094 在這些問題尚未解決的情況下,AI 繪畫在畫師圈成了一個(gè)尖銳的問題,。很多人認(rèn)為大家應(yīng)該一起抵制 AI 繪畫,,共同捍衛(wèi)自己的權(quán)益。因此,當(dāng)某知名畫師疑似采用 AI 繪畫為某游戲工作室供稿的消息傳開后,,其他畫師們被徹底激怒,。 同時(shí)被激怒的還有游戲玩家。由于目前 AI 繪畫還存在一些局限,,比如處理不好手部細(xì)節(jié)(仔細(xì)觀察本文第一張圖的小姐姐可以看出來),,達(dá)不到玩家所要求的美術(shù)視覺效果精湛、人物富有個(gè)性和創(chuàng)意等要求,,很多玩家產(chǎn)生了「被糊弄」的感覺,。因此,上述游戲工作室只能緊急發(fā)布聲明,,稱「不會(huì)在產(chǎn)品中使用 AI 作畫」,。 但這種情況會(huì)持續(xù)多久呢?當(dāng) AI 繪畫的水平達(dá)到肉眼難以分辨的程度,,你怎么知道你玩的游戲究竟出自畫師還是 AI,,亦或二者組成的「團(tuán)隊(duì)」? 圖源:https://m.weibo.cn/2268335814/4870844515358190 或許再過幾個(gè)月,,AI 繪畫工具就會(huì)像程序員使用的 Copilot 一樣,,成為繪畫師日常工作必不可少的工具。當(dāng)然,,這也在無形中提高了這一行業(yè)的門檻,,正如已經(jīng)被 AI「入侵」的其他行業(yè)一樣。如何在這樣的浪潮中保持自己的競(jìng)爭(zhēng)力可能是每個(gè)人都應(yīng)該思考的問題,。 |
|