AI畫手會畫手了,！Stable Diffusion學(xué)會想象,，卷趴人類提示工程師

天承辦公室 2023-03-20 發(fā)布于江蘇

展開全文

新智元報道

編輯：Aeneas 好困

【新智元導(dǎo)讀】趁我們不注意，AI畫手一直在悄悄迭代,，最近新推出的Stable Diffusion Reimagine和Midjourney v5功能如此強大,，不僅要淘汰人類畫師,，連提示工程師的飯碗怕是都要丟了。

這次,，人類畫手是真要失業(yè)了,。

你敢相信，這張電影劇照一樣的圖片,，居然是AI畫的,？

Midjourney v5生成的光影和皮膚效果

更邪乎的是，AI畫手還會自己動腦子,。

最近新出的Stable Diffusion Reimagine,，只要你給它一張圖，它就會無限開發(fā)自己的想象力,。你要多少版,，它就給你生成多少版。

有了這個AI,，無論要求多奇葩,，要改多少次，甲方爸爸想要的方案,，設(shè)計師和畫手幾分鐘就甩給他,。

logo放大的同時能不能縮小一點？改,！

想要五彩斑斕的黑,？改！

就是這么氣定神閑,，游刃有余,。

唯一要擔(dān)心的就是，千萬別讓甲方爸爸知道……

AI學(xué)會想象,，人類連prompt的工作也要丟了,？

Stable Diffusion這個AI畫圖工具，咱們都很熟悉了,。

昨天,，Stability AI又曝出一個震撼消息：它把Stable Diffusion大大改進了一把。

這次新推出的產(chǎn)品,，叫做Stable Diffusion Reimagine,。

敢叫Reimagine，聽起來就很震撼,。

沒錯,，現(xiàn)在你只要上傳一張圖片，SDR就可以根據(jù)這個圖片創(chuàng)作無數(shù)張新圖,。

而且它是真的想象,，真的創(chuàng)作,，并不是照抄原始圖片里的面孔或物體，而是根據(jù)原始圖像的靈感,，重新創(chuàng)作新圖,。

體驗地址：https:///stable-diffusion-reimagine

我們都知道，在以往的AI作圖工具中,，prompt的質(zhì)量,，往往決定著你能畫出圖片的上限。

很多人說,，會不會prompt,，將成為使用AI的庸人和天才的分水嶺。同樣,，提示工程師也把prompt視為自己打開AI大獎的秘密武器。

去年在科羅拉多州博覽會藝術(shù)比賽的獲獎?wù)?、《太空歌劇院》的?chuàng)作者,，就拒絕分享出自己在Midjourney所用的提示。據(jù)說,，他花了80多個小時,，在900次迭代中，才完成了這幅畫作,。

而現(xiàn)在,，不需要多復(fù)雜的prompt，只需要把一張圖片丟給AI,，算法就可以創(chuàng)造出我們想要的無窮多變化,。

輕點一下鼠標(biāo)，你的臥室立馬大變樣,。

技術(shù)原理

這個全新的Stable Diffusion Reimagine,，是基于創(chuàng)造的一種新算法。

經(jīng)典的Stable Diffusion模型,，都是被訓(xùn)練成以文本輸入為條件,。

而Reimagine中，用一個圖像編碼器取代了原來的文本編碼器,。不是根據(jù)文本輸入來生成圖像,，而是從圖像中生成圖像。在編碼器通過算法后,，還加入一些噪音,，以產(chǎn)生變化。

這種方法產(chǎn)生了外觀相似,、但細(xì)節(jié)和構(gòu)圖不同的圖像,。

而與圖像到圖像的算法不同,，原始圖像首先就被完全編碼，這意味著生成器并未使用來自原始圖像的任何一個像素,。

而且,，Clipdrop還能提升圖片的分辨率。用戶只需上傳一張小圖,，就能獲得一張至少有兩倍細(xì)節(jié)水平的圖片,。

據(jù)悉，Stable Diffusion Reimagine的模型很快就會在StabilityAI的GitHub上開源了,。

發(fā)揮不穩(wěn)

當(dāng)然,，Reimagine也存在一定的局限性。

最大的缺陷就是,，它不會根據(jù)原始的prompt創(chuàng)作圖像,。

另外呢，它的發(fā)揮也沒有那么穩(wěn)定,，有時很驚艷,，有時會比較拉跨。

另外,，雖然Stability AI在模型中安裝了一個過濾器,，阻擋不適當(dāng)?shù)恼埱螅膊皇侨f能的,。

另外,，AI模型都無法避免的偏見問題，Reimagine也不能避免,，Stability AI目前正在收集用戶的反饋,，希望能減輕偏見。

網(wǎng)友已玩瘋

而網(wǎng)友們當(dāng)然已經(jīng)迫不及待地玩上了,。

左上角（或最左側(cè)）是原始文件,，而其他圖片都是受原始文件啟發(fā)后，「重新想象」的創(chuàng)作,。

從分享的作品上來看,，效果最為突出的確實是設(shè)計：

Stable Diffusion Reimagine可以在不改變整體氛圍的情況下，重新設(shè)計整個場景,。

看得出來,，Stable Diffusion Reimagine在手繪作品的處理上，表現(xiàn)得非常出色,。

這位網(wǎng)友表示,，它對「感覺」理解得相當(dāng)好，自己很喜歡這種自由發(fā)揮的效果,。

此外,，Stable Diffusion Reimagine對二次元角色拿捏得也不錯,。

在真實場景中，有網(wǎng)友在嘗試了自己的自拍之后大贊稱：「我打賭你們絕對猜不到哪張照片是真的,?！?/span>

然而，小編在嘗試一些「名場面」時,，結(jié)果卻是下面這樣的……

首先輸入《九品芝麻官》的「我全都要」：

然后讓Stable Diffusion「重新想象」一下：（這結(jié)果多少有些殺馬特在里面）

換成「威爾·史密斯在奧斯卡現(xiàn)場怒扇克里斯洛克耳光」試試,？

啊，這……

或許是我們的打開方式不對,，畢竟,，Stability AI的主要目的幫助設(shè)計師們只用一張照片就能獲得類似的備選方案。

那么,，我們就用它們給出的案例來做個測試吧,。

注意看，下面是官方的演示：

而下面這個是同一張圖的「復(fù)現(xiàn)」效果……

顯然,，Reimagine生成的圖片看起來遠(yuǎn)沒有那么逼真,，而且比例也很奇怪。

在進行了數(shù)次嘗試之后,，我們?nèi)匀粵]有得到一張看起來完全真實的圖像。

對此,，有網(wǎng)友在嘗試之后也表示,，Stable Diffusion Reimagin生成圖片的質(zhì)量跟Midjourney的差距還是很大的。

因為Midjourney可以通過社區(qū)生成的大量反饋進行優(yōu)化,，而這一點是Stable Diffusion難以比擬的,。

AI畫手終于會畫手了

而另一強大的AI畫手——Midjourney，當(dāng)然也沒閑著,。

本周三,，Midjourney宣布：我們已經(jīng)升級到第5版了！

比起之前的版本,，V5版的圖像質(zhì)量更高,、輸出更多樣化、有更廣泛的風(fēng)格,、支持無縫紋理,、有更寬的縱橫比、有更好的圖像提示,，以及更寬的動態(tài)范圍……

Midjourney V5的效果怎么說呢,，AI藝術(shù)家們給出的評價是——「太逼真，太完美,，以至于令人毛骨悚然,?！?/span>

「仿佛一個近視眼忽然戴上了眼鏡——畫面忽然間就變成4k的了?！?/span>

網(wǎng)友評價：因為每次都太完美,，太驚艷，到最后多巴胺都停止分泌了

可以看出,，Midjourney自2022年3月首次面世以來,，在圖像細(xì)節(jié)上一直在不停進步。去年8月推出了第3版,，11月推出了第4版,，今年3月就推出了第5版。

輸入這樣一個prompt「一個肌肉發(fā)達的野蠻人在 CRT 電視機旁手持武器,、電影,、8K、演播室照明」,，v3,、v4、v5生成的圖像依次如下——

Midjourney v3（左）,、v4（中）和 v5（右）

但最驚艷的提升,，還是對人手的處理。

nice,！

眾所周知,，Midjourney、Stable Diffusion和DALL-E等模型,，都經(jīng)過了數(shù)百萬人類藝術(shù)家作品的訓(xùn)練,。

為了構(gòu)建LAION-5B數(shù)據(jù)集，AI研究者指導(dǎo)的機器人爬取了數(shù)十億個網(wǎng)站,，包括DeviantArt,、ArtStation、Pinterest,、Getty Images等的大型圖像庫,，并收集了數(shù)百萬張照片。

然而即便如此,，AI畫手依然沒學(xué)會畫手,。

即便是人和場景都已經(jīng)達到真假難辨的程度，只要放大手部,，基本就是一秒破功,。

網(wǎng)友們紛紛表示，那些從不露手的「美女自拍」，多半就是AI干的了,。

這是為什么呢,？

Stability AI的解釋是，在AI數(shù)據(jù)集中,，人類的手不如面部顯著,；手在原始圖像中往往很小，很少以大的形式出現(xiàn),。

而佛羅里達大學(xué)AI和藝術(shù)教授Amelia Winger-Bearskin的解釋是AI們并不能真正理解「手」是什么,，不理解它在解剖學(xué)上與人體有什么關(guān)系。

而Wieland發(fā)現(xiàn),，Midjourney v5在大多數(shù)時候,，都能畫出5個手指的手，而不是7到10個指頭的,。

而AI會畫手之后,，網(wǎng)上出現(xiàn)的任何照片，都真假莫辨了,。

如果非要說Midjourney V5有什么缺點,，大概就是太過逼真和完美，也就讓我們喪失了那種多次嘗試后找到最佳結(jié)果的快感,。

（昨天試了多次終于用文心一言畫出完美林黛玉的小編表示,，非常贊同）

這就是老虎機效應(yīng)（near-miss）——就差那么一點兒，才是讓我們繼續(xù)玩下去的動力,。

參考資料：

https:///information-technology/2023/03/ai-imager-midjourney-v5-stuns-with-photorealistic-images-and-5-fingered-hands/

https:///blog/stable-diffusion-reimagine

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：天承辦公室 > 《023新智元說》

舉報/認(rèn)領(lǐng)