作者:symon
導語
Stable Diffusion 技術把 AI 圖像生成提高到了一個全新高度,,文生圖 Text to image 生成質量很大程度上取決于你的提示詞 Prompt 好不好。本文從“如何寫好提示詞”出發(fā),,從提示詞構成,、調整規(guī)則和 chatGPT 輔助工具等角度,對文生圖的提示詞輸入進行歸納總結,。
一 背景介紹
Stable Diffusion 是一種文生圖 AI 模型,,由互聯(lián)網上數(shù)百萬圖像和文本描述對訓練而來,通過理解文本描述與圖像信息的內在關聯(lián),,不斷利用擴散過程進而得到滿意的生成圖片[1],。
比如,通過一串提示詞,,midjourney 會輸出這樣的情侶合照:
A pair of young Chinese lovers, wearing jackets and jeans, sitting on the roof, the background is Beijing in the 1990s, and the opposite building can be seen —v 5 —s 250 —q 2.
一對年輕的中國情侶,,穿著夾克和牛仔褲,坐在屋頂上,,背景是20世紀90年代的北京,,可以看到對面的建筑
圖1 用midjourney v5生成的情侶圖沒錯,這兩位并不是真人,,而是由 AI 一鍵生成的,,毫無違和感!你可能會想這有什么了不起的,,隨手一搜就有好幾 G 嘛,。這項技術的有趣之處在于,還可以讓模型生成一些先前不存在具有組合元素的高質量圖像,。比如說,,你可以生成不同畫家風格的明星照片,下面以 19 世紀印象派畫家 Vincent van Gogh 和 19 世紀美國畫家畫家 John Sargent 風格來畫下 Emma Watson 肖像畫(Emma Watson 是《哈利波特》中赫敏的飾演者)
圖2 不同畫家風格下的Emma Watson肖像prompt1: Vincent van Gogh’s painting of Emma Watson; prompt2: John Sargent’s painting of Emma Watson
從圖 2 可以看到,生成圖片對面部和陰影控制得比較好,,整體藝術風格還是比較協(xié)調的,,能把畫師風格和具體人物以一種比較和諧的方式融合到一起。
圖3 Stable Diffusion組成結構那計算機是如何理解輸入文字呢,?圖 3 給出了 stable diffusion 整體結構示意圖,,利用文本編碼器 text encoder(藍色模塊),把文字轉換成計算機能理解的某種數(shù)學表示,,它的輸入是文字串,,輸出是一系列具有輸入文字信息的語義向量。有了這個語義向量,,就可以作為后續(xù)圖片生成器 image generator(粉黃組合框)的一個控制輸入,。stable diffusion 更多技術介紹和文本編碼器工作原理可以查看《【AI 繪畫】十分鐘讀懂 Stable Diffusion 運行原理》,。要想生成出滿意照片,,輸入合適提示詞就變得非常重要,接下來就從“如何寫好提示詞”出發(fā),,對文生圖的提示詞輸入方法進行歸納總結。
二 如何寫好提示詞?
寫出一份比較好的提示詞是文生圖技術的關鍵,。但是,,寫出一份好的 prompt 并不容易,下面針對“如何寫好提示詞”這個問題,,從提示詞構成,、調整規(guī)則和 chatGPT 輔助等角度,來介紹下如何優(yōu)化輸入提示詞,。
1 正面提示詞
要寫好一份提示詞,,遵循原則為盡可能詳細并且具體,從不同角度進行詳細描述,。下面從 9 個角度來介紹輸入關鍵詞,。
常用的關鍵詞類別包括如下:
(1) 主體 subject
(2) 媒介 medium
(3) 風格 style
(4) 畫家 artist
(5) website
(6) 分辨率 resolution
(7) 額外細節(jié) additional details
(8) 色調 color
(9) 光影 lighting
當然,輸入提示詞時,,不需要包括到每個類別,,只需作為一個列表檢查下哪些可以用到。下面通過添加每個類別的關鍵字來生成一些圖像,,來說明和介紹下每個類別,。為單獨觀察提示詞效果,實驗時不會使用負面提示詞(在下個模塊會更詳細介紹),。
(1) 主體
主體 subject,,是指想在圖像中看到的主體,要盡可能詳細描述以避免出現(xiàn)描述不足的問題,。假如要生成一個在施法的女巫,,新手可能會這么寫:
A sorceress
這個描述詞也太簡單了吧,,要提到女巫長什么樣,增加她形象相關的描述詞,,比如說她穿了什么,?在施什么魔法?是站著,,跑著,,或者飄浮在天上?主體背景在哪里,?
Stable diffusion 并不能猜到這些內容,,我們要更詳細地表達各個元素信息。畫人物對象的一個常用技巧是使用名人的名字,,名人由于在訓練集中出現(xiàn)頻次較大而訓練充分,,是控制生成人物形象的一種好辦法。
作為演示,,把女巫形象設置成 Emma Watson 的樣子,,她因飾演《哈利波特》中的赫敏一角紅遍全球,也是 stable diffusion 里最常使用的一個關鍵詞,。把她想象成一個會使用閃電的神秘女巫,,并增加一些形象要求,提示詞如下:
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing
對應的生成圖如下:
圖4 Emma Watson女巫圖利用名人名字來控制人物形象,,直接原因就是訓練時用到了一定量樣本,,包括不同角度和不同場景,使 Emma Watson 得到了充分訓練,。要是使用更早些或者小眾點的演員,,效果就不一定這么好了。
(2) 畫風
畫風 medium,,是指生成圖片的畫風,,包括插畫 illustration、油畫 oil painting 或攝影風 photography 等,。這類描述詞影響力很大,,單獨一個畫風描述詞就能很大程度地改變風格。比如添加下關鍵字“digital painting(數(shù)字繪畫)”,,
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting
對應的生成圖如下:
圖5 Emma Watson女巫圖+畫風可以看到,,這些圖像的畫風從普通照片變成了數(shù)字繪畫風。這里也列出一些常用畫風,,
關鍵詞 | 說明 |
---|
Portrait | 肖像畫風,,用于生成臉部或者頭像 |
Digital painting | 數(shù)字藝術風格 |
Concept art | 2D 插圖風格 |
Ultra realistic illustration | 畫風真實和逼真,用于生成人物 |
Underwater portrait | 模擬水下的人物特寫,頭發(fā)會飄起來 |
(3) 風格
風格 style,,是指主體形象的藝術風格,,比如印象派、超現(xiàn)實主義,、波普藝術等,。
通過添加一些風格描述詞"hyperrealistic, fantasy, surrealist, full body",
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body
對應的生成圖如下:
圖6 Emma Watson女巫圖+風格這里感覺又多了一些變化,,前面關鍵字已經包含了部分風格關鍵字導致變化不大,,但是保留這些風格提示詞也可以。這里也列出一些常用風格,。
關鍵詞 | 說明 |
---|
hyperrealistic | 超現(xiàn)實主義,,會增加細節(jié)和分辨率 |
pop-art | 波普藝術風格 |
Modernist | 現(xiàn)代派,色彩鮮艷和高對比度 |
art nouveau | 新藝術風格,,追求平面化 |
(4) 畫家
畫家 artist,,類似于強修飾符,是指用特定畫家作為參考來生成他們風格的圖像,。當然也可以使用多個畫家名字來生成混合風格,。
繼續(xù)在提示詞里再加上 19 世紀的超級英雄漫畫家 Stanley Artgerm Lau 和肖像畫家 Alphonse Mucha
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha
對應的生成圖如下:
圖7 Emma Watson女巫圖+不同畫家這里看到,,把兩位畫家的風格融合到一起,,效果還不錯。這里也列出一些常用畫家,,
關鍵詞 | 說明 |
---|
John Collier | 19 世紀肖像畫家 |
Stanley Artgerm Lau | 偏寫實和現(xiàn)代風格 |
John Singer Sargent | 擅長女性肖像,,偏印象派 |
Alphonse Mucha | 擅長畫平面肖像 |
(5) 網站
有一些小眾圖片網站,比如說Artstation和 Deviant Art 這樣的網站收集了許多畫風獨特的圖像,。在提示詞中添加網站名稱,,也可以把圖像引向這些風格。
試下在提示詞里再加上“artstation ”,,
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation
對應的生成圖如下:
圖7 Emma Watson女巫圖+網站圖片變化不是很大,,但看起來有點像 Artstation 網絡下載下來的了。
(6) 分辨率
分辨率 Resolution,,表示生成圖像的清晰度和細節(jié)程度,。繼續(xù)添加這方面關鍵字“highly detailed, sharp focus”,
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus
對應的生成圖如下:
圖8 Emma Watson女巫圖+分辨率看起來變化不大,,因為前面生成圖片已經非常清晰了,,但補充一下也無妨。
(7) 額外細節(jié)
額外細節(jié) additional details,,可以繼續(xù)用來修改圖片,。繼續(xù)添加這方面關鍵字“sci-fi, stunningly beautiful, dystopian”,
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian
對應的生成圖如下:
圖9 Emma Watson女巫圖+額外細節(jié)(8) 色調
色調 color,是指通過添加顏色關鍵字來控制圖像整體顏色,,可以把顏色應用到某個物品上或者是整體色調,。
利用關鍵字"iridescent gold"讓整張圖片黃一點,
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold
對應的生成圖如下,,看起來就很黃了,!
圖10 Emma Watson女巫圖+色調(9) 光照
光照 lighting,是指圖像里的光照描述,,改變光照可以對圖像效果產生巨大影響,。試試添加關鍵字“cinematic lighting, dark”,
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold, cinematic lighting, dark
對應的生成圖如下,,影視光照就出來了,!
圖11 Emma Watson女巫圖+光照總結下,圖片生成時針對主體添加一些關鍵字,,就能夠得到比較不錯的圖片,;通常不需要填寫很多提示詞來獲得高質量圖片,比如畫家,、網站和風格在一定程度上是有些重合的,。也可以借助一些 stable diffusion 提示詞網站來獲取更多靈感 Ai 畫廊 - AI 關鍵詞生成器
2 負面提示詞
負面提示詞和正面提示詞是同等重要的,使用負面提示詞也是生成迭代過程的一個重要環(huán)節(jié),。要解釋負面提示詞的工作原理,,這里需要先理解不使用負面提示詞時采樣是如何工作的
不使用負面提示詞的采樣過程
在 stable diffusion 采樣階段,① 首先用文本提示詞作為指導條件,,利用條件采樣對圖像進行去噪,;② 采樣器使用無條件采樣對同一圖像進行去噪,這里不使用文本指導,,但它仍然會擴散到某一個圖像,,比如說下面的籃球或者紅酒杯(它可以是任何隨機主體);③ 擴散過程中實際上是計算條件采樣和無條件采樣的差異,,并按照采樣步數(shù)重復這個過程,。
圖12 不使用負面提示詞的采樣過程使用負面提示詞的采樣過程
負面提示詞是通過影響無條件采樣實現(xiàn)的。利用負面提示詞,,在上面第 ② 步里就不是使用空提示來生成隨機對象了,。從技術上說,正面提示詞會引導采樣過程生成與文本相關的圖像,,負面提示詞則會在采樣過程來引導遠離相關圖像,。需要說明,擴散過程是發(fā)生在隱空間 latent space 里,,而不是圖像空間,,這里僅作為技術示意,。
圖13 使用負面提示詞的采樣過程負面提示詞,即填入不想要的主體或者身體部位,,以在采樣過程中避免出現(xiàn),。比如說,sd v1 版本不擅長生成手,,就可以在負向提示詞里輸入“hand”或者“extra limbs”來隱藏或修正,。下面會從 4 個角度來介紹可以使用負面提示詞的應用場景,分別是:
(1) 移除物體 removing things
(2) 修改圖片 modifying images
(3) 關鍵詞切換 keyword switching
(4) 修改風格 modifying styles
(1) 移除物體
負面提示詞的第一個直接用法是移除任何不想在圖片中看到的內容,。比如,,在提示詞輸入“Portrait photo of a man”,得到下面兩張圖片,,都看起來比較嚴肅,。
圖14 提示詞輸入“Portrait photo of a man”的生成圖片接下來試著去掉他們胡子,看起來更年輕一點,,因此在負向提示詞里輸入“mustache”,,就可以生成一些沒有胡子的男人,如圖 15 所示,。當然,,要想完全去除右邊男人的胡子,可通過增強負向提示詞“(mustache:1.3)”來告訴采樣過程去除胡子操作的重要度提高 30%,。
圖15 在負向提示詞里添加“mustache”的生成圖片(2) 修改圖片
負向提示詞也可以用于在得到較滿意圖像時,,利用負面提示詞進行微調。這里不需要移除任何東西,,而只需要對主體做一些細微修改,。
比如,利用下面提示詞得到一張比較滿意的唯美照片后,,發(fā)現(xiàn)可能由于刮風導致頭發(fā)都飄起來了,就可以添加負面提示詞“windy”讓頭發(fā)正常下垂,。
正面提示詞輸入如下,,
emma watson as nature magic celestial, top down pose, long hair, soft pink and white transparent cloth, space, D&D, shiny background, intricate, elegant, highly detailed, digital painting, artstation, concept art, smooth, sharp focus, illustration, artgerm, bouguereau
圖16 添加負面提示詞“windy”后的左右變化,右邊為修改后圖片要是不想調整頭發(fā),,而是想讓頭發(fā)遮住耳朵呢,?通過添加帶有不同強度的負面提示詞“ear”來調整隱藏強度。下面是強度分別為 1.3,、1.6 和 1.9 的效果,,由于 ear 在強度為 1 時已被大比例遮住,繼續(xù)增大時變化不多,。但負面強度設置為 1.9 時,,圖像組成也發(fā)生了變化,,這說明負面提示詞對擴散過程的影響是比較大的。
圖17 負面提示詞“ear”不同強度的生成圖片(3) 關鍵詞切換
要是真的想使用強度為 1.9 的負向提示詞,,有什么不改變圖片總體結構的方法呢,?用關鍵詞切換技術,先使用一個無意義的單詞作為負面提示詞,,再在后面的采樣步驟里切換到(ear:1.9),。
比如,使用“the”作為無意義的負面提示詞,,可以把它放在負面提示詞里先驗證下它的無用性,。在驗證添加“the”的生成圖像跟沒有添加時幾乎一樣后,就可以使用這個“the”單詞作為負面提示詞,,
the: (ear:1.9): 0.5
由于采樣步數(shù)設置了 20,,意味著在第 1~10 步時使用負面提示詞“the”,第 11~20 步使用負面提示詞“(ear:1.9)”,。這是因為,,擴散過程的初始階段是確定圖片主體結構,后面步驟只是在對細節(jié)進行更精細調整,,比如用頭發(fā)遮住耳朵,。
圖17 負面提示詞“the: (ear:1.9): 0.5”的生成圖片通過這種方式,就對負面提示詞使用更大強度 1.9,,且不改變圖片組成,,得到了接近原始圖像的微調圖像,并且把耳朵用頭發(fā)遮得更嚴實,。
(4) 修改風格
負面提示詞不僅能用來修改圖片內容,,也可以用來修改圖片風格。為什么要用負面提示詞來修改圖片風格,?在正面提示里添加過多單詞也會混淆擴散過程,,把一部分信息放在負面提示詞里的效果會更明顯。
操作 1 Sharpening,。為了讓圖片更清晰,,除了在正面提示詞里使用關鍵字“sharp”或者“focused”,,也可以在負面提示詞里使用“blur”,來讓圖片更為清晰,。
圖18 添加負面提示詞“blurry”的生成圖片操作 2 “Photorealistic”,。使用負面提示詞“painting”或者“cartoon”,使生成圖片更傾向寫實主義,。當然,,要是想保持原有圖片結構,可繼續(xù)使用前面提到的關鍵詞切換,,使用負面提示詞“the: (painting cartoon:1.9): 0.3”,,可得到圖 19 中更接近原始圖像但增加了寫實主義風格的生成圖像。
圖19 負面提示詞“the: (painting cartoon:1.9): 0.3”的生成圖片下面給出了一份通用的負面提示詞,,可以復用到你的場景,這些負面提示詞可以讓圖片主體更突出,,具有層次感,。
ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face, blurry, draft, grainy
總結下,,負面提示詞也扮演著十分重要的作用,,用負面提示詞在采樣過程引導遠離相關圖像。如上面介紹,,可以用來微調生成圖片,如移除物體、修改圖片,或者修改風格等一系列操作。
3 微調提示詞
利用正面和負面提示詞還不能生成很滿意的照片,還需要做進一步細節(jié)調整,?還有一些提示詞調整技巧,下面會從 3 個用法角度來介紹如何微調提示詞,,
(1) 關鍵詞權重
(2) ()和[]語法
(3) 關鍵詞混合
(1) 關鍵詞權重
關鍵詞權重,,是指通過語法“(keyword: factor)”來調整關鍵詞權重,其中 factor 為權重值,,小于 1 表示減低重要度,,大于 1 表示增大重要度,。
下面這個例子調整了關鍵字“dog”的權重值。如下圖所示,,增大“dog”權重一般會生成更多狗,,減少權重則降低了生成狗的數(shù)量。這種技術也可以應用到風格 style 或者光照 lighting 調整,。
dog, autumn in paris, ornate, beautiful, atmosphere, vibe, mist, smoke, fire, chimney, rain, wet, pristine, puddles, melting, dripping, snow, creek, lush, ice, bridge, forest, roses, flowers, by stanley artgerm lau, greg rutkowski, thomas kindkade, alphonse mucha, loish, norman rockwell.
圖20 不同權重提示詞“dog”的生成圖片(2) ()和[]符號
調整關鍵詞強度的另一種等效方法是使用()和[]符號,。(keyword)把關鍵詞強度增加到 1.1 倍,與“(keyword:1.1)”效果一致,;[keyword]把關鍵詞強度降低到 0.9 倍,,與“[keyword:0.9]”效果一致。
這里可以使用多個,,跟數(shù)學里的連乘操作是一樣的,。
(keyword): 1.1
((keyword)): 1.21
(((keyword))): 1.33
(3) 關鍵詞混合
這里還可以通過混合兩個關鍵詞來實現(xiàn)更有趣效果,使用語法為“[keyword1 : keyword2: factor]”,,其中 factor 值控制了把 keyword1 切換到 keyword2 的步驟值,,是一個介于 0 到 1 之間的數(shù)字。
舉個例子,,輸入提示詞“Oil painting portrait of [Joe Biden: Donald Trump: 0.5]”,,采樣步數(shù)設置為 30。這里指的是,,第 1~15 步,,提示詞為“Oil painting portrait of Joe Biden”;第 16~30 步,,提示詞為“Oil painting portrait of Donald Trump”,。解釋一下,factor 值決定了關鍵詞的切換節(jié)點,,設置為 0.5 時指的是在 30*0.5 = 15 步時切換,。
關鍵詞融合技術還能用于生成高度相似的圖片編輯。下面是使用相同提示詞生成了兩張圖片,,隨機種子和迭代步數(shù)保持不變,,只修改了[apple: fire: factor]里的 factor 權重。這背后的工作理論是,,生成圖片的總體組成是由早期擴散過程決定的,,后面的一些關鍵詞調整不會對圖像整體產生很大影響,只會改變一小部分,。
圖22 關鍵詞混合[apple: fire: factor]的生成圖片4 用 chatGPT 生成
手動改 prompt 很麻煩,?能不能用 chatGPT 生成高質量提示詞來實現(xiàn)穩(wěn)定擴散?答案是可以的,,但需要用一些技巧來引導,。chatGPT 是 openAI 在 2022 年 11 月發(fā)布的聊天機器人,在 GPT3.5 大語言模型的基礎上進行了微調。GPT3 系列使用了千億級別文本訓練出來的,,chatGPT 還進一步引入了 RLHF 強化學習來學習人類偏好,。因此,chatGPT 包含了大量人類知識,,可以生成文章,、詩歌、小說甚至是各種計算機代碼,。
那 chatGPT 了解 stable diffusion 技術嗎,?答案是不了解,因為它的訓練數(shù)據(jù)只截止于 2021 年 9 月,。幸運的是,,它了解什么是文生圖 text-to-image 和 DALL-E 模型,可以利用這塊知識構建提示詞工程,。
圖23 chatGPT是否了解stable diffusion,、text-to-image和DALL-E技術?如何調用 chatGPT 呢,?最直接的方式是上chat.openai.com使用,,內網也有一些中轉方式,比如用企微里的 chatGPT 機器人或者搭建一些內部平臺,,這里不過多介紹,。下面介紹使用 chatGPT 來生成一個人物特寫照片,這是比較難的一個任務,。
讓 chatGPT 生成高質量提示詞,,也是需要一些技巧的,包括以下三點:(1) 指定圖片畫風,,比如 oil-painting 油畫風等,;(2) 確定圖片主體,如前面提到用一個明星名字是個不錯選擇,;(3) 給出具體例子的話往往學的更快,。
綜合一下,輸入 ChatGPT 的提示詞如下:
Examples of high quality prompt for stunning close-up photorealistic illustration of Ana de Armas for text-to-image models (Stable Diffusion, midjourney or Dalle2) are
– portrait of beautiful happy young ana de armas, ethereal, realistic anime, trending on pixiv, detailed, clean lines, sharp lines, crisp lines, award winning illustration, masterpiece, 4k, eugene de blaas and ross tran, vibrant color scheme, intricately detailed
– alberto seveso and geo2099 style, A highly detailed and hyper realistic portrait of a gorgeous young ana de armas, lisa frank, trending on artstation, butterflies, floral, sharp focus, studio photo, intricate details, highly detailed, by Tvera and wlop and artgerm
Give me more examples.
chatGPT 的回復為:
A photorealistic, highly detailed illustration of Ana de Armas in a vintage Hollywood style, reminiscent of the golden age of cinema, with a focus on glamour and elegance.
A close-up illustration of Ana de Armas in a neo-noir style, reminiscent of the film noir genre, with a focus on shadows, contrasts, and a sense of danger.
把這些提示詞輸入到 stable diffusion v1.5 里,,使用 DPM++ 2M Karras 采樣器,,迭代步數(shù)為 25,圖片分辨率為 502×704,。負面提示詞使用上面提到的通用版本,。
chatGPT 提示詞 1:
A photorealistic, highly detailed illustration of Ana de Armas in a vintage Hollywood style, reminiscent of the golden age of cinema, with a focus on glamour and elegance.
圖24 chatGPT提示詞1的生成圖片chatGPT 提示詞 2:
A close-up illustration of Ana de Armas in a neo-noir style, reminiscent of the film noir genre, with a focus on shadows, contrasts, and a sense of danger.
圖25 chatGPT提示詞2的生成圖片這里只進行了初步嘗試,生成效果看起來還不錯,,可以后續(xù)進一步深入挖掘,。
此外,還可以使用 magicPrompt 模型?;?GPT-2 模型,,它使用了大約 8 萬條 stable diffusion 優(yōu)質提示詞訓練而來,旨在為 stable diffusion 生成完善提示詞,。只要輸入圖片主體,,就能補全各種細節(jié),體驗網址如下:
MagicPrompt Stable Diffusion - a Hugging Face Space by Gustavosta
圖26 magicPrompt功能示例
三 本文小結
AI 繪畫各種技術和應用不斷涌現(xiàn),,也很大程度上提高了不少行業(yè)產出效率。這篇文章主要介紹 stable diffusion 里的提示詞 prompt,,從提示詞構成,、調整規(guī)則和 chatGPT 輔助等角度出發(fā),介紹如何更好地輸入提示詞,,才能更好地控制 AI 繪畫生成,。
參考鏈接
1、GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model
2,、 Denoising Diffusion Probabilistic Models
3,、How to come up with good prompts for Stable Diffusion - Stable Diffusion Art
騰訊技術工程
騰訊技術官方號。騰訊技術創(chuàng)新,、前沿領域發(fā)布解讀平臺,。
451篇原創(chuàng)內容
公眾號
閱讀