先看效果基本方法搞一張照片,,搞一段語音,,合成照片和語音,,同時讓照片中的人物動起來,,特別是頭、眼睛和嘴,。 語音合成語音合成的方法很多,,也比較成熟了,大家可以選擇自己方便的,,直接錄音也可以,,只要能生成一個語音文件就行了。 這里分享一個文字轉(zhuǎn)語音的工具:https:///,,不用注冊不用花錢,使用起來很簡單,。(廣告時間:目前國內(nèi)的AI資源也很豐富了,,我做了一個匯總:https://toai.,不用特殊網(wǎng)絡(luò)設(shè)置,,快速找到想用的AI工具) 如下圖所示 :輸入你的文字,,選擇播音員,填寫驗證碼,,點擊轉(zhuǎn)換按鈕,。 生成速度挺快的,然后在左邊這里可以試聽和下載,。 照片生成這里介紹的方法需要使用比較真實的照片,,如果太二次元了,視頻人臉的效果會比較差,。大家可以使用自己真實的照片,,也可以使用Stable Diffusion生成一張,也可以使用圖生圖稍微改造下自己的照片,,總之要盡量真實一些,。 另外這張照片盡量正面一些,側(cè)臉生成的視頻可能會出現(xiàn)頭和身體拼接不太好的情況,,所以如果有證件照是最好的,。 我這里演示生成一張真實照片,看AI生成的美女都有些厭倦了,,今天我們生成個帥哥,。 (1)生成工具使用 Stable Diffusion WebUI,模型選擇 realisticVisionV20,,這個模型生成的圖片看起來比較真實,。 提示詞:best quality, front photo of a young man, chinese, portrait,black t-shirt, short hair, (looking at viewer), Sense of technology, in an office, computers, screen, books, upper body, 反向提示詞:easy_negative, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra arms and legs))), (2)采樣器這里選擇DPM++ 2M SDE Karras,,選擇別的也沒問題,只要生成一張人物照片就可以了,。 采樣步數(shù)根據(jù)采樣器選擇,,這里是40,建議20-40,,以實際出圖效果為準(zhǔn),。 尺寸這里選擇豎版,放到手機里會比較合適,。 生成次數(shù):建議先把提示詞寫好了,,然后一次多生成幾張,從里邊選擇最好的,,節(jié)省時間,。 (3)這里我選擇一張自認(rèn)為看起來還不錯的圖片,把這張圖下載下來備用,。 視頻合成這是最關(guān)鍵的一步,,這里還是使用Stable Diffusion WebUI,不過只是使用其中的一個插件,,這個插件的名字就是SadTalker,。 SadTalker是Github上開源的,主要成員也都是國內(nèi)的技術(shù)大佬,,地址:https://github.com/OpenTalker/SadTalker.git 這里默認(rèn)大家都安裝好Stable Diffusion WebUI了,,如果還沒安裝過的朋友,建議去AutoDL上租一個服務(wù)器體驗下,,方便不貴,,選擇A5000規(guī)格的就差不多了,安裝教程網(wǎng)上應(yīng)該挺多的,,這里就不啰嗦了,,還不會的可以聯(lián)系我。 關(guān)于SadTalker插件的安裝方法我這里介紹兩種,。 安裝方法一適合訪問Github或者外網(wǎng)比較順暢的用戶,,因為需要自動下載很多東西。 在SD WebUI中通過擴展插件頁面安裝,,如下圖所示: 這個插件需要下載的文件很多,,有的文件還比較大,請耐心等待,。如果不確定是不是出問題了,,可以看看控制臺輸出的內(nèi)容,有沒有錯誤,。 安裝完了,,不要忘了重啟Stable Diffusion,,要整個重啟,不要只重啟WebUI,。 安裝方法二適合訪問外網(wǎng)不太方便的用戶,,把這個插件需要的文件通過別的方式提前下載好,比如迅雷下載,,只要上傳到指定的目錄就行了,。
放到 stable-diffusion-webui/extensions/SadTalker https://github.com/OpenTalker/SadTalker/archive/refs/heads/main.zip
放到 stable-diffusion-webui/extensions/SadTalker/checkpoints https://github.com/OpenTalker/SadTalker/releases/download/v0.0.2-rc/mapping_00109-model.pth.tar https://github.com/OpenTalker/SadTalker/releases/download/v0.0.2-rc/mapping_00229-model.pth.tar https://github.com/OpenTalker/SadTalker/releases/download/v0.0.2-rc/SadTalker_V0.0.2_256.safetensors https://github.com/OpenTalker/SadTalker/releases/download/v0.0.2-rc/SadTalker_V0.0.2_512.safetensors
放到 stable-diffusion-webui/extensions/SadTalker/gfpgan/weights 和 stable-diffusion-webui/models/GFPGAN https://github.com/xinntao/facexlib/releases/download/v0.1.0/alignment_WFLW_4HG.pth https://github.com/xinntao/facexlib/releases/download/v0.1.0/detection_Resnet50_Final.pth https://github.com/TencentARC/GFPGAN/releases/download/v1.3.0/GFPGANv1.4.pth https://github.com/xinntao/facexlib/releases/download/v0.2.2/parsing_parsenet.pth 為了方便使用這種方式部署,我也把相關(guān)的文件做了一個打包,,大家不用一個一個下載,。關(guān)注公眾號:螢火遛AI,發(fā)消息:數(shù)字人,,即可獲得下載地址,。 (1)首先把文件下載到本地或者你的云環(huán)境,這里以AutoDL為例,,我把它放到 /root 目錄中,。 (2)然后解壓文件到 stable diffusion webui的擴展目錄,并拷貝幾個文件到SD模型目錄: tar -xvf /root/SadTalker.tar -C /root/stable-diffusion-webui/extensions 看到下邊的結(jié)果,,就基本上差不多了。 擴展目錄下邊有這個文件夾: SD models 目錄下有這幾個文件: 部署完畢,,不要忘了重啟,。 使用方法在SD WebUI的Tab菜單中找到SadTalker,按照下邊的順序進行設(shè)置,。 1,、上傳人物照片。 2,、上傳語音文件,。 3、選擇視頻人物的姿勢:實際就是人說話時頭部的動作,,個人感覺有點搖頭晃腦,,可以使用不同的數(shù)字看看。 4,、分辨率:512的視頻分辨率比256大,。 5、圖片處理方法:corp是從圖片截取頭部做視頻,,resize適合大頭照或者證件照,,full就是全身照做視頻,extcorp和extfull沒做細(xì)致研究,,大家自己對比下,。 6,、Still Model:讓頭部不要動作太大,以致偏離身體,,負(fù)面效果是頭不怎么動了,。 7、GFPGAN:修臉,,說話時嘴和眼的動作可能讓臉有些變形,,選上他讓臉部好看一些。 最后點擊“生成”,,根據(jù)硬件的運行速度和你的勾選設(shè)置,,可能需要幾分鐘的時間,耐心等待,。 我這里生成的視頻(視頻太占地,,截個圖算了): 可能遇到的問題(1) 啟動的時候報錯:SadTlker will not support download... 這個錯誤就是模型下載不下來,告訴我們要去手動下載,。 這里有兩個方法:
(2) 合成視頻時報錯:No module named 'xxx' 使用 pip install xxx 就可以了,,注意如果使用了python虛擬環(huán)境,,需要先激活它,比如這里要先執(zhí)行source xxx,。 source /root/stable-diffusion-webui/venv/bin/activate (3)合成視頻時報錯:No such file or directory: '/tmp/gradio/xxx',,創(chuàng)建目錄就可以了:
(4)如果提示找不到 ffmpeg,我這里沒遇到,,如果出現(xiàn)請先下載安裝:http:///download.html 以上就是本文的主要內(nèi)容了,,使用這種方法就可以無限制作自己的AI專屬數(shù)字人,想要什么樣的風(fēng)格都可以,,想做多少個都可以,,有興趣的快去試試吧。當(dāng)然要遵紀(jì)守法,,不要搞出事情來,。 如果你有任何問題,歡迎與我交流,,V/X:yinghuojun007,。 |
|
來自: 新用戶62592529 > 《投資》