只需3步，無限制作自己的專屬AI數(shù)字人

新用戶62592529 2023-07-29 發(fā)布于四川

展開全文

先看效果

基本方法

搞一張照片,，搞一段語音,，合成照片和語音,，同時讓照片中的人物動起來,，特別是頭、眼睛和嘴,。

語音合成

語音合成的方法很多,，也比較成熟了，大家可以選擇自己方便的,，直接錄音也可以,，只要能生成一個語音文件就行了。

這里分享一個文字轉(zhuǎn)語音的工具：https:///,，不用注冊不用花錢，使用起來很簡單,。（廣告時間：目前國內(nèi)的AI資源也很豐富了,，我做了一個匯總：https://toai.，不用特殊網(wǎng)絡(luò)設(shè)置,，快速找到想用的AI工具）

如下圖所示：輸入你的文字,，選擇播音員，填寫驗證碼,，點擊轉(zhuǎn)換按鈕,。

生成速度挺快的，然后在左邊這里可以試聽和下載,。

照片生成

這里介紹的方法需要使用比較真實的照片,，如果太二次元了，視頻人臉的效果會比較差,。大家可以使用自己真實的照片,，也可以使用Stable Diffusion生成一張，也可以使用圖生圖稍微改造下自己的照片,，總之要盡量真實一些,。

另外這張照片盡量正面一些，側(cè)臉生成的視頻可能會出現(xiàn)頭和身體拼接不太好的情況,，所以如果有證件照是最好的,。

我這里演示生成一張真實照片，看AI生成的美女都有些厭倦了,，今天我們生成個帥哥,。

（1）生成工具使用 Stable Diffusion WebUI，模型選擇 realisticVisionV20,，這個模型生成的圖片看起來比較真實,。

提示詞：best quality, front photo of a young man, chinese, portrait,black t-shirt, short hair, (looking at viewer), Sense of technology, in an office, computers, screen, books, upper body,

反向提示詞：easy_negative, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra arms and legs))),

（2）采樣器這里選擇DPM++ 2M SDE Karras,，選擇別的也沒問題，只要生成一張人物照片就可以了,。

采樣步數(shù)根據(jù)采樣器選擇,，這里是40，建議20-40,，以實際出圖效果為準(zhǔn),。

尺寸這里選擇豎版，放到手機里會比較合適,。

生成次數(shù)：建議先把提示詞寫好了,，然后一次多生成幾張，從里邊選擇最好的,，節(jié)省時間,。

（3）這里我選擇一張自認(rèn)為看起來還不錯的圖片，把這張圖下載下來備用,。

視頻合成

這是最關(guān)鍵的一步,，這里還是使用Stable Diffusion WebUI，不過只是使用其中的一個插件,，這個插件的名字就是SadTalker,。

SadTalker是Github上開源的，主要成員也都是國內(nèi)的技術(shù)大佬,，地址：https://github.com/OpenTalker/SadTalker.git

這里默認(rèn)大家都安裝好Stable Diffusion WebUI了,，如果還沒安裝過的朋友，建議去AutoDL上租一個服務(wù)器體驗下,，方便不貴,，選擇A5000規(guī)格的就差不多了，安裝教程網(wǎng)上應(yīng)該挺多的,，這里就不啰嗦了,，還不會的可以聯(lián)系我。

關(guān)于SadTalker插件的安裝方法我這里介紹兩種,。

安裝方法一

適合訪問Github或者外網(wǎng)比較順暢的用戶,，因為需要自動下載很多東西。

在SD WebUI中通過擴展插件頁面安裝,，如下圖所示：

這個插件需要下載的文件很多,，有的文件還比較大，請耐心等待,。如果不確定是不是出問題了,，可以看看控制臺輸出的內(nèi)容，有沒有錯誤,。

安裝完了,，不要忘了重啟Stable Diffusion,，要整個重啟，不要只重啟WebUI,。

安裝方法二

適合訪問外網(wǎng)不太方便的用戶,，把這個插件需要的文件通過別的方式提前下載好，比如迅雷下載,，只要上傳到指定的目錄就行了,。

主程序：

放到 stable-diffusion-webui/extensions/SadTalker

https://github.com/OpenTalker/SadTalker/archive/refs/heads/main.zip

視頻模型：

放到 stable-diffusion-webui/extensions/SadTalker/checkpoints

https://github.com/OpenTalker/SadTalker/releases/download/v0.0.2-rc/mapping_00109-model.pth.tar

https://github.com/OpenTalker/SadTalker/releases/download/v0.0.2-rc/mapping_00229-model.pth.tar

https://github.com/OpenTalker/SadTalker/releases/download/v0.0.2-rc/SadTalker_V0.0.2_256.safetensors

https://github.com/OpenTalker/SadTalker/releases/download/v0.0.2-rc/SadTalker_V0.0.2_512.safetensors

修臉模型：

放到 stable-diffusion-webui/extensions/SadTalker/gfpgan/weights 和 stable-diffusion-webui/models/GFPGAN

https://github.com/xinntao/facexlib/releases/download/v0.1.0/alignment_WFLW_4HG.pth

https://github.com/xinntao/facexlib/releases/download/v0.1.0/detection_Resnet50_Final.pth

https://github.com/TencentARC/GFPGAN/releases/download/v1.3.0/GFPGANv1.4.pth

https://github.com/xinntao/facexlib/releases/download/v0.2.2/parsing_parsenet.pth

為了方便使用這種方式部署，我也把相關(guān)的文件做了一個打包,，大家不用一個一個下載,。關(guān)注公眾號：螢火遛AI，發(fā)消息：數(shù)字人,，即可獲得下載地址,。

（1）首先把文件下載到本地或者你的云環(huán)境，這里以AutoDL為例,，我把它放到 /root 目錄中,。

（2）然后解壓文件到 stable diffusion webui的擴展目錄，并拷貝幾個文件到SD模型目錄：

tar -xvf /root/SadTalker.tar -C /root/stable-diffusion-webui/extensions
cp -r /root/stable-diffusion-webui/extensions/SadTalker/gfpgan/weights/* /root/stable-diffusion-webui/models/GFPGAN/

看到下邊的結(jié)果,，就基本上差不多了。

擴展目錄下邊有這個文件夾：

SD models 目錄下有這幾個文件：

部署完畢,，不要忘了重啟,。

使用方法

在SD WebUI的Tab菜單中找到SadTalker，按照下邊的順序進行設(shè)置,。

1,、上傳人物照片。

2,、上傳語音文件,。

3、選擇視頻人物的姿勢：實際就是人說話時頭部的動作,，個人感覺有點搖頭晃腦,，可以使用不同的數(shù)字看看。

4,、分辨率：512的視頻分辨率比256大,。

5、圖片處理方法：corp是從圖片截取頭部做視頻,，resize適合大頭照或者證件照,，full就是全身照做視頻，extcorp和extfull沒做細(xì)致研究,，大家自己對比下,。

6,、Still Model：讓頭部不要動作太大，以致偏離身體,，負(fù)面效果是頭不怎么動了,。

7、GFPGAN：修臉,，說話時嘴和眼的動作可能讓臉有些變形,，選上他讓臉部好看一些。

最后點擊“生成”,，根據(jù)硬件的運行速度和你的勾選設(shè)置,，可能需要幾分鐘的時間，耐心等待,。

我這里生成的視頻（視頻太占地,，截個圖算了)：

可能遇到的問題

(1) 啟動的時候報錯：SadTlker will not support download...

這個錯誤就是模型下載不下來，告訴我們要去手動下載,。

這里有兩個方法：

執(zhí)行下邊的命令觸發(fā)下載,，注意 cd 之后的路徑替換成你自己的SadTalker安裝路徑：

cd stable-diffusion-webui/extensions/SadTalker
chmod 755 scripts/download_models.sh
scripts/download_models.sh

下載所有的模版，然后手工上傳到相關(guān)目錄,，上邊安裝方法二中已經(jīng)介紹過,，可以使用我打包好的文件包。

(2) 合成視頻時報錯：No module named 'xxx'

使用 pip install xxx 就可以了,，注意如果使用了python虛擬環(huán)境,，需要先激活它，比如這里要先執(zhí)行source xxx,。

source /root/stable-diffusion-webui/venv/bin/activate
pip install librosa

（3）合成視頻時報錯：No such file or directory: '/tmp/gradio/xxx',，創(chuàng)建目錄就可以了：

mkdir -p /tmp/gradio

（4）如果提示找不到 ffmpeg，我這里沒遇到,，如果出現(xiàn)請先下載安裝：http:///download.html

以上就是本文的主要內(nèi)容了,，使用這種方法就可以無限制作自己的AI專屬數(shù)字人，想要什么樣的風(fēng)格都可以,，想做多少個都可以,，有興趣的快去試試吧。當(dāng)然要遵紀(jì)守法,，不要搞出事情來,。

如果你有任何問題，歡迎與我交流,，V/X：yinghuojun007,。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：新用戶62592529 > 《投資》

舉報/認(rèn)領(lǐng)