最近微軟開源了一款語(yǔ)言處理模型,只需要源語(yǔ)言中的一個(gè)語(yǔ)音語(yǔ)句作為提示,,就可以生成高質(zhì)量的目標(biāo)語(yǔ)言的語(yǔ)音片段,,同時(shí)還能保留源語(yǔ)言中說話者的聲音、情感和聲學(xué)環(huán)境,此外,,這個(gè)模型還有效緩解了外語(yǔ)的口音問題,,這個(gè)問題可以通過在prompt中標(biāo)注語(yǔ)言ID來控制 這個(gè)框架被命名為VALL-E X,整體框架如上圖所示,,它可以把源語(yǔ)音轉(zhuǎn)換成另一種個(gè)性化的語(yǔ)音,,通過把源語(yǔ)音和目標(biāo)語(yǔ)言文本導(dǎo)出的序列以及從音頻解碼模型導(dǎo)出的源語(yǔ)音標(biāo)記作為提示,模型能夠產(chǎn)生目標(biāo)語(yǔ)言的聲學(xué)標(biāo)記,,然后就可以解壓縮成目標(biāo)語(yǔ)音波形,。得益于強(qiáng)大的上下文學(xué)習(xí)能力,VALL-E X在訓(xùn)練時(shí)不需要同一個(gè)講話者的不同的跨語(yǔ)言數(shù)據(jù),,就可以執(zhí)行各種零資源跨語(yǔ)言的語(yǔ)音生成任務(wù),。比如跨語(yǔ)言的語(yǔ)音合成以及跨語(yǔ)言的翻譯。 VALL-E X的訓(xùn)練示意圖:它是由一個(gè)多語(yǔ)言自動(dòng)回歸編解碼的語(yǔ)言模型(MAR)和一個(gè)多語(yǔ)言非自動(dòng)回歸編解碼的語(yǔ)言模型(MNAR)組成,。多語(yǔ)言的聲學(xué)標(biāo)記(A)和音源序列(S)分別通過音頻編解碼器編碼器和語(yǔ)音字母轉(zhuǎn)換工具從語(yǔ)音和轉(zhuǎn)錄文本轉(zhuǎn)換得到,。在訓(xùn)練過程中,我們使用不同語(yǔ)言的成對(duì)S和A來優(yōu)化這兩個(gè)模型。 它采用兩個(gè)階段建模,,首先使用自動(dòng)回歸語(yǔ)言模型根據(jù)配對(duì)的聲音源生成Encodec的第一個(gè)量化的編碼,,然后使用非自動(dòng)回歸模型并行生成其他量化器的編碼。在大規(guī)模的英語(yǔ)語(yǔ)音轉(zhuǎn)錄數(shù)據(jù)集LibriLight上訓(xùn)練后,VALL-E展現(xiàn)出很強(qiáng)的根據(jù)上下文學(xué)習(xí)的能力,。它只需要一個(gè)3秒的語(yǔ)音片段作為提示就可以生成個(gè)性化的語(yǔ)音,。基于VALL-E,我們用VALL-E X進(jìn)行了擴(kuò)展訓(xùn)練,得到了一個(gè)跨語(yǔ)言神經(jīng)編解碼的語(yǔ)言模型,實(shí)現(xiàn)了零資源的跨語(yǔ)言能力,支持跨語(yǔ)言語(yǔ)音合成以及跨語(yǔ)言的語(yǔ)音轉(zhuǎn)語(yǔ)音的翻譯任務(wù),。 雖然微軟暫未開放其模型,,但是已經(jīng)有人大致復(fù)現(xiàn)了,我們就先睹為快,。進(jìn)入 VALL E X - a Hugging Face Space by Plachta,,即可看到使用的web頁(yè)面。 首先我們找一段源語(yǔ)音,,用的是小豬佩奇奶奶的配音聲音 然后我們將語(yǔ)音的內(nèi)容填寫到transcript,,然后點(diǎn)擊Make prompt就可以生成聲學(xué)標(biāo)記了。 生成聲學(xué)標(biāo)記后,,我們?cè)赥ext中填寫我們要生成的語(yǔ)音的內(nèi)容,,然后選擇語(yǔ)言以及口音,這里我們都選擇中文,。生成的結(jié)果如下,,真的已經(jīng)非常自然,但是也能聽出一絲絲的抖動(dòng),。 我們?cè)僭囋嚵硗庖环N聲音 轉(zhuǎn)換后的結(jié)果: 如果各位想在本地嘗試也可以 首先克隆倉(cāng)庫(kù):git clone https://github.com/Plachtaa/VALL-E-X.git 然后進(jìn)入項(xiàng)目文件夾:cd VALL-E-X 生成并激活虛擬環(huán)境: python -m venv venv #生成虛擬環(huán)境 venv\Scripts\activate #激活虛擬環(huán)境 安裝運(yùn)行所需要的依賴包:pip install -r requirements.txt 安裝過程中,,會(huì)自動(dòng)下載所需要的模型 想嘗試的小伙伴趕緊來試試吧: |
|