谷歌開發(fā)的Tacotron 2使機器生成的語音聽起來電子味兒更輕,,更像一個人的聲音。 他們使用神經(jīng)網(wǎng)絡(luò)來訓練在文本范本和語音示例,,以WaveNet級音頻質(zhì)量和Tacotron級韻律進行語音的合成,。 從給定文本(文本到語音合成,,TTS)生成自然語音的研究已經(jīng)持續(xù)了幾十年。在過去的幾年里,,研究者們?nèi)〉昧肆钊瞬毮康倪M展,。 機器人的聲音是我們關(guān)注的重點,像微軟的Cortana(小娜)或蘋果的Siri,。隨著時間一點點過去,,對比起其他機器人,谷歌 AI 聲音開始聽起來電子味兒輕了好多,,更像是一個人,。而現(xiàn)在,這幾乎就是人的聲音,。 Google 的工程師結(jié)合了 WaveNet 和 Tacotron 等過去工作的 idea,,并加強了最終采用于新系統(tǒng) Tacotron 2的技術(shù)。為了實現(xiàn)類似人類的語音,,他們使用的神經(jīng)網(wǎng)絡(luò)僅對文本記錄和語音示例進行訓練,,而不是以任何復(fù)雜的語言和聲學特征作為輸入。 模型架構(gòu) 該系統(tǒng)包含兩個主要部分 1. 一種針對 TTS 的周期性序列特征的預(yù)測網(wǎng)絡(luò),,優(yōu)化了字母序列的序列特征,,對音頻進行了編碼。 2. WaveNet 的改進版本,,可根據(jù)預(yù)測的頻譜圖幀生成時域波形采樣,。 Tacotron 2 的模型架構(gòu) 序列-序列模型的特征是一個80維的音頻聲譜圖(每 12.5 毫秒測量一次幀),捕捉單詞,,速度,,音量和語調(diào)。這些功能最終使用增強型WaveNet版本來轉(zhuǎn)換為 24 kHz 波形的 16 位采樣,。 由此產(chǎn)生的系統(tǒng)將語音結(jié)合了 WaveNet 級別的音頻質(zhì)量和 Tacotron 級的音調(diào)韻律,。它可以在不依賴任何復(fù)雜的特征工程的情況下對數(shù)據(jù)進行訓練,并且完成與自然人聲非常接近的最先進的音質(zhì),。 不同于公司的其他核心人工智能研究,,這項技術(shù)對 Google 來說非常有用武之地。例如,,它最初在 2016 年出現(xiàn),, Google 智能助理中現(xiàn)在也在使用 WaveNet。Tacotron 2 將是一個更強大的附加服務(wù),。 限制以上聽起來不錯,,但仍有一些問題需要解決,。該系統(tǒng)面臨著一些問題,,而發(fā)音復(fù)雜的單詞如 “merlot” 和 “decorum” 等,在某種特殊情況下,它會隨機產(chǎn)生奇怪的噪音,。 目前,,該系統(tǒng)無法實時生成音頻,,無法控制生成的語音,,就像讓它說的話聽起來悲傷或快樂。此外,,它只是訓練來模仿女性的聲音;要像其他女性或男性一樣說話,,開發(fā)者還得重新調(diào)試,。 |
|
來自: 萬皇之皇 > 《IT互聯(lián)》