2017年11月22日 00:00:00 01 本期分享的主題是語音合成技術,,以下是本次分享的主要內(nèi)容:
1.2 語音合成的應用場景和研究范圍 語音合成技術是人與計算機語音交互中必不可少的模塊。從地圖導航(例如高德地圖高曉松語音導航),,語音助手(Apple Siri, Google Assistant,,微軟 Cortana, Nuance Nina), 小說、新聞朗讀(書旗,、百度小說), 智能音箱(Amazon Alexa, 天貓精靈, Google Home,,Apple Pod Home 等 ),語音實時翻譯,到各種大大小小的客服,,呼叫中心,,甚至機場廣播,地鐵公交車報站都少不了語音合成技術的身影,。 而且不僅僅是文字轉(zhuǎn)語音,,語音合成技術研究范圍還包括且不限于:說話人轉(zhuǎn)換(看過007么), 語音頻帶拓展,, 歌唱語音合成(例如:日本很火的初音未來),耳語語音合成(whisper),, 方言合成(四川話,,粵語, 甚至古代漢語發(fā)音),,動物叫聲合成,,等等等等。 1.3 一個典型的語音合成系統(tǒng)流程圖 如下圖所示,,一個典型的語音合成系統(tǒng)主要包括前端和后端兩個部分,。前端部分主要是對輸入文本的分析,從輸入的文本提取后端建模需要的信息,。例如:分詞(判斷句子中的單詞邊界),,詞性標注(名詞,動詞,,形容詞等),,韻律結構預測(是否韻律短語邊界),多音字消岐等等,。后端的部分讀入前端文本分析結果,,并且對語音部分結合文本信息進行建模。在合成過程中,,后端會利用輸入的文本信息和訓練好的聲學模型,,生成出語音信號,進行輸出,。 1.4 語音產(chǎn)生的過程 一個人發(fā)聲的過程可以看成肺部氣流通過人的聲帶,,并經(jīng)過口腔形狀調(diào)制,最后從嘴唇發(fā)出的過程,。當人發(fā)輕聲時,,肺部氣流通過聲帶時,聲帶不會振動,,因此我們可以將通過的氣流用白噪聲信號來表示,。相對的,當人發(fā)元音或者濁輔音時,,當氣流通過聲帶時,,聲帶會有節(jié)奏地振動,,這時,我們將通過的氣流用沖激串表示,。同時,,我們把聲帶振動的頻率叫做基頻(f0)。人的音色和具體發(fā)什么音是和發(fā)音時的口腔形狀相關,。因此我們可以將人發(fā)生的過程簡單的看成一個激勵信號(氣流)通過濾波器(口腔形狀)調(diào)制,,最后通過嘴唇發(fā)射出去的過程。 1.5 三種現(xiàn)階段主要的語音合成系統(tǒng) 現(xiàn)階段的語音合成系統(tǒng),,根據(jù)所采用的方法和框架不同,,主要可以分為三種: A. 參數(shù)語音合成系統(tǒng)。B. 拼接語音合成系統(tǒng),。C. 基于波形的統(tǒng)計合成系統(tǒng)(WaveNet) ,。其中A, B 是現(xiàn)階段各大公司線上主流的合成系統(tǒng),C WaveNet 的方法還在研究階段,,是現(xiàn)階段研究的熱門,。 A. 參數(shù)語音合成系統(tǒng)的特點是,在語音分析階段,,需要根據(jù)語音生成的特點,,將語音波形(speech waves) 通過聲碼器轉(zhuǎn)換成頻譜,基頻,,時長等語音或者韻律參數(shù),。在建模階段對語音參數(shù)進行建模。并且在語音合成階段,,通過聲碼器從預測出來的語音參數(shù)還原出時域語音信號,。參數(shù)語音合成系統(tǒng)的優(yōu)勢在于模型大小較小,模型參數(shù)調(diào)整方便(說話人轉(zhuǎn)換,,升降掉),,而且合成語音比較穩(wěn)定。缺點在于合成語音音質(zhì)由于經(jīng)過參數(shù)化,,所以和原始錄音相比有一定的損失,。 B. 拼接語音合成系統(tǒng)的特點是,不會對原始錄音進行參數(shù)化,,而會將原始錄音剪切成一個一個基本單元存儲下來,。在合成過程中,通過一些算法或者模型計算每個單元的目標代價和連接代價,,最后通過Viterbi算法并且通過PSOLA(Pitch Synchronized Overlap-Add)或者WSOLA(Waveform Similarity based Overlap-Add)等信號處理的方法“拼接”出合成語音,。因此,拼接語音合成的優(yōu)勢在于,音質(zhì)好,,不受語音單元參數(shù)化的音質(zhì)損失,。但是在數(shù)據(jù)庫小的情況下,由于有時挑選不到合適的語音單元,,導致合成語音會有Glitch 或者韻律,、發(fā)音不夠穩(wěn)定。而且需要的存儲空間大,。 C. WaveNet 波形統(tǒng)計語音合成是Deep Mind 首先提出的一種結構,,主要的單元是 Dilated CNN (卷積神經(jīng)網(wǎng)絡)。這種方法的特點是不會對語音信號進行參數(shù)化,,而是用神經(jīng)網(wǎng)絡直接在時域預測合成語音波形的每一個采樣點,。優(yōu)勢是音質(zhì)比參數(shù)合成系統(tǒng)好,略差于拼接合成,。但是較拼接合成系統(tǒng)更穩(wěn)定。缺點在于,,由于需要預測每一個采樣點,,需要很大的運算量,合成時間慢,。WaveNet 證明了語音信號可以在時域上進行預測,,這一點以前沒有方法做到。現(xiàn)階段WaveNet是一個研究熱點,。 1.6 合成語音的評價標準 聲音的好聽與難聽是一個相對主觀的概念,,因此合成語音的好壞主要通過找很多測聽人員對合成語音進行打MOS(Mean Opinion Score)分,其中MOS的范圍是 1-5 分,,分別代表 1: Bad, 2: Poor, 3: Fair, 4: Good, 5: Excellent ,。MOS打分可以對合成語音的音質(zhì),可懂度,,相似度,,或者其他的分項進行評價,也可以對語音的整體自然度進行評價,。
2. INTERSPEECH 2017 語音合成論文介紹 2.1.1 PAPER Tue-O-4-1-1 — Speaker-Dependent WaveNet Vocoder 這篇文章是日本名古屋大學的文章,,主要是用WaveNet來做聲碼器,,不同于基本的WaveNet,這篇文章不再condition on 每一幀的 linguistic feature, 而是condition on acoustic feature(聲學參數(shù),,比如頻譜參數(shù) ,,基頻參數(shù))。通過給定每一幀的acoustic feature,,通過WaveNet,, 而不是傳統(tǒng)的聲碼器,就能得到合成語音,。實驗證明了,,對于不同的說話人集合,WaveNet聲碼器都好于傳統(tǒng)的 MLSA (Mel-Log S)聲碼器,。 但作者也提到訓練和WaveNet預測的過程非常慢,,用單GPU TITAN X, 對每一個說話人訓練需要2天時間,,并且合成僅僅2秒鐘的語音需要6分鐘的時間,。
2.1.2 PAPER Tue-O-4-1-2 — Waveform Modeling Using Stacked Dilated Convolutional Neural Networks for Speech Bandwidth Extension 2.1.3 PAPER Tue-O-4-1-5 — Statistical Voice Conversion with WaveNet-Based Waveform Generation 這篇文章也是名古屋大學的文章,,文章用WaveNet的結構實現(xiàn)說話人語音轉(zhuǎn)換(Voice Conversion),結論是好于傳統(tǒng)的GMM說話人轉(zhuǎn)換的方法,。這篇文章其實也是將WaveNet作為一個聲碼器,,在合成的時候,將轉(zhuǎn)換以后的語音參數(shù)作為condition生成speech wave,。下圖是基于WaveNet語音轉(zhuǎn)換的結構框圖,。 2.2 公司發(fā)表的介紹自己合成系統(tǒng)的文章 2.2.1 Apple : Siri On-Device Deep Learning-Guided Unit Selection Text-to-Speech System 這是 Siri 系統(tǒng)第一次發(fā)文章,主要介紹了apple最近 TTS 方面的 deep learning 方面的進展,, TTS 的性能提升,。從實驗結果來看,在各種不同的語種上,,基于Mix density network (MDN)的拼接語音合成系統(tǒng)明顯優(yōu)于之前的傳統(tǒng)的Siri拼接合成系統(tǒng),。以下是具體結果,。 2.2.2 Google’s Next-Generation Real-Time Unit-Selection Synthesizer using Sequence-To-Sequence LSTM-based Autoencoders 2.2.3 Nuance : Unit selection with Hierarchical Cascaded Long Short Term Memory Bidirectional Recurrent Neural Nets Nuance 公司也發(fā)表了介紹自己合成系統(tǒng)的文章。是一個基于Hierarchical LSTM 的拼接合成系統(tǒng),。結果證明Hierarchical LSTM結構在合成語音韻律上好于非Hierarchical LSTM,。 2.2.4 Google : Tacotron: Towards End-to-End Speech Synthesis 這篇 google 的文章早前在 arxiv 上放出,和 WaveNet 相比 Tacotron 系統(tǒng)是以 frame 而不是每一個 sample 點為單位進行模型訓練和預測,,所以速度上會更快,。Tacotron 是在 Spectrogram 上建模,不像 WaveNet 是在波形上建模,。所以和 WaveNet 相比,, Tacotron 還是損失了frame 相位的信息。最后Tacotron 通過 Griffin-Lim 算法直接從 Spectrogram 還原出wave,。 在 acoustic model 上面,, Tacotron 用了 pre-net 對每一個字的 embedding 進行了進一步的非線性編碼, 并且通過 CBHG 結構來增加模型的魯棒性,。在建模過程中,,作者使用了 Attention 的機制來控制每一幀的 condition。 模型也是通過 feed in 上一幀的輸出來得到當前幀的輸入,??偟膩碚f,這是一篇非常值得借鑒的文章,。 2.3一些其他的論文 02
—
52AI 52AI,專注服務于普通人的AI 學習和發(fā)展,,讓大眾受益于人工智能就是我們的愿望,。我們堅信只有對大眾收益的科技才是有意義的,也是我們追求的方向,。
|
|