久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

西工大實(shí)驗(yàn)室負(fù)責(zé)人謝磊教授:智能語(yǔ)音技術(shù)新發(fā)展與發(fā)展趨勢(shì)

 深藍(lán)學(xué)院 2022-10-21 發(fā)布于北京
本文總結(jié)于西工大音頻語(yǔ)音與語(yǔ)言處理實(shí)驗(yàn)室(ASLP@NPU)負(fù)責(zé)人-謝磊教授在深藍(lán)學(xué)院的公開(kāi)課——智能語(yǔ)音技術(shù)的新進(jìn)展與發(fā)展趨勢(shì)—NPU-ASLP視角,。

大家好!感謝深藍(lán)學(xué)院的邀請(qǐng),!我代表西工大音頻語(yǔ)音與語(yǔ)言處理研究組向各位匯報(bào)一下我們實(shí)驗(yàn)室在智能語(yǔ)音技術(shù)方面的一些進(jìn)展,,基于實(shí)驗(yàn)室多位同學(xué)研究工作的總結(jié)。

針對(duì)人類(lèi)語(yǔ)音的研究是一門(mén)典型的交叉學(xué)科,,涉及聲學(xué),、聽(tīng)覺(jué),、信號(hào)處理、語(yǔ)音語(yǔ)言學(xué),、生理學(xué),、認(rèn)知科學(xué)、統(tǒng)計(jì)學(xué),、機(jī)器學(xué)習(xí)等眾多領(lǐng)域,。語(yǔ)音處理主要針對(duì)人類(lèi)的語(yǔ)音作為研究載體,除此之外,,對(duì)聲音的研究非常廣泛,,比如環(huán)境聲、音樂(lè)等,,統(tǒng)稱(chēng)為聽(tīng)覺(jué)(音頻)信息處理,。如果把做和聲音相關(guān)研究的人員加在一起,會(huì)是一個(gè)特別龐大的群體,,個(gè)人感覺(jué)規(guī)模不會(huì)少于CV領(lǐng)域,。

關(guān)于今天的主題——智能語(yǔ)音交互,主要是人和機(jī)器通過(guò)語(yǔ)音作為媒介進(jìn)行自然交互的形式,,從語(yǔ)音交互圓環(huán)(speech circle)這張圖看,,涉及到的核心技術(shù)主要包括四個(gè)方面,首先通過(guò)語(yǔ)音識(shí)別(ASR)轉(zhuǎn)成文字,,如果語(yǔ)音信號(hào)質(zhì)量不好的話,,前端會(huì)有一個(gè)語(yǔ)音增強(qiáng)模塊;然后是口語(yǔ)語(yǔ)言理解,,接下來(lái)是對(duì)話管理和口語(yǔ)語(yǔ)言生成,,而最終通過(guò)文語(yǔ)轉(zhuǎn)換(TTS)生成語(yǔ)音回饋給用戶(hù)。

回顧語(yǔ)音識(shí)別的發(fā)展,,在2000年之前,,語(yǔ)音識(shí)別的錯(cuò)誤率有明顯的改善,而在2000年到2010年期間,,我們做的很多努力很難再去進(jìn)一步降低識(shí)別的錯(cuò)誤率,。在大概2010年后,在深度學(xué)習(xí)的推動(dòng)下,,利用大數(shù)據(jù),、機(jī)器學(xué)習(xí)和大算力這“三駕馬車(chē)”,語(yǔ)音識(shí)別的識(shí)別準(zhǔn)確度再一次明顯提升,,錯(cuò)誤率再一次下降,,并且在一部分?jǐn)?shù)據(jù)集上實(shí)現(xiàn)了媲美人類(lèi)語(yǔ)音識(shí)別的精度。

語(yǔ)音識(shí)別是智能語(yǔ)音范疇內(nèi)的一個(gè)典型任務(wù),除此之外,,智能語(yǔ)音的任務(wù)還包括語(yǔ)音編碼,、語(yǔ)音增強(qiáng)、關(guān)鍵詞檢出,、聲紋識(shí)別等一系列任務(wù),,而智能語(yǔ)音技術(shù)能夠服務(wù)的方向主要包括三方面,一是自然人機(jī)交互,,二是自然人人交互,還有就是內(nèi)容分析與挖掘,,垂直落地的應(yīng)用非常多,,場(chǎng)景廣泛,價(jià)值巨大,。

智能語(yǔ)音涉及的具體方向眾多,,而接下來(lái)我將圍繞著我們實(shí)驗(yàn)室重點(diǎn)關(guān)注的三個(gè)方向——語(yǔ)音增強(qiáng)、語(yǔ)音識(shí)別和語(yǔ)音合成來(lái)展開(kāi)介紹,。

關(guān)于語(yǔ)音增強(qiáng),,這是一個(gè)非常經(jīng)典的研究課題,它的基本目的是減少噪聲干擾,,提高語(yǔ)音質(zhì)量,。在麥克風(fēng)拾音時(shí),會(huì)遇到語(yǔ)音隨距離增加而造成的衰減,、信道畸變,、房間混響、聲學(xué)回聲,,各種噪聲干擾和人聲干擾等眾多問(wèn)題,。傳統(tǒng)的基于統(tǒng)計(jì)信號(hào)處理的語(yǔ)音增強(qiáng)可以提供良好的平穩(wěn)噪聲抑制能力,而以數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法則將非平穩(wěn)的噪聲的抑制成為了可能,。

關(guān)于深度學(xué)習(xí)在語(yǔ)音增強(qiáng)中的應(yīng)用大致可以分為三個(gè)階段,,開(kāi)始的研究工作主要圍繞基礎(chǔ)的Masking和Regression范式,當(dāng)時(shí)的網(wǎng)絡(luò)的結(jié)構(gòu)比較簡(jiǎn)單,,主要針對(duì)幅度譜建模,,損失函數(shù)主要是MSE。

在第二階段,,研究者們展開(kāi)了更大膽的嘗試,,這體現(xiàn)在網(wǎng)絡(luò)結(jié)構(gòu)的多樣化,包括CRN,,Tasnet,,生成對(duì)抗網(wǎng)絡(luò)(GAN)的使用和最近的Transfomer結(jié)構(gòu);而建模也從時(shí)頻域延伸到直接在時(shí)域建模;損失函數(shù)更更多樣化,,包括MSE,、SI-SNR和PESQ等形式。

而在現(xiàn)階段,,AI降噪開(kāi)始落地應(yīng)用,,包括TWS耳機(jī)、在線會(huì)議系統(tǒng)等場(chǎng)景,,在線會(huì)議和直播后臺(tái)等應(yīng)用中,,可能都已經(jīng)有了AI語(yǔ)音增強(qiáng)網(wǎng)絡(luò)的嵌入,技術(shù)方面還出現(xiàn)了復(fù)數(shù)形式的網(wǎng)絡(luò)和各種更為精細(xì)化設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),。此外,,還有利用聲紋先驗(yàn)信息的個(gè)性化語(yǔ)音增強(qiáng)或稱(chēng)之為目標(biāo)說(shuō)話人提取。

基于DCCRN復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)

關(guān)于語(yǔ)音增強(qiáng),,我們實(shí)驗(yàn)室的同學(xué)在去年的Interspeech上發(fā)表了Deep Complex Convolution Recurrent Network(DCCRN)這個(gè)工作,,DCCRN采用經(jīng)典的U-Net結(jié)構(gòu),在CRN的基礎(chǔ)上綜合了復(fù)數(shù)卷積以及LSTM瞬態(tài)建模的優(yōu)勢(shì),。

它在模型復(fù)雜度和低延時(shí)(40ms)的要求下,,具有高性能降噪能力。在去年的Interspeech深度噪聲抑制競(jìng)賽(DNS)的實(shí)時(shí)賽道中,,取得了第一名的成績(jī),,這篇論文當(dāng)前在google scholar上的引用已經(jīng)達(dá)到了100次?;谏疃葘W(xué)習(xí)語(yǔ)音增強(qiáng)的一個(gè)問(wèn)題在于需要做降噪量和語(yǔ)譜保真上的折中,。

在今年,我們?cè)贒CCRN的基礎(chǔ)上又提出了同時(shí)兼顧聽(tīng)感與降噪的復(fù)數(shù)增強(qiáng)網(wǎng)絡(luò)DCCRN+,,在具有高降噪量的同時(shí),,提升語(yǔ)音的保真度。它的貢獻(xiàn)主要包括,,一個(gè)基于”可學(xué)習(xí)”的子帶劃分與合并,,減少模型大小和計(jì)算復(fù)雜度;二是實(shí)現(xiàn)了頻域和時(shí)域序列同時(shí)建模,;三是通過(guò)“卷積通道”獲取編碼器每層輸出的更豐富的信息,;四是以信噪比估計(jì)作為輔助任務(wù),降噪的同時(shí)提升聽(tīng)感,;五是在后處理中去除殘留噪聲,。

DCCRN+:兼顧語(yǔ)音保真與降噪量的復(fù)數(shù)增強(qiáng)網(wǎng)絡(luò)

人們對(duì)于語(yǔ)音通話的體驗(yàn)要求越來(lái)越高,比如更高采樣率,、甚至具有空間方位感的沉浸式開(kāi)會(huì)體驗(yàn),。近期在DCCRN的基礎(chǔ)上,為了處理超帶寬的語(yǔ)音數(shù)據(jù),我們還提出了超帶寬語(yǔ)音增強(qiáng)模型S-DCCRN,,用于增強(qiáng)32KHz采樣率的帶噪語(yǔ)音,。它的主要貢獻(xiàn)包括:

1.首先利用子帶DCCRN精細(xì)化學(xué)習(xí)高低頻信息,然后全帶DCCRN結(jié)合高低頻信息,,起到平滑銜接作用,;

2.同時(shí),通過(guò)網(wǎng)絡(luò)學(xué)習(xí)動(dòng)態(tài)調(diào)整不同頻帶能量,;

3.在和16K降噪模型保持相同的較低頻率分辨率的同時(shí),,通過(guò)復(fù)數(shù)特征編碼從譜上獲取更多的信息。

自去年推出DCCRN以來(lái),,目前已經(jīng)在這個(gè)上面有很多擴(kuò)展性的工作,,包括我們自己的DCCRN+,S-DCCRN,,以及同時(shí)做去混、降噪和分離的DesNet,,阿里,、NTNU等單位也做了多通道上的擴(kuò)展,值得注意的是近期微軟把DCCRN用于個(gè)性化語(yǔ)音增強(qiáng)即目標(biāo)說(shuō)話人增強(qiáng),,推出了pDCCRN方案,。除了DCCRN系列,近期我們也推出了Uformer,,基于復(fù)數(shù)和實(shí)數(shù)Unet和卷積核膨脹雙路Conformer,,具有更為強(qiáng)大的能力。

接下來(lái)我們展開(kāi)關(guān)于深度學(xué)習(xí)語(yǔ)音增強(qiáng)發(fā)展的相關(guān)討論,。目前,,雖然基于AI的降噪已經(jīng)有一定的應(yīng)用,但是在很多場(chǎng)合,,采用的還是基于信號(hào)處理的方案,,而“AI降噪”在實(shí)際落地的時(shí)候,出于對(duì)于資源的考慮,,很多精細(xì)設(shè)計(jì)的模型無(wú)法發(fā)揮優(yōu)勢(shì),。如何將信號(hào)處理和深度學(xué)習(xí)有機(jī)的結(jié)合在一起也是值得深度探索的。

此外,,語(yǔ)音增強(qiáng)除了給人聽(tīng)外,,另一個(gè)重要目的是為了更好的服務(wù)于包括語(yǔ)音識(shí)別在內(nèi)的下游任務(wù),而現(xiàn)狀卻是深度學(xué)習(xí)語(yǔ)音增強(qiáng)給語(yǔ)音識(shí)別帶來(lái)的提升有限,,甚至有些情況可能是副作用,,這是因?yàn)檎Z(yǔ)音識(shí)別通過(guò)多場(chǎng)景訓(xùn)練策略已經(jīng)考慮到了噪聲的影響,同時(shí)端到端語(yǔ)音識(shí)別模型的能力很強(qiáng),深度學(xué)習(xí)語(yǔ)音增強(qiáng)處理過(guò)的語(yǔ)譜語(yǔ)音識(shí)別模型卻沒(méi)有見(jiàn)過(guò),。

我們可以嘗試在訓(xùn)練過(guò)程中,,把增強(qiáng)后的數(shù)據(jù)和原始數(shù)據(jù)同時(shí)加入,進(jìn)行聯(lián)合訓(xùn)練,,甚至前后端聯(lián)合建模,。但是在實(shí)際使用中,我們往往希望完全解耦前后端,,不希望聯(lián)合訓(xùn)練,。此外,更細(xì)致,、全面和快捷的數(shù)據(jù)仿真方案也可能會(huì)提升模型訓(xùn)練后的效果,。與此同時(shí),而視覺(jué),、聲紋等先驗(yàn)信息的有效利用也是提升語(yǔ)音增強(qiáng)模型效果的重要途徑,,近期我們也看到了這個(gè)方向上非常多有益的探索甚至開(kāi)始落地。

WeNet語(yǔ)音識(shí)別工具包

關(guān)于語(yǔ)音識(shí)別,,端對(duì)端的方案在這兩年得到了更廣泛的認(rèn)可,,大家可以關(guān)注下我們?cè)诮鉀Q領(lǐng)域適配或?qū)S忻~識(shí)別不佳的Cascade RNNT方案以及簡(jiǎn)化Conformer計(jì)算復(fù)雜度的方案。此外,,我們發(fā)布的WeNet作為一個(gè)輕量級(jí)端到端語(yǔ)音識(shí)別全棧解決方案,,功能不斷豐富,包括對(duì)于語(yǔ)言模型的支持,、端點(diǎn)檢測(cè),、時(shí)間戳對(duì)齊、以及預(yù)訓(xùn)練模型的支持等等,。眾多學(xué)術(shù)界和工業(yè)界的同行們也在圍繞它展開(kāi)更多的擴(kuò)展,。

語(yǔ)音識(shí)別雖然已經(jīng)在各個(gè)應(yīng)用領(lǐng)域落地,但是仍然不能說(shuō)是一個(gè)完全解決了的問(wèn)題,,因?yàn)閷?shí)際應(yīng)用場(chǎng)景面臨各種挑戰(zhàn),,總結(jié)而言挑戰(zhàn)主要包括魯棒性、低資源和復(fù)雜場(chǎng)景三個(gè)方面,。

魯棒性的典型問(wèn)題包括口音方言,、語(yǔ)種混雜或多語(yǔ)種、領(lǐng)域適配等,;低資源是指系統(tǒng)部署的資源有限和標(biāo)注數(shù)據(jù)缺乏的場(chǎng)景,,前者典型的是AIoT場(chǎng)景下各種端側(cè)設(shè)備部署對(duì)模型大小、算力的限制,,而標(biāo)注數(shù)據(jù)缺乏也是限制語(yǔ)音識(shí)別走向各個(gè)垂域和語(yǔ)種的關(guān)鍵因素,,因?yàn)榇褂蛱嗔?,缺乏?biāo)注數(shù)據(jù)的小語(yǔ)種太多了;語(yǔ)音識(shí)別在部署時(shí)面臨的場(chǎng)景可能非常復(fù)雜,,例如多人會(huì)議,、自然對(duì)話等場(chǎng)景,各類(lèi)復(fù)雜噪聲干擾等,。為了解決這些問(wèn)題,,無(wú)監(jiān)督自學(xué)習(xí)、前后端一體化,、語(yǔ)音語(yǔ)義一體化提供了可能,。

接下來(lái)分享的是我們?cè)诙藗?cè)部署指令識(shí)別上的相關(guān)工作。在端側(cè)部署進(jìn)行指令識(shí)別時(shí),,遇到的最大的問(wèn)題之一就是指令混淆的問(wèn)題,,比如控制空調(diào)的“二十一度”可能誤識(shí)別成“十一度”,兩個(gè)指令發(fā)音上很接近,,語(yǔ)速一快可能就識(shí)別錯(cuò)了,。

對(duì)此,我們近期提出了最小序列混淆錯(cuò)誤準(zhǔn)則(Minimize sequential confusion error(MSCE) training)用于指令識(shí)別模型的判別式訓(xùn)練,。MSCE通過(guò)增加指令間區(qū)分度,,來(lái)緩解混淆詞錯(cuò)誤。雖然語(yǔ)音任務(wù)本身是序列標(biāo)注任務(wù),,但是指令詞之間可以認(rèn)為是單個(gè)分類(lèi)任務(wù),,對(duì)于分類(lèi)任務(wù),,可以使用MCE準(zhǔn)則進(jìn)行區(qū)分性訓(xùn)練,,增大類(lèi)間區(qū)分性。

此外,,使用CTC準(zhǔn)則作為序列到類(lèi)別的橋梁,,在此基礎(chǔ)上增加指令間的區(qū)分性。感興趣的同學(xué)可以關(guān)注我們后續(xù)發(fā)布的論文,。實(shí)驗(yàn)表明,,MSCE在空調(diào)指令識(shí)別任務(wù)上有14--18%相對(duì)混淆錯(cuò)誤的降低。第二個(gè)工作是關(guān)于多說(shuō)話人的語(yǔ)音識(shí)別,,我們提出了基于說(shuō)話人條件鏈的非自回歸多說(shuō)話人語(yǔ)音識(shí)別方案,,迭代式地預(yù)測(cè)每個(gè)說(shuō)話人的輸出,通過(guò)說(shuō)話人條件鏈建模每個(gè)輸出之間依賴(lài)性,, 每次迭代使用 Conformer-CTC 進(jìn)行非自回歸并行解碼 ,,該方案可以處理不同混合說(shuō)話人混合數(shù)目的語(yǔ)音。

在對(duì)話語(yǔ)音識(shí)別中,,有效利用上下文信息是非常直觀的想法,。我們嘗試了進(jìn)行跨句注意力機(jī)制建模,,通過(guò)在Transfomer中引入殘差注意力編碼器和條件注意力解碼器,引入額外的歷史信息,,從而在HKUST,、Switchboard等數(shù)據(jù)集中實(shí)現(xiàn)了更好的識(shí)別效果。

還有一個(gè)工作的思路是通過(guò)語(yǔ)義去“反哺”語(yǔ)音,,通過(guò)考慮對(duì)話局部連貫性,、角色偏好、說(shuō)話人輪轉(zhuǎn)等對(duì)話語(yǔ)音的獨(dú)特性,,學(xué)習(xí)對(duì)話中的特征信息,,在多個(gè)代表數(shù)據(jù)集上的結(jié)果也說(shuō)明了這一方案的有效性。

接下來(lái)給大家分享的是我們牽頭開(kāi)源的幾個(gè)數(shù)據(jù)集,。第一個(gè)是AISHELL-4,,它是用于語(yǔ)音增強(qiáng)、分離,、識(shí)別和說(shuō)話人日志的中文會(huì)議場(chǎng)景語(yǔ)料庫(kù),,有120小時(shí)左右的時(shí)長(zhǎng)。

另一個(gè)是AiMeeting 120小時(shí)會(huì)議語(yǔ)音數(shù)據(jù)集,。這兩個(gè)都是真實(shí)會(huì)議場(chǎng)景錄制的多通道語(yǔ)音數(shù)據(jù),,特別適合會(huì)議場(chǎng)景的相關(guān)研究?;谶@兩個(gè)語(yǔ)料庫(kù),,我們還在ICASSP2022上發(fā)起了M2MeT會(huì)議場(chǎng)景語(yǔ)音挑戰(zhàn)賽,包括說(shuō)話人日志和多說(shuō)話人語(yǔ)音識(shí)別兩個(gè)任務(wù),,同時(shí)提供了對(duì)應(yīng)的基線系統(tǒng),。

還有一個(gè)就是新近開(kāi)源的WenetSpeech數(shù)據(jù)集,它是全球最大的多領(lǐng)域中文語(yǔ)音識(shí)別數(shù)據(jù)集,,通過(guò)從網(wǎng)絡(luò)上爬取內(nèi)容非常豐富的中文語(yǔ)音數(shù)據(jù),,進(jìn)行自動(dòng)化標(biāo)注和置信度篩選,最終獲得了超過(guò)1萬(wàn)小時(shí)的高質(zhì)量標(biāo)注數(shù)據(jù),,利用該數(shù)據(jù)和WeNet工具包訓(xùn)練的端到端語(yǔ)音識(shí)別模型在SpeechIO的leaderboard上獲得了業(yè)界SOTA的識(shí)別性能,。

WenetSpeech:全球最大多領(lǐng)域中文語(yǔ)音識(shí)別數(shù)據(jù)集

最后來(lái)匯報(bào)一下我們?cè)谡Z(yǔ)音合成領(lǐng)域的一些探索。目前基于序列到序列模型和神經(jīng)聲碼器的方案已經(jīng)獲得了廣泛引用,,甚至在一些限定領(lǐng)域獲得了媲美真人語(yǔ)音的效果,,然而當(dāng)前離真正“復(fù)刻”人類(lèi)語(yǔ)音還有很長(zhǎng)的路要走。

比如篇章合成,、表現(xiàn)力和可控性,、低質(zhì)數(shù)據(jù)建模、少樣本和單樣本音色克隆,、完全端到端建模,、高表現(xiàn)力歌唱合成以及如何把說(shuō)話和唱歌統(tǒng)一建模做到一個(gè)統(tǒng)一的發(fā)音模型等,。在這些方面,我們實(shí)驗(yàn)室近期典型的探索介紹如下,??煽貙?duì)話TTS——實(shí)現(xiàn)擬人化的對(duì)話語(yǔ)音合成,甚至可以控制合成口語(yǔ)對(duì)話的講話流利程度,。

MsEmoTTS是我們近期提出的一個(gè)多層級(jí)的情感語(yǔ)音合成方案,,可以在一個(gè)模型框架里實(shí)現(xiàn)情感遷移、預(yù)測(cè)和控制,。我們的“單人千面”方案,,在每個(gè)發(fā)音人只有一種風(fēng)格錄音的條件下,實(shí)現(xiàn)了有效的風(fēng)格解耦與交叉,,例如朗讀風(fēng)格的發(fā)音人可以讀唐詩(shī),、做客服。

最后,,我們?cè)赩ITS端到端TTS的基礎(chǔ)上,,做出了多方面的改進(jìn),進(jìn)而又提出了一個(gè)端到端歌唱合成方案VISinger,。另外,,我們也將聯(lián)合網(wǎng)易伏羲等多家單位在Wenet開(kāi)源社區(qū)開(kāi)源一個(gè)中文歌唱合成數(shù)據(jù)庫(kù),包括一個(gè)專(zhuān)業(yè)歌手100首左右的中文流行歌曲和高質(zhì)量的標(biāo)注,,敬請(qǐng)關(guān)注,。

基于端到端深度學(xué)習(xí)的語(yǔ)音合成:挑戰(zhàn)性問(wèn)題

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多