久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

比 OpenAI 更好?。」雀璋l(fā)布 20 億參數(shù)通用語音模型——USM

 520jefferson 2023-03-09 發(fā)布于北京

Image

去年11月,,谷歌曾宣布“1000 種語言計劃”,,通過建立一個機器學習模型,從而支持世界上使用人數(shù)最多的 1000 種語言,。

近日,,谷歌正式發(fā)布 20 億參數(shù)通用語音模型——USM,可支持 100 多種語言自動識別內(nèi)容檢測,。谷歌將其描述為“最先進的通用語音模型”,,擁有 20 億個參數(shù),經(jīng)過了 1200 萬小時的語音,、280 億個句子和 300 多個語種數(shù)據(jù)集的預訓練,。

目前該模型在 Youtube 的字幕生成中已展現(xiàn)出來,可自動翻譯和檢測,,如英語,、普通話,甚至是阿塞拜疆語,、阿薩姆語等小眾語言,。

谷歌表示:“與 OpenAI 的大型通用語音模型 Whisper 相比,USM 的數(shù)據(jù)訓練時長更短,,錯誤率更低,。”

Image

支持 100 多種語言,,將面臨兩大挑戰(zhàn)

隨著微軟和谷歌就 AI 聊天機器人展開討論后,,我們逐漸清楚,這并不是機器學習和大語言模型的唯一用途,。

據(jù)傳言,,谷歌計劃在今年的年度 I/O 大會上展示 20 多款由 AI 驅(qū)動的產(chǎn)品。為了實現(xiàn)“1000種語言計劃”,,谷歌表示他們目前需要解決自動語音識別(ASR)中的兩大挑戰(zhàn),。

一是傳統(tǒng)的學習方法的缺乏可擴展性。將語音技術(shù)擴展到多語種的一個基本挑戰(zhàn)便是需要足夠的數(shù)據(jù)來訓練高質(zhì)量的模型,,使用傳統(tǒng)方法時,,需要手動將音頻數(shù)據(jù)進行標記,,既耗時、價格又高,。而對于那些小眾冷門的語種,,更難找到預先存在的來源收集。

二是在擴大語言覆蓋范圍和提高模型質(zhì)量的同時,,模型必須以高效的計算方法來改進,。這就要求學習算法更加靈活、高效,、可推廣,。這些算法需要使用來源廣泛的數(shù)據(jù),并在不用重復訓練的情況下更新模型,,再推廣到新的語言中,。

 Image

三個步驟降低錯誤率

據(jù)論文介紹,USM 使用的是標準的編碼器-解碼器架構(gòu),,其中解碼器是 CTC,、RNN-T 或 LAS,。編碼器則使用的是 Conformer 或卷積增強 transformer,。Conformer的關鍵組件是 Conformer 塊,它由注意力模塊,、前饋模塊和卷積模塊組成,。通過將語音信號的 log-mel 聲譜圖作為輸入,進行卷積下采樣,,然后使用一系列的 Conformer 塊和投影層得到最終的嵌入,。

訓練共分為三個步驟:

第一步,是使用 BEST-RQ 來對涵蓋數(shù)百種語種的語音音頻進行自我監(jiān)督學習,。

第二步,,需要使用多目標監(jiān)督預訓練來整合來自于其他文本數(shù)據(jù)的信息。該模型引入了一個額外的編碼器模塊來輸入文本,,并引入額外層來組合語音編碼器和文本編碼器的輸出,,并在未標記語音、標記語音和文本數(shù)據(jù)上聯(lián)合訓練模型,。

最后一步,,需要 USM 對下游任務進行微調(diào),包括 ASR(自動語音識別)和 AST(自動語音翻譯),。

Image

 Image

多項結(jié)果驗證

YouTube Captions 上的多語言表現(xiàn)

谷歌通過預訓練集成了 300 多種語言,,并通過對 YouTube Captions 的多語言語音數(shù)據(jù)進行微調(diào),證明了預先訓練的編碼器的有效性,。

受監(jiān)督的 YouTube 數(shù)據(jù)包括 73 種語言,,平均每種語言的數(shù)據(jù)不到 3000 小時,。盡管監(jiān)督數(shù)據(jù)有限,但 USM 在 73 種語言中實現(xiàn)了小于 30% 的單詞容錯率(WER),。與當前內(nèi)部最先進的模型相比,,還要低 6%。與最近發(fā)布的大型模型 Whisper (large-v2)相比,,USM 在 18 種語言中的錯誤率只有32.7%,,同樣低于 Whisper。

Image

Image

對下游 ASR 任務的可推廣性

在公開可用的數(shù)據(jù)集上,,USM 在 CORAAL (非裔美國人方言英語),、SpeechStew (en-US)和 FLEURS(102種語言)的數(shù)據(jù)集上的 WER 要比 Whisper 更低。不管是否接受過域內(nèi)數(shù)據(jù)訓練,,USM 的 WER 都更低,。

Image

Image

自動語音翻譯(AST)

對于語音翻譯,谷歌在 CoVoST 數(shù)據(jù)集上對 USM 進行微調(diào),。通過有限的監(jiān)督數(shù)據(jù)達到了最佳性能,。為了評估模型性能的廣度,谷歌根據(jù)資源可用性將 CoVoST 數(shù)據(jù)集中的語言劃分為高,、中,、低三種,并計算每個部分的 BLEU 得分(越高越好),。

如下圖所示,,USM 在所有細分領域的表現(xiàn)都優(yōu)于 Whisper。

Image

團隊表示,,谷歌的使命是整合全球信息并使人人皆可訪問,。而 USM 的開發(fā)便是實現(xiàn)這一使命的關鍵步驟?;?USM 基礎模型框架和訓練 pipeline,,未來谷歌可以將語音建模擴展至 1000 種語言。

Image

結(jié)語

目前,,USM 支持 100 多種語言,。團隊表示,谷歌的使命是整合全球信息并使人人皆可訪問,。

USM 的開發(fā)便是實現(xiàn)這一使命的關鍵步驟,。

相信不久,谷歌可以將語音建模擴展至 1000 種語言,。

參考鏈接:

https:///google-usm-shatters-language-barriers-with-multilingual-speech-recognition-model/

https:///abs/2303.01037

https://www./2023/3/6/23627788/google-1000-language-ai-universal-speech-model

https://ai./2023/03/universal-speech-model-usm-state-of-art.html

Image

    本站是提供個人知識管理的網(wǎng)絡存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導購買等信息,,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多