不認字也沒事兒，谷歌AI直接用音頻翻音頻

天正恒業(yè)168 2020-01-16

展開全文

bulgin

在我們的世界里,，谷歌翻譯是這樣的：

一直被調戲的翻譯娘

在谷歌的世界里,，谷歌翻譯是這樣的：

西語英語：你不問，就不會知道了

請注意,，視頻里的文字只是為了便于觀賞,，才存在的。

而AI在翻譯語音的時候,，不把西語的音頻轉成文本,，也不生成任何英語的文本，直接產(chǎn)出了英文音頻,。和標答一字不差,。

這是谷歌團隊的最新成果，想法大膽而有效。

仿佛在雙語環(huán)境里出生的小朋友,，還沒識字,，就能把爸爸說的話翻譯給媽媽。

怎么會不用看文本?

這個翻譯模型,，名字叫做S2ST(全稱Speech-to-Speech Translation) ,。

不看文本只靠聽，背后的原理是把一種語音的聲譜圖(Spectrogram) ,，映射到另一種語音的聲譜圖上,。

那么，聲譜圖什么樣?

下圖就是 (西語) “你好么,，嘿,，我是威廉，你怎么樣啊?”的聲譜圖,。

橫軸是時間,，縱軸是Mel頻率

然后是目標，英文的聲譜圖,。

AI只要從大量的成對數(shù)據(jù)里,，學懂英文和西語的聲譜映射關系，就算不識別人類說的是什么字,，依然能當上翻譯員,。

當然，一個完整的翻譯模型,，并沒有上面說的這么簡單,，它由三個部分組成：

一是基于注意力的序列到序列 (seq2seq) 神經(jīng)網(wǎng)絡。就是下圖的藍色部分,，它負責生成目標聲譜圖,，這只是第一步，還不是音頻;

二是一個聲碼器(Vocoder) ,。下圖的紅色部分,，它會把聲譜圖轉換成時域波形 (Time-Domain Waveforms) ，這已經(jīng)是帶有時間順序的正經(jīng)聲波了;

三是個可選的附加功能,，原本說話人的編碼器,。綠色部分，經(jīng)過它的加工,，翻譯出的英文,，和原本的西語，聽上去就像同一個人發(fā)出來的,。

當然,，藍色部分還是主角。

里面的編碼器 (左) ，是8層雙向LSTM堆起來的;而解碼器 (Spectrogram Decoder) ,，團隊說要選4-6層LSTM的,，深一點效果比較好。

成功了

模型是用人類自發(fā)的對話 (比如打電話的語音) 端到端訓練出來的,，一起來看看成果吧,。

第一題，短語,?！翱颂m菲爾德大學的新員工”，翻譯和標答一字不差,。

原文：nuevos empleados de Cranfield University

標答：New hires at Cranfield University

第二題,，句子?！翱纯催@個國家上下,，你看到了什么”，依然和標答一致,。

原文：Por lo tanto, mirar alrededor del país y lo que ves.

標答：So, look around the country and whatdoyou see?

對手表現(xiàn)怎樣?借助轉換文本來翻譯的AI,，缺了個“do”字：

第三題，帶從句的句子,?！拔业谋?(堂) 兄弟姐妹們小的時候，我照顧過他們也教過他們,，有過一些這樣的經(jīng)歷,。”

原文：Tengo cierta experiencia en cuidar y ense?ar a mis primos cuando eran jóvenes.

標答：I’ve got some experience in looking after and teaching my cousins when they were young.

照顧(TakingCare of) 有缺失,，其他部分對比標答是完整的。

再看對手,，“照顧 (Care) ”和“教 (Teach) ”都用了動詞原形,，語法不是很嚴格：

肉眼看過之后，再讓S2ST和先轉換文本再翻譯的AI對比一下BLEU分,。

在“Conversational”大數(shù)據(jù)集上,，S2ST的BLEU分比對手差了6分：42.7比48.7。

的確還有一些差距,，但畢竟對手依靠了文本,，算是開卷考了。

這樣說來,，直接跳過文本的想法,，雖然聽起來有些飄，但結果證明是可行的。

所以,，谷歌團隊說,，大有可為啊。

本站是提供個人知識管理的網(wǎng)絡存儲空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導購買等信息,，謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,，請點擊一鍵舉報,。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：天正恒業(yè)168 > 《待分類》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

天正恒業(yè)168

關注對話

TA的最新館藏

麒麟980 VS 蘋果A12處理器,，誰是游戲王
高通驍龍855特性規(guī)格表,，看看有多強大,！
高通驍龍855 5G技術揭秘：支持8K視頻,、毫米波
高通驍龍855 5G技術參數(shù)揭秘：支持Wifi-6,、8K視頻傳輸、TDD和FDD制式,！
高通新一代旗艦處理器驍龍855正式亮相
高通與諾基亞完成5G通話測試備戰(zhàn)2019年5G商用

喜歡該文的人也喜歡更多

熱門閱讀換一換

久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

不認字也沒事兒，谷歌AI直接用音頻翻音頻