Meta AI大模型能識(shí)別4000多種語(yǔ)言,，稱(chēng)錯(cuò)誤率僅有OpenAI產(chǎn)品的一半

深柏淺覓探 2023-05-23 發(fā)布于江蘇

展開(kāi)全文

Meta 宣布，自己已經(jīng)建立了新的人工智能模型,，可以識(shí)別和產(chǎn)生 1000 多種語(yǔ)言的語(yǔ)音——比目前可用的模型增加了 10 倍,。該公司表示，這是朝著傳承有失傳風(fēng)險(xiǎn)的語(yǔ)言邁出的重要一步,。

Meta 正在通過(guò) GitHub 向公眾發(fā)布其模型,。它聲稱(chēng)，開(kāi)源這些模型將幫助使用不同語(yǔ)言的開(kāi)發(fā)人員構(gòu)建新的語(yǔ)音應(yīng)用程序——比如可以明白每個(gè)人所說(shuō)語(yǔ)言的消息傳遞服務(wù),，或者可以用于任何語(yǔ)言的虛擬現(xiàn)實(shí)系統(tǒng),。

世界上大約有 7000 種語(yǔ)言，但現(xiàn)有的語(yǔ)音識(shí)別模型卻只覆蓋了其中的大約 100 種語(yǔ)言,。這是因?yàn)榇祟?lèi)模型往往需要大量的已標(biāo)注訓(xùn)練數(shù)據(jù),，而這些數(shù)據(jù)只適用于少數(shù)語(yǔ)言，例如英語(yǔ),、西班牙語(yǔ)和漢語(yǔ),。

Meta 的研究人員通過(guò)重新訓(xùn)練該公司在 2020 年開(kāi)發(fā)的一種現(xiàn)有的人工智能模型，從而解決了這個(gè)問(wèn)題,，該模型能夠從音頻中學(xué)習(xí)語(yǔ)音模式,，而不需要大量的標(biāo)記數(shù)據(jù)，比如轉(zhuǎn)錄后的文字記錄,。

（來(lái)源：STEPHANIE ARNETT/MITTR | ENVATO）

他們對(duì)兩組新數(shù)據(jù)集進(jìn)行了訓(xùn)練：一套包含《圣經(jīng)·新約》的錄音,，以及來(lái)自互聯(lián)網(wǎng)上的 1107 種語(yǔ)言的圣經(jīng)對(duì)應(yīng)文本，另一組包含 3809 種語(yǔ)言的未標(biāo)記的圣經(jīng)錄音,。該團(tuán)隊(duì)首先處理了語(yǔ)音音頻和文本數(shù)據(jù),，以提高其質(zhì)量，然后運(yùn)行一種算法,，將音頻記錄與對(duì)應(yīng)的文本對(duì)齊,。然后，他們用新對(duì)齊的數(shù)據(jù)訓(xùn)練另一種算法,。有了這種方法,，研究人員能夠訓(xùn)練算法更容易地學(xué)習(xí)一種新的語(yǔ)言，即使沒(méi)有對(duì)應(yīng)的文本,。

“我們可以利用這個(gè)模型學(xué)到的東西,，用非常非常少的數(shù)據(jù)快速構(gòu)建語(yǔ)音系統(tǒng)，”擔(dān)任該項(xiàng)目的研究科學(xué)家的邁克爾·奧利（Michael Auli）說(shuō),?！?/span>

“對(duì)于英語(yǔ),，我們有很多很多好的數(shù)據(jù)集,，但對(duì)于一些語(yǔ)言而言,，我們可能找不到 1000 個(gè)使用者，我們拿不到好用的的數(shù)據(jù)集,?！?/span>

研究人員表示，他們的模型可以轉(zhuǎn)換 1000 多種語(yǔ)言,，但能識(shí)別 4000 多種語(yǔ)言,。

他們將這些模型與包括 OpenAI Whisper 在內(nèi)的競(jìng)爭(zhēng)對(duì)手的模型進(jìn)行了比較，并聲稱(chēng)它們的錯(cuò)誤率只有競(jìng)品的一半,，盡管 Meta 覆蓋的模型是競(jìng)品的 11 倍,。

然而，該團(tuán)隊(duì)警告說(shuō),，該模型仍然存在誤譯某些單詞或短語(yǔ)的風(fēng)險(xiǎn),，這可能導(dǎo)致不準(zhǔn)確或潛在的冒犯性標(biāo)注。他們還承認(rèn),，他們的語(yǔ)音識(shí)別模型比其他模型產(chǎn)生了更多的偏見(jiàn)詞匯,，不過(guò)只高出了 0.7%。

研究非洲語(yǔ)言自然語(yǔ)言處理的克里斯·艾姆祖（Chris Emezue）表示,，雖然這項(xiàng)研究的廣度令人印象深刻,，但使用宗教文本來(lái)訓(xùn)練人工智能模型可能存在爭(zhēng)議。他沒(méi)有參與這個(gè)項(xiàng)目,。

支持：Ren

原文：

https://www./2023/05/22/1073471/metas-new-ai-models-can-recognize-and-produce-speech-for-more-than-1000-languages/

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：深柏淺覓探 > 《公開(kāi)》

舉報(bào)/認(rèn)領(lǐng)