Meta 宣布,自己已經(jīng)建立了新的人工智能模型,,可以識(shí)別和產(chǎn)生 1000 多種語(yǔ)言的語(yǔ)音——比目前可用的模型增加了 10 倍,。該公司表示,這是朝著傳承有失傳風(fēng)險(xiǎn)的語(yǔ)言邁出的重要一步,。 Meta 正在通過(guò) GitHub 向公眾發(fā)布其模型,。它聲稱(chēng),開(kāi)源這些模型將幫助使用不同語(yǔ)言的開(kāi)發(fā)人員構(gòu)建新的語(yǔ)音應(yīng)用程序——比如可以明白每個(gè)人所說(shuō)語(yǔ)言的消息傳遞服務(wù),,或者可以用于任何語(yǔ)言的虛擬現(xiàn)實(shí)系統(tǒng),。 世界上大約有 7000 種語(yǔ)言,但現(xiàn)有的語(yǔ)音識(shí)別模型卻只覆蓋了其中的大約 100 種語(yǔ)言,。這是因?yàn)榇祟?lèi)模型往往需要大量的已標(biāo)注訓(xùn)練數(shù)據(jù),,而這些數(shù)據(jù)只適用于少數(shù)語(yǔ)言,例如英語(yǔ),、西班牙語(yǔ)和漢語(yǔ),。 Meta 的研究人員通過(guò)重新訓(xùn)練該公司在 2020 年開(kāi)發(fā)的一種現(xiàn)有的人工智能模型,從而解決了這個(gè)問(wèn)題,,該模型能夠從音頻中學(xué)習(xí)語(yǔ)音模式,,而不需要大量的標(biāo)記數(shù)據(jù),比如轉(zhuǎn)錄后的文字記錄,。 (來(lái)源:STEPHANIE ARNETT/MITTR | ENVATO) 他們對(duì)兩組新數(shù)據(jù)集進(jìn)行了訓(xùn)練:一套包含《圣經(jīng)·新約》的錄音,,以及來(lái)自互聯(lián)網(wǎng)上的 1107 種語(yǔ)言的圣經(jīng)對(duì)應(yīng)文本,另一組包含 3809 種語(yǔ)言的未標(biāo)記的圣經(jīng)錄音,。該團(tuán)隊(duì)首先處理了語(yǔ)音音頻和文本數(shù)據(jù),,以提高其質(zhì)量,然后運(yùn)行一種算法,,將音頻記錄與對(duì)應(yīng)的文本對(duì)齊,。然后,他們用新對(duì)齊的數(shù)據(jù)訓(xùn)練另一種算法,。有了這種方法,,研究人員能夠訓(xùn)練算法更容易地學(xué)習(xí)一種新的語(yǔ)言,即使沒(méi)有對(duì)應(yīng)的文本,。 “我們可以利用這個(gè)模型學(xué)到的東西,,用非常非常少的數(shù)據(jù)快速構(gòu)建語(yǔ)音系統(tǒng),”擔(dān)任該項(xiàng)目的研究科學(xué)家的邁克爾·奧利(Michael Auli)說(shuō),?!?/span> “對(duì)于英語(yǔ),,我們有很多很多好的數(shù)據(jù)集,,但對(duì)于一些語(yǔ)言而言,,我們可能找不到 1000 個(gè)使用者,我們拿不到好用的的數(shù)據(jù)集,?!?/span> 研究人員表示,他們的模型可以轉(zhuǎn)換 1000 多種語(yǔ)言,,但能識(shí)別 4000 多種語(yǔ)言,。 他們將這些模型與包括 OpenAI Whisper 在內(nèi)的競(jìng)爭(zhēng)對(duì)手的模型進(jìn)行了比較,并聲稱(chēng)它們的錯(cuò)誤率只有競(jìng)品的一半,,盡管 Meta 覆蓋的模型是競(jìng)品的 11 倍,。
研究非洲語(yǔ)言自然語(yǔ)言處理的克里斯·艾姆祖(Chris Emezue)表示,,雖然這項(xiàng)研究的廣度令人印象深刻,,但使用宗教文本來(lái)訓(xùn)練人工智能模型可能存在爭(zhēng)議。他沒(méi)有參與這個(gè)項(xiàng)目,。 支持:Ren 原文: https://www./2023/05/22/1073471/metas-new-ai-models-can-recognize-and-produce-speech-for-more-than-1000-languages/ |
|