【原】憑聲音即可認(rèn)證身份，語音識(shí)別存在哪些發(fā)展瓶頸,？

最極客 2020-07-23

展開全文

?最極客

最具極客精神的新媒體

近日,、貴州省政府、清華大學(xué)和相關(guān)企業(yè)聯(lián)合宣布，正在合作開展一項(xiàng)試點(diǎn)項(xiàng)目,。該項(xiàng)目將人們獨(dú)有的語音特征與身份證信息關(guān)聯(lián),，以此創(chuàng)建并維護(hù)聲紋數(shù)據(jù)庫。

如今,，在商場(chǎng),、銀行、酒店,、安檢處最常見的識(shí)別方法是人臉識(shí)別技術(shù),。中國對(duì)人臉識(shí)別技術(shù)的部署力度在其他國家并不常見，而聲紋數(shù)據(jù)庫的創(chuàng)建,，意味著中國市場(chǎng)在生物技術(shù)方面正向語音識(shí)別發(fā)展,。

經(jīng)歷了幾十年的發(fā)展，目前語音識(shí)別技術(shù)已經(jīng)發(fā)展到一個(gè)相對(duì)成熟的階段,，在各個(gè)領(lǐng)域都逐漸起到作用,。在中國，語音識(shí)別技術(shù)很可能繼人臉識(shí)別技術(shù)之后成為下一個(gè)普及的識(shí)別方式,。在語音識(shí)別逐漸得到發(fā)展的同時(shí),，也存在著一些不可避免的問題，而要解決這些問題還有待于語音識(shí)別技術(shù)在各方面的進(jìn)一步發(fā)展,。

語

音識(shí)別發(fā)展?jié)u趨成熟,，未來或成生物識(shí)別主流方式

語音識(shí)別技術(shù)，也被稱為自動(dòng)語音識(shí)別（ASR）,。其目標(biāo)是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的數(shù)據(jù),，如字符序列或二進(jìn)制編碼等。

不過,，早在計(jì)算機(jī)發(fā)明之前,，人類就已經(jīng)開始了對(duì)語音識(shí)別技術(shù)的研究，早期的聲碼器即可看作是語音識(shí)別及合成的雛形,。1920年代生產(chǎn)的“Radio Rex”玩具狗可能是最早的語音識(shí)別器,。只要呼喚這只狗的名字，他就會(huì)從底座上彈出來,。

1952年,，貝爾研究所的Davis等人開發(fā)了Audrey語音識(shí)別系統(tǒng)，成為世界上首個(gè)能夠識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),。其識(shí)別方法主要是追蹤語音中的共振峰,，該系統(tǒng)的準(zhǔn)確率為98%。到1950年代末,，College of London（倫敦學(xué)院）將語法概率加入語音識(shí)別中,。

1960年，英國的Denes等人研究成功了第一個(gè)計(jì)算機(jī)語音識(shí)別系統(tǒng)，同時(shí)人工神經(jīng)網(wǎng)絡(luò)被引入語音識(shí)別,。70年代后,，語音識(shí)別在孤立詞及小詞匯量的識(shí)別方面取得了實(shí)質(zhì)性進(jìn)展。

到了80年代,，研究重點(diǎn)轉(zhuǎn)向大詞匯量,、非特定人連續(xù)語音識(shí)別,。與此同時(shí),，語音識(shí)別的研究思路由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)轉(zhuǎn)為基于HMM（統(tǒng)計(jì)模型）的技術(shù)，并再次提出將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識(shí)別領(lǐng)域的技術(shù)思路,。

1981年,，日本在第五代計(jì)算機(jī)計(jì)劃中提出了關(guān)于語音識(shí)別輸入-輸出自然語言的目標(biāo)。盡管沒有按照預(yù)期實(shí)現(xiàn),，但關(guān)于語音識(shí)別技術(shù)的研究有了大幅度的提升和進(jìn)展,。1987年開始，日本又出臺(tái)了高級(jí)人機(jī)口語接口和自動(dòng)電話翻譯系統(tǒng)的項(xiàng)目,。

進(jìn)入90年代以后,，在語音識(shí)別的系統(tǒng)框架方面并沒有什么重大突破。但是,，在語音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展,。

中國的語音識(shí)別發(fā)展研究起始于1958年，由中國科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音,。1973年,，中國科學(xué)院聲學(xué)所開始了對(duì)計(jì)算機(jī)語音識(shí)別的研究。由于當(dāng)時(shí)被條件所限,，中國語音識(shí)別研究工作一直處于緩慢發(fā)展的狀態(tài),。

進(jìn)入80年代，計(jì)算機(jī)應(yīng)用技術(shù)在中國逐漸普及,，數(shù)字信號(hào)技術(shù)進(jìn)一步發(fā)展,，國內(nèi)許多單位具備了研究語音技術(shù)的基本條件。同時(shí),，語音識(shí)別技術(shù)成為國際上的研究熱點(diǎn)并且迅速發(fā)展,。在這種情勢(shì)之下，中國有更多的機(jī)構(gòu)投入此項(xiàng)研究,。

1986年3月,，中國高科技發(fā)展計(jì)劃（863計(jì)劃）啟動(dòng)，因?yàn)檎Z音識(shí)別是智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分,，故而被專門列為研究課題,。在863計(jì)劃的支撐下，中國開始了有組織的語音識(shí)別技術(shù)的研究。由此,，中國語音識(shí)別技術(shù)進(jìn)入了一個(gè)前所未有的發(fā)展階段,。

2006年深度學(xué)習(xí)興起，2009年深度學(xué)習(xí)首次在語音識(shí)別任務(wù)中取得成功,，基于深度學(xué)習(xí)的語音識(shí)別取得了很大的突破,。在技術(shù)方面，語音識(shí)別從最初的前饋全連接神經(jīng)網(wǎng)絡(luò),，到之后的遞歸神經(jīng)網(wǎng)絡(luò),，到長短時(shí)記憶模型，再到當(dāng)前包含數(shù)十層結(jié)構(gòu)的深層全卷積神經(jīng)網(wǎng)絡(luò),。網(wǎng)絡(luò)結(jié)構(gòu)愈加復(fù)雜,，但也越來越能夠契合語音的特性從而實(shí)現(xiàn)建模，相應(yīng)的效果也愈發(fā)顯著,。

當(dāng)下,，基于深度學(xué)習(xí)的語音識(shí)別系統(tǒng)已經(jīng)通過海量的用戶大數(shù)據(jù)訓(xùn)練得到了一個(gè)通用的識(shí)別系統(tǒng)，在日常場(chǎng)合已經(jīng)能夠?qū)崿F(xiàn)應(yīng)用,。技術(shù)的成熟以及廣闊的前景使得許多互聯(lián)網(wǎng)公司也紛紛入局語音識(shí)別領(lǐng)域,。

去年12月，阿里巴巴宣布為上海全部地鐵站的售票機(jī)安裝語音識(shí)別技術(shù),，用以驗(yàn)證上班族的身份,。科大訊飛也在安徽為醫(yī)療信息提供語音簽名服務(wù),，同時(shí)為警方提供語音識(shí)別服務(wù),。此外，百度,、騰訊也分別在語音識(shí)別領(lǐng)域有所動(dòng)作,。

由此可見，語音識(shí)別技術(shù)很可能成為繼人臉識(shí)別技術(shù)后的下一個(gè)生物識(shí)別的主流方式,，并逐漸受到廣泛的關(guān)注和消費(fèi)級(jí)的應(yīng)用,。但在發(fā)展過程中，仍然不可避免地會(huì)遭遇一些瓶頸,。

語

音識(shí)別技術(shù)基本成型,，但發(fā)展過程中仍遭遇瓶頸

目前，語音識(shí)別技術(shù)基本成型,，處于較為成熟的狀態(tài),。例如在語音識(shí)別的Switchboard任務(wù)方面，最新的IBM已經(jīng)能將錯(cuò)誤率控制在5.5%之下,，有經(jīng)驗(yàn)的轉(zhuǎn)寫人員在這個(gè)任務(wù)中可以達(dá)到4%之下,。因此,，這類安靜環(huán)境下的語音識(shí)別系統(tǒng)已經(jīng)近似于人類水平。

目前的進(jìn)展多處于應(yīng)用層面,。語音合成技術(shù)被應(yīng)用在更多領(lǐng)域,，而且從原始的機(jī)器聲音已經(jīng)進(jìn)化到能夠發(fā)出自然人的聲音的程度，甚至現(xiàn)在出現(xiàn)各種明星聲音的語音助手,。在語音識(shí)別方面,，市面上已經(jīng)出現(xiàn)了針對(duì)方言口音的語音軟件。在語義理解方面,，聊天機(jī)器人正處在迅速進(jìn)化的過程中,，甚至能夠講笑話。在語音喚醒方面,，智能音箱等產(chǎn)品大量出現(xiàn),。雖然在這些應(yīng)用中,，許多產(chǎn)品并沒有達(dá)到高層智能的水平,，但也給語音識(shí)別技術(shù)指明了方向。

實(shí)際上,，語音識(shí)別技術(shù)在發(fā)音規(guī)范且背景噪音可控的環(huán)境下,，在很多年前就能夠進(jìn)入應(yīng)用階段。不少尖端系統(tǒng)在工程水平很高的情況下還可以做的更好,，如早期的Siri及DARPA項(xiàng)目語音識(shí)別評(píng)測(cè)中的各種參賽系統(tǒng),。

但在飛速進(jìn)步的過程中，語音識(shí)別仍無法避免遇到某些瓶頸,。

在強(qiáng)噪聲干擾的情況下,，目前的語音識(shí)別系統(tǒng)還很難達(dá)到實(shí)用化要求。在自然發(fā)音,、噪聲,、口音等復(fù)雜條件下，語音識(shí)別的準(zhǔn)確率明顯下降,。此外,，語音的訓(xùn)練和測(cè)試用數(shù)據(jù)的匹配也并不十分契合。

想要解決環(huán)境復(fù)雜的問題,，除了高超的技術(shù)之外,，聲學(xué)模型自適應(yīng)等也是不錯(cuò)的方式。對(duì)于匹配問題則可以更加偏向研究方向,，對(duì)語音本質(zhì)進(jìn)行更為深入的理解,。

例如在人類的聽覺系統(tǒng)中，存在一種“雞尾酒會(huì)效應(yīng)”：人類在具有背景噪聲干擾的情況下,，依然能夠?qū)⒆⒁饬性谀骋粋€(gè)人的談話上,?？梢詫⑷祟惵犛X系統(tǒng)的這種功能賦予語音識(shí)別系統(tǒng)，但就目前的技術(shù)而言依然很難實(shí)現(xiàn),。

同時(shí),，遠(yuǎn)場(chǎng)識(shí)別也依然是個(gè)充滿挑戰(zhàn)性的問題。當(dāng)前,，語音識(shí)別的遠(yuǎn)場(chǎng)錯(cuò)誤率是近場(chǎng)的兩倍左右,。因此，解決遠(yuǎn)場(chǎng)及強(qiáng)噪聲干擾情況下的語音識(shí)別是當(dāng)前的一個(gè)有待進(jìn)一步研究的問題,。

對(duì)于這個(gè)問題,，目前的主要解決方法是語音識(shí)別和麥克風(fēng)陣列相結(jié)合。通過陣列信號(hào)處理技術(shù),，增強(qiáng)多通道語音技術(shù),，而后利用深度學(xué)習(xí)的方法進(jìn)行聲學(xué)建模。當(dāng)然,，這種方案有待于進(jìn)步和優(yōu)化,，并且要考慮多方面的問題。如怎樣將陣列信號(hào)處理技術(shù)和深度學(xué)習(xí)方法相結(jié)合,，利用陣列信號(hào)處理的相關(guān)知識(shí)指導(dǎo)深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì),，以便直接從多通道語音信號(hào)中學(xué)習(xí)多通道語音增強(qiáng)方法，而后和后端聲學(xué)模型聯(lián)合優(yōu)化等,。

另外,，個(gè)體發(fā)音以及用詞習(xí)慣都存在差異性，所以如何使得語音識(shí)別更加智能化也是一個(gè)問題,。

可以看到,，語音識(shí)別已經(jīng)走到一個(gè)相對(duì)成熟的發(fā)展階段，未來也會(huì)在應(yīng)用級(jí)市場(chǎng)普及,，但在發(fā)展過程中仍然存在許多瓶頸,。生物技術(shù)識(shí)別方式先進(jìn)而便捷，但人們不免擔(dān)心其中所涉及到的隱私問題,。

當(dāng)然,，目前語音識(shí)別技術(shù)并未大規(guī)模普及，但在那一天到來之前,，人們需要彌補(bǔ)語音識(shí)別技術(shù)中存在的瓶頸,。其實(shí)對(duì)于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)而言，一切都只是時(shí)間問題,。足夠的語音數(shù)據(jù)加上足夠的訓(xùn)練,，語音識(shí)別技術(shù)的發(fā)展還是值得期待的。