久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

憑聲音即可認(rèn)證身份,語音識(shí)別存在哪些發(fā)展瓶頸,?

 最極客 2020-07-23
?最極客
最具極客精神的新媒體

近日,、貴州省政府、清華大學(xué)和相關(guān)企業(yè)聯(lián)合宣布,正在合作開展一項(xiàng)試點(diǎn)項(xiàng)目,。該項(xiàng)目將人們獨(dú)有的語音特征與身份證信息關(guān)聯(lián),,以此創(chuàng)建并維護(hù)聲紋數(shù)據(jù)庫。

如今,,在商場(chǎng),、銀行、酒店,、安檢處最常見的識(shí)別方法是人臉識(shí)別技術(shù),。中國對(duì)人臉識(shí)別技術(shù)的部署力度在其他國家并不常見,而聲紋數(shù)據(jù)庫的創(chuàng)建,,意味著中國市場(chǎng)在生物技術(shù)方面正向語音識(shí)別發(fā)展,。

經(jīng)歷了幾十年的發(fā)展,目前語音識(shí)別技術(shù)已經(jīng)發(fā)展到一個(gè)相對(duì)成熟的階段,,在各個(gè)領(lǐng)域都逐漸起到作用,。在中國,語音識(shí)別技術(shù)很可能繼人臉識(shí)別技術(shù)之后成為下一個(gè)普及的識(shí)別方式,。在語音識(shí)別逐漸得到發(fā)展的同時(shí),,也存在著一些不可避免的問題,而要解決這些問題還有待于語音識(shí)別技術(shù)在各方面的進(jìn)一步發(fā)展,。

音識(shí)別發(fā)展?jié)u趨成熟,,未來或成生物識(shí)別主流方式

語音識(shí)別技術(shù),也被稱為自動(dòng)語音識(shí)別(ASR),。其目標(biāo)是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的數(shù)據(jù),,如字符序列或二進(jìn)制編碼等。

不過,,早在計(jì)算機(jī)發(fā)明之前,,人類就已經(jīng)開始了對(duì)語音識(shí)別技術(shù)的研究,早期的聲碼器即可看作是語音識(shí)別及合成的雛形,。1920年代生產(chǎn)的“Radio Rex”玩具狗可能是最早的語音識(shí)別器,。只要呼喚這只狗的名字,他就會(huì)從底座上彈出來,。

1952年,,貝爾研究所的Davis等人開發(fā)了Audrey語音識(shí)別系統(tǒng),成為世界上首個(gè)能夠識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),。其識(shí)別方法主要是追蹤語音中的共振峰,,該系統(tǒng)的準(zhǔn)確率為98%。到1950年代末,,College of London(倫敦學(xué)院)將語法概率加入語音識(shí)別中,。

1960年,英國的Denes等人研究成功了第一個(gè)計(jì)算機(jī)語音識(shí)別系統(tǒng),同時(shí)人工神經(jīng)網(wǎng)絡(luò)被引入語音識(shí)別,。70年代后,,語音識(shí)別在孤立詞及小詞匯量的識(shí)別方面取得了實(shí)質(zhì)性進(jìn)展。

到了80年代,,研究重點(diǎn)轉(zhuǎn)向大詞匯量,、非特定人連續(xù)語音識(shí)別,。與此同時(shí),,語音識(shí)別的研究思路由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)轉(zhuǎn)為基于HMM(統(tǒng)計(jì)模型)的技術(shù),并再次提出將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識(shí)別領(lǐng)域的技術(shù)思路,。

1981年,,日本在第五代計(jì)算機(jī)計(jì)劃中提出了關(guān)于語音識(shí)別輸入-輸出自然語言的目標(biāo)。盡管沒有按照預(yù)期實(shí)現(xiàn),,但關(guān)于語音識(shí)別技術(shù)的研究有了大幅度的提升和進(jìn)展,。1987年開始,日本又出臺(tái)了高級(jí)人機(jī)口語接口和自動(dòng)電話翻譯系統(tǒng)的項(xiàng)目,。

進(jìn)入90年代以后,,在語音識(shí)別的系統(tǒng)框架方面并沒有什么重大突破。但是,,在語音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展,。

中國的語音識(shí)別發(fā)展研究起始于1958年,由中國科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音,。1973年,,中國科學(xué)院聲學(xué)所開始了對(duì)計(jì)算機(jī)語音識(shí)別的研究。由于當(dāng)時(shí)被條件所限,,中國語音識(shí)別研究工作一直處于緩慢發(fā)展的狀態(tài),。

進(jìn)入80年代,計(jì)算機(jī)應(yīng)用技術(shù)在中國逐漸普及,,數(shù)字信號(hào)技術(shù)進(jìn)一步發(fā)展,,國內(nèi)許多單位具備了研究語音技術(shù)的基本條件。同時(shí),,語音識(shí)別技術(shù)成為國際上的研究熱點(diǎn)并且迅速發(fā)展,。在這種情勢(shì)之下,中國有更多的機(jī)構(gòu)投入此項(xiàng)研究,。

1986年3月,,中國高科技發(fā)展計(jì)劃(863計(jì)劃)啟動(dòng),因?yàn)檎Z音識(shí)別是智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分,,故而被專門列為研究課題,。在863計(jì)劃的支撐下,中國開始了有組織的語音識(shí)別技術(shù)的研究。由此,,中國語音識(shí)別技術(shù)進(jìn)入了一個(gè)前所未有的發(fā)展階段,。

2006年深度學(xué)習(xí)興起,2009年深度學(xué)習(xí)首次在語音識(shí)別任務(wù)中取得成功,,基于深度學(xué)習(xí)的語音識(shí)別取得了很大的突破,。在技術(shù)方面,語音識(shí)別從最初的前饋全連接神經(jīng)網(wǎng)絡(luò),,到之后的遞歸神經(jīng)網(wǎng)絡(luò),,到長短時(shí)記憶模型,再到當(dāng)前包含數(shù)十層結(jié)構(gòu)的深層全卷積神經(jīng)網(wǎng)絡(luò),。網(wǎng)絡(luò)結(jié)構(gòu)愈加復(fù)雜,,但也越來越能夠契合語音的特性從而實(shí)現(xiàn)建模,相應(yīng)的效果也愈發(fā)顯著,。

當(dāng)下,,基于深度學(xué)習(xí)的語音識(shí)別系統(tǒng)已經(jīng)通過海量的用戶大數(shù)據(jù)訓(xùn)練得到了一個(gè)通用的識(shí)別系統(tǒng),在日常場(chǎng)合已經(jīng)能夠?qū)崿F(xiàn)應(yīng)用,。技術(shù)的成熟以及廣闊的前景使得許多互聯(lián)網(wǎng)公司也紛紛入局語音識(shí)別領(lǐng)域,。

去年12月,阿里巴巴宣布為上海全部地鐵站的售票機(jī)安裝語音識(shí)別技術(shù),,用以驗(yàn)證上班族的身份,。科大訊飛也在安徽為醫(yī)療信息提供語音簽名服務(wù),,同時(shí)為警方提供語音識(shí)別服務(wù),。此外,百度,、騰訊也分別在語音識(shí)別領(lǐng)域有所動(dòng)作,。

由此可見,語音識(shí)別技術(shù)很可能成為繼人臉識(shí)別技術(shù)后的下一個(gè)生物識(shí)別的主流方式,,并逐漸受到廣泛的關(guān)注和消費(fèi)級(jí)的應(yīng)用,。但在發(fā)展過程中,仍然不可避免地會(huì)遭遇一些瓶頸,。

音識(shí)別技術(shù)基本成型,,但發(fā)展過程中仍遭遇瓶頸


目前,語音識(shí)別技術(shù)基本成型,,處于較為成熟的狀態(tài),。例如在語音識(shí)別的Switchboard任務(wù)方面,最新的IBM已經(jīng)能將錯(cuò)誤率控制在5.5%之下,,有經(jīng)驗(yàn)的轉(zhuǎn)寫人員在這個(gè)任務(wù)中可以達(dá)到4%之下,。因此,,這類安靜環(huán)境下的語音識(shí)別系統(tǒng)已經(jīng)近似于人類水平。

目前的進(jìn)展多處于應(yīng)用層面,。語音合成技術(shù)被應(yīng)用在更多領(lǐng)域,,而且從原始的機(jī)器聲音已經(jīng)進(jìn)化到能夠發(fā)出自然人的聲音的程度,甚至現(xiàn)在出現(xiàn)各種明星聲音的語音助手,。在語音識(shí)別方面,,市面上已經(jīng)出現(xiàn)了針對(duì)方言口音的語音軟件。在語義理解方面,,聊天機(jī)器人正處在迅速進(jìn)化的過程中,,甚至能夠講笑話。在語音喚醒方面,,智能音箱等產(chǎn)品大量出現(xiàn),。雖然在這些應(yīng)用中,,許多產(chǎn)品并沒有達(dá)到高層智能的水平,,但也給語音識(shí)別技術(shù)指明了方向。

實(shí)際上,,語音識(shí)別技術(shù)在發(fā)音規(guī)范且背景噪音可控的環(huán)境下,,在很多年前就能夠進(jìn)入應(yīng)用階段。不少尖端系統(tǒng)在工程水平很高的情況下還可以做的更好,,如早期的Siri及DARPA項(xiàng)目語音識(shí)別評(píng)測(cè)中的各種參賽系統(tǒng),。

但在飛速進(jìn)步的過程中,語音識(shí)別仍無法避免遇到某些瓶頸,。

在強(qiáng)噪聲干擾的情況下,,目前的語音識(shí)別系統(tǒng)還很難達(dá)到實(shí)用化要求。在自然發(fā)音,、噪聲,、口音等復(fù)雜條件下,語音識(shí)別的準(zhǔn)確率明顯下降,。此外,,語音的訓(xùn)練和測(cè)試用數(shù)據(jù)的匹配也并不十分契合。

想要解決環(huán)境復(fù)雜的問題,,除了高超的技術(shù)之外,,聲學(xué)模型自適應(yīng)等也是不錯(cuò)的方式。對(duì)于匹配問題則可以更加偏向研究方向,,對(duì)語音本質(zhì)進(jìn)行更為深入的理解,。

例如在人類的聽覺系統(tǒng)中,存在一種“雞尾酒會(huì)效應(yīng)”:人類在具有背景噪聲干擾的情況下,,依然能夠?qū)⒆⒁饬性谀骋粋€(gè)人的談話上,??梢詫⑷祟惵犛X系統(tǒng)的這種功能賦予語音識(shí)別系統(tǒng),但就目前的技術(shù)而言依然很難實(shí)現(xiàn),。

同時(shí),,遠(yuǎn)場(chǎng)識(shí)別也依然是個(gè)充滿挑戰(zhàn)性的問題。當(dāng)前,,語音識(shí)別的遠(yuǎn)場(chǎng)錯(cuò)誤率是近場(chǎng)的兩倍左右,。因此,解決遠(yuǎn)場(chǎng)及強(qiáng)噪聲干擾情況下的語音識(shí)別是當(dāng)前的一個(gè)有待進(jìn)一步研究的問題,。

對(duì)于這個(gè)問題,,目前的主要解決方法是語音識(shí)別和麥克風(fēng)陣列相結(jié)合。通過陣列信號(hào)處理技術(shù),,增強(qiáng)多通道語音技術(shù),,而后利用深度學(xué)習(xí)的方法進(jìn)行聲學(xué)建模。當(dāng)然,,這種方案有待于進(jìn)步和優(yōu)化,,并且要考慮多方面的問題。如怎樣將陣列信號(hào)處理技術(shù)和深度學(xué)習(xí)方法相結(jié)合,,利用陣列信號(hào)處理的相關(guān)知識(shí)指導(dǎo)深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì),,以便直接從多通道語音信號(hào)中學(xué)習(xí)多通道語音增強(qiáng)方法,而后和后端聲學(xué)模型聯(lián)合優(yōu)化等,。

另外,,個(gè)體發(fā)音以及用詞習(xí)慣都存在差異性,所以如何使得語音識(shí)別更加智能化也是一個(gè)問題,。

可以看到,,語音識(shí)別已經(jīng)走到一個(gè)相對(duì)成熟的發(fā)展階段,未來也會(huì)在應(yīng)用級(jí)市場(chǎng)普及,,但在發(fā)展過程中仍然存在許多瓶頸,。生物技術(shù)識(shí)別方式先進(jìn)而便捷,但人們不免擔(dān)心其中所涉及到的隱私問題,。

當(dāng)然,,目前語音識(shí)別技術(shù)并未大規(guī)模普及,但在那一天到來之前,,人們需要彌補(bǔ)語音識(shí)別技術(shù)中存在的瓶頸,。其實(shí)對(duì)于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)而言,一切都只是時(shí)間問題,。足夠的語音數(shù)據(jù)加上足夠的訓(xùn)練,,語音識(shí)別技術(shù)的發(fā)展還是值得期待的。


    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多