遙想當年,,孔子靠身邊3000名“速錄師”記錄他的言行,,成為了流傳千古的宗教領(lǐng)袖。而現(xiàn)在,,只需要一部手機,,你也可以成為Confucius。 不信,?近日,,由國際神經(jīng)網(wǎng)絡(luò)協(xié)會舉辦的大數(shù)據(jù)會議在舊金山如期舉行。此次會議最吸引眼球的當屬百度研究院高級工程師Awni Hannun公布的一項“黑科技”,。百度利用自家的深度語音學習系統(tǒng),,創(chuàng)建了一個可識別普通話的全新模型,且識別準確率高達94%,。 94%是怎樣一個概念,?國家制定的速錄師職業(yè)標準中,要求速錄師的語音采集準確率不得低于95%,。這個模型顯然已經(jīng)相當接近速錄師的水準,。 負責該項目的Adam Coates博士也因這一技術(shù)入選了2015年麻省理工科技評論“35歲以下創(chuàng)新者”名單。入選該名單的人均是科技界的先驅(qū)者,,據(jù)說他們的研究具有改變世界的能力,。 SoundCloud的創(chuàng)始人Alex Ljung與前Facebook CTO Bret -Taylor都入選過該名單。前者顛覆了音樂創(chuàng)作,、分享的方式,,后者則因創(chuàng)辦Quip,打造了移動互聯(lián)時代的文本編譯平臺,。 深度語音識別技術(shù)的誕生因何而備受關(guān)注呢,?這還要從普通話開始說起,。 中文自古以來都是一門博大精深的語言。而普通話作為其中的一個分支,,復雜程度也可想而知,。在外國人眼中,無論是書寫還是發(fā)音,,普通話都是極難掌握的,。 針對這個問題,精通中文的CNN首席記者Jaime FlorCruz最有發(fā)言權(quán),。在他看來,,中文的書寫相當復雜。英文雖然詞語眾多,,但是你只需掌握26個字母便可,。而中文近八萬字寫法均不相同,且不能按照語音來拼寫文字,。這就意味著,,外國人寫中國字比中國人背英文單詞還要困難。 發(fā)音對于“歪果仁”來說,,同樣也是一座難以逾越的高山,。Facebook的創(chuàng)始人扎克伯格曾在去年來華時,全程用中文接受主持人的提問,,震驚了世界,。這對于一名土生土長的美國人來說已屬不易。要知道,,這可是他苦心鉆研四年中文的成果,。但即使這樣,他的發(fā)音仍不標準,。曾有人調(diào)侃道:“小扎的普通話發(fā)音就如同在嘴里塞滿了石頭。在法語里,,你可任由古怪的口音來改變聲調(diào),,但在中文里,任何一個音調(diào)的不同都會改變句子本身的意思,?!?/span> 不僅在外國人眼里,普通話難以駕馭,,中國人一樣如此,。據(jù)統(tǒng)計,中文包含成千上萬個語種,,或許,,兩個相鄰縣城的人都難以用同一語言交流,。 前幾年一份網(wǎng)友自編的“全國普通話排行榜”在微博上引發(fā)眾多網(wǎng)友熱議。榜單顯示,,江蘇省的普通話水平排在東北三省前面,,甚至超過了北京的“近鄰”河北。甚至有網(wǎng)友吐槽說:“連前后鼻音都分不清楚,,排名前五難以服眾,。”雖然這份榜單只為博人一笑,,但不得不說,,普通話的普及率遠比人想象的低。教育部曾公布一組數(shù)字,,全國約有4億人不會說普通話,,且9億人說的不夠標準。這足以說明想學好普通話,,難于上青天,。 然而這樣一門語言現(xiàn)在卻被機器征服了。百度深度語言系統(tǒng)采用不同以往的思路,,巧妙的解決了普通話在數(shù)據(jù)量及表述方面的問題,。研究團隊通過收集人們常用的詞語,過濾出有用的字符,。如果系統(tǒng)識別的第一個字為“空”,,那么在識別第二個字之前,會把和“空”能組成詞語的字篩選出來,,如白,、余、閑等,,而我,、雞等無用的字則不會被列入選擇列表。這一方法不僅簡化了識別的過程,,還提高了運算效率,。 如此強大的語音識別背后,過程并不繁復,。百度的語音識別系統(tǒng)在轉(zhuǎn)錄過程中并沒有大量預處理環(huán)節(jié),,而是直接輸入音頻文件,再通過深度神經(jīng)網(wǎng)絡(luò)輸出字符,。 但是,,過程看似簡單,但是想要實現(xiàn)如此高的識別準確率,,卻并非易事,。 盡人皆知的Mike隋用近乎標準的普通話征服了眾多網(wǎng)友,。但很少有人知道,7歲的他便隨母親來到北京定居,。從小受中文熏陶的他用了足足18年才有了今天的成績,。 與這樣一位天賦異稟的語言人才相比,機器在信息獲取和學習能力方面更具優(yōu)勢,。與人類學習語言的過程類似,,機器也需要從無到有的學習過程。 百度的深度語音識別系統(tǒng)將所有全中文的數(shù)據(jù)匯總起來,,經(jīng)過超過10萬億次運算,,使系統(tǒng)達到熟練掌握普通話的目標。然而,,僅僅識別普通話還不夠,。為了更符合中國國情,通過獲取更多各地方言,、口音的信息,,將學習范圍進一步擴大。這對普通話難以達標的人來說,,絕對是一大福利,。 在數(shù)據(jù)信息暴增的同時,學習效率也成為了另一個關(guān)鍵點,。百度的語音系統(tǒng)支持超過26萬億次浮點運算,,這樣的運算級別可使模型在幾天內(nèi)完成深度語言的集中訓練。 Skype在近期更新中加入了實時翻譯普通話的功能,,將自家的翻譯系統(tǒng)植入到應用中,。但是百度對于語音識別的野心遠不如此。Hannun在演講時說:“在保證系統(tǒng)正常運行的同時,,將龐大的模型不斷壓縮才是深度學習的趨勢,。”他將語音識別系統(tǒng)作為所有智能設(shè)備的語音接口,,嵌入到可穿戴設(shè)備或語音識別應用中,,而不僅僅將其定義為一款語音搜索產(chǎn)品。 正是因為此項技術(shù)的誕生,,使人類與機器之間搭建了溝通的橋梁。相信在不遠的將來,,機器與人類可實現(xiàn)無障礙溝通,,成為你的最佳生活伴侶。 |
|