@陳宗周《圣經(jīng)》中記載著這樣的傳說,遠(yuǎn)古人類都講一種語言,,他們希望建造一座通往天堂的高塔,,這就是通天塔,也叫巴別塔(Tower of Babel),。為了阻止人類的計(jì)劃,,上帝讓人類說不同的語言,分成不同的民族,,在語言上無法自由溝通,巴別塔計(jì)劃由此告終,。 傳說有點(diǎn)悲涼,,卻反映人類一直存在的美好夢(mèng)想。重建巴別塔,,也成了人類語言溝通和共識(shí)達(dá)成的象征和代名詞?,F(xiàn)在,AI讓人類的夢(mèng)想一步步走向?qū)崿F(xiàn),。
弗雷德里克·賈里尼克 歷史的探索讓人類拆掉語言的樊籬,,實(shí)現(xiàn)無障礙溝通,這項(xiàng)偉大的AI工程有三塊重要基石:語音識(shí)別,、自然語言理解,、語音合成。三塊基石是三大類技術(shù),,分別解決人類語言交流中三個(gè)問題:聽清楚別人說什么,、 理解別人說什么、根據(jù)聽到和理解的去回答別人,。 語音識(shí)別,,主要解決“聽清楚別人說什么” 這個(gè)難題,這是AI中的重要技術(shù)領(lǐng)域,。近年來,,由于深度學(xué)習(xí)技術(shù)的應(yīng)用,,語音識(shí)別取得了長(zhǎng)足進(jìn)步。 1952年,,貝爾實(shí)驗(yàn)室的K·H·戴維斯(K.H.Davis)等人研制了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),。1960年,英國人彼得·迪恩斯(Peter Denes)等研制了第一個(gè)計(jì)算機(jī)語音識(shí)別系統(tǒng),。但從上世紀(jì)50年代到70年代,,語音識(shí)別研究走了彎路,那就是簡(jiǎn)單地想電腦模擬人腦,,認(rèn)為必須先讓機(jī)器理解自然語言,。在當(dāng)時(shí)計(jì)算機(jī)能力受限的情況下,這樣的研究鮮有進(jìn)展,。 直到1970年后,,統(tǒng)計(jì)語言學(xué)的出現(xiàn)打破了沉寂。領(lǐng)軍人物是IBM沃森實(shí)驗(yàn)室的弗雷德里克·賈里尼克(Frederick Jelinek),。 賈里尼克用兩個(gè)隱(含)馬爾可夫模型(Hidden Markov Model)——聲學(xué)模型和語言模型來清楚概括語音識(shí)別,。這個(gè)框架至今對(duì)語言處理有著深遠(yuǎn)影響。 1999年,,國際聲學(xué),、語音與信號(hào)處理國際會(huì)議(ICASSP)在鳳凰城召開,早已當(dāng)選美國工程院院士的賈里尼克在大會(huì)上做了一個(gè)報(bào)告,,題目是《從水門事件到莫尼卡·萊溫斯基》,。這兩件事和語音都有聯(lián)系,而且兩件事的時(shí)間跨度和語音識(shí)別都同樣很長(zhǎng),。隱馬爾可夫模型處理語音也是從1972年開始,,一直到賈里尼克作報(bào)告時(shí)還在進(jìn)行。隱馬爾可夫模型處理語音,,一直持續(xù)到賈里尼克作報(bào)告時(shí)還在進(jìn)行,,而且還將延續(xù)下去。 劍橋語音的黃金十年1984年,,美國國家標(biāo)準(zhǔn)及技術(shù)研究所(NIST)和DARPA決定出資開展語音識(shí)別評(píng)測(cè)標(biāo)準(zhǔn)的研究,,希望能科學(xué)評(píng)估各種語音識(shí)別系統(tǒng)的性能。這件事影響了語音識(shí)別歷史,。 德州儀器公司(TI),、麻省理工學(xué)院(MIT)和SRI合作構(gòu)建了第一個(gè)聲學(xué)-音素連續(xù)語音語料庫,并制定了數(shù)據(jù)采集標(biāo)準(zhǔn),,成為世界第一個(gè)語音評(píng)測(cè)平臺(tái),。這一被稱為TIMIT的數(shù)據(jù)庫應(yīng)用至今,語音識(shí)別研究者們有了評(píng)測(cè)算法的標(biāo)準(zhǔn)數(shù)據(jù)集。NIST舉辦的語音識(shí)別評(píng)測(cè)全球競(jìng)賽由此開始,。 語音識(shí)別所研究的數(shù)據(jù)類型歷經(jīng)幾次升級(jí),,由最早的孤立詞語音發(fā)展到自然連續(xù)語音。然后,,選取朗讀“華爾街雜志”(Wall Street Journal)的語音錄成標(biāo)準(zhǔn)數(shù)據(jù)庫,。這個(gè)數(shù)據(jù)集的詞匯量大約為5000到20 000, “大詞匯連續(xù)語音識(shí)別”就始于此,。上世紀(jì)90年代中期以后,,廣播新聞這樣自發(fā)產(chǎn)生的連續(xù)語音、電話對(duì)話語音,、豐富的語音文本,、多語種語音等等也不斷加入評(píng)測(cè),NIST大賽越來越具有挑戰(zhàn)性,。 大賽1988年開始,,1992年擴(kuò)大到美國之外,成為全球大賽,,劍橋大學(xué)等非美國機(jī)構(gòu),,在那一年加入。1993年,,劍橋大學(xué)奪取冠軍,。一戰(zhàn)成名,劍橋語音成為全球語音識(shí)別界關(guān)注的焦點(diǎn),。 從1989年起,,劍橋大學(xué)工程系機(jī)器智能實(shí)驗(yàn)室研究組就在史蒂夫·楊(Steve Young)教授的主持下開發(fā) “隱馬爾可夫模型工具包”(Hidden markov model Tool Kit, HTK)。HTK軟件包不是簡(jiǎn)單的語音識(shí)別系統(tǒng),,而是完整的研究平臺(tái)。在這平臺(tái)上,,研究者可以方便地試驗(yàn)各種新式算法,,搭建不同的語音識(shí)別系統(tǒng)。這樣,,HTK很快就成為了語音識(shí)別研究事實(shí)上的標(biāo)準(zhǔn),。而擁有平臺(tái)的劍橋語音研究人員,近水樓臺(tái)先得月,。 于是,,劍橋大學(xué)語音識(shí)別研究在大賽中連續(xù)十年取得優(yōu)異成績(jī),許多影響深遠(yuǎn)的語音識(shí)別技術(shù)陸續(xù)在劍橋產(chǎn)生,,并成為后來主流經(jīng)典算法,,這些成就轟動(dòng)了全世界,被稱為劍橋語音的黃金十年。 踏上商業(yè)化征程語音識(shí)別也逐漸開始商業(yè)化,。1995年,,IBM開發(fā)出離散詞匯聽寫軟件,也就是后來的語音識(shí)別軟件Via Voice的前身,。IBM當(dāng)時(shí)將語音識(shí)別率從70%提升到90%,,同時(shí)識(shí)別詞庫的規(guī)模從幾百單詞上升到幾萬個(gè),語音識(shí)別從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用,。1997年,,IBM推出了世界上第一個(gè)中文連續(xù)語音識(shí)別產(chǎn)品——Via Voice 4.0。該軟件成功突破連續(xù)語音,、大詞匯量,、非特定人的難關(guān),據(jù)稱解決了漢語同音字多,、有聲調(diào),、口音復(fù)雜等問題,可以幫助人們從鍵盤輸入中解脫出來,,IBM認(rèn)為這是漢字輸入的重要里程碑,。 不過,中文版的Via Voice4.0剛推出,,我就滿懷希望地試用了這個(gè)軟件,,但感到很失望,遠(yuǎn)沒有達(dá)到解放雙手的愿望,,使人感到實(shí)用的語音識(shí)別系統(tǒng)還在路上,。當(dāng)時(shí),我并不知道,,語音識(shí)別的大師們?cè)诖藥啄昵耙呀?jīng)紛紛離開了IBM,。 劍橋大學(xué)的HTK語音開發(fā)平臺(tái)也開始商業(yè)化,被微軟收購,。后來微軟重新把HTK核心技術(shù)的使用權(quán)送還給劍橋大學(xué),。 語音識(shí)別專家、數(shù)據(jù)魔方智慧科技CEO張晴晴博士這樣描述當(dāng)時(shí)的情況:“深度學(xué)習(xí)之前,,做語音識(shí)別門檻是很高的,。語音識(shí)別涉及到信號(hào)處理、語音\語言建模,、發(fā)音字典,、解碼、后處理等等,,每個(gè)模塊都足夠一個(gè)博士研究好幾年,?!?/span> 在這樣的研究環(huán)境下,掌握核心算法的公司很容易形成技術(shù)壟斷,。1992年創(chuàng)立的美國語音巨頭Nuance,,2005年在納斯達(dá)克上市,一直深耕統(tǒng)計(jì)方法的語音技術(shù),,擁有大量的核心算法和數(shù)千件專利,。蘋果Siri采用了他們的語音技術(shù)后,Nuance公司在語音識(shí)別方面的技術(shù)實(shí)力也浮出水面,。手機(jī),、家電、汽車等人機(jī)語音交互產(chǎn)品中,,大量嵌入他們的語音識(shí)別系統(tǒng),,客戶都是蘋果、三星這樣的知名廠商,。 Nuance擅長(zhǎng)于利用自己在語音處理方面的知識(shí)產(chǎn)權(quán)打擊競(jìng)爭(zhēng)對(duì)手,。用訴訟手段削弱具有創(chuàng)新力的對(duì)手,然后低價(jià)并購或讓其破產(chǎn),。很長(zhǎng)時(shí)間內(nèi),,Nuance擁有絕對(duì)話語權(quán),整個(gè)語音行業(yè)生態(tài)是——這棵大樹下寸草不生,。
深度學(xué)習(xí)帶來曙光學(xué)術(shù)界尋求理論突破,,產(chǎn)業(yè)界希望打破壟斷,這樣期待的氛圍中,,深刻影響語音識(shí)別的重要角色在2006年后出現(xiàn)了,。沒錯(cuò),我說的是深度學(xué)習(xí),,或者說深度神經(jīng)網(wǎng)絡(luò),。 2006 年的一天,西雅圖微軟研究院的研究員鄧力看到欣頓的一篇關(guān)于深度學(xué)習(xí)的論文《關(guān)于深度置信網(wǎng)絡(luò)的一種快速學(xué)習(xí)算法》(A fast learning algorithm for deep belief nets),,眼前一亮,,感到自己絞盡腦汁沒有突破的問題,欣頓輕而易舉就解決了,。 2009 年,鄧力邀請(qǐng)欣頓到西雅圖微軟研究院一起討論,,從此微軟語音識(shí)別研究轉(zhuǎn)入了深度學(xué)習(xí)方向,。 谷歌稍晚了一點(diǎn),但追趕得很快,。出門問問公司CTO雷欣回憶,,當(dāng)年他在谷歌語音識(shí)別組擔(dān)任研究科學(xué)家時(shí),2011年夏天,欣頓的博士生納瓦迪普·杰特列( (Navdeep Jaitly)來語音識(shí)別組實(shí)習(xí),,建議用深度神經(jīng)網(wǎng)絡(luò)來替代高斯混合模型做聲學(xué)模型,。短短的實(shí)習(xí)時(shí)間里,納瓦迪普在實(shí)驗(yàn)中獲得了顯著超出谷歌原系統(tǒng)的識(shí)別結(jié)果,。之后,,谷歌工程師們很快將實(shí)驗(yàn)工程化產(chǎn)品化,2012年初發(fā)布在谷歌Voice Search主產(chǎn)品中,。這是業(yè)界首次將深度學(xué)習(xí)用于大詞匯量語音識(shí)別產(chǎn)品中,。2012年下半年,他將深度神經(jīng)網(wǎng)絡(luò)發(fā)布至Android JellyBean版本中,,這也是業(yè)界首次將深度學(xué)習(xí)用于嵌入式語音識(shí)別產(chǎn)品,。 微軟語音識(shí)別研究取得驚人突破。2016年10月18日,,由微軟首席語音科學(xué)家黃學(xué)東博士帶領(lǐng)的語音團(tuán)隊(duì)在權(quán)威的產(chǎn)業(yè)標(biāo)準(zhǔn) Switchboard 語音識(shí)別基準(zhǔn)測(cè)試中,,實(shí)現(xiàn)了對(duì)話語音識(shí)別詞錯(cuò)率5.9%,首次達(dá)到與專業(yè)速記員持平,。這被認(rèn)為是AI領(lǐng)域歷史性的突破,。 百度也不示弱,首席科學(xué)家吳恩達(dá)立即發(fā)推特祝賀微軟的語音識(shí)別突破,,同時(shí)話中有話地介紹一年前百度在中文語音識(shí)別上就達(dá)到的成績(jī),。百度的Deep Speech2的短語識(shí)別的詞錯(cuò)率已經(jīng)降到了3.7%,也達(dá)到或超過人類水平,。 巨頭們高度重視用深度學(xué)習(xí)解決語音識(shí)別問題,,帶來了產(chǎn)業(yè)格局的變化。美國出現(xiàn)了幾十家應(yīng)用深度學(xué)習(xí)的語音識(shí)別技術(shù)公司,。同時(shí),,專利和算法作用越來越小,場(chǎng)景應(yīng)用能力和客戶數(shù)據(jù)資源在競(jìng)爭(zhēng)中變得越來越重要,。 在語音識(shí)別應(yīng)用場(chǎng)景創(chuàng)新方面,,亞馬遜的Alexa語音交互平臺(tái)非常成功。用Echo交互式藍(lán)牙音箱,,語音通過內(nèi)置接口,,進(jìn)入 Alexa平臺(tái)進(jìn)行語音交互。2014年Echo推出后,,兩年多時(shí)間內(nèi)應(yīng)用場(chǎng)景爆炸性增長(zhǎng),,從同步語音數(shù)據(jù)、播放音樂發(fā)展到幾十種家電的智能家居設(shè)備控制,,再發(fā)展到語音購物,、語音支付,、語音叫外賣、語音打車等多場(chǎng)景應(yīng)用,,亞馬遜的Alexa人機(jī)語音交互玩得出神入化,。以至于有人驚呼:“這就像是試圖成為語音方面的谷歌或者語音方面的Windows操作系統(tǒng),亞馬遜是要拿走整個(gè)市場(chǎng),?!?/span>
亞馬遜Alexa語音交互平臺(tái) 場(chǎng)景應(yīng)用,成為語音識(shí)別的新方向,,也成為創(chuàng)業(yè)者的新機(jī)會(huì),。張晴晴博士這樣分析語音識(shí)別的創(chuàng)業(yè)環(huán)境:“語音識(shí)別的門檻正快速降低。在大數(shù)據(jù)和云計(jì)算的推動(dòng)下,,深度神經(jīng)網(wǎng)絡(luò)開始體現(xiàn)出強(qiáng)大的數(shù)據(jù)記憶能力,,由此大大降低了語音建模難度。深度學(xué)習(xí)在數(shù)學(xué)原理上并不復(fù)雜并擁有大量開源工具,,讓初學(xué)者能夠很快上手,。語音行業(yè)從核心算法的壟斷,轉(zhuǎn)向?qū)?shù)據(jù)的壟斷和對(duì)應(yīng)用場(chǎng)景的理解和把握,。語音識(shí)別的戰(zhàn)場(chǎng)從科研界轉(zhuǎn)向企業(yè)界,,這給新來者提供難得的彎道超車機(jī)會(huì)。語音識(shí)別行業(yè)創(chuàng)業(yè)的春天已經(jīng)到來,?!?/span> 而中文語音處理行業(yè)也迎來新機(jī)遇。一個(gè)很有趣的現(xiàn)象是,,在語音領(lǐng)域華人專家眾多,。是因?yàn)檎Z音識(shí)別等領(lǐng)域研究工作十分艱苦,華人勤奮好學(xué),。此外,,中文語音處理市場(chǎng)非常廣闊。 依托人才優(yōu)勢(shì)和中文市場(chǎng),,伴隨中文語音技術(shù)的迅猛發(fā)展,,云知聲、出門問問等新企業(yè)應(yīng)運(yùn)而生,,一大批中國AI企業(yè)崛起,。更可喜的是,除了知名中國互聯(lián)網(wǎng)科技公司在語音方面的進(jìn)取外,,以語音為特色的AI公司如科大訊飛等,,也已經(jīng)具備挑戰(zhàn)國際巨頭的能力。 在普及層面上,,采用云識(shí)別的中文語音輸入系統(tǒng),,已經(jīng)漸漸成為手機(jī)和各種應(yīng)用設(shè)備人機(jī)交互界面標(biāo)配,語音技術(shù)不但已經(jīng)解放了雙手,,還正在更廣泛進(jìn)入和改變我們的生活,。 重建巴別塔的第一塊基石已經(jīng)深深埋下。機(jī)器已經(jīng)在聆聽,,它聽得越來越清楚,。 |
|