◆ 人工智能目前落地最成功的就是語(yǔ)音識(shí)別技術(shù) ◆ 語(yǔ)音識(shí)別屬于感知智能,,而讓機(jī)器從簡(jiǎn)單的識(shí)別語(yǔ)音到理解語(yǔ)音,,則上升到了認(rèn)知智能層面,機(jī)器的自然語(yǔ)言理解能力如何,,也成為了其是否有智慧的標(biāo)志,,而自然語(yǔ)言理解正是目前難點(diǎn) 文/《瞭望》新聞周刊記者 扈永順 曾轟動(dòng)一時(shí)的電影《她》,講述了男主人公與人工智能虛擬助手相愛的故事,,這個(gè)人工智能對(duì)話系統(tǒng)能夠同時(shí)與數(shù)百人進(jìn)行對(duì)話?,F(xiàn)實(shí)中,蘋果Siri能夠有目的地模仿人類,,并擁有了不同的人類風(fēng)格,,像Siri這類智能軟件助手正在與數(shù)以億計(jì)的人類用戶互動(dòng)。 “語(yǔ)音識(shí)別現(xiàn)在已經(jīng)有很多的產(chǎn)品,,包括維語(yǔ)到漢語(yǔ)的翻譯等等,。人工智能目前落地最成功的就是語(yǔ)音識(shí)別技術(shù)?!?span>中科院自動(dòng)化研究所所長(zhǎng)徐波告訴《瞭望》新聞周刊記者,,要讓機(jī)器理解人的語(yǔ)言,還面臨很多挑戰(zhàn),。 人機(jī)交互的基礎(chǔ) 近日,,全國(guó)首家互聯(lián)網(wǎng)法院揭牌,案件庭審記錄由語(yǔ)音輸入系統(tǒng)即時(shí)完成,?!盎ヂ?lián)網(wǎng)法院是遠(yuǎn)程的,原告,、被告,、法官不在同一個(gè)地方,將庭審麥克風(fēng)接入語(yǔ)音識(shí)別的云端,,就能夠?qū)崟r(shí)生成速記,。它使用的就是阿里云語(yǔ)音在線識(shí)別技術(shù)?!?span>阿里巴巴iDST智能語(yǔ)音團(tuán)隊(duì)負(fù)責(zé)人鄢志杰告訴《瞭望》新聞周刊記者,。 語(yǔ)音識(shí)別是人機(jī)交互的基礎(chǔ),主要解決讓機(jī)器聽清楚人說(shuō)什么的難題,。早在1970年代,,IBM沃森實(shí)驗(yàn)室的弗雷德里克·賈里尼克(Frederick Jelinek)就提出了語(yǔ)音識(shí)別框架:聲學(xué)模型和語(yǔ)言模型,。 語(yǔ)音識(shí)別取得的重大突破,就在于引入了深度神經(jīng)網(wǎng)絡(luò)技術(shù),?!吧疃壬窠?jīng)網(wǎng)絡(luò)的方法,是通過(guò)大量的語(yǔ)音數(shù)據(jù),,訓(xùn)練出高精度的聲學(xué)模型和語(yǔ)言模型,,從而提升識(shí)別率?!?span>浪潮集團(tuán)人工智能與高性能計(jì)算總經(jīng)理劉軍告訴記者,,淺層神經(jīng)網(wǎng)絡(luò)方法,是提取語(yǔ)音的特征,,識(shí)別率比較低,。 “教會(huì)機(jī)器聽懂人話的過(guò)程,就是通過(guò)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練聲學(xué)模型和語(yǔ)言模型的過(guò)程,?!?span>科大訊飛股份有限公司(簡(jiǎn)稱科大訊飛)工程師丁瑞告訴記者,聲學(xué)模型訓(xùn)練是教會(huì)機(jī)器哪個(gè)字詞發(fā)什么音,、該怎么連在一起讀,,有點(diǎn)像我們小學(xué)時(shí)候跟著老師讀拼音。而語(yǔ)言模型訓(xùn)練則要教會(huì)機(jī)器什么樣的命令或文字組合是合理的,、更常見的,。 在完成模型訓(xùn)練后,需要將其送入語(yǔ)音識(shí)別系統(tǒng)的解碼引擎,?!敖獯a引擎的工作是在一個(gè)巨大的網(wǎng)絡(luò)里進(jìn)行搜索,這個(gè)網(wǎng)絡(luò)由數(shù)億節(jié)點(diǎn)及弧組成,,并且里邊已經(jīng)糅合了訓(xùn)練好的聲學(xué)模型和語(yǔ)言模型信息,,搜索出來(lái)的最優(yōu)路徑上所攜帶的信息就是對(duì)應(yīng)的語(yǔ)音識(shí)別結(jié)果了,?!倍∪鸾榻B,解碼引擎的運(yùn)算效率至關(guān)重要,,直接影響到用戶體驗(yàn),。目前,科大訊飛的解碼引擎可以在用戶說(shuō)完話40毫秒之內(nèi)給出結(jié)果,。 “一般的深度學(xué)習(xí)算法只能看到上下文的一點(diǎn)點(diǎn),,我們?cè)囼?yàn)最成功的是BLSTM算法(雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò))。通常一句話講完才能出識(shí)別結(jié)果,,但BLSTM算法理論上可以看到無(wú)窮遠(yuǎn)的上下文,,可以更好地理解人類的語(yǔ)言,。”鄢志杰說(shuō),,BLSTM算法是深度學(xué)習(xí)中的一種,,對(duì)單位時(shí)間內(nèi)的計(jì)算量要求很高,他們研發(fā)出的LC—Blstm系統(tǒng),,將語(yǔ)音解碼速率提升了三倍,,并在業(yè)界最先大規(guī)模上線了基于這一技術(shù)的語(yǔ)音識(shí)別系統(tǒng)。 提高識(shí)別準(zhǔn)確率有多難 目前,,國(guó)外一些大公司提出,,他們研發(fā)的語(yǔ)言識(shí)別系統(tǒng)已經(jīng)十分接近人類聽力水平。國(guó)內(nèi)也有多家公司提出,,他們的語(yǔ)音識(shí)別系統(tǒng)達(dá)到90%以上的正確率,。 鄢志杰認(rèn)為,脫離了應(yīng)用場(chǎng)景講識(shí)別準(zhǔn)確率并不現(xiàn)實(shí),?!氨热缫粋€(gè)IT方面的會(huì)議,會(huì)場(chǎng)上演講嘉賓的語(yǔ)音識(shí)別準(zhǔn)確率基本能達(dá)到95%,,但如果突然邀請(qǐng)一個(gè)醫(yī)療領(lǐng)域的講演者,,就很難達(dá)到同樣高的識(shí)別率,因?yàn)楝F(xiàn)有模型在醫(yī)療領(lǐng)域的知識(shí)積累不夠,?!?/p> “正常人際交流情況下,機(jī)器語(yǔ)音識(shí)別錯(cuò)誤率超過(guò)15%甚至30%,,而一些公司宣傳的機(jī)器識(shí)別準(zhǔn)確率過(guò)高,,速記員都達(dá)不到這一水平?!臂持窘苷J(rèn)為,,這樣的宣傳會(huì)讓公眾誤認(rèn)為語(yǔ)音識(shí)別問(wèn)題得到了完全解決。 “語(yǔ)音識(shí)別要進(jìn)入到各個(gè)不同的應(yīng)用場(chǎng)景,,還有很多相關(guān)的工作需要去完成,,不能單靠深度神經(jīng)網(wǎng)絡(luò)的方法來(lái)實(shí)現(xiàn)?!眲④娬f(shuō),,語(yǔ)音識(shí)別準(zhǔn)確率涉及多方面原因,例如遠(yuǎn)場(chǎng)精確識(shí)別就是業(yè)界難題,。 遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別基本采用麥克風(fēng)陣列方案,,通過(guò)波束成形和精準(zhǔn)定位的技術(shù)方案,解決遠(yuǎn)場(chǎng)拾音、噪聲,、混響等問(wèn)題,。“目前科大訊飛的語(yǔ)音識(shí)別距離已經(jīng)達(dá)到5米,,同時(shí)有國(guó)際領(lǐng)先的回音消除技術(shù),,消除量可以達(dá)到50db?!倍∪鹫f(shuō),。 受訪專家認(rèn)為,應(yīng)用麥克風(fēng)陣列做定位和聚焦可解決遠(yuǎn)場(chǎng)識(shí)別問(wèn)題,,識(shí)別率較之前有了大幅提高,。例如在落下車窗的快速行駛汽車中,可成功喚醒車載語(yǔ)音識(shí)別功能,。 “現(xiàn)在有很多大量近講的數(shù)據(jù),,例如手機(jī)、錄音棚中的數(shù)據(jù),,將其放在一個(gè)房間內(nèi)播放,,就能測(cè)得房間的沖擊響應(yīng),可以模擬遠(yuǎn)場(chǎng)數(shù)據(jù),。由此建立代表近講信號(hào)與遠(yuǎn)場(chǎng)信號(hào)的不同模型,。”鄢志杰介紹道,。 受訪專家表示,,遠(yuǎn)場(chǎng)識(shí)別在一些場(chǎng)景中的應(yīng)用并不理想,例如機(jī)場(chǎng),、火車站,、大型會(huì)場(chǎng)等環(huán)境嘈雜的地方。徐波告訴記者,,現(xiàn)在用的麥克風(fēng)陣列,,能辨別人說(shuō)話的方位,但如果多個(gè)聲源在相近的方位還是難以識(shí)別,。 語(yǔ)音識(shí)別應(yīng)用推廣的另一短板表現(xiàn)在場(chǎng)景數(shù)據(jù)的獲取,。場(chǎng)景是用戶群體、語(yǔ)言風(fēng)格,、語(yǔ)音信道,、使用環(huán)境等綜合性的描述,?!爸形恼Z(yǔ)法的隨意性比較大,還有場(chǎng)景中的方言因素,,解決這一問(wèn)題的方法主要是靠數(shù)據(jù)訓(xùn)練模型,,我們需要一個(gè)很大的數(shù)據(jù)庫(kù),。”徐波說(shuō),。 “數(shù)據(jù)獲取的成本非常高,,需要收集全國(guó)各地的各種口音數(shù)據(jù),并使用人工把發(fā)音和文字一句一句地標(biāo)注對(duì)應(yīng)好,,變成所謂的熟數(shù)據(jù),,才能交由機(jī)器學(xué)習(xí)。我們已經(jīng)做了幾萬(wàn)小時(shí)的這種聲音,?!毙觳ㄌ岬剑媚壳暗姆椒?,機(jī)器有多少智能,,背后一定賦予了多少人力投入。 劉軍認(rèn)為,,雖然現(xiàn)在使用互聯(lián)網(wǎng)服務(wù),,數(shù)據(jù)很容易上傳到云端,標(biāo)注后就可以用,,但目前還沒有很好的方法替代“人工標(biāo)注”這一工作,。 “數(shù)據(jù)是燃料,云計(jì)算背景下,,怎樣做大規(guī)模低成本的定制化語(yǔ)音服務(wù)非常重要,,如果成本不能控制,生意就做不下去,?!臂持窘苷f(shuō),為節(jié)省成本,,阿里iDST采用了數(shù)據(jù)模型自適應(yīng)的一系列算法,。例如為電話客服場(chǎng)景做語(yǔ)音識(shí)別訓(xùn)練模型就需要用大量的數(shù)據(jù),但這個(gè)模型就可以遷移到保險(xiǎn)公司客服的模型中去,,而不需要用大量數(shù)據(jù)重新訓(xùn)練保險(xiǎn)公司的客服模型,。 “自然語(yǔ)言理解”難題待解 “在計(jì)算機(jī)的世界里,理解對(duì)話系統(tǒng)不再是什么古怪的創(chuàng)新,,而是一種逐漸成為主流的交互方式,。”《紐約時(shí)報(bào)》高級(jí)科技記者,、普利策獎(jiǎng)得主約翰·馬爾科夫(John Markoff)在其著作《與機(jī)器人共舞》中提出,。 與機(jī)器對(duì)話是人與計(jì)算機(jī)之間的雙向信息交換,即人傳達(dá)給機(jī)器一個(gè)信息,機(jī)器會(huì)反饋給人一個(gè)信息,。語(yǔ)音的交互已經(jīng)廣泛應(yīng)用于智能硬件,、智能家居、智能機(jī)器人等領(lǐng)域,。隨著亞馬遜打開智能音箱的市場(chǎng),,各巨頭公司爭(zhēng)相逐鹿,打響了“百箱大戰(zhàn)”,,如谷歌推出了Google Home,、蘋果上線了HomePod等。國(guó)內(nèi)來(lái)看,,科大訊飛推出了“叮咚智能音箱”,,阿里發(fā)布了智能音箱“天貓精靈X1”等。 受訪專家認(rèn)為,,語(yǔ)音識(shí)別屬于感知智能,,而讓機(jī)器從簡(jiǎn)單的識(shí)別語(yǔ)音到理解語(yǔ)音,則上升到了認(rèn)知智能層面,,機(jī)器的自然語(yǔ)言理解能力如何,,也成為了其是否有智慧的標(biāo)志。 在機(jī)器理解人的語(yǔ)言方面,,專家的意見非常一致,,即自然語(yǔ)言理解是人工智能的難點(diǎn)。機(jī)器對(duì)語(yǔ)言理解本身的準(zhǔn)確率非常低,,并不是非常聰明,。但在馬爾科夫看來(lái),人機(jī)交互是機(jī)器的終極智慧,。 “全世界基于自然語(yǔ)言理解的人機(jī)對(duì)話領(lǐng)域,,還沒有萬(wàn)流歸宗的方法論,在工業(yè)界無(wú)法形成應(yīng)用,?!臂持窘苷f(shuō),相比之下,,基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)已經(jīng)形成固定的流派,,只是互相之間用的聲學(xué)模型、語(yǔ)言模型各有特色,。 “語(yǔ)言的理解非常困難,,需要知識(shí)的儲(chǔ)備,而機(jī)器缺乏常識(shí),?!毙觳ㄅe例說(shuō),,“張三吃食堂”、“能穿多少穿多少”,。這樣的句子機(jī)器理解不了,?!耙?yàn)樗宋覀兩钪械暮芏喑WR(shí),。比如說(shuō)‘張三吃食堂’,實(shí)際上是說(shuō)張三在食堂吃飯,,不是把食堂吃下去,。不同季節(jié)說(shuō)‘能穿多少穿多少’意思也是不一樣的:在夏天說(shuō),意思就是太熱了盡量少穿,;在冬天說(shuō),,意思則是多穿點(diǎn)別著涼?!毙觳ǜ嬖V記者,,常識(shí)是我們從小到大、通過(guò)與現(xiàn)實(shí)物理世界不斷交互感知和學(xué)習(xí)產(chǎn)生的,,而計(jì)算機(jī)怎么去表示,、獲取、學(xué)習(xí)常識(shí),,并將常識(shí)與數(shù)據(jù)結(jié)合是個(gè)挑戰(zhàn),,全世界都還沒有解決這個(gè)問(wèn)題。 徐波告訴記者,,目前機(jī)器服務(wù)多為簡(jiǎn)單查詢,,不涉及“推理”查詢類信息服務(wù),而且缺乏基本語(yǔ)言理解能力,?!澳銌?wèn)機(jī)器明天這個(gè)天氣狀況會(huì)造成航班延誤嗎?機(jī)器回答不了,。你讓機(jī)器推薦一個(gè)附近的餐廳,,不要日本菜,機(jī)器推薦的沒準(zhǔn)就是日本餐廳,?!?/p> 專家認(rèn)為,機(jī)器基本不具有的上下文功能,,也讓人機(jī)交互之間難以順暢進(jìn)行,。目前開放領(lǐng)域的聊天系統(tǒng),會(huì)根據(jù)用戶輸入的語(yǔ)句生成系統(tǒng)的回答語(yǔ)句,。這種系統(tǒng)采用單輪的一問(wèn)一答方式訓(xùn)練,,而對(duì)于多輪交互才能完成的對(duì)話,,機(jī)器無(wú)法將聊天中的上下文信息關(guān)聯(lián)起來(lái),導(dǎo)致交流不暢,。 “人與人之間的交流,,最重要的就是持續(xù)、雙向,、可打斷,。為實(shí)現(xiàn)自然流暢的交互,科大訊飛采用了一個(gè)全鏈路的貫穿過(guò)程,,需要包括持續(xù)的語(yǔ)音喚醒,、人聲檢測(cè)、智能斷句,、無(wú)效語(yǔ)音拒識(shí)等各個(gè)模塊相互配合才能完成,。”丁瑞說(shuō),,智能斷句主要是在識(shí)別過(guò)程中,,用語(yǔ)義信息來(lái)預(yù)測(cè)和判定。以點(diǎn)歌為例,,用戶經(jīng)常會(huì)說(shuō),,我想聽……周杰倫的歌,中間會(huì)有思考過(guò)程,。此時(shí)后端的斷句引擎必須等待后續(xù)的有效音頻,,給出完整的理解內(nèi)容。但如果用戶停頓時(shí)間過(guò)長(zhǎng),,后端引擎也會(huì)給出響應(yīng),,比如會(huì)問(wèn):您要聽誰(shuí)的歌,以做出更好的引導(dǎo)提示,。 雖然各方在積極探索機(jī)器的自然語(yǔ)言理解實(shí)現(xiàn)路徑,,但要實(shí)現(xiàn)電影《她》中的強(qiáng)人工智能,還有待時(shí)日,。LW |
|
來(lái)自: 頤源書屋 > 《網(wǎng)托邦》