未來十年,,人工智能系統(tǒng)可以從一個(gè)良性循環(huán)中受益 :我們需要依靠知識(shí),,才能很好地理解語言。反過來,,我們需要的知識(shí)也蘊(yùn)藏在語言中,,分散在世界各地的書本和網(wǎng)頁上。如果計(jì)算機(jī)能利用好這個(gè)知識(shí)語言循環(huán),,那么它的語言理解能力就能大幅提升,。 克里斯托弗·曼寧(Christopher D. Manning),斯坦福大學(xué)計(jì)算機(jī)科學(xué)和語言學(xué)教授
近年來,,電腦和手機(jī)應(yīng)用軟件在人際溝通中已經(jīng)變得不可或缺:微博,、微信、臉書(Facebook),、Skype,,以及很多其他軟件。這是一個(gè)巨大的轉(zhuǎn)變,,但在這一潮流中電腦主要充當(dāng)聯(lián)網(wǎng)設(shè)備,,用于在人與人之間傳送信息。很快,我們與電腦的對(duì)話將會(huì)更進(jìn)一步,,我們將使用電腦進(jìn)行跨語言交流,,不管是獲取信息,還是休閑娛樂,。而電腦則將像人類一樣,,通過閱讀和聆聽來學(xué)習(xí)新的話題。
推進(jìn)這些進(jìn)步的技術(shù)就是“自然語言處理”(Natural Language Processing,,簡(jiǎn)稱NLP),。NLP通過使用計(jì)算技術(shù),來達(dá)到學(xué)習(xí),、理解,,以及生成人類語言的目的。隨著電腦計(jì)算能力增強(qiáng)和人類語言在線數(shù)據(jù)的增多,,NLP得以飛速發(fā)展,。我們將不必再耗費(fèi)時(shí)間點(diǎn)擊按鈕或試圖從下拉列表中做出選擇——這些操作在手機(jī)這樣的小型設(shè)備上往往十分不便——未來十年里,我們?cè)谂c電腦交互時(shí),,會(huì)越來越多地采用人類自然而強(qiáng)大的溝通方式:語言,。
過去四年中,計(jì)算機(jī)語音識(shí)別的精確度經(jīng)歷了一個(gè)轉(zhuǎn)折點(diǎn),。如果你最近沒有試過語音識(shí)別,,現(xiàn)在就拿出手機(jī)試一下吧!盡管語音識(shí)別技術(shù)在穩(wěn)步提高,,但長(zhǎng)期以來這項(xiàng)技術(shù)仍不足以激發(fā)普通用戶的興趣,。如今,一般的手機(jī)都能正常識(shí)別出人們說出的詞語了,,而且人們?yōu)榱朔奖?,也在越來越多地使用語音交互。這一巨大進(jìn)步主要源于一項(xiàng)叫做“深度學(xué)習(xí)”(deep learning)的技術(shù),。深度學(xué)習(xí)指的是大型,、多層次人造神經(jīng)網(wǎng)絡(luò)的運(yùn)用,,這些人造神經(jīng)網(wǎng)絡(luò)可以經(jīng)過自動(dòng)訓(xùn)練,,學(xué)到有用的特征表達(dá)。首先,,人們開發(fā)出了深度學(xué)習(xí)聲學(xué)模型(deep learning acoustic models),,它更善于解碼人類語音,它學(xué)會(huì)的模式識(shí)別(pattern recognition)中的聲學(xué)模型,,比以往機(jī)制中的人為設(shè)計(jì)的模型更為靈活,。在此基礎(chǔ)上,包括谷歌(Google)和百度在內(nèi)的多家公司,都已經(jīng)開始向完全基于深度學(xué)習(xí)的語音識(shí)別系統(tǒng)發(fā)展,。
然而,,單詞識(shí)別的成功并不意味著電腦現(xiàn)在就能理解人們?cè)谡f什么了。我們現(xiàn)在能向手機(jī)虛擬助手順利地提一些簡(jiǎn)單的問題,,例如:“哪里能看到最新上映的《星球大戰(zhàn)》電影,?”但是如果你的問題需要更多地依賴上下文關(guān)系來理解,例如:“我今晚的航班因?yàn)樘鞖庠蛉∠藛??”那么電腦的語言理解能力可能仍有欠缺,。準(zhǔn)確的語言理解需要計(jì)算機(jī)具備人類的知識(shí)。例如,,試比較下面這兩句話,,出自計(jì)算機(jī)科學(xué)家歐內(nèi)斯特·戴維斯(Ernest Davis): I used an old rag to clean the knife, and then I put it in the top drawer.我用一塊舊抹布把小刀擦干凈,然后我把它放在了最上層的抽屜里,。I used an old rag to clean the knife, and then I put it in the trash.我用一塊舊抹布把小刀擦干凈,,然后我把它放進(jìn)了垃圾桶里。 “它”(it)無疑既可以指小刀又可以指抹布,。我們動(dòng)用自己對(duì)理性人類行為的理解,,來判斷“它”在這兩個(gè)句子中的所指。NLP研究人員正在研究如何更多地利用語言的含義(語義學(xué)),,以及它在上下文中是如何被解讀的(語用學(xué)),,來解決共同指代(coreference)的問題——例如上述的“它”指什么——以及解讀句子的其他問題。舉例來說,,如果有人說“股市震蕩”(stock markets shuddered),,它的意思是股價(jià)大幅下跌,而不是物理性的顫抖,。
人類語言的使用遠(yuǎn)遠(yuǎn)超出了陳述事實(shí)和提出問題的范疇,。語言的使用很大程度上是社交性的:我們用語言來分享情感、消磨時(shí)光,,以及與其他人聯(lián)系,。NLP研究工作最近要解決的就是語言在這種社交層面上的問題。現(xiàn)代計(jì)算機(jī)的文字轉(zhuǎn)語音系統(tǒng),,比過去所用的機(jī)器人式語音改進(jìn)了很多,,因?yàn)樗鼙憩F(xiàn)出一些語調(diào)了。微軟亞洲研究院(Microsoft Research Asia)在“小冰”(XiaoIce)聊天機(jī)器人的研發(fā)上取得了很大成功,,原因就在于它可以持續(xù)進(jìn)行口語對(duì)話,。當(dāng)被問到關(guān)于一個(gè)韓國明星的問題時(shí),小冰以非常喜人的方式回應(yīng)道:“你看到她上周演唱會(huì)的照片了嗎,?簡(jiǎn)直太棒了 \(@v@)/”,。小冰是基于文本的對(duì)話代理的一個(gè)例子。盡管語音在某些場(chǎng)合的確很方便,但在辦公室或在公共交通設(shè)施等場(chǎng)合里,,文本消息就更方便,。對(duì)于使用文本而非app來建立對(duì)話式的交互界面而言,微信已經(jīng)走在了世界前沿,。隨著此類系統(tǒng)的改進(jìn),,很多人可能會(huì)選擇基于文本的對(duì)話來完成交易,而不是在一百個(gè)不同的手機(jī)app當(dāng)中反復(fù)翻找,。
在過去30年里,,技術(shù)進(jìn)步不利于小語種,而是促成了英語統(tǒng)治地位的不斷鞏固,。不過,,未來30年,技術(shù)將消除語言壁壘,,讓中等規(guī)模的語種和大語種的使用者,,更輕松地與世界各地的人交流。機(jī)器翻譯的研究始于上個(gè)世紀(jì)五十年代末,,是計(jì)算機(jī)最早的非數(shù)字應(yīng)用之一,。不過,早期的系統(tǒng)只能理解很少幾條簡(jiǎn)單的語法規(guī)則,,并在詞典里查詢單詞單一的解釋,。人類語言可比這個(gè)復(fù)雜地多。根據(jù)上下文,,一個(gè)中文詞比如“上場(chǎng)”,,可能需要翻譯成英文的“went on stage”、“took the field”,,甚至“entered”,。新千年的到來也為我們帶來了包括多語言對(duì)照文本的大量線上文本,也出現(xiàn)了更強(qiáng)大的計(jì)算能力以及建立統(tǒng)計(jì)學(xué)機(jī)器翻譯系統(tǒng)的新設(shè)想,。
短短幾年,,這些想法已經(jīng)在幾家大型互聯(lián)網(wǎng)公司轉(zhuǎn)化成了現(xiàn)實(shí),發(fā)展成為了谷歌翻譯(Google Translate)和必應(yīng)翻譯(Bing Translate)等服務(wù),。通過以小短語為單位進(jìn)行翻譯,,這些服務(wù)的質(zhì)量得到了很大提升,能支持幾十種語言之間免費(fèi)和實(shí)時(shí)的互譯,。不過目前提供的翻譯的準(zhǔn)確程度,,還只能讓用戶明白大概的意思,。但語言技術(shù)一直在飛速進(jìn)步,。過去兩年,基于深度學(xué)習(xí)的序列模型的使用,讓一種很有前景的機(jī)器翻譯新方法得到了發(fā)展,。這些模型將詞語和句子的意思,,體現(xiàn)為用實(shí)數(shù)構(gòu)成的語義向量之后再被翻譯成不同語言對(duì)應(yīng)的詞。2015年12月,,在越南舉行的口語翻譯大會(huì)上發(fā)布的成果表明,,運(yùn)用我在斯坦福大學(xué)的團(tuán)隊(duì)提出的這些構(gòu)想的系統(tǒng),錯(cuò)誤率比第二名至少低25%,。
在人工智能問世的頭幾十年,,研究人員就已經(jīng)知道,通往智能計(jì)算機(jī)的道路就是讓計(jì)算機(jī)能夠獲取大量知識(shí),。因此他們開始嘗試手工搭建結(jié)構(gòu)化的大型知識(shí)庫,。這一嘗試沒有成功:知識(shí)庫在結(jié)構(gòu)上太過死板,當(dāng)時(shí)的計(jì)算能力還不足以有效地理解建立好的知識(shí)庫,,而且在當(dāng)時(shí),,想建立足夠全面的知識(shí)庫也是不可能的。今天,,我們已經(jīng)成功地建起了規(guī)模巨大的知識(shí)庫,,維基百科(Wikipedia)就是一個(gè)很好的例子,而且網(wǎng)上還有規(guī)模龐大的科學(xué)文獻(xiàn),。但這些知識(shí)都是用人類語言編碼的,。研發(fā)機(jī)器閱讀的動(dòng)機(jī)就源于這里。一個(gè)初步的目標(biāo)是提取基本事實(shí),,比如兩個(gè)實(shí)體之間的關(guān)系:配偶(碧昂斯,,Jay Z)。在很多專業(yè)領(lǐng)域,,類似這樣的關(guān)系體系已經(jīng)建立完成了,。例如,有若干家公司在嘗試建立從簡(jiǎn)歷中提取信息的系統(tǒng),。同樣的技術(shù)已被用來生成科學(xué)信息數(shù)據(jù)庫,,如基于文本報(bào)告的藥品副作用數(shù)據(jù)。除了簡(jiǎn)單明了的事實(shí),,如何提取觀點(diǎn)和態(tài)度更有意思,。于是,一個(gè)以情感分析和社交媒體監(jiān)測(cè)為核心的行業(yè)應(yīng)運(yùn)而生,,利用計(jì)算機(jī)系統(tǒng)挖掘人們對(duì)特定企業(yè),、產(chǎn)品和人的想法。目前的工作目標(biāo)是盡量拓展語言理解的范圍,,向真正的機(jī)器閱讀靠攏,。這一目標(biāo)實(shí)現(xiàn)后,,計(jì)算機(jī)系統(tǒng)就可以圍繞基于某個(gè)文本描述的一個(gè)主題,進(jìn)行學(xué)習(xí),。例如,,我的團(tuán)隊(duì)已經(jīng)開始著手研發(fā)一個(gè)系統(tǒng),該計(jì)算機(jī)系統(tǒng)通過閱讀教科書,,嘗試學(xué)習(xí)如細(xì)胞分裂或光合作用等生物過程,。這是個(gè)激動(dòng)人心的研究目標(biāo),但是目前,,我們的技術(shù)能力仍然十分有限,,無法完成這種真正的知識(shí)建構(gòu)。
在地球不斷進(jìn)化的歷史進(jìn)程中,,視覺已經(jīng)存在了大約5億年,,但人類發(fā)展出語言的時(shí)間相比之下卻短得多,有大約10萬到200萬年,。溝通的力量讓我們超越了其他物種,。更近些時(shí),人類創(chuàng)造出讓知識(shí)交流跨越時(shí)空距離的文字,。在短短5000年時(shí)間里,,它就把我們從青銅器時(shí)代,帶到了今天的智能手機(jī)時(shí)代,。對(duì)于人工智能的探索,,需要電腦具備運(yùn)用語言溝通和學(xué)習(xí)的能力,其中所需的技術(shù)如今正逐步成為現(xiàn)實(shí),。未來十年,,我們的人工智能系統(tǒng)可以從一個(gè)良性循環(huán)中受益:我們需要依靠知識(shí),才能很好地理解語言,,反過來,,我們需要的知識(shí)也蘊(yùn)藏在語言中,分散在世界各地的書本和網(wǎng)頁上,。如果計(jì)算機(jī)能利用好這個(gè)知識(shí)?語言循環(huán),,那么它的語言理解能力就能大幅提升。《統(tǒng)計(jì)自然語言處理基礎(chǔ)》(Foundations ofStatistical Natural Language Processing(1999) ,《信息檢索導(dǎo)論》(Introduction toInformation Retrieval (2008)
|