機(jī)器之心整理,參與:李亞洲,、思源,。
根據(jù) AMiner 研究報(bào)告的摘要所述,,分析師們主要從以下五個(gè)方向六大章節(jié)梳理自然語(yǔ)言處理的發(fā)展?fàn)顩r:
1 概述篇 在概述篇中,該報(bào)告重點(diǎn)介紹了自然語(yǔ)言處理的概念、發(fā)展歷程,、我國(guó) NLP 目前的發(fā)展?fàn)顩r和業(yè)界的研究與應(yīng)用,。 1.1 自然語(yǔ)言處理概念 自然語(yǔ)言是指漢語(yǔ)、英語(yǔ),、法語(yǔ)等人們?nèi)粘J褂玫恼Z(yǔ)言,,是自然而然的隨著人類(lèi)社會(huì)發(fā) 展演變而來(lái)的語(yǔ)言,而不是人造的語(yǔ)言,,它是人類(lèi)學(xué)習(xí)生活的重要工具,。概括說(shuō)來(lái),自然語(yǔ) 言是指人類(lèi)社會(huì)約定俗成的,,區(qū)別于人工語(yǔ)言,,如程序設(shè)計(jì)的語(yǔ)言。 自然語(yǔ)言處理,,是指用計(jì)算機(jī)對(duì)自然語(yǔ)言的形,、音、 義等信息進(jìn)行處理,,即對(duì)字,、詞、句,、篇章的輸入,、輸出、識(shí)別,、分析,、理解、生成等的操作和加工,。實(shí)現(xiàn)人機(jī)間的信息交流,,是人工智能界、計(jì)算機(jī)科學(xué)和語(yǔ)言學(xué)界所共同關(guān)注的重要問(wèn)題,。自然語(yǔ)言處理的具體表現(xiàn)形式包括機(jī)器翻譯,、文本摘要、文本分類(lèi),、文本校對(duì),、信息抽取、語(yǔ)音合成,、語(yǔ)音識(shí)別等,。可以說(shuō),,自然語(yǔ)言處理就是要計(jì)算機(jī)理解自然語(yǔ)言,,自然語(yǔ)言處理機(jī)制涉及兩個(gè)流程,,包括自然語(yǔ)言理解和自然語(yǔ)言生成。 1.2 自然語(yǔ)言處理發(fā)展歷程 自然語(yǔ)言處理是包括了計(jì)算機(jī)科學(xué),、語(yǔ)言學(xué)心理認(rèn)知學(xué)等一系列學(xué)科的一門(mén)交叉學(xué)科,,這些學(xué)科性質(zhì)不同但又彼此相互交叉。因此,,梳理自然語(yǔ)言處理的發(fā)展歷程對(duì)于我們更好地了解自然語(yǔ)言處理這一學(xué)科有著重要的意義,。 從 2008 年到現(xiàn)在,在圖像識(shí)別和語(yǔ)音識(shí)別領(lǐng)域的成果激勵(lì)下,,人們也逐漸開(kāi)始引入深度學(xué)習(xí)來(lái)做自然語(yǔ)言處理研究,,由最初的詞向量到 2013 年 word2vec,將深度學(xué)習(xí)與自然語(yǔ)言處理的結(jié)合推向了高潮,,并在機(jī)器翻譯,、問(wèn)答系統(tǒng)、閱讀理解等領(lǐng)域取得了一定成功,。深 度學(xué)習(xí)是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),,從輸入層開(kāi)始經(jīng)過(guò)逐層非線(xiàn)性的變化得到輸出。從輸入到輸出做端到端的訓(xùn)練,。把輸入到輸出對(duì)的數(shù)據(jù)準(zhǔn)備好,,設(shè)計(jì)并訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),即可執(zhí)行預(yù)想的任務(wù),。RNN 已經(jīng)是自然語(yǔ)言護(hù)理最常用的方法之一,,GRU、LSTM 等模型相繼引發(fā)了一輪又一輪的熱潮,。 1.3 我國(guó)自然語(yǔ)言處理現(xiàn)狀 目前自然語(yǔ)言處理的研究可以分為基礎(chǔ)性研究和應(yīng)用性研究?jī)刹糠?,語(yǔ)音和文本是兩類(lèi) 研究的重點(diǎn)?;A(chǔ)性研究主要涉及語(yǔ)言學(xué),、數(shù)學(xué)、計(jì)算機(jī)學(xué)科等領(lǐng)域,,相對(duì)應(yīng)的技術(shù)有消除歧義、語(yǔ)法形式化等,。應(yīng)用性研究則主要集中在一些應(yīng)用自然語(yǔ)言處理的領(lǐng)域,,例如信息檢索、文本分類(lèi),、機(jī)器翻譯等,。由于我國(guó)基礎(chǔ)理論即機(jī)器翻譯的研究起步較早,且基礎(chǔ)理論研究是任何應(yīng)用的理論基礎(chǔ),,所以語(yǔ)法,、句法,、語(yǔ)義分析等基礎(chǔ)性研究歷來(lái)是研究的重點(diǎn),而且隨著互聯(lián)網(wǎng)網(wǎng)絡(luò)技術(shù)的發(fā)展,,智能檢索類(lèi)研究近年來(lái)也逐漸升溫,。 1.4 自然語(yǔ)言處理業(yè)界發(fā)展 1. Google Google 是最早開(kāi)始研究自然語(yǔ)言處理技術(shù)的團(tuán)隊(duì)之一,作為一個(gè)以搜索為核心的公司,,Google 對(duì)自然語(yǔ)言處理更為重視,。Google 擁有著海量數(shù)據(jù),可以搭建豐富龐大的數(shù)據(jù)庫(kù),,可以為其研究提供強(qiáng)大的數(shù)據(jù)支撐,。Google 對(duì)自然語(yǔ)言處理的研究側(cè)重于應(yīng)用規(guī)模、跨語(yǔ)言和跨領(lǐng)域的算法,,其成果在 Google 的許多方面都被使用,,提升了用戶(hù)在搜索、移動(dòng),、應(yīng)用,、廣告、翻譯等方面的體驗(yàn),。 2. 百度 百度自然語(yǔ)言處理部是百度最早成立的部門(mén)之一,,研究涉及深度問(wèn)答、閱讀理解,、智能 寫(xiě)作,、對(duì)話(huà)系統(tǒng)、機(jī)器翻譯,、語(yǔ)義計(jì)算,、語(yǔ)言分析、知識(shí)挖掘,、個(gè)性化,、反饋學(xué)習(xí)等。其中,,百度自然語(yǔ)言處理在深度問(wèn)答方向經(jīng)過(guò)多年打磨,,積累了問(wèn)句理解、答案抽取,、觀點(diǎn)分析與 聚合等方面的一整套技術(shù)方案,,目前已經(jīng)在搜索、度秘等多個(gè)產(chǎn)品中實(shí)現(xiàn)應(yīng)用,。篇章理解通過(guò)篇章結(jié)構(gòu)分析,、主體分析、內(nèi)容標(biāo)簽,、情感分析等關(guān)鍵技術(shù)實(shí)現(xiàn)對(duì)文本內(nèi)容的理解,,目前,,篇章理解的關(guān)鍵技術(shù)已經(jīng)在搜索、資訊流,、糯米等產(chǎn)品中實(shí)現(xiàn)應(yīng)用,。百度翻譯目前支持全球 28 種語(yǔ)言,覆蓋 756 個(gè)翻譯方向,,支持文本,、語(yǔ)音、圖像等翻譯功能,,并提供精準(zhǔn)人工翻 譯服務(wù),,滿(mǎn)足不同場(chǎng)景下的翻譯需求,在多項(xiàng)翻譯技術(shù)取得重大突破,,發(fā)布了世界上首個(gè)線(xiàn) 上神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),。 3. 阿里巴巴 阿里自然語(yǔ)言處理為其產(chǎn)品服務(wù),在電商平臺(tái)中構(gòu)建知識(shí)圖譜實(shí)現(xiàn)智能導(dǎo)購(gòu),,同時(shí)進(jìn)行全網(wǎng)用戶(hù)興趣挖掘,,在客服場(chǎng)景中也運(yùn)用自然語(yǔ)言處理技術(shù)打造機(jī)器人客服,例如螞蟻金融智能小寶,、淘寶賣(mài)家的輔助工具千牛插件等,,同時(shí)進(jìn)行語(yǔ)音識(shí)別以及后續(xù)分析。阿里的機(jī)器翻譯主要與其國(guó)家化電商的規(guī)劃相聯(lián)系,,可以進(jìn)行商品信息翻譯,、廣告關(guān)鍵詞翻譯、買(mǎi)家采 購(gòu)需求以及即時(shí)通信翻譯等,,語(yǔ)種覆蓋中文,、荷蘭語(yǔ)、希伯來(lái)語(yǔ)等語(yǔ)種,,2017 年初阿里正式 上線(xiàn)了自主開(kāi)發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),,進(jìn)一步提升了其翻譯質(zhì)量。 4. 騰訊 AI Lab 是騰訊的人工智能實(shí)驗(yàn)室,,研究領(lǐng)域包括計(jì)算機(jī)視覺(jué),、語(yǔ)音識(shí)別、自然語(yǔ)言處理,、機(jī)器學(xué)習(xí)等,。其研發(fā)的騰訊文智自然語(yǔ)言處理基于并行計(jì)算、分布式爬蟲(chóng)系統(tǒng),,結(jié)合獨(dú)特的語(yǔ)義分析技術(shù),可滿(mǎn)足自然語(yǔ)言處理,、轉(zhuǎn)碼,、抽取,、數(shù)據(jù)抓取等需求,同時(shí),,基于文智 API 還可以實(shí)現(xiàn)搜索,、推薦、輿情,、挖掘等功能,。在機(jī)器翻譯方面,2017 年騰訊宣布翻譯君 上線(xiàn)「同聲傳譯」新功能,,用戶(hù)邊說(shuō)邊翻的需求得到滿(mǎn)足,,語(yǔ)音識(shí)別+NMT 等技術(shù)的應(yīng)用保證了邊說(shuō)邊翻的速度與精準(zhǔn)性。 除此之外,,該報(bào)告還介紹了微軟亞洲研究院,、Facebook、京東和科大訊飛等在 NLP 方面有非常多研究與應(yīng)用的機(jī)構(gòu),。 2 技術(shù)篇 自然語(yǔ)言處理的研究領(lǐng)域極為廣泛,,各種分類(lèi)方式層出不窮,各有其合理性,,我們按照中國(guó)中文信息學(xué)會(huì) 2016 年發(fā)布的《中文信息處理發(fā)展報(bào)告》,,將自然語(yǔ)言處理的研究領(lǐng) 域和技術(shù)進(jìn)行以下分類(lèi),并選取其中部分進(jìn)行介紹,。
2.1 自然語(yǔ)言處理基礎(chǔ)技術(shù) 自然語(yǔ)言的基礎(chǔ)技術(shù)包括詞匯、短語(yǔ),、 句子和篇章級(jí)別的表示,,以及分詞、句法分析和語(yǔ)義分析以及語(yǔ)言認(rèn)知模型和知識(shí)圖譜等,。 2.1.1 詞法,、句法及語(yǔ)義分析 詞法分析的主要任務(wù)是詞性標(biāo)注和詞義標(biāo)注,。詞性是詞匯的基本屬性,詞性標(biāo)注就是在 給定句子中判斷每個(gè)詞的語(yǔ)法范疇,,確定其詞性并進(jìn)行標(biāo)注,。解決兼類(lèi)詞和確定未登錄詞的 詞性問(wèn)題是標(biāo)注的重點(diǎn)。進(jìn)行詞性標(biāo)注通常有基于規(guī)則和基于統(tǒng)計(jì)的兩種方法,。一個(gè)多義詞往往可以表達(dá)多個(gè)意義,,但其意義在具體的語(yǔ)境中又是確定的,詞義標(biāo)注的重點(diǎn)就是解決如何確定多義詞在具體語(yǔ)境中的義項(xiàng)問(wèn)題,。標(biāo)注過(guò)程中,,通常是先確定語(yǔ)境,再明確詞義,,方 法和詞性標(biāo)注類(lèi)似,,有基于規(guī)則和基于統(tǒng)計(jì)的做法。 判斷句子的句法結(jié)構(gòu)和組成句子的各成分,,明確它們之間的相互關(guān)系是句法分析的主要任務(wù),。句法分析通常有完全句法分析和淺層句法分析兩種,完全句法分析是通過(guò)一系列的句法分析過(guò)程最終得到一個(gè)句子的完整的句法樹(shù),。句法分析方法也分為基于規(guī)則和基于統(tǒng)計(jì)的 方法,,基于統(tǒng)計(jì)的方法是目前的主流方法,概率上下文無(wú)關(guān)文法用的較多,。完全句法分析存 在兩個(gè)難點(diǎn),,一是詞性歧義;二是搜索空間太大,,通常是句子中詞的個(gè)數(shù) n 的指數(shù)級(jí),。淺層句法分析又叫部分句法分析或語(yǔ)塊分析,它只要求識(shí)別出句子中某些結(jié)構(gòu)相對(duì)簡(jiǎn)單的成分如 動(dòng)詞短語(yǔ),、非遞歸的名詞短語(yǔ)等,,這些結(jié)構(gòu)被稱(chēng)為語(yǔ)塊。一般來(lái)說(shuō),,淺層語(yǔ)法分析會(huì)完成語(yǔ)塊的識(shí)別和分析,、語(yǔ)塊之間依存關(guān)系的分析兩個(gè)任務(wù),其中語(yǔ)塊的識(shí)別和分析是淺層語(yǔ)法分析的主要任務(wù),。 語(yǔ)義分析是指根據(jù)句子的句法結(jié)構(gòu)和句子中每個(gè)實(shí)詞的詞義推導(dǎo)出來(lái)能夠反映這個(gè)句 子意義的某種形式化表示,,將人類(lèi)能夠理解的自然語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)能夠理解的形式語(yǔ)言。句子的分析與處理過(guò)程,,有的采用「先句法后語(yǔ)義」的方法,,但「句法語(yǔ)義一體化」的策略 還是占據(jù)主流位置。語(yǔ)義分析技術(shù)目前還不是十分成熟,運(yùn)用統(tǒng)計(jì)方法獲取語(yǔ)義信息的研究頗受關(guān)注,,常見(jiàn)的有詞義消歧和淺層語(yǔ)義分析,。 自然語(yǔ)言處理的基礎(chǔ)研究還包括語(yǔ)用語(yǔ)境和篇章分析。語(yǔ)用是指人對(duì)語(yǔ)言的具體運(yùn)用,,研究和分析語(yǔ)言使用者的真正用意,它與語(yǔ)境,、語(yǔ)言使用者的知識(shí)涵養(yǎng),、言語(yǔ)行為、想法和 意圖是分不開(kāi)的,,是對(duì)自然語(yǔ)言的深層理解,。情景語(yǔ)境和文化語(yǔ)境是語(yǔ)境分析主要涉及的方 面,篇章分析則是將研究擴(kuò)展到句子的界限之外,,對(duì)段落和整篇文章進(jìn)行理解和分析,。 除此之外,自然語(yǔ)言的基礎(chǔ)研究還涉及詞義消歧,、指代消解,、命名實(shí)體識(shí)別等方面的研 究。 2.1.2 知識(shí)圖譜 知識(shí)圖譜,,是為了表示知識(shí),,描述客觀世界的概念、實(shí)體,、事件等之間關(guān)系的一種表示 形式,。這一概念的起源可以追溯至語(yǔ)義網(wǎng)絡(luò)——提出于 20 世紀(jì)五六十年代的一種知識(shí)表示 形式。語(yǔ)義網(wǎng)絡(luò)由許多個(gè)「節(jié)點(diǎn)」和「邊」組成,,這些「節(jié)點(diǎn)」和「邊」相互連接,,「節(jié)點(diǎn)」表示的是概念或?qū)ο螅高叀贡硎靖鱾€(gè)節(jié)點(diǎn)之間的關(guān)系,。 知識(shí)圖譜在表現(xiàn)形式上與語(yǔ)義網(wǎng)絡(luò)比較類(lèi)似,,不同的是,語(yǔ)義網(wǎng)絡(luò)側(cè)重于表示概念與概 念之間的關(guān)系,,而知識(shí)圖譜更側(cè)重于表述實(shí)體之間的關(guān)系?,F(xiàn)在的知識(shí)網(wǎng)絡(luò)被用來(lái)泛指大規(guī) 模的知識(shí)庫(kù),知識(shí)圖譜中包含的節(jié)點(diǎn)有以下幾種:
知識(shí)圖譜表示,、構(gòu)建和應(yīng)用涉及很多學(xué)科,,是一項(xiàng)綜合的復(fù)雜技術(shù)。知識(shí)圖譜技術(shù)既涉 及自然語(yǔ)言處理中的各項(xiàng)技術(shù),,從淺層的文本向量表示,、到句法和語(yǔ)義結(jié)構(gòu)表示被適用于資源內(nèi)容的表示中,分詞和詞性標(biāo)注,、命名實(shí)體識(shí)別,、句法語(yǔ)義結(jié)構(gòu)分析、指代分析等技術(shù)被 應(yīng)用于自然語(yǔ)言處理中,。同時(shí),,知識(shí)圖譜的研究也促進(jìn)了自然語(yǔ)言處理技術(shù)的研究,基于知 識(shí)圖譜的詞義排岐和語(yǔ)義依存關(guān)系分析等知識(shí)驅(qū)動(dòng)的自然語(yǔ)言處理技術(shù)得以建立,。 2.2 自然語(yǔ)言處理應(yīng)用技術(shù) 2.2.1 機(jī)器翻譯 機(jī)器翻譯(Machine Translation)是指運(yùn)用機(jī)器,,通過(guò)特定的計(jì)算機(jī)程序?qū)⒁环N書(shū)寫(xiě)形式 或聲音形式的自然語(yǔ)言,翻譯成另一種書(shū)寫(xiě)形式或聲音形式的自然語(yǔ)言,。機(jī)器翻譯是一門(mén)交 叉學(xué)科(邊緣學(xué)科),,組成它的三門(mén)子學(xué)科分別是計(jì)算機(jī)語(yǔ)言學(xué)、人工智能和數(shù)理邏輯,,各 自建立在語(yǔ)言學(xué),、計(jì)算機(jī)科學(xué)和數(shù)學(xué)的基礎(chǔ)之上。 目前,,文本翻譯最為主流的工作方式依然是以傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯和神經(jīng)網(wǎng)絡(luò)翻譯為主,。Google,、Microsoft 與國(guó)內(nèi)的百度、有道等公司都為用戶(hù)提供了免費(fèi)的在線(xiàn)多語(yǔ)言翻譯系統(tǒng),。速度快,、成本低是文本翻譯的主要特點(diǎn),而且應(yīng)用廣泛,,不同行業(yè)都可以采用相應(yīng)的專(zhuān)業(yè)翻譯,。但是,這一翻譯過(guò)程是機(jī)械的和僵硬的,,在翻譯過(guò)程中會(huì)出現(xiàn)很多語(yǔ)義語(yǔ)境上的問(wèn)題,,仍然需要人工翻譯來(lái)進(jìn)行補(bǔ)充。 語(yǔ)音翻譯可能是目前機(jī)器翻譯中比較富有創(chuàng)新意思的領(lǐng)域,,搜狗推出的機(jī)器同傳 技術(shù)主要在會(huì)議場(chǎng)景出現(xiàn),演講者的語(yǔ)音實(shí)時(shí)轉(zhuǎn)換成文本,,并且進(jìn)行同步翻譯,,低延遲顯示 翻譯結(jié)果,希望能夠取代人工同傳,,實(shí)現(xiàn)不同語(yǔ)言人們低成本的有效交流,。 圖像翻譯也有不小的進(jìn)展。谷歌,、微軟,、Facebook 和百度均擁有能夠讓用戶(hù)搜索或者自動(dòng)整理沒(méi)有識(shí)別標(biāo)簽照片的技術(shù)。除此之外還有視頻翻譯和 VR 翻譯也在逐漸應(yīng)用中,,但是目前的應(yīng)用還不太成熟,。 2.2.2 信息檢索 信息檢索是從相關(guān)文檔集合中查找用戶(hù)所需信息的過(guò)程。信息檢索的基本原理是將用戶(hù)輸入的檢索關(guān)鍵詞與數(shù)據(jù)庫(kù) 中的標(biāo)引詞進(jìn)行對(duì)比,,當(dāng)二者匹配成功時(shí),,檢索成功。 以谷歌為代表的「關(guān)鍵詞查詢(xún)+選擇性瀏覽」交互方式,,用戶(hù)用簡(jiǎn)單的關(guān)鍵詞作為查詢(xún) 提交給搜索引擎,,搜索引擎并非直接把檢索目標(biāo)頁(yè)面反饋給用戶(hù),而是提供給用戶(hù)一個(gè)可能 的檢索目標(biāo)頁(yè)面列表,,用戶(hù)瀏覽該列表并從中選擇出能夠滿(mǎn)足其信息需求的頁(yè)面加以瀏覽,。 2.2.4 自動(dòng)問(wèn)答 自動(dòng)問(wèn)答是指利用計(jì)算機(jī)自動(dòng)回答用戶(hù)所提出的問(wèn)題以滿(mǎn)足用戶(hù)知識(shí)需求的任務(wù)。自動(dòng)問(wèn)答系統(tǒng)在回答用戶(hù)問(wèn)題時(shí),,首先要正確理解用戶(hù)所提出的問(wèn)題,,抽取其中關(guān)鍵的信息,在已有的語(yǔ)料庫(kù)或者知識(shí)庫(kù)中進(jìn)行檢索,、匹配,,將獲取的答案反饋給用戶(hù),。這一過(guò)程 涉及了包括詞法句法語(yǔ)義分析的基礎(chǔ)技術(shù),以及信息檢索,、知識(shí)工程,、文本生成等多項(xiàng)技術(shù)。 根據(jù)目標(biāo)數(shù)據(jù)源的不同,,問(wèn)答技術(shù)大致可以分為檢索式問(wèn)答,、社區(qū)問(wèn)答以及知識(shí)庫(kù)問(wèn)答 三種。檢索式問(wèn)答和社區(qū)問(wèn)答的核心是淺層語(yǔ)義分析和關(guān)鍵詞匹配,,而知識(shí)庫(kù)問(wèn)答則正在逐步實(shí)現(xiàn)知識(shí)的深層邏輯推理,。 除了這幾種 NLP 應(yīng)用,其它如情感分析,、自動(dòng)文本摘要,、社會(huì)計(jì)算和信息抽取也都有廣泛的應(yīng)用,讀者可查閱原報(bào)告了解詳細(xì)內(nèi)容,。 3 人才篇 3.1 國(guó)外實(shí)驗(yàn)室及人才介紹 AMiner 基于發(fā)表于國(guó)際期刊會(huì)議的學(xué)術(shù)論文,,對(duì)自然語(yǔ)言處理領(lǐng)域全球 h-index 排序 top1000 的學(xué)者進(jìn)行計(jì)算分析,繪制了該領(lǐng)域頂尖學(xué)者全球分布地圖,。 這部分內(nèi)容中,,AMiner 還選取在 ACL、EMNLP,、NAACL,、COLING 等 4 個(gè)會(huì)議在近 5 年累計(jì)發(fā)表 10 次以上論文的國(guó)外學(xué)者及其所在實(shí)驗(yàn)室做簡(jiǎn)要介紹。包括:
除了以上提到的,,國(guó)外還有一些知名自然語(yǔ)言處理實(shí)驗(yàn)室 :
3.2 國(guó)內(nèi)實(shí)驗(yàn)室及人才介紹 這部分,,AMiner 基于論文數(shù)據(jù)整理了自然語(yǔ)言處理華人專(zhuān)家?guī)欤渲邪藖?lái)自 NUS,、HKUS,、 THU、PKU,、FDU 等知名高校以及百度,、科大訊飛、微軟等公司的 367 位專(zhuān)家學(xué)者,。 而后,,AMiner 選取在 ACL,、EMNLP、NAACL,、COLING 等 4 個(gè)會(huì)議在近 5 年累計(jì)發(fā)表 10 次以 上論文的國(guó)內(nèi)學(xué)者包括劉群,、劉挺、周明,、常寶寶,、黃萱菁、劉洋,、孫茂松,、李素建、萬(wàn)小 軍,、邱錫鵬,、穗志方等。 圖:國(guó)內(nèi)學(xué)者介紹示例 3.3 ACL2018 獎(jiǎng)項(xiàng)介紹 2018 年 7 月 15 在墨爾本開(kāi)幕的 ACL 公布了其最佳論文名單,,包括 3 篇最佳長(zhǎng)論文和 2 篇最佳短論文以及 1 篇最佳 demo 論文,,值得一提的是 Amazon Door Prize 中北京大學(xué)和哈爾濱大學(xué)上榜,ACL2018 終身成就獎(jiǎng)為愛(ài)丁堡大學(xué) Mark Steedman 獲得,。 接下來(lái),該報(bào)告對(duì)獲獎(jiǎng)?wù)撐倪M(jìn)行了摘要介紹,。讀者們也可以參考機(jī)器之心文章《計(jì)算語(yǔ)言頂會(huì) ACL 2018 最佳論文公布,!這些大學(xué)與研究員榜上有名》 4. 應(yīng)用篇 從知識(shí)產(chǎn)業(yè)角度來(lái)看,自然語(yǔ)言處理軟件占有重要的地位,,專(zhuān)家系統(tǒng),、數(shù)據(jù)庫(kù)、知識(shí)庫(kù),,計(jì)算機(jī)輔助設(shè)計(jì)系統(tǒng) (CAD),、計(jì)算機(jī)輔助教學(xué)系統(tǒng) (Cal)、計(jì)算機(jī)輔助決策系統(tǒng),、辦公室 自動(dòng)化管理系統(tǒng),、智能機(jī)器人等,全都需要自然語(yǔ)言做人機(jī)界面,。長(zhǎng)遠(yuǎn)看來(lái),,具有篇章理解 能力的自然語(yǔ)言理解系統(tǒng)可用于機(jī)器自動(dòng)翻譯、情報(bào)檢索,、自動(dòng)標(biāo)引及自動(dòng)文摘等領(lǐng)域,,有著廣闊的應(yīng)用前景。 隨著自然語(yǔ)言處理研究的不斷深入和發(fā)展,,應(yīng)用領(lǐng)域越來(lái)越廣,。 文本方面的應(yīng)用主要有:基于自然語(yǔ)言理解的智能搜索引擎和智能檢索,、智能機(jī)器翻譯、 自動(dòng)摘要與文本綜合,、文本分類(lèi)與文件整理,、智能自動(dòng)作文系統(tǒng)、自動(dòng)判卷系統(tǒng),、信息過(guò)濾 與垃圾郵件處理,、文學(xué)研究與古文研究、語(yǔ)法校對(duì),、文本數(shù)據(jù)挖掘與智能決策以及基于自然 語(yǔ)言的計(jì)算機(jī)程序設(shè)計(jì)等,。 語(yǔ)音方面的應(yīng)用主要有:機(jī)器同聲傳譯、智能遠(yuǎn)程教學(xué)與答疑,、語(yǔ)音控制,、智能客戶(hù)服 務(wù)、機(jī)器聊天與智能參謀,、智能交通信息服務(wù) (ATIS),、智能解說(shuō)與體育新聞實(shí)時(shí)解說(shuō)、語(yǔ) 音挖掘與多媒體挖掘,、多媒體信息提取與文本轉(zhuǎn)化以及對(duì)殘疾人智能幫助系統(tǒng)等,。 此外,建立在自然語(yǔ)言處理技術(shù)基礎(chǔ)之上的心理學(xué),、認(rèn)知學(xué),、哲學(xué)、混沌學(xué)說(shuō)的共同發(fā)展,,將使人們對(duì)智能的起源問(wèn)題有新的認(rèn)識(shí),。如果把計(jì)算機(jī)網(wǎng)絡(luò)和未來(lái)的網(wǎng)格看作是由機(jī)器 組成的機(jī)器社會(huì),那么一種屬于機(jī)器的智能可能會(huì)因?yàn)槿祟?lèi)的參與以及機(jī)器社會(huì)中各元素的相互作用而自然誕生,。這樣,,機(jī)器必將能夠通過(guò)「圖靈測(cè)試」,達(dá)到「會(huì)思考」的層次,。而 有關(guān)智能機(jī)器的研究也會(huì)誕生一系列新的領(lǐng)域,,比如,機(jī)器心理學(xué)和機(jī)器認(rèn)知學(xué)等,。 其中,,機(jī)器心理學(xué)主要研究機(jī)器的心理反應(yīng)和意圖。美國(guó)圣迭戈神經(jīng)科學(xué)研究所研制的 機(jī)器人 DarwinV II,,能夠根據(jù)其感知對(duì)外部事物進(jìn)行分類(lèi),,并根據(jù)經(jīng)驗(yàn)和知識(shí)采取相應(yīng)的對(duì)策。然而,,機(jī)器心理學(xué)的研究不能局限于此,,人們還需要對(duì)機(jī)器的意識(shí),、知覺(jué)、思想,、情感,、 情緒、創(chuàng)造力,、機(jī)器社會(huì),、機(jī)器交流等方面進(jìn)行研究,而這一切還需要計(jì)算機(jī)科學(xué),、心理學(xué),、 神經(jīng)科學(xué)的同步發(fā)展。 而后,,AMiner 選取了一些自然語(yǔ)言處理應(yīng)用較為頻繁的場(chǎng)景進(jìn)行介紹,,如知識(shí)圖譜、機(jī)器翻譯,、推薦系統(tǒng)等,。 5 趨勢(shì)篇 隨著深度學(xué)習(xí)時(shí)代的來(lái)臨,神經(jīng)網(wǎng)絡(luò)成為一種強(qiáng)大的機(jī)器學(xué)習(xí)工具,,自然語(yǔ)言處理取得了許多突破性發(fā)展,,情緒分析、自動(dòng)問(wèn)答,、機(jī)器翻譯等領(lǐng)域都飛速發(fā)展,。 下圖分別是 AMiner 計(jì)算出的自然語(yǔ)言處理近期熱點(diǎn)和全球熱點(diǎn)。通過(guò)對(duì) 1994-2017 年間自然語(yǔ)言處理領(lǐng)域有關(guān)論文的挖掘,,總結(jié)出二十多年來(lái),自然語(yǔ)言處理的領(lǐng)域關(guān)鍵詞主要集中在計(jì)算機(jī)語(yǔ)言,、神經(jīng)網(wǎng)絡(luò),、情感分析、機(jī)器翻譯,、詞義消歧,、信息提取、知識(shí)庫(kù)和文本 分析等領(lǐng)域,。旨在基于歷史的科研成果數(shù)據(jù)的基礎(chǔ)上,,對(duì)自然語(yǔ)言處理熱度甚至發(fā)展趨勢(shì)進(jìn)行研究。圖中,,每個(gè)彩色分支表示一個(gè)關(guān)鍵詞領(lǐng)域,,其寬度表示該關(guān)鍵詞的研究熱度,各關(guān)鍵詞在每一年份(縱軸)的位置是按照這一時(shí)間點(diǎn)上所有關(guān)鍵詞的熱度高低進(jìn)行排序,。 圖 16 顯示,,情緒分析,、詞義消歧、知識(shí)庫(kù)和計(jì)算機(jī)語(yǔ)言學(xué)將是最近的熱點(diǎn)發(fā)展趨勢(shì),,圖 17 顯示詞義消歧,、詞義理解、計(jì)算機(jī)語(yǔ)言學(xué),、信息檢索和信息提取將是自然語(yǔ)言處理全 球熱點(diǎn),。 AMiner 同時(shí)在微博 @ArnetMiner 中發(fā)起了關(guān)于自然語(yǔ)言處理未來(lái)發(fā)展趨勢(shì)的投票,得到了如下結(jié)果,。 |
|
來(lái)自: 我的書(shū)摘0898 > 《待分類(lèi)1》