深度 | 肖仰華：基于知識圖譜的問答系統(tǒng)

昵稱16619343 2017-12-25

展開全文

本文整理自復旦大學知識工場肖仰華教授在VLDB 2017 會議上的論文報告,，題目為《KBQA: Learning Question Answeringover QA Corpora and Knowledge Bases》，作者包括：崔萬云博士（現(xiàn)上海財經(jīng)大學講師）,，肖仰華教授（復旦大學）等等,。

VLDB (Very Large Data Base) 是數(shù)據(jù)庫領域最頂尖的國際會議之一，被中國計算機學會推薦國際學術會議列表認定為 A 類會議,。涵蓋數(shù)據(jù)庫系統(tǒng),、數(shù)據(jù)管理,、大數(shù)據(jù)處理、數(shù)據(jù)挖掘等各個研究領域,，是展現(xiàn)數(shù)據(jù)庫前沿科研成果以及探討數(shù)據(jù)庫未來發(fā)展方向的盛會,。

獲取論文和完整PPT

關注“知識工場”微信公眾號，回復“20170907”獲取下載鏈接,。

肖仰華：大家好,，非常高興能在這里與大家分享我們的論文。

問答系統(tǒng)（QA）已經(jīng)成為人類訪問十億級知識圖譜的流行方式,，它回答的是自然語言問題,。 QA系統(tǒng)最有名的故事之一就是IBM WATSON在2011年參加了Jeopardy競賽,，打敗了所有人類競爭對手,，獲得了100萬美元的獎勵。

QA的研究非常重要,。首先,，從應用角度來看，QA系統(tǒng)降低了人機交互的門檻,，非常適合成為互聯(lián)網(wǎng)的新入口,。作為聊天機器人的重要組件，吸引了來自工業(yè)界的大量關注,。

從人工智能角度來看,，QA是評估機器智能的一個重要任務，也就是圖靈測試,。同時,，QA還是許多AI技術的重要測試平臺，比如機器學習,，自然語言處理,，機器認知等等

現(xiàn)在我們來談談知識庫。近年來,，我們目睹了知識庫的發(fā)展,，越來越多的大規(guī)模知識庫涌現(xiàn)出來，如Google Knowledge graph,，Yago和Freebase等,。這些知識庫具有體量大，質(zhì)量高的特點,。

一個知識庫包含了大量的結(jié)構(gòu)化數(shù)據(jù),。右圖給出了一個關于Obama的知識圖譜示例。知識庫中的每一個三元組代表一個知識或某個事實,。例如,，一個三元組（d，人口，390k）表示檀香山的人口為390k,。

KBQA指的是以知識庫作為答案來源的問答系統(tǒng),。

那么它是如何工作的呢？關鍵在于將自然語言問題轉(zhuǎn)換為知識庫上的結(jié)構(gòu)化查詢,。例如,，要回答“有多少人住在檀香山？”這個問題,，我們需要將其轉(zhuǎn)移到SPARQL或者SQL查詢,。這里的關鍵問題是屬性推斷。

關于屬性推斷,，我們面臨兩個挑戰(zhàn),。

第一個挑戰(zhàn)是問題表示。對于任意一個QA系統(tǒng),，我們需要一個具有代表性的問題表示來幫助識別具有相同語義的問題,，同時區(qū)分不同意圖的問題。

第二個挑戰(zhàn)是語義匹配,，如何將問題表示映射到知識庫中的結(jié)構(gòu)化查詢,？

然而，之前的解決方案并不能解決上述提出的挑戰(zhàn),。

我們研究了兩個主流的解決方案,。

第一個是基于模板/規(guī)則的方法。這個方法用模板表示句子,，語義解析往往通過人工標記來實現(xiàn),。這種方法的優(yōu)點是它的結(jié)果是用戶可控的，這使得它更適用于工業(yè)用途,。缺點是嚴重依賴人工,，成本太高，昂貴的人力成本使得它無法處理多樣性的問題,。

另一個是基于神經(jīng)網(wǎng)絡的方法,。最近這種做法很受歡迎，它們通過embedding的方式來表示一個問題,，并從QA語料庫中學習出它的語義解析,。這種方法的優(yōu)點是embedding是靈活的，所以它可以理解各種各樣的問題,。缺點是基于神經(jīng)網(wǎng)絡的方法通常具有較差的解釋性,，此外，結(jié)果是不可控的,，所以他們并不適用于工業(yè)應用,。

因此,，我們不禁會想：能不能提出一種新的方法兼?zhèn)溥@兩種方法的優(yōu)點？

為了做到這一點,，我們用模板來表示自然語言問題,。例如，“檀香山有多少人,？”的模板成為“城市里有多少人,？”。因為使用了模板作為問題表示,，我們的方法具有可解釋性和用戶可控性,。

然而，我們并不是手動標記模板,，而是從QA語料庫中自動學習模板,。最終，我們?yōu)?,782個意圖學到了2,700萬個模板,，這么大量的數(shù)據(jù)保證我們可以理解不同的問題,。

這個系統(tǒng)體系結(jié)構(gòu)如圖所示,。它主要包括兩個過程：離線預處理部分和在線QA部分,。

我們先來看看離線過程，離線過程的目標是學習出從模板到屬性的映射,。

再來看在線部分,，當一個問題進來，系統(tǒng)首先將其解析和分解為一組二元事實型問題,。對于每個二元事實型問題,，系統(tǒng)使用概率推斷來尋找它的值。這個推斷是基于給定模板的屬性分布來得到的,。

接下來,，我們對這個問題進行形式化定義。給定問題q,，問答系統(tǒng)的目標是尋找具有最大概率的答案v（其中，v是一個簡單值）。

我們提出了一個生成模型來解釋如何為一個問題找到它的答案,。

我們認為使用概率推斷的方法來做KBQA是非常合理的,。首先，一些問題的意圖是模糊的,。其次,，大多數(shù)知識庫都是不完整的。最后,，QA語料庫中的答案也可能是錯誤的,。

我們以這個問答對來說明這個生成過程,。

從用戶問題q開始，我們首先生成或者說識別出其中對應的知識庫中的實體d,。

在知道問題和實體之后,，我們根據(jù)d的概念分布生成模板t。這樣,，我們得到了一個模板“有多少人住在某城市,？”

由于屬性只與模板有關，所以我們推斷出這個屬性的模板為“population”,。

最后,，給定實體d和屬性population，我們通過查找知識庫來得到它的答案,。

通過這種方法,，我們完成了從一個自然語言問題到生成答案的整個過程。這個過程可以建模為一個概率圖模型,。

基于這個生成模型,，可以得到一個聯(lián)合概率分布，進而用來解決給定其他變量求最大v的條件概率問題,。

下一個問題是如何計算出聯(lián)合概率分布公式中的每一種概率,。

我們可以從語料庫直接估計出來大部分的概率。例如實體分布的概率,，模板分布的概率以及值分布的概率,。

我們從雅虎問答的4200萬的QA pairs中,，學習出問題模板和屬性的映射關系。表中展示了QA語料庫中的一些例子,。

最后我們來估計P(P|T)的值,。基本思路是將P(P|T)作為參數(shù),，然后使用極大似然法來估計P(P|T),。

這里我們使用了EM算法來進行參數(shù)估計。

KBQA的另一個難點就是回答復雜問題,。在面對復雜問題時,，我們采用了分治算法。首先,，系統(tǒng)把問題分解為一系列的二元事實型問題,，然后系統(tǒng)依次回答每個問題,。每個問題的答案都是一個概率,，我們通過動態(tài)規(guī)劃算法找到最優(yōu)分解,。

接下來我們來看看實驗部分。我們首先通過實驗證明屬性推斷的有效性,。我們從學習出的屬性數(shù)量和模板數(shù)據(jù)來對比我們的方法和bootstrapping方法。結(jié)果表明，我們的KBQA方法能得到更多的屬性和模板，這意味著KBQA在屬性推理中更有效,。大量的模板可以確保KBQA理解不同的問題模板，同時，大量的屬性可以確保KBQA理解不同的關系,。

我們也在很多benchmarks上用到了我們的KBQA。圖為QALD-5的結(jié)果,。結(jié)果表明，KBQA具有最高的準確度,。由于KBQA只回答二元事實型問題,，因此召回率相對較低,。如果我們只考慮二元事實型問答,，召回率能上升到0.67。

即使在一個不以二元事實型問題為主的數(shù)據(jù)集中（如WEBQUESTIONS,，QALD-3）,，KBQA也可以作為混合問答系統(tǒng)的一個完美組件。

我們這樣構(gòu)建混合問題系統(tǒng)：一個問題過來,，首先提交給我們的KBQA系統(tǒng),。如果KBQA系統(tǒng)不能回答,，這意味著這個問題很可能不是二元事實型問題。然后,，我們再將這個問題提交給baseline系統(tǒng),。

結(jié)果表明，當使用了我們的KBQA系統(tǒng)后,，baseline系統(tǒng)的性能都有了很明顯的提高,。

最后，我們對本文進行總結(jié),。我們構(gòu)建了一個基于知識庫的問答系統(tǒng)KBQA,。我們的QA系統(tǒng)和以前的系統(tǒng)有兩個明顯區(qū)別：第一，它使用模板理解問題,；第二,，它從非常大的QA語料庫中學習語義解析。

我們認為系統(tǒng)還有很多可以改進的地方,。首先,，目前關于QA系統(tǒng)的研究主要建立在開放領域的知識庫上。因此,，研究如何使這些系統(tǒng)適應不同特定領域的應用是非常重要的。其次,，我們希望可以通過常識推理來更深入的理解問題。再者,，由于知識庫仍然存在數(shù)據(jù)缺陷問題,，如何使用互聯(lián)網(wǎng)作為外部知識變得非常重要,。