【原】【NLP-ChatBot】搜索引擎的最終形態(tài)之問(wèn)答系統(tǒng)（FAQ）詳述

有三AI 2020-11-27

展開(kāi)全文

本篇介紹聊天機(jī)器人中出現(xiàn)的比較早的一種：?jiǎn)柎鹣到y(tǒng),。問(wèn)答系統(tǒng)跟檢索技術(shù)很相似,，基本的功能就是，用戶可以向系統(tǒng)咨詢(xún)信息,，系統(tǒng)通過(guò)“檢索”,，向用戶返回精準(zhǔn)、有效的信息,。所以,，常常有人說(shuō)，問(wèn)答系統(tǒng)是搜索引擎的最終形態(tài),。

作者&編輯 | 小Dream哥

1 什么是問(wèn)答系統(tǒng)

我們之前介紹過(guò),，按照應(yīng)用場(chǎng)景的不同，聊天機(jī)器人可以分為問(wèn)答系統(tǒng),，對(duì)話系統(tǒng)以及閑聊機(jī)器人三類(lèi),。今天我們就來(lái)詳細(xì)講一講其中的問(wèn)答系統(tǒng)。

問(wèn)答系統(tǒng)是基于用戶的問(wèn)題,，給定一個(gè)回答,，不涉及到多輪對(duì)話,。通常用于智能搜索,，智能家居中的家電控制等場(chǎng)景。問(wèn)答系統(tǒng)往往不需要調(diào)用業(yè)務(wù)能力,，只需要完成對(duì)用戶問(wèn)題的匹配及回答,。

我們之前介紹過(guò)，問(wèn)答系統(tǒng)的任務(wù)其實(shí)就是,，對(duì)用戶的輸入進(jìn)行相似度或者相關(guān)性計(jì)算,，然后在相應(yīng)的FAQ庫(kù)里，尋找該用戶輸入對(duì)應(yīng)的答案,，并返回給用戶,。

2 問(wèn)答系統(tǒng)(QA)中的語(yǔ)料庫(kù)

通常，一個(gè)問(wèn)答系統(tǒng),，都是針對(duì)某一個(gè)領(lǐng)域的,。例如，一個(gè)淘寶賣(mài)家的問(wèn)答系統(tǒng)，針對(duì)的是買(mǎi)家常問(wèn)的商品類(lèi)型和價(jià)格信息問(wèn)題作出回答,。

因此,，要構(gòu)建一個(gè)問(wèn)答系統(tǒng)第一步就是整理FAQ庫(kù)。一個(gè)FAQ庫(kù)應(yīng)該如下的內(nèi)容：

1.標(biāo)準(zhǔn)問(wèn),。標(biāo)準(zhǔn)問(wèn)是問(wèn)答系統(tǒng)設(shè)計(jì)者設(shè)計(jì)的標(biāo)準(zhǔn)問(wèn)題,，例如，“***商品的價(jià)格是多少,？”,。標(biāo)準(zhǔn)問(wèn)的個(gè)數(shù)，決定了問(wèn)答系統(tǒng)的規(guī)模,，通常由業(yè)務(wù)專(zhuān)家給定,。

2.相似問(wèn)。一個(gè)標(biāo)準(zhǔn)問(wèn)通常會(huì)對(duì)應(yīng)多個(gè)相似問(wèn),，與標(biāo)準(zhǔn)問(wèn)表達(dá)相同的意思,，但往往會(huì)不那么規(guī)范，較口語(yǔ)化,，相似問(wèn)通常要求覆蓋面越廣越好,。例如，“****商品多少錢(qián)呀,？”,。相似問(wèn)早期由業(yè)務(wù)專(zhuān)家擬定，數(shù)據(jù)師擴(kuò)寫(xiě),，后期會(huì)不斷修繕,、規(guī)整和增加。

3.答案,。一個(gè)標(biāo)準(zhǔn)問(wèn)對(duì)應(yīng)一個(gè)答案,，返回給用戶。由業(yè)務(wù)專(zhuān)家擬定,。

FAQ庫(kù)的質(zhì)量,，對(duì)于一個(gè)問(wèn)答系統(tǒng)非常的重要，但是FAQ庫(kù)的建立和維護(hù)往往都是一件極其費(fèi)時(shí)費(fèi)人力的事情,。當(dāng)一個(gè)FAQ庫(kù)規(guī)模變大時(shí),，相似問(wèn)之間的界限開(kāi)始變的迷糊，會(huì)給算法帶來(lái)非常大的挑戰(zhàn),；另一方面,，當(dāng)FAQ庫(kù)規(guī)模很大時(shí)，后期的維護(hù)也變得非常的困難,。例如,，當(dāng)系統(tǒng)出現(xiàn)bad case，數(shù)據(jù)師很難判斷bad case出現(xiàn)的原因，無(wú)法判斷是哪條標(biāo)準(zhǔn)問(wèn)對(duì)應(yīng)的相似問(wèn)加錯(cuò)了,，從而很難修改,。

對(duì)于一個(gè)問(wèn)答系統(tǒng)而言，高質(zhì)量FAQ庫(kù)需要建立的時(shí)候就異常用心,，通常需要業(yè)務(wù)專(zhuān)家和算法工程師通力合作,；在使用時(shí)也需要倍加用心的維護(hù)，這時(shí),，需要培養(yǎng)多位既了解算法特性,，又熟悉業(yè)務(wù)場(chǎng)景的數(shù)據(jù)師。這大概是目前生產(chǎn)中大部分問(wèn)答系統(tǒng)采用維護(hù)方案了,。

3 問(wèn)答系統(tǒng)Q-A的匹配方式

在問(wèn)答系統(tǒng)中,，模型算法的任務(wù)其實(shí)就根據(jù)用戶輸入的問(wèn)題匹配到相應(yīng)的答案。這看起來(lái)是個(gè)簡(jiǎn)單的問(wèn)題,，實(shí)際上不然,。

一方面，一個(gè)標(biāo)準(zhǔn)問(wèn),，用戶可能的問(wèn)法有很多,，很多時(shí)候都無(wú)法預(yù)料，需要不斷的完善,；另一方面,，F(xiàn)AQ庫(kù)的規(guī)模通常很大，標(biāo)問(wèn)數(shù)目可以達(dá)到數(shù)萬(wàn),，相似問(wèn)的數(shù)據(jù)可能就更多了,。這么大數(shù)目的預(yù)料，長(zhǎng)度不一,，算法難度很大,。

模型的訓(xùn)練過(guò)程，其實(shí)就是讓模型能夠?qū)W習(xí)到問(wèn)題-答案（Q-A）對(duì)之間的聯(lián)系,，或者Query集的特征,。如下圖所示,，是QA中匹配用戶query的模式,。

由此可知，目前QA系統(tǒng)的實(shí)現(xiàn),，主要有以下三種方式：

1.計(jì)算用戶輸入Query和Question的相似度,。通過(guò)計(jì)算用戶輸入Query與FAQ語(yǔ)料集中Question之間的相似度，選出相似度最高的Question,，再通過(guò)Q-A map找到相應(yīng)的答案返回給用戶,。

2.計(jì)算用戶輸入Query和Answer的之間的相關(guān)性。通過(guò)計(jì)算用戶輸入Query與FAQ語(yǔ)料集中Answer之間的相關(guān)度，選出相關(guān)度最高的Answer,，返回給用戶,。

3.結(jié)合用戶輸入Query和Answer的之間的相關(guān)性以及用戶輸入Query和Question的相似度。通過(guò)結(jié)合相關(guān)性和相似度,，選出最匹配的Answer,，返回給用戶。

4 問(wèn)答系統(tǒng)中匹配的算法

由上節(jié)可知,，問(wèn)答系統(tǒng)中的匹配可以歸結(jié)為query與FAQ庫(kù)中標(biāo)問(wèn)和相似問(wèn)的相似度計(jì)算與query與FAQ庫(kù)中答案的相關(guān)性計(jì)算,。總的來(lái)說(shuō),，目前相似度或相關(guān)性計(jì)算有下面的幾種方式,。

1）規(guī)則匹配

也許有讀者會(huì)覺(jué)得很驚訝，都9012了,，還有人用規(guī)則匹配來(lái)做機(jī)器人,？其實(shí)不必驚訝，目前,，很多機(jī)器人都有規(guī)則匹配的部分,，它可控，高效,、易于實(shí)現(xiàn),。

我這里介紹一種規(guī)則匹配的方式，也有人稱(chēng)為句式法,。所謂句式法,，就是針對(duì)FAQ庫(kù)中的標(biāo)問(wèn)和相似問(wèn)進(jìn)行分詞、提煉出大量的概念,，并將上述概念組合,，構(gòu)成大量的句式，句式再進(jìn)行組合形成標(biāo)問(wèn),。例如,，標(biāo)問(wèn)“華為mate30現(xiàn)在的價(jià)格是多少？”,，拆出來(lái)“華為mate30”是cellphone概念,，“價(jià)格是多少”是askMoney概念，“現(xiàn)在”是time概念,，那么“華為mate30現(xiàn)在的價(jià)格是多少,？”就是cellphone+askMoney+time。用戶輸入"華為mate30現(xiàn)在賣(mài)多少錢(qián),？"進(jìn)行分詞,，可以得到相同的句式和概念組合,，就能夠命中“華為mate30現(xiàn)在的價(jià)格是多少？”這個(gè)相似問(wèn)了,。

2）深度學(xué)習(xí)語(yǔ)義匹配

語(yǔ)義匹配筆者之前有介紹相關(guān)的代表性論文,，感興趣的同學(xué)可以仔細(xì)看看，非常有好處：

【每周NLP論文推薦】介紹語(yǔ)義匹配中的經(jīng)典文章

語(yǔ)義匹配的技術(shù),，從早期的DSSM,，利用詞袋模型，計(jì)算句之間的相似度,；到后面利用LSTM-DSSM來(lái)捕捉長(zhǎng)時(shí)間序列的語(yǔ)義信息,；再到現(xiàn)在的基于BERT的語(yǔ)義相似度計(jì)算與匹配。本質(zhì)上,，其實(shí)都是提取句子的語(yǔ)義特征,，再通過(guò)數(shù)學(xué)運(yùn)算計(jì)算相似度。

5 KBQA介紹

Knowledge Based Question&Answer（KBQA）,，是一種基于知識(shí)體系的問(wèn)答系統(tǒng),，現(xiàn)在知識(shí)庫(kù)更多的是指知識(shí)圖譜了。

KBQA回答用戶問(wèn)題的方式通常有如下兩個(gè)步驟組成：

1.利用NLU模塊進(jìn)行語(yǔ)義理解和解析,，包括意圖識(shí)別,，實(shí)體識(shí)別，實(shí)體關(guān)系識(shí)別,，實(shí)體匹配等,。

2.利用知識(shí)圖譜進(jìn)行查詢(xún)、推理得出答案

搭建KBQA中最重要最關(guān)鍵的一步就在于知識(shí)圖譜的搭建,。知識(shí)圖譜對(duì)于絕大部分NLP任務(wù)都有極大的加成,，個(gè)人認(rèn)為是當(dāng)前最有價(jià)值的NLP方向。

總結(jié)

搭建一個(gè)問(wèn)答系統(tǒng)是非常耗費(fèi)時(shí)間和人力的事情,，不管是傳統(tǒng)的QA,，還是近來(lái)的KBQA。對(duì)傳統(tǒng)的QA,，F(xiàn)AQ庫(kù)的建立和維護(hù)都異常費(fèi)事,；對(duì)于KBQA，知識(shí)圖譜的搭建,，就是一個(gè)難度巨大的工程,。

近期我們會(huì)在知識(shí)星球實(shí)現(xiàn)問(wèn)答系統(tǒng)，具體實(shí)現(xiàn)和優(yōu)化,，感興趣掃描下面的二維碼了解,。