久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

【NLP-ChatBot】搜索引擎的最終形態(tài)之問(wèn)答系統(tǒng)(FAQ)詳述

 有三AI 2020-11-27

本篇介紹聊天機(jī)器人中出現(xiàn)的比較早的一種:?jiǎn)柎鹣到y(tǒng),。問(wèn)答系統(tǒng)跟檢索技術(shù)很相似,,基本的功能就是,用戶可以向系統(tǒng)咨詢(xún)信息,,系統(tǒng)通過(guò)“檢索”,,向用戶返回精準(zhǔn)、有效的信息,。所以,,常常有人說(shuō),問(wèn)答系統(tǒng)是搜索引擎的最終形態(tài),。

作者&編輯 | 小Dream哥

1 什么是問(wèn)答系統(tǒng)

我們之前介紹過(guò),,按照應(yīng)用場(chǎng)景的不同,聊天機(jī)器人可以分為問(wèn)答系統(tǒng),,對(duì)話系統(tǒng)以及閑聊機(jī)器人三類(lèi),。今天我們就來(lái)詳細(xì)講一講其中的問(wèn)答系統(tǒng)。

問(wèn)答系統(tǒng)是基于用戶的問(wèn)題,,給定一個(gè)回答,,不涉及到多輪對(duì)話,。通常用于智能搜索,,智能家居中的家電控制等場(chǎng)景。問(wèn)答系統(tǒng)往往不需要調(diào)用業(yè)務(wù)能力,,只需要完成對(duì)用戶問(wèn)題的匹配及回答,。

我們之前介紹過(guò),問(wèn)答系統(tǒng)的任務(wù)其實(shí)就是,,對(duì)用戶的輸入進(jìn)行相似度或者相關(guān)性計(jì)算,,然后在相應(yīng)的FAQ庫(kù)里,尋找該用戶輸入對(duì)應(yīng)的答案,,并返回給用戶,。

2 問(wèn)答系統(tǒng)(QA)中的語(yǔ)料庫(kù)

通常,一個(gè)問(wèn)答系統(tǒng),,都是針對(duì)某一個(gè)領(lǐng)域的,。例如,一個(gè)淘寶賣(mài)家的問(wèn)答系統(tǒng),針對(duì)的是買(mǎi)家常問(wèn)的商品類(lèi)型和價(jià)格信息問(wèn)題作出回答,。

因此,,要構(gòu)建一個(gè)問(wèn)答系統(tǒng)第一步就是整理FAQ庫(kù)。一個(gè)FAQ庫(kù)應(yīng)該如下的內(nèi)容:

1.標(biāo)準(zhǔn)問(wèn),。標(biāo)準(zhǔn)問(wèn)是問(wèn)答系統(tǒng)設(shè)計(jì)者設(shè)計(jì)的標(biāo)準(zhǔn)問(wèn)題,,例如,“***商品的價(jià)格是多少,?”,。標(biāo)準(zhǔn)問(wèn)的個(gè)數(shù),決定了問(wèn)答系統(tǒng)的規(guī)模,,通常由業(yè)務(wù)專(zhuān)家給定,。

2.相似問(wèn)。一個(gè)標(biāo)準(zhǔn)問(wèn)通常會(huì)對(duì)應(yīng)多個(gè)相似問(wèn),,與標(biāo)準(zhǔn)問(wèn)表達(dá)相同的意思,,但往往會(huì)不那么規(guī)范,較口語(yǔ)化,,相似問(wèn)通常要求覆蓋面越廣越好,。例如,“****商品多少錢(qián)呀,?”,。相似問(wèn)早期由業(yè)務(wù)專(zhuān)家擬定,數(shù)據(jù)師擴(kuò)寫(xiě),,后期會(huì)不斷修繕,、規(guī)整和增加。

3.答案,。一個(gè)標(biāo)準(zhǔn)問(wèn)對(duì)應(yīng)一個(gè)答案,,返回給用戶。由業(yè)務(wù)專(zhuān)家擬定,。

FAQ庫(kù)的質(zhì)量,,對(duì)于一個(gè)問(wèn)答系統(tǒng)非常的重要,但是FAQ庫(kù)的建立和維護(hù)往往都是一件極其費(fèi)時(shí)費(fèi)人力的事情,。當(dāng)一個(gè)FAQ庫(kù)規(guī)模變大時(shí),,相似問(wèn)之間的界限開(kāi)始變的迷糊,會(huì)給算法帶來(lái)非常大的挑戰(zhàn),;另一方面,,當(dāng)FAQ庫(kù)規(guī)模很大時(shí),后期的維護(hù)也變得非常的困難,。例如,,當(dāng)系統(tǒng)出現(xiàn)bad case,數(shù)據(jù)師很難判斷bad case出現(xiàn)的原因,無(wú)法判斷是哪條標(biāo)準(zhǔn)問(wèn)對(duì)應(yīng)的相似問(wèn)加錯(cuò)了,,從而很難修改,。

對(duì)于一個(gè)問(wèn)答系統(tǒng)而言,高質(zhì)量FAQ庫(kù)需要建立的時(shí)候就異常用心,,通常需要業(yè)務(wù)專(zhuān)家和算法工程師通力合作,;在使用時(shí)也需要倍加用心的維護(hù),這時(shí),,需要培養(yǎng)多位既了解算法特性,,又熟悉業(yè)務(wù)場(chǎng)景的數(shù)據(jù)師。這大概是目前生產(chǎn)中大部分問(wèn)答系統(tǒng)采用維護(hù)方案了,。

3 問(wèn)答系統(tǒng)Q-A的匹配方式

在問(wèn)答系統(tǒng)中,,模型算法的任務(wù)其實(shí)就根據(jù)用戶輸入的問(wèn)題匹配到相應(yīng)的答案。這看起來(lái)是個(gè)簡(jiǎn)單的問(wèn)題,,實(shí)際上不然,。

一方面,一個(gè)標(biāo)準(zhǔn)問(wèn),,用戶可能的問(wèn)法有很多,,很多時(shí)候都無(wú)法預(yù)料,需要不斷的完善,;另一方面,,F(xiàn)AQ庫(kù)的規(guī)模通常很大,標(biāo)問(wèn)數(shù)目可以達(dá)到數(shù)萬(wàn),,相似問(wèn)的數(shù)據(jù)可能就更多了,。這么大數(shù)目的預(yù)料,長(zhǎng)度不一,,算法難度很大,。

模型的訓(xùn)練過(guò)程,其實(shí)就是讓模型能夠?qū)W習(xí)到問(wèn)題-答案(Q-A)對(duì)之間的聯(lián)系,,或者Query集的特征,。如下圖所示,,是QA中匹配用戶query的模式,。

由此可知,目前QA系統(tǒng)的實(shí)現(xiàn),,主要有以下三種方式:

1.計(jì)算用戶輸入Query和Question的相似度,。通過(guò)計(jì)算用戶輸入Query與FAQ語(yǔ)料集中Question之間的相似度,選出相似度最高的Question,,再通過(guò)Q-A map找到相應(yīng)的答案返回給用戶,。

2.計(jì)算用戶輸入Query和Answer的之間的相關(guān)性。通過(guò)計(jì)算用戶輸入Query與FAQ語(yǔ)料集中Answer之間的相關(guān)度,選出相關(guān)度最高的Answer,,返回給用戶,。

3.結(jié)合用戶輸入Query和Answer的之間的相關(guān)性以及用戶輸入Query和Question的相似度。通過(guò)結(jié)合相關(guān)性和相似度,,選出最匹配的Answer,,返回給用戶。

4  問(wèn)答系統(tǒng)中匹配的算法

由上節(jié)可知,,問(wèn)答系統(tǒng)中的匹配可以歸結(jié)為query與FAQ庫(kù)中標(biāo)問(wèn)和相似問(wèn)的相似度計(jì)算與query與FAQ庫(kù)中答案的相關(guān)性計(jì)算,。總的來(lái)說(shuō),,目前相似度或相關(guān)性計(jì)算有下面的幾種方式,。

1)規(guī)則匹配

也許有讀者會(huì)覺(jué)得很驚訝,都9012了,,還有人用規(guī)則匹配來(lái)做機(jī)器人,?其實(shí)不必驚訝,目前,,很多機(jī)器人都有規(guī)則匹配的部分,,它可控,高效,、易于實(shí)現(xiàn),。

我這里介紹一種規(guī)則匹配的方式,也有人稱(chēng)為句式法,。所謂句式法,,就是針對(duì)FAQ庫(kù)中的標(biāo)問(wèn)和相似問(wèn)進(jìn)行分詞、提煉出大量的概念,,并將上述概念組合,,構(gòu)成大量的句式,句式再進(jìn)行組合形成標(biāo)問(wèn),。例如,,標(biāo)問(wèn)“華為mate30現(xiàn)在的價(jià)格是多少?”,,拆出來(lái)“華為mate30”是cellphone概念,,“價(jià)格是多少”是askMoney概念,“現(xiàn)在”是time概念,,那么“華為mate30現(xiàn)在的價(jià)格是多少,?”就是cellphone+askMoney+time。用戶輸入"華為mate30現(xiàn)在賣(mài)多少錢(qián),?"進(jìn)行分詞,,可以得到相同的句式和概念組合,,就能夠命中“華為mate30現(xiàn)在的價(jià)格是多少?”這個(gè)相似問(wèn)了,。

2)深度學(xué)習(xí)語(yǔ)義匹配

語(yǔ)義匹配筆者之前有介紹相關(guān)的代表性論文,,感興趣的同學(xué)可以仔細(xì)看看,非常有好處:

【每周NLP論文推薦】 介紹語(yǔ)義匹配中的經(jīng)典文章

語(yǔ)義匹配的技術(shù),,從早期的DSSM,,利用詞袋模型,計(jì)算句之間的相似度,;到后面利用LSTM-DSSM來(lái)捕捉長(zhǎng)時(shí)間序列的語(yǔ)義信息,;再到現(xiàn)在的基于BERT的語(yǔ)義相似度計(jì)算與匹配。本質(zhì)上,,其實(shí)都是提取句子的語(yǔ)義特征,,再通過(guò)數(shù)學(xué)運(yùn)算計(jì)算相似度。

5 KBQA介紹

Knowledge Based Question&Answer(KBQA),,是一種基于知識(shí)體系的問(wèn)答系統(tǒng),,現(xiàn)在知識(shí)庫(kù)更多的是指知識(shí)圖譜了。

KBQA回答用戶問(wèn)題的方式通常有如下兩個(gè)步驟組成:

1.利用NLU模塊進(jìn)行語(yǔ)義理解和解析,,包括意圖識(shí)別,,實(shí)體識(shí)別,實(shí)體關(guān)系識(shí)別,,實(shí)體匹配等,。

2.利用知識(shí)圖譜進(jìn)行查詢(xún)、推理得出答案

搭建KBQA中最重要最關(guān)鍵的一步就在于知識(shí)圖譜的搭建,。知識(shí)圖譜對(duì)于絕大部分NLP任務(wù)都有極大的加成,,個(gè)人認(rèn)為是當(dāng)前最有價(jià)值的NLP方向。

總結(jié)

搭建一個(gè)問(wèn)答系統(tǒng)是非常耗費(fèi)時(shí)間和人力的事情,,不管是傳統(tǒng)的QA,,還是近來(lái)的KBQA。對(duì)傳統(tǒng)的QA,,F(xiàn)AQ庫(kù)的建立和維護(hù)都異常費(fèi)事,;對(duì)于KBQA,知識(shí)圖譜的搭建,,就是一個(gè)難度巨大的工程,。

近期我們會(huì)在知識(shí)星球實(shí)現(xiàn)問(wèn)答系統(tǒng),具體實(shí)現(xiàn)和優(yōu)化,,感興趣掃描下面的二維碼了解,。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多