久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

【NLP-語義匹配】詳解深度語義匹配模型DSSM

 有三AI 2020-11-27

所謂語義匹配,,就是在語義上衡量文本的相似度,在產(chǎn)業(yè)界有很多的應(yīng)用需求,。例如,,在FAQ場景中需要計(jì)算用戶輸入與標(biāo)問之間的相似度來尋找合適的答案。本文介紹一種經(jīng)典的語義匹配技術(shù),,DSSM,,主要用于語料的召回和粗排。

作者&編輯 | 小Dream哥

1 DSSM的提出 

較早期的語義匹配模型都是基于關(guān)鍵詞的匹配,,例如LSA等,,無法匹配語義層面的信息?;诖?,DSSM(Deep Structured Semantic Models)提出深度語義匹配模型,期望能夠在語義層面匹配query之間的相似性,。

顧名思義,,DSSM是一種用于語義相似度計(jì)算的深度網(wǎng)絡(luò),我們來看看它的廬山真面目到底是怎么樣的,。

2  整體看結(jié)構(gòu)

我們先來整體來看一下DSSM的網(wǎng)絡(luò)結(jié)構(gòu),,以整體上對它有一個(gè)把握和感覺。如下圖所示,,是DSSM的網(wǎng)絡(luò)架構(gòu)圖:

論文原文:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/cikm2013_DSSM_fullversion.pdf

整體上來看,,DSSM網(wǎng)絡(luò)總共有6層:

1.第一層是輸入層,DSSM用的詞袋模型,后面再詳細(xì)介紹,;

2.第二層經(jīng)過word hashing,,將維度由500K降為30K;

3.第三,,四,,五層是3個(gè)全連接層,通過這三個(gè)全連接層,,進(jìn)行語義特征的提取,,并降維度降低到128維;

4.第六層為輸出層,,計(jì)算Q和D之間的余弦相似度之后,,輸出他們之間的相似度。

3 輸入層及word hashing  

DSSM的輸入層結(jié)合了詞哈希(word hashing)和語義匹配,,我們在講詞向量的時(shí)候詳細(xì)介紹了詞袋模型,,忘記的同學(xué)可以點(diǎn)擊如下鏈接先了解:

【NLP-詞向量】詞向量的由來及本質(zhì)

總的來說詞袋模型就是把文本看成是一個(gè)裝著詞的袋子,記錄一個(gè)文本中,,有這個(gè)詞幾個(gè),,那個(gè)詞幾個(gè)。前提到過,,當(dāng)詞典非常大時(shí),,用詞袋模型會(huì)造成維度災(zāi)難。所以DSSM還引入了word hashing,。

Word hashing主要目的是為了減少維度,,在英文里,采用letter-ngams來對單詞進(jìn)行切分,,如下圖所示,,加入采用letter-trigams來對詞進(jìn)行切分,則boy這個(gè)詞可以切分為(#bo,boy,oy#)三個(gè),。按這個(gè)方法,,再將上述詞袋里的進(jìn)行轉(zhuǎn)化。因?yàn)橛⑽闹挥?6個(gè)字母,,這樣可以極大的減少維度,,如論文中所示將維度從500K轉(zhuǎn)化為30K。

也許反應(yīng)快的同學(xué)很快就會(huì)問,,英文可以這樣做,,但是好像中文沒有辦法這樣處理呀?總不能按照偏旁來拆吧,?當(dāng)然不會(huì)按照偏旁來拆了,,加入漢字部首偏旁特征的研究目前還不很成功。

那么中文怎么處理呢,?其實(shí)很簡單,,在單純的DSSM模型中,中文是按照“字袋模型”來處理的,,參考詞袋模型,,也就是將文本轉(zhuǎn)化成,有幾個(gè)某某字,,有幾個(gè)某某字,。因?yàn)橹形淖謧€(gè)數(shù)是有限的,常用的字大概有15K左右,,因此這種做法不會(huì)有維度過大的問題,。

4  特征提取層和相似度計(jì)算

熟悉深度學(xué)習(xí)的朋友,應(yīng)該很容易看明白DSSM的特征抽取層,,其實(shí)就是3個(gè)全連接層串行的連接起來,。看看數(shù)學(xué):

可以看出,,在DSSM中采用tanh作為激活函數(shù),。

通過計(jì)算各個(gè)Q及D的特征表征,得到了一些128維的特征向量,。隨后在DSSM中,,通過計(jì)算Q和D之間的余弦距離來評(píng)價(jià)他們之間相似度,計(jì)算公式如下圖所示:

5  DSSM的訓(xùn)練

那么DSSM訓(xùn)練的過程是怎么樣的呢,?細(xì)心的同學(xué)會(huì)發(fā)現(xiàn),,DSSM網(wǎng)絡(luò)結(jié)構(gòu)圖中,DSSM的輸入是一個(gè)Querry和一個(gè)文本集D,,D中包含正樣本和負(fù)樣本,。

其中 r 為 softmax 的平滑因子,D 為 Query 下的正樣本,,D 為 Query 下的整個(gè)樣本空間,。

上述公式,計(jì)算一個(gè)樣本空間內(nèi)正樣本的平滑概率,,R(Q,D)為兩個(gè)文本之間余弦距離,。

在訓(xùn)練階段,通過極大似然估計(jì),,最小化損失函數(shù)為:

總結(jié)

DSSM的優(yōu)點(diǎn)在于能夠快速的計(jì)算多個(gè)query和Doc對之間的語義相似度,;相對于詞向量的方式,它采用有監(jiān)督的方法,,準(zhǔn)確度要高很多,。

但是DSSM也有它的缺點(diǎn),,首先,它采用詞袋模型,,沒有考慮詞的位置關(guān)系,,這對語義理解是一個(gè)大的損失;此外,,采用弱監(jiān)督,、端到端的模型,預(yù)測結(jié)果不可控,。

基于DSSM的上述特點(diǎn),,它最適合應(yīng)用的場景就是召回和粗排。例如在FAQ中,,因?yàn)闃?biāo)問會(huì)非常多,,將標(biāo)問和用戶輸入一一匹配時(shí)幾乎不可能的事情。通常的做法就是,,首先基于ES和DSSM做一遍召回和粗排,,得到一定數(shù)目的標(biāo)問后再用精排模型得到答案。

除了使用它,,更關(guān)鍵的是albert模型的實(shí)現(xiàn)和理論,。我們會(huì)在知識(shí)星球討論相關(guān)的內(nèi)容,感興趣的話可以掃描下面的二維碼了解,。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請遵守用戶 評(píng)論公約

    類似文章 更多