久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

醫(yī)療健康領(lǐng)域的短文本理解

 520jefferson 2020-08-24


編輯整理:葉祺

出品平臺(tái):DataFunTalk


導(dǎo)讀:本次分享的主題為醫(yī)療健康領(lǐng)域的短文本理解,,主要介紹在丁香園的業(yè)務(wù)場(chǎng)景下,短文本理解的技術(shù)實(shí)踐,,并討論知識(shí)圖譜技術(shù)如何在醫(yī)療健康領(lǐng)域的搜索推薦中落地應(yīng)用,,希望能夠給大家的日常工作提供一些思路。

主要內(nèi)容包括:

  • 丁香園主要的業(yè)務(wù)和所服務(wù)的對(duì)象,,以及在垂直領(lǐng)域下NLP工作可能需要面對(duì)的挑戰(zhàn)

  • 在醫(yī)療健康領(lǐng)域短文本理解上的嘗試

  • 結(jié)合工業(yè)場(chǎng)景,,展示一些應(yīng)用案例
01
業(yè)務(wù)場(chǎng)景及文本解析困境思考

1. 關(guān)于丁香園

丁香園的起點(diǎn)是打造一個(gè)專業(yè)的醫(yī)學(xué)學(xué)術(shù)論壇,為醫(yī)生,、醫(yī)學(xué)生及其他醫(yī)療從業(yè)者提供一個(gè)信息交流的平臺(tái),,同時(shí)也推出了一系列移動(dòng)產(chǎn)品以提供優(yōu)質(zhì)的醫(yī)學(xué)信息服務(wù)。

目前,,丁香園圍繞著醫(yī)生和大眾來發(fā)展,,業(yè)務(wù)覆蓋這兩類人群的日常需求。對(duì)醫(yī)生為主的醫(yī)療從業(yè)者來說,,會(huì)涉及到日常的學(xué)術(shù)問題,、經(jīng)驗(yàn)分享、疑難病例的討論以及查閱藥品說明書,、診療指南等等,。對(duì)大眾來說,包括線上問診,、科普知識(shí),、健康商城等服務(wù),。

2. 搜索場(chǎng)景的支持

搜索作為丁香園的基礎(chǔ)服務(wù),需要支持多個(gè)社交與工具類的應(yīng)用,,主要包括:丁香園論壇,、用藥助手、丁香醫(yī)生,、丁香家商場(chǎng)等主要App,。處理的文本數(shù)據(jù)需跨越大眾和專業(yè)醫(yī)學(xué)這兩個(gè)領(lǐng)域,涉及的業(yè)務(wù)線也需處理不同的場(chǎng)景,。

這里我們舉了幾個(gè)比較有代表性的場(chǎng)景,,前三個(gè)是面向?qū)I(yè)醫(yī)學(xué)背景的。

  • 第一個(gè)是丁香園論壇,,主要用戶是醫(yī)療相關(guān)的從業(yè)者,。用戶會(huì)在論壇中,討論最近的熱門醫(yī)療事件,,新冠疫情,、考博、規(guī)培的分?jǐn)?shù)線,、醫(yī)療糾紛,,或者發(fā)帖求助一些疑難病例,求一些醫(yī)療文獻(xiàn)等等,。

  • 第二,、第三個(gè)場(chǎng)景是來自于用藥助手,這是一個(gè)工具類的應(yīng)用,。用戶會(huì)將其作為搜索藥物信息或診療指南的工具,。

  • 后面三個(gè)場(chǎng)景是面向普通大眾的,包括對(duì)科普文章的檢索,、線上問診數(shù)據(jù)的檢索 ( 舉個(gè)例子,,用戶會(huì)問'濕疹反復(fù)發(fā)作怎么辦?',、'坐月子能不能洗澡,?'這類的問題 ) 以及電商場(chǎng)景 ( 大體上和市面上的電商場(chǎng)景都相似。不一樣的是該場(chǎng)景會(huì)圍繞健康話題去開展,,如'產(chǎn)后康復(fù)',、'減肥減脂'等話題 )。

3. 垂直領(lǐng)域下的思考

① 話題性

我們觀察到的第一個(gè)點(diǎn):醫(yī)療健康領(lǐng)域的內(nèi)容普遍存在著話題性,。

左邊第一張圖是醫(yī)學(xué)的新聞事件,,這與大多數(shù)的普通新聞比較類似。新聞事件會(huì)天然形成一個(gè)話題,。比如'新冠疫苗最新進(jìn)展',,用戶會(huì)圍繞這個(gè)話題產(chǎn)生一些相關(guān)的搜索行為,,如搜索'肺炎'、'柳葉刀'等潛在的,、需要獲取的話題意圖。

第二張圖是我們想要談?wù)摰?,在醫(yī)療領(lǐng)域比較特殊的話題性,。因?yàn)樵卺t(yī)療領(lǐng)域關(guān)于癥狀相關(guān)的表述會(huì)非常多,或者用專業(yè)的表述我們會(huì)叫它'臨床表現(xiàn)',。這里再解釋一下'臨床表現(xiàn)'的含義:你可以理解成生病后身體的一些癥狀,,比如,頭疼,、發(fā)熱,、嘔吐等。醫(yī)生在做病例討論時(shí),,常常會(huì)拋出他們認(rèn)為比較關(guān)鍵,,但又很讓他們困擾、值得討論的臨床表現(xiàn),,如'術(shù)后出血引起的血腫',、'右下腹感染病變'、'胸部多發(fā)病變',。所以當(dāng)用戶發(fā)起一個(gè)討論時(shí),,某些'臨床表現(xiàn)'的詞也會(huì)自然形成一個(gè)話題。但是這些話題相關(guān)的詞并不像開放領(lǐng)域中的詞有那么明顯的邊界,。舉個(gè)例子,,在開放領(lǐng)域中,'梅西獲得2019年金球獎(jiǎng)'這樣的話題相關(guān)的實(shí)體,,如'梅西',、'2019年金球獎(jiǎng)',在搜索時(shí)比較容易避免搜索的關(guān)鍵詞與用戶實(shí)際關(guān)注的事件間的差異,。但在上述的例子中,,'腹腔鏡'與'術(shù)后血腫'相關(guān),但是與'腹腔鏡'相關(guān)的其他疾病和手術(shù)也非常多,,同時(shí)也包含了其他非常多的復(fù)雜邏輯,。所以,我們認(rèn)為醫(yī)療健康領(lǐng)域的內(nèi)容普遍存在著話題性,。

最后一張圖是面向大眾的科普,,這塊比較容易理解。醫(yī)療話題的底層是由許多復(fù)雜邏輯與細(xì)節(jié)組成的,。當(dāng)用戶提問'坐月子能不能洗澡'時(shí),,如果只回答'能'或者'不能'顯然是不夠的,,而是需要組成一個(gè)話題來討論或者用更加友好的方式來回答。

② 醫(yī)療話題本身的復(fù)雜,、嚴(yán)肅性

對(duì)于醫(yī)學(xué)知識(shí)本身的復(fù)雜性,,在處理面向醫(yī)生的文本數(shù)據(jù)時(shí),是不得不面對(duì)的問題,。例如,,這是在丁香園中的一則病例討論。這位醫(yī)生詳細(xì)描述了在工作中遇到的一則病例,,其中包括了非常多的專業(yè)術(shù)語,。我們用了一個(gè)簡(jiǎn)單的實(shí)體抽取方法進(jìn)行抽取可以獲得'腹脹'、'腹瀉'這樣的疾病癥狀詞,。但是全文的信息量不僅在于這些實(shí)體詞上,,也有相當(dāng)一部分是存在于這些詞之間,復(fù)雜的邏輯關(guān)系,。在常見的搜索方法中,,我們會(huì)用詞的倒排索引來完成文章檢索這件事,但是倒排索引在執(zhí)行過程中很難保證主題不會(huì)發(fā)生偏移,。在理想情況下,,我們更希望抽象出更具概括性的標(biāo)簽來結(jié)構(gòu)化這些數(shù)據(jù)。

③ 普通用戶與專業(yè)醫(yī)療從業(yè)者的認(rèn)知差距

除了醫(yī)療話題在主題上不好做結(jié)構(gòu)化,,在處理面向大眾的文本時(shí),,認(rèn)知層面的差異也是個(gè)棘手的問題。醫(yī)學(xué)知識(shí),、醫(yī)學(xué)詞匯都具有高度的專業(yè)性,。比如用戶在表述中,一個(gè)非醫(yī)學(xué)背景的人會(huì)用'痘痘',、'青春痘',、'閉口'、'痘印'這樣的詞去表述自己的癥狀,。在醫(yī)生看來這些癥狀會(huì)是'尋常痤瘡',、'毛囊口角化異常'等專業(yè)詞匯。當(dāng)我們想要幫助大眾檢索到想要的信息時(shí),,就要想辦法跨過這些表述不一樣的情況,,因此我們?cè)谌齻€(gè)方面做了一些努力:

4. NLP技術(shù)布局

① 知識(shí)圖譜構(gòu)建

知識(shí)圖譜的構(gòu)建。主要目的是保證底層醫(yī)學(xué)數(shù)據(jù)的準(zhǔn)確性,。由專業(yè)的,、有醫(yī)學(xué)背景的知識(shí)庫(kù)同事來維護(hù),包括:疾病,、癥狀,,手術(shù),、藥品、非手術(shù)治療等醫(yī)學(xué)概念與60多種醫(yī)學(xué)關(guān)系,。同時(shí),,我們NLP組也會(huì)用算法來抽取,最后再以一種算法加人工審核的方式不斷的補(bǔ)充實(shí)體詞,、實(shí)體關(guān)系和實(shí)體屬性,。

② 內(nèi)容畫像

內(nèi)容畫像。我們會(huì)盡可能的完善內(nèi)容畫像的建設(shè),。除了基礎(chǔ)信息的收集,、長(zhǎng)文本的信息抽取,,也包括結(jié)合知識(shí)圖譜和一些圖算法構(gòu)建更為抽象的標(biāo)簽值或者特征向量,。

③ 短文本理解

短文本理解。我們需要努力優(yōu)化關(guān)于短文本理解的效果,,這里包括對(duì)短文本完成關(guān)鍵信息的抽取以及根據(jù)這些關(guān)鍵信息配合下游任務(wù),,來完成特征抽取、語義擴(kuò)展,,以及垂直業(yè)務(wù)相關(guān)的分類任務(wù)等,。

5. 基本思路

現(xiàn)在回到我們分享的主題。關(guān)于短文理解,,由兩個(gè)非常樸素的部分組成:

  • 我們需要首先確定query中目標(biāo)實(shí)體是什么,,盡量保證準(zhǔn)確度。

  • 根據(jù)實(shí)體本身的語義,、上下文語義,、用戶的行為對(duì)query進(jìn)行擴(kuò)充。

02
解決識(shí)別的準(zhǔn)確問題

1. 常見的識(shí)別困境

識(shí)別準(zhǔn)確度的問題:

首先是錯(cuò)別字的問題,。錯(cuò)別字問題在各個(gè)領(lǐng)域的搜索中都是非常常見的問題,。常見的錯(cuò)別字原因,可能來自于拼音使用的錯(cuò)誤,。比如'頭癬'這個(gè)詞,,大多數(shù)人會(huì)念成'頭蘚','蘚'字就會(huì)常常出沒在相關(guān)的搜索query里,。另外,,還會(huì)出現(xiàn)和拼音相關(guān)的識(shí)別問題,比如'頭xian'和'頭xuan',,這種漢字和拼音混搭的情況,。

認(rèn)知層面的不同:

非醫(yī)學(xué)科班的同學(xué)看到'復(fù)發(fā)性阿弗他口炎'這個(gè)詞肯定是一臉懵。其實(shí)這個(gè)詞和感冒一樣是非常常見的問題,,就是我們平常說的'口腔潰瘍',。但對(duì)于大眾來說,,會(huì)有更多通俗的表述,如'口瘡',、'口腔潰瘍',、'口腔潰爛'、'嘴巴起泡'等等,。如果是醫(yī)學(xué)背景的用戶,,他大概率會(huì)知道這個(gè)專業(yè)名詞,但是會(huì)出現(xiàn)其他的一些錯(cuò)誤,,比如表述上會(huì)缺其中的一個(gè)組成部分或者缺一到兩個(gè)字,,如'阿弗他口炎'或者'復(fù)發(fā)性口炎'。還有種情況就是把通俗表述和缺省表述混搭的表述方式,,如'阿弗他潰瘍',、'阿弗他口腔潰瘍'。

專業(yè)醫(yī)學(xué)詞匯的詞干經(jīng)常非常長(zhǎng):

在我們這個(gè)例子中,,'癥狀性動(dòng)脈粥樣硬化性椎動(dòng)脈起始部狹窄'這個(gè)詞長(zhǎng)達(dá)18個(gè)字,。仔細(xì)觀察,你會(huì)發(fā)現(xiàn)它其實(shí)具有明顯的組成部分,,它是通過不同的組成部分拼接成的長(zhǎng)詞,。如果我們?cè)谧R(shí)別一個(gè)短文本中這樣的長(zhǎng)詞沒有被合并在一起,而是按照不同的組成部分分開的話,,那系統(tǒng)就會(huì)默認(rèn)每個(gè)組成部分具備單獨(dú)的語義,,那顯然非常容易檢索到不相關(guān)的內(nèi)容。

2. 短文本理解藍(lán)圖

為了改善上面提到的幾種情況,,我們嘗試把短文本理解的流程拆成了五個(gè)步驟,。前四個(gè)步驟主要解決實(shí)體識(shí)別的準(zhǔn)確率問題,包括文本糾錯(cuò),、名詞短語抽取,、NER ( 命名實(shí)體識(shí)別 ) 和實(shí)體鏈接。第五步需要結(jié)合底層數(shù)據(jù)的積累,,包括知識(shí)圖譜的建設(shè)以及結(jié)合具體業(yè)務(wù)場(chǎng)景的數(shù)據(jù)來完成query語義上的擴(kuò)充,。

3. 文本糾錯(cuò)

首先是文本糾錯(cuò),目前業(yè)界標(biāo)準(zhǔn)的流程有三個(gè)步驟:

  • 拼寫檢測(cè),。就是檢測(cè)query中到底哪個(gè)字錯(cuò)了,。常用的方案是利用已有的詞典或語言模型的統(tǒng)計(jì)結(jié)果,結(jié)合句法分析的規(guī)則來確定錯(cuò)誤的字,。目前學(xué)術(shù)界有些新穎的方案,,比如說利用序列標(biāo)注找錯(cuò)誤點(diǎn)。但是在實(shí)際測(cè)試中,這樣的模型都比較重,,并且在我們的場(chǎng)景中其預(yù)測(cè)準(zhǔn)確率的問題不會(huì)特別突出,,所以我們目前還是保留比較傳統(tǒng)的方式。

  • 生成候選詞,。常見的做法就是利用同音,、同型字典把出錯(cuò)的字替換掉,然后生成一個(gè)候選集合,。這里值得一提的是:如果我們所在的業(yè)務(wù)場(chǎng)景是比較窄的情況下,,比如只需要搜索藥品或者搜索疾病時(shí),我們借鑒18年發(fā)表在IEEE上一篇關(guān)于醫(yī)療概念歸一化的文章,,它的主要思路是對(duì)原文本中一些字做增減或者替換,,然后構(gòu)建一個(gè)confusion set ( 混淆字集合 ),把詞跟字的連接構(gòu)成一個(gè)graph,,然后獲得graph上的embedding之后一起放進(jìn)端到端的auto encoder,,即DAE,把DAE訓(xùn)練到收斂之后會(huì)使用一個(gè)向量集的檢索生成候選集,。在實(shí)踐中,,這個(gè)方案效果更優(yōu)一些,。

  • 候選排序,。常規(guī)地對(duì)候選集做一個(gè)重排序和打分。

4. 名詞短語抽取

完成糾錯(cuò)之后會(huì)正常進(jìn)入一個(gè)分詞的階段,。分詞器常規(guī)會(huì)帶上一個(gè)業(yè)務(wù)詞典,。但是因?yàn)轭A(yù)測(cè)的文本上下文語境或者詞在詞典中會(huì)存在一些嵌套現(xiàn)象,有時(shí)包含一個(gè)完整語義的短語還是會(huì)被分開,。因此,,第二步的目標(biāo)就是做名詞短語抽取工作,把分詞階段已經(jīng)被分開的詞重新組合在一起,。大致的思路:

構(gòu)建一個(gè)有標(biāo)注的數(shù)據(jù)集,,用PMI等統(tǒng)計(jì)量特征,借助automated prhase算法進(jìn)行正負(fù)樣本拆分,,然后訓(xùn)練分類器,,最后用一個(gè)對(duì)長(zhǎng)度做修正的函數(shù)對(duì)名詞短語打分。在本例中'芒果過敏'就是我們最終想要的名詞短語,。

5. 命名實(shí)體識(shí)別

當(dāng)然,,名詞短語也沒有辦法完全保證所有實(shí)體或者需要保留完整語義的短語結(jié)構(gòu)完整。有些名詞會(huì)被分詞器切得太碎,,名詞短語可能也合并不回來,,所以需要流程的第三步,用NER作為補(bǔ)充。

這里的NER在結(jié)構(gòu)上采用了業(yè)界的標(biāo)配:CRF+Bi-LSTM,。在離線場(chǎng)景,,允許NER耗時(shí)長(zhǎng)一點(diǎn),可加一些BERT之類的encoder作為輸入,。目前在我們的場(chǎng)景,,該NER可以支持20多種醫(yī)學(xué)實(shí)體的識(shí)別。

看到這里有小伙伴可能會(huì)疑惑:為什么不把名字性短語和實(shí)體詞同時(shí)train到NER中,。其實(shí)我們也注意到:學(xué)界從18年開始,,在這個(gè)方向有了很多的方案??偟膩碚f有兩種思路:

  • 使用lattice的結(jié)構(gòu)把每個(gè)字作為詞根或詞尾的情況都train到模型中,;

  • 生成類似短語的那種lexicon,把字,、詞,、lexicon的關(guān)系建成一個(gè)graph,再把graph的特征融進(jìn)NER中,。

這兩種方案在效果上確實(shí)有提升,,但坦率地說,因?yàn)閹в衛(wèi)attice這種結(jié)構(gòu),,計(jì)算復(fù)雜度一般都比較高,。我們這里談?wù)摰氖嵌涛谋纠斫猓鳛橐粋€(gè)相對(duì)前置的任務(wù),,可能這樣的復(fù)雜度耗時(shí)還是長(zhǎng)了些,。所以在實(shí)際的應(yīng)用中我們還是會(huì)使用基礎(chǔ)版NER模型作為我們流程中的一個(gè)組件。

6. Mention提取

我們現(xiàn)在還是以基礎(chǔ)版的組件繼續(xù)往下走,,以上的幾個(gè)步驟為后續(xù)做實(shí)體鏈接框定了詞的邊界,。候選詞一般我們用常見的搜索引擎,比如solr,,給它做一個(gè)倒排索引,,然后我們?cè)倌胢ention去找目標(biāo)實(shí)體詞。如果是下面的情況,,醫(yī)學(xué)名詞的span非常長(zhǎng),,mention提取時(shí),其實(shí)就失敗了,。這種失敗也會(huì)直接導(dǎo)致實(shí)體鏈接的失敗,,所以我們的思路就是在召回階段再做一層補(bǔ)充的策略。

7. 召回增強(qiáng)與實(shí)體鏈接

前面提到醫(yī)學(xué)中的長(zhǎng)詞通常會(huì)由多個(gè)組成成分進(jìn)行組合,。這種組成成分其實(shí)可以根據(jù)一些先驗(yàn)知識(shí)把它先規(guī)范好,。相似的思路,我們?cè)谌A東理工大學(xué)的一篇工作中也看到了。文章作者是根據(jù)SNOMEDCT中'臨床發(fā)現(xiàn)'的分類層次體系把癥狀詞拆分成了不同的組成,。我們也根據(jù)自身的場(chǎng)景完善了12個(gè)類別的成分原子詞,,比如例子中的'主動(dòng)脈瓣退行性病變',然后可以分成:身體部位+特征詞+性質(zhì)修飾詞,。

同時(shí),,不同的組成成分在位置上存在的是有限的組合,通過對(duì)已有的一些實(shí)體詞挖掘,,最后我們可以固定1300多種組合,。后續(xù)我們?cè)賹⑦@些原子詞和組成成分相互連接,構(gòu)成一個(gè)graph,。然后固定的組成成分的組合類型,,就為圖中的有向邊提供了數(shù)據(jù)來源。我們拿這個(gè)graph可以使用LINE,、node2vec之類的方式train一個(gè)embedding,。我們采用的是清華大學(xué)19年在IJCAI上發(fā)表的矩陣分解的方法??梢钥吹轿覀僼rain完graph embedding后,,相似度聚合的一些結(jié)果??梢园l(fā)現(xiàn)以這種方式結(jié)構(gòu)化一個(gè)疾病詞可以保證疾病詞在結(jié)構(gòu)上的穩(wěn)定,。也就是說,原始的排列組合想要表述的是某種腫瘤,,我們需要保留這個(gè)腫瘤作為base詞的結(jié)構(gòu),。

在召回策略中除了使用詞典命中的結(jié)果,、NER的結(jié)果,、名詞短語的結(jié)果,現(xiàn)在可以補(bǔ)充原子詞召回的結(jié)果,,這樣可以提高長(zhǎng)詞被命中的概率,。最后,對(duì)候選詞進(jìn)行LTR ( learning to rank ) 的排序,,獲得top1結(jié)果,。

03
解決短文本的理解問題

1. 語義從何而來

當(dāng)我們解決了識(shí)別準(zhǔn)確率的問題后,接下來就是如何解決短文本的理解問題,。我們認(rèn)為短文本之所以難理解,,不僅在于長(zhǎng)度較短,同時(shí)也因?yàn)槲谋局械恼Z法相對(duì)比較自由,,且需要在非常有限的信息中解析出語義的邏輯,。所以我們分析了在我們搜索場(chǎng)景中用戶日常表述的特點(diǎn),除了單一實(shí)體詞為搜索query外,其他大致可以分為這四種情況:

  • 第一種情況就是用戶的需求在于想要獲取圍繞某個(gè)實(shí)體詞的屬性信息,,比如:'高血糖的判斷標(biāo)準(zhǔn)',、'糖尿病的并發(fā)癥'。常規(guī)做法上,,我們會(huì)對(duì)query做實(shí)體鏈接,,'高血糖'是知識(shí)庫(kù)中的一個(gè)實(shí)體詞。在這樣的流程下,,經(jīng)過一個(gè)倒排索引做文章的檢索,,或者帖子的檢索,會(huì)很容易發(fā)生主題上的偏移,。

  • 第二種情況是由多個(gè)實(shí)體詞合并出完整語義,,比如'2020年執(zhí)業(yè)醫(yī)師考試大綱'。'2020年',、'執(zhí)業(yè)醫(yī)師'和'考試大綱'三者都是獨(dú)立的實(shí)體詞,,但是存在相互約束和限制,所以需要合并成整個(gè)短語來保留語義,。

  • 第三種情況比較類似上面的例子,,也是多個(gè)實(shí)體詞,但不同的是:他們是圍繞一個(gè)潛在的主題來表達(dá)的一些關(guān)鍵詞,。比如:'新冠疫情在哈薩克斯坦的現(xiàn)狀'這一主題,,用戶可能只會(huì)搜索'新冠+空格+哈薩克斯坦'之類的表述。

  • 第四種情況是包含復(fù)雜邏輯的句子,。句子中會(huì)包含一些上下文的語境以及復(fù)雜的邏輯,。

來看一個(gè)具體的query——'短T1長(zhǎng)T2','短T1長(zhǎng)T2'是什么意思呢,?其實(shí)'T1'和'T2'分別代表著核磁共振中縱向與橫向磁場(chǎng)變化的一個(gè)常量系數(shù),,兩種磁場(chǎng)變化最終會(huì)影響骨骼與肌肉臟器在片子中的成像情況。這樣的表述,,通常會(huì)出現(xiàn)在病例影像討論的帖子中,,用戶搜索的目的可能是想找類似的病例討論,也可能是想學(xué)習(xí)一下核磁共振讀片的方法,。所以其語意從短短的幾個(gè)字是無法從字面上獲取的,。所以,這些語義從何而來,?可以很樸素的理解,,信息始終只有兩個(gè)來源:一個(gè)是人的先驗(yàn)知識(shí),源自我們專業(yè)醫(yī)學(xué)知識(shí)圖譜的構(gòu)建,;第二是行為數(shù)據(jù),,對(duì)應(yīng)的就是我們?nèi)粘5臉I(yè)務(wù)日志以及文本上的挖掘,。在理想的情況下,我們希望'短T1長(zhǎng)T2'可以轉(zhuǎn)換成,,如:核磁共振的成像原理,、影像、核醫(yī)學(xué),、神經(jīng)內(nèi)科這樣的主題,,然后在這樣的主題下再去關(guān)聯(lián)到具體資訊的文章。

2. 醫(yī)學(xué)健康領(lǐng)域Concept

我們還可以換個(gè)思路,,比如'短T1長(zhǎng)T2'本身就是一個(gè)非常具有代表性的術(shù)語,,是不是我們可以把它直接作為一種介于把實(shí)體詞與話題之間的一種抽象?這樣既保證了關(guān)聯(lián)性又具備了可解釋性,。

3. Concept挖掘

根據(jù)這樣的思路,,我們?cè)诙∠銏@的場(chǎng)景中,主動(dòng)挖掘了大量的醫(yī)學(xué)concept,。具體的方法:

首先,,我們收集了一批用戶的搜索點(diǎn)擊日志,然后在啟動(dòng)階段定義一些種子模板,,再利用模板和N-gram的策略產(chǎn)生一批短語,,這些短語不會(huì)直接拿來用,因?yàn)槠渲袝?huì)有一些邊界問題或者模板帶來的語義漂移問題,。所以對(duì)生成的這些原始concept,,我們會(huì)做一個(gè)分類器,作為在質(zhì)量上的約束,,留下質(zhì)量比較高的concept,。此外,再把生成的concept重新放到Query或者句子中,,讓它產(chǎn)生新的模板,。這里模板的產(chǎn)生,我們也借鑒了韓家煒老師在MetaPAD上的一些工作,。

最后,,我們?cè)賹?duì)pattern做一層過濾,新的模板就可以重新再去抽concept,。該算法整個(gè)結(jié)構(gòu)就可以形成一個(gè)bootstrap的循環(huán)。這里安利一下騰訊團(tuán)隊(duì)郭老師等在去年KDD上發(fā)表的工作,,工作做得非常的漂亮,,也給我們提供了非常多的啟發(fā)。

4. 結(jié)合專業(yè)醫(yī)學(xué)知識(shí)與Concept

利用挖掘到的concept詞,,我們可以聯(lián)合底層的專業(yè)的醫(yī)學(xué)實(shí)體和上層的業(yè)務(wù)數(shù)據(jù)構(gòu)建起一個(gè)完整的業(yè)務(wù)圖譜,,其中一對(duì)一的邊計(jì)算的都是以Bayes模型為基礎(chǔ),,會(huì)考慮全局統(tǒng)計(jì)量或者文本的局部特征;生成的多對(duì)多的邊之后,,我們參考王仲遠(yuǎn)老師的一些相關(guān)工作中提到的MDL ( Minimum Description Length ) 的原則做concept的篩選,。這樣,論壇帖子,、藥品信息,、商城的商品就可以通過中間的concept層完成了實(shí)體鏈接。

04
工業(yè)落地的嘗試思路

1. Query擴(kuò)展

在得到業(yè)務(wù)圖譜之后,,我們?cè)谒阉鲀?yōu)化中就可以非常容易的利用它,。比如,搜索優(yōu)化中常見的Query擴(kuò)展任務(wù),。

目前Query擴(kuò)展的問題主要有兩類方法:第一種是利用query詞和document詞的相關(guān)性構(gòu)建一個(gè)貝葉斯模型,,擴(kuò)展的結(jié)果就是document詞或者是document中出現(xiàn)的一些詞組,這樣會(huì)幫助在召回階段擴(kuò)大潛在用戶想要的文本,。第二種方法,,是把它作為一種翻譯模型,從query詞翻譯到document詞,。

早期比較樸素的方案是用EM算法找兩類詞的對(duì)齊關(guān)系,,現(xiàn)在新的方案都是上神經(jīng)網(wǎng)絡(luò)train一個(gè)生成模型。在我們有了concept層之后,,用一些很簡(jiǎn)單的策略就能有不錯(cuò)的效果,,比如我們會(huì)直接使用相關(guān)性的方式,也就是剛才提到的第一類方法去建模,,就可以把原始query向concept層上擴(kuò)展,。比如'哈薩克斯坦',就可以擴(kuò)展出'新冠疫情'或'不明肺炎',;同樣,,在電商場(chǎng)景下,我們可以利用擴(kuò)展的concept和其他的實(shí)體關(guān)系做一個(gè)二級(jí)擴(kuò)展,,比如'產(chǎn)褥墊'可以擴(kuò)展出'待產(chǎn)包',,然后再?gòu)拇a(chǎn)包擴(kuò)展出'衛(wèi)生巾'、'紙尿褲',。這樣的應(yīng)用其實(shí)也帶了一點(diǎn)推薦的意思,。

2. 標(biāo)簽生成增強(qiáng)

我們?cè)谖谋窘Y(jié)構(gòu)化上也可以利用concept做一些提升,文本結(jié)構(gòu)化對(duì)于提升搜索效果起到了非常重要的作用,。有了concept之后可以幫助我們從抽象的層面完成對(duì)文本打標(biāo)簽,。業(yè)界中比較好的方案,是先用一個(gè)TransE之類的知識(shí)表示模型,,把知識(shí)圖譜train出Embedding,,然后將這些Embedding融合進(jìn)LDA的模型中,。在模型中,會(huì)用vMF分布代替原來的高斯分布來處理實(shí)體詞的部分,。這樣我們就會(huì)對(duì)一篇,,如'麻醉不良習(xí)慣'的討論帖子抽出'麻醉醫(yī)學(xué)'和'麻醉的不良習(xí)慣'這樣的關(guān)鍵詞。

05
總結(jié)

最后,,總結(jié)一下短文本理解需要做的幾項(xiàng)工作:

  • 首先,,需要解決的是實(shí)體詞識(shí)別的準(zhǔn)確率問題,因?yàn)閷?shí)體詞是我們擴(kuò)充語義的根基,。實(shí)體識(shí)別不準(zhǔn)的話,,語意也無從談起。

  • 第二點(diǎn)是從用戶行為日志中挖掘出concept,,然后把這些concept作為跨越業(yè)務(wù)數(shù)據(jù)和底層專業(yè)醫(yī)學(xué)知識(shí)的語義媒介,。

  • 最后,將concept結(jié)合業(yè)務(wù)數(shù)據(jù)構(gòu)建其業(yè)務(wù)圖譜,。從而協(xié)助下游完成包括搜索,,推薦之類的任務(wù)。

今天的分享就到這里,,謝謝大家,。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多