久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

一文詳解知識(shí)圖譜關(guān)鍵技術(shù)與應(yīng)用 | 公開(kāi)課筆記

 yangtz008 2018-09-09




本課程從知識(shí)圖譜的歷史由來(lái)開(kāi)展,講述知識(shí)圖譜與人工智能的關(guān)系與現(xiàn)狀,;知識(shí)圖譜輻射至各行業(yè)領(lǐng)域的應(yīng)用,;在知識(shí)圖譜關(guān)鍵技術(shù)概念與工具的實(shí)踐應(yīng)用中,本課程也會(huì)講解知識(shí)圖譜的構(gòu)建經(jīng)驗(yàn),;以及達(dá)觀在各行業(yè)領(lǐng)域系統(tǒng)中的產(chǎn)品開(kāi)發(fā)和系統(tǒng)應(yīng)用,。


以下是公開(kāi)課文本版整理


大家晚上好!我是達(dá)觀數(shù)據(jù)的桂洪冠,,負(fù)責(zé)達(dá)觀的搜索技術(shù)團(tuán)隊(duì),。非常高興今天晚上能給大家做一個(gè)分享,分享的主題是“知識(shí)圖譜的關(guān)鍵技術(shù)和應(yīng)用”,。


達(dá)觀數(shù)據(jù)是一家專注于文本智能處理的人工智能技術(shù)企業(yè),,我們?yōu)槠髽I(yè)提供完善的文本挖掘、知識(shí)圖譜,、搜索引擎,、個(gè)性化推薦的文本智能處理技術(shù)服務(wù)。



言歸正傳,,進(jìn)入今天的演講環(huán)節(jié),。今天的演講主題是“知識(shí)圖譜關(guān)鍵技術(shù)與應(yīng)用”,分成幾個(gè)環(huán)節(jié):


  • 一,、知識(shí)圖譜的相關(guān)概述,;

  • 二、知識(shí)圖譜的基本概念,;

  • 三,、知識(shí)圖譜行業(yè)方面的應(yīng)用和場(chǎng)景介紹,著重講一下知識(shí)圖譜構(gòu)建的相關(guān)技術(shù),;

  • 四,、達(dá)觀在知識(shí)圖譜構(gòu)建方面的經(jīng)驗(yàn)、心得和相關(guān)案例,。

  • 最后是與大家的Q&A互動(dòng)環(huán)節(jié),。 




一,、知識(shí)圖譜的概述



我們先直觀的來(lái)看一下什么是知識(shí)圖譜,下面有一張圖,,從這張圖里可以看到,,這個(gè)圖里圓圈是節(jié)點(diǎn),節(jié)點(diǎn)之間有一些帶箭頭的邊來(lái)連成,,這個(gè)節(jié)點(diǎn)實(shí)際上相當(dāng)于知識(shí)圖譜里的實(shí)體或者概念,,邊連線表示實(shí)體之間的關(guān)系。


知識(shí)圖譜本質(zhì)上是一種大型的語(yǔ)義網(wǎng)絡(luò),,它旨在描述客觀世界的概念實(shí)體事件以及及其之間的關(guān)系,。以實(shí)體概念為節(jié)點(diǎn),以關(guān)系為邊,,提供一種從關(guān)系的視角來(lái)看世界,。



語(yǔ)義網(wǎng)絡(luò)已經(jīng)不是什么新鮮事,早在上個(gè)世紀(jì)就已經(jīng)出現(xiàn)了,,但為什么重新又提到知識(shí)圖譜,?


知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò),但是它最主要的特點(diǎn)是一個(gè)非常大規(guī)模的語(yǔ)義網(wǎng)絡(luò),,之前的語(yǔ)義網(wǎng)絡(luò)受限于我們處理的方法,,更多是依賴于專家的經(jīng)驗(yàn)規(guī)則去構(gòu)建,在規(guī)模方面受限于特定領(lǐng)域的數(shù)據(jù),。大規(guī)模網(wǎng)絡(luò),,谷歌在2012年首先提出知識(shí)圖譜的概念,在freebase的基礎(chǔ)上擴(kuò)展了大量來(lái)自互聯(lián)網(wǎng)的實(shí)體數(shù)據(jù)和關(guān)系數(shù)據(jù),。據(jù)說(shuō)目前實(shí)體的數(shù)據(jù)已經(jīng)達(dá)到數(shù)十億級(jí),,有達(dá)到千億級(jí)的實(shí)例關(guān)系,規(guī)模是非常巨大的,。

 


我們?cè)倏匆幌拢R(shí)圖譜背后是怎么表示的,,我們看到的是一個(gè)巨大的語(yǔ)義網(wǎng),,背后是怎么存儲(chǔ)或者表示的呢?


首先,,它是由三元組構(gòu)成的,,構(gòu)成知識(shí)圖譜的核心其實(shí)就是三元組,三元組是由實(shí)體,、屬性和關(guān)系組成的(由Entity,、Attribute、Relation組成),。


具體表示方法為,,實(shí)體1跟實(shí)體2之間有某種關(guān)系,,或者是實(shí)體屬性、屬性詞,。


舉個(gè)例子,,“達(dá)觀數(shù)據(jù)是一家人工智能公司”,其實(shí)就可以表示成這樣的三元組:


<達(dá)觀數(shù)據(jù),,is-a,,人工智能公司>。


“人工智能公司是一種高科技公司”可以表示成:


<人工智能公司,,subclass,高科技公司>,。


“達(dá)觀數(shù)據(jù)成立于2015年”,也可以把這個(gè)屬性表示成一個(gè)三元組,,就是:


<達(dá)觀數(shù)據(jù),,start-time,2015年>,。


基于已有的三元組,,它可以推導(dǎo)出新的關(guān)系,這個(gè)對(duì)構(gòu)建知識(shí)圖譜來(lái)說(shuō)是非常重要的,。我們知道,,知識(shí)圖譜要有豐富的實(shí)體關(guān)系,才能真正達(dá)到它實(shí)用的價(jià)值,。完全靠人工去做的話是不太現(xiàn)實(shí)的,,所以內(nèi)部一定有一個(gè)自動(dòng)推理的機(jī)制,可以不斷的去推理出新的關(guān)系數(shù)據(jù)出來(lái),,不斷的豐富知識(shí)圖譜,。


來(lái)看一些具體的例子。


“人工智能公司是一種高科技公司”,,subclass的關(guān)系,。


還有一個(gè)三元組是谷歌是一家人工智能公司,<Google is-a人工智能公司>,,可以由這兩個(gè)三元組推導(dǎo)出谷歌是一家高科技公司,,<Google is-a高科技公司>。因?yàn)閟ubclass的實(shí)例之間是一種繼承的關(guān)系,。


<翅膀part-of鳥>,,<麻雀kind-of鳥>,可以推導(dǎo)出<翅膀part-of麻雀>,。


為什么要用三元組來(lái)描述知識(shí)圖譜,?


三元組是一個(gè)人和計(jì)算機(jī)都易于理解的結(jié)構(gòu),人是可以解讀的,,計(jì)算機(jī)也可以通過(guò)三元組去處理,,所以它是一個(gè)既容易被人類解讀,,又容易被計(jì)算機(jī)來(lái)處理和加工的結(jié)構(gòu),而且它也足夠的簡(jiǎn)單,,如果說(shuō)你擴(kuò)充成四元組,、五元組,它整個(gè)結(jié)構(gòu)就會(huì)變得比較復(fù)雜,,那是綜合的一種復(fù)雜性和人的易理解性,、和計(jì)算機(jī)的易出理性來(lái)綜合的考慮,決定用三元組的結(jié)構(gòu)來(lái)去作為它的一個(gè)存儲(chǔ),。


那么,,AI為什么需要知識(shí)圖譜?


人工智能分為三個(gè)階段,,從機(jī)器智能到感知智能,,再到認(rèn)知智能。


機(jī)器智能更多強(qiáng)調(diào)這些機(jī)器的運(yùn)算的能力,,大規(guī)模的集群的處理能力,,GPU的處理的能力。


在這個(gè)基礎(chǔ)之上會(huì)有感知智能,,感知智能就是語(yǔ)音識(shí)別,、圖像識(shí)別,從圖片里面識(shí)別出一個(gè)貓,,識(shí)別人臉,,是感知智能。感知智能并非人類所特有,,動(dòng)物也會(huì)有這樣的一些感知智能,。


再往上一層的認(rèn)知智能,是人類所特有的,,是建立在思考的基礎(chǔ)之上的,,認(rèn)知的建立是需要思考的能力,而思考是建立在知識(shí)的基礎(chǔ)之上,,必須有知識(shí)的基礎(chǔ),、有一些常識(shí),才能建立一些思考,,形成一個(gè)推理機(jī)制,。



AI需要從感知智能邁向認(rèn)知智能,,本質(zhì)上知識(shí)是一個(gè)基礎(chǔ),,然后基于知識(shí)的推理,剛好知識(shí)圖譜其實(shí)是具備這樣的一個(gè)屬性,。


知識(shí)圖譜其實(shí)是富含有實(shí)體,、屬性,、概念、事件和關(guān)系等信息,,它能夠基于一定的推理,。且比較關(guān)鍵的是,它能夠基于一定的推理為AI的可解釋性,,帶來(lái)全新的一個(gè)視角,。


可解釋性已被一些領(lǐng)域AI大規(guī)模使用,比如醫(yī)療領(lǐng)域,,AI進(jìn)行癌癥的診斷的結(jié)果,,如果沒(méi)有給出一個(gè)合理的一個(gè)理由,或者是給出一個(gè)解釋的一個(gè)方法,,醫(yī)生是不敢貿(mào)然的用AI給出的癌癥診斷的結(jié)果去給病人直接做下一步的措施,。包括金融領(lǐng)域也一樣,AI如果給投資人推薦了一個(gè)投資的方案,,但是沒(méi)有給出任何的一個(gè)解釋跟說(shuō)明的話,,也會(huì)存在巨大的一個(gè)風(fēng)險(xiǎn)。同樣,,在司法領(lǐng)域也是一樣,,用AI進(jìn)行判案,AI給一個(gè)案件判定一個(gè)結(jié)果,,但是沒(méi)有給出任何的一個(gè)解釋,,也是不能作為結(jié)果來(lái)采用的,因?yàn)樗痉◤?qiáng)調(diào)的就是一種可解釋性,,對(duì)法律的解釋性,、可推理性。


為什么說(shuō)知識(shí)圖譜可以做這樣一個(gè)可解釋性呢,?


舉個(gè)例子,,我們問(wèn)“C羅為什么那么牛?”


C羅為什么那么牛,?這個(gè)是一個(gè)問(wèn)題,,要解釋回答這個(gè)問(wèn)題,人通常是怎么樣去回答這樣的問(wèn)題呢,?上圖,,通過(guò)知識(shí)圖譜的簡(jiǎn)單的推理,就可以回答這樣一個(gè)問(wèn)題,,因?yàn)镃羅獲得過(guò)金球獎(jiǎng),,C羅跟金球獎(jiǎng)之間的關(guān)系是獲得獎(jiǎng)項(xiàng)的一個(gè)關(guān)系,金球獎(jiǎng)跟影響力最大的足球評(píng)選獎(jiǎng)項(xiàng)之一有這樣一個(gè)地位的關(guān)系,,它具有這樣的一個(gè)非常高的地位,,C羅又獲得過(guò)這個(gè)獎(jiǎng)項(xiàng),,所以可以得出,C羅是很牛的,。這是一種知識(shí)圖譜來(lái)解釋,、來(lái)回答這樣一個(gè)“為什么”的一個(gè)問(wèn)題。


同樣還有一些問(wèn)題,,比如,,“鱷魚為什么那么可怕?”


人類是有一樣這樣的常識(shí),,所有的大型的食肉動(dòng)物都是很可怕,,這是個(gè)常識(shí)。鱷魚是一種大型的食薄動(dòng)物,,鱷魚跟大型食肉動(dòng)物概念之間是一種instance的關(guān)系,。通過(guò)這樣的一個(gè)常識(shí)和概念之間的關(guān)系,可以推導(dǎo)出鱷魚是很可怕的,。同樣的,,“鳥兒為什么會(huì)飛?”因?yàn)樗谐岚?,鳥兒這個(gè)實(shí)體它的屬性是有翅膀,,利用一個(gè)實(shí)體跟屬性之間的關(guān)系,可以做這樣一個(gè)推理,。


之前微博上關(guān)曉彤跟鹿晗非常的火,,經(jīng)常被刷屏,這是為什么,?


因?yàn)殛P(guān)曉彤跟鹿晗之間是男女朋友這樣的關(guān)系,,明星之間的男女朋友的關(guān)系就最容易被大家追捧,也最容易被刷屏,。這個(gè)就是通過(guò)關(guān)系也好,,通過(guò)實(shí)體的屬性也好,通過(guò)實(shí)體的概念也好,,就可以去解釋,、去回答一些問(wèn)題。這些是知識(shí)圖譜在AI在可解釋性方面的一些具體的例子,。


深度學(xué)習(xí)的可解釋性非常差的,,深度學(xué)習(xí)里面內(nèi)部的語(yǔ)義表達(dá)、向量的表達(dá)都是一些浮點(diǎn)數(shù),,人類是非常難以理解的,。深度學(xué)習(xí)出來(lái)的結(jié)果,它的可解釋性也是非常少的。


盡管我們現(xiàn)在在研究可視化的技術(shù),,把中間的它的結(jié)果呈現(xiàn)出來(lái)、可視化出來(lái),,但是真正能達(dá)到對(duì)人有效的解釋性進(jìn)展還是比較緩慢的,。知識(shí)圖譜實(shí)際上是有望能夠消除人類的自然語(yǔ)言跟深度學(xué)習(xí)黑盒之間的語(yǔ)義鴻溝。也就是深度學(xué)習(xí)的底層的特征空間和上層的人的自然語(yǔ)言空間這種巨大的語(yǔ)義鴻溝,,通過(guò)深度學(xué)習(xí)跟知識(shí)圖譜結(jié)合起來(lái),,有望能夠消除。這也是為什么AI要結(jié)合知識(shí)圖譜的一個(gè)原因,。




二,、知識(shí)圖譜的典型行業(yè)應(yīng)用介紹



1. 金融行業(yè)的應(yīng)用。



知識(shí)圖譜在金融行業(yè)里面比較典型的應(yīng)用就是風(fēng)控反欺詐,。


1). 知識(shí)圖譜可以進(jìn)行信息的不一致性檢查,,來(lái)確定是不是存在可能的借款人欺詐的風(fēng)險(xiǎn),比如第一個(gè)圖里面的借款人甲和乙來(lái)自于不同的公司,,但是他卻非常詭異地留下了相同的公司的電話號(hào)碼,,這時(shí)審核人員就要格外留意了,有可能會(huì)存在欺詐的風(fēng)險(xiǎn),。


(2). 組團(tuán)欺詐,,甲乙丙三個(gè)借款人同一天向銀行發(fā)起借款,他們是互不相關(guān)的人,,但是他們留了相同的地址,,這時(shí)有可能是組團(tuán)的欺詐。


(3). 靜態(tài)的異常檢測(cè),,它表示的是在某個(gè)時(shí)間點(diǎn)突然發(fā)現(xiàn)圖中的某幾個(gè)節(jié)點(diǎn)的聯(lián)系異常的緊密,,原來(lái)是互相聯(lián)系都比較少、比較松散的,,突然間有幾個(gè)點(diǎn)之間密集的聯(lián)系,,有可能會(huì)出現(xiàn)欺詐組織。


(4). 動(dòng)態(tài)的異常檢測(cè)(第二行中間圖),,是隨著時(shí)間的變化,,它的幾個(gè)節(jié)點(diǎn)之間圖的結(jié)構(gòu)發(fā)生明顯的變化,原來(lái)它是比較穩(wěn)定的,,左邊黑色的上三角,、下三角,然后中間連線,,但過(guò)了一段時(shí)間之后,,它整個(gè)圖的結(jié)構(gòu)變成了右邊的這樣結(jié)構(gòu),此時(shí)很可能是異常的關(guān)系的變化,會(huì)出現(xiàn)一個(gè)欺詐組織,。


(5). 客戶關(guān)系管理,。怎么樣去做失聯(lián)客戶的管理?圖中的例子有一個(gè)借款的用戶,,銀行可能現(xiàn)在沒(méi)有辦法直接找到他,,甚至通過(guò)他的直接聯(lián)系人也沒(méi)辦法找到他,那這個(gè)時(shí)候是不是可以再進(jìn)一步的通過(guò)他的二度聯(lián)系人來(lái)間接的來(lái)找到他,?通過(guò)這樣的圖結(jié)構(gòu)是可以快速找到他的二度聯(lián)系人,,比如張小三或者是王二,再去聯(lián)系他們,,嘗試把李四這個(gè)人給找到,。


2.輔助信貸審核和投研分析



左邊是輔助審貸。


知識(shí)圖譜會(huì)融合多個(gè)數(shù)據(jù)源,,從多個(gè)維度來(lái)維護(hù)關(guān)聯(lián)人員的信息,,來(lái)避免數(shù)據(jù)不全與數(shù)據(jù)孤島,把它整合到一個(gè)大的網(wǎng)絡(luò)結(jié)構(gòu)里面去,,借助知識(shí)圖譜的搜索,,審核人員可以快速的獲取到信貸申請(qǐng)人張三的相關(guān)的信息,住址,、配偶,、就職公司、他的朋友等等,。這比原來(lái)到各個(gè)異構(gòu)且散落的數(shù)據(jù)源去進(jìn)行搜集的效率要高得多,,且能夠從整體上來(lái)看到關(guān)鍵實(shí)體相互之間的關(guān)聯(lián)關(guān)系。


第二個(gè)是用于輔助投研的,。


知識(shí)圖譜能夠?qū)崟r(shí)地串聯(lián)起來(lái)這個(gè)公司相關(guān)的上下游公司,,供應(yīng)商的關(guān)系、競(jìng)爭(zhēng)者的關(guān)系,、客戶的關(guān)系,、投融資那些關(guān)系等,然后進(jìn)行快速實(shí)時(shí)的定位,。中信通訊這家公司前不久被美國(guó)政府進(jìn)行合規(guī)性審查,,這個(gè)時(shí)候投研人員通過(guò)知識(shí)圖譜搜索到中興通訊公司實(shí)體,進(jìn)而可以非??斓氐玫礁信d通訊相關(guān)的上下游公司實(shí)體,,包括關(guān)聯(lián)的子公司、供應(yīng)商,、客戶,、競(jìng)爭(zhēng)對(duì)手,、合作伙伴,有助于投研人員快速的做決策,。


3.精準(zhǔn)營(yíng)銷應(yīng)用


知識(shí)圖譜能夠比較全面的記錄客戶的非常詳細(xì)的信息,,包括名字,住址,,經(jīng)常和什么樣的人進(jìn)行互動(dòng),,還認(rèn)識(shí)其它什么樣的人,網(wǎng)上的行為習(xí)慣,、行為方式是什么樣的,這樣就可以知識(shí)圖譜挖掘出更多的用戶的屬性標(biāo)簽和興趣標(biāo)簽,,以及社會(huì)的屬性標(biāo)簽,,形成全面的用戶洞察,基于知識(shí)圖譜就可以進(jìn)行個(gè)性化的商品或者活動(dòng)的推送,,或者基于用戶的分群分組做定向營(yíng)銷,,從而實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。



4. 知識(shí)圖譜在搜索引擎里面的應(yīng)用,,最典型的就是在谷歌搜索引擎里面應(yīng)用,。



谷歌是在2012年率先提出來(lái)知識(shí)圖譜的概念。提出這個(gè)概念的最主要的目的就是改善它的搜索引擎的體驗(yàn),。從這個(gè)圖就可以看到,,用戶搜索的是泰姬陵,泰姬陵是印度的非常著名的,,也是世界八大奇跡之一的景點(diǎn),。


不一樣的地方,在搜索引擎的右側(cè),,會(huì)以知識(shí)卡片的形式來(lái)呈現(xiàn)跟泰姬陵相關(guān)的結(jié)構(gòu)化的信息,,包括泰姬陵的地圖、圖片,、景點(diǎn)的描述,、開(kāi)放時(shí)間門票等等,甚至在下面會(huì)列出跟泰姬陵相類似或者相關(guān)聯(lián)的景點(diǎn),,比如中國(guó)的萬(wàn)里長(zhǎng)城,,同樣是世界的幾大奇跡,還有金字塔等等,。同時(shí),,它還可以進(jìn)行知識(shí)的擴(kuò)展,比如泰姬陵不光是印度的景點(diǎn),,它還可以是一張音樂(lè)專輯,,它甚至是國(guó)外某城市的街區(qū)街道,。這樣通過(guò)知識(shí)圖譜可以不斷的去探索發(fā)現(xiàn)新的非常新奇的東西,讓用戶在搜索引擎里面能夠不斷的去進(jìn)行知識(shí)的關(guān)聯(lián)和發(fā)現(xiàn),,激發(fā)起用戶的搜索的欲望,。原來(lái)我們搜索引擎講究的是說(shuō)快速的找到它的結(jié)果,然后關(guān)掉就完了,,谷歌通過(guò)知識(shí)圖譜,,實(shí)際上是把搜索引擎變成了知識(shí)的探索和發(fā)現(xiàn)引擎,這是概念和理念上的非常大的變遷與升級(jí),。


5.知識(shí)圖譜應(yīng)用于推薦系統(tǒng)



我們比較熟悉的是個(gè)性化推薦,,即所謂的千人千面,比如根據(jù)游戲來(lái)推薦游戲的道具,。對(duì)于小白用戶和骨灰級(jí)的用戶,,推薦的東西顯然是不一樣的,這是個(gè)性化的推薦,。個(gè)性化推薦之外,,還有場(chǎng)景化的推薦,比如用戶購(gòu)買了沙灘鞋,,存在用戶可能要去海邊度假這樣的場(chǎng)景,,基于這樣的場(chǎng)景可以繼續(xù)給他推薦游泳衣、防曬霜或者其它的海島旅游度假的產(chǎn)品,。


任務(wù)型的推薦,。比如用戶買了牛肉卷或者羊肉卷,假設(shè)他實(shí)際上是要為了做一頓火鍋,。,,這時(shí)候系統(tǒng)可以給他推薦火鍋底料或者是電磁爐。


冷啟動(dòng)問(wèn)題,。推薦系統(tǒng)的冷啟動(dòng)一直是比較難以處理的問(wèn)題,,通常的做法是根據(jù)新用戶的設(shè)備類型,或者他當(dāng)前的時(shí)間位置等等,,或者外面的關(guān)聯(lián)數(shù)據(jù)來(lái)做推薦,。可以基于知識(shí)圖譜的語(yǔ)義關(guān)聯(lián)標(biāo)簽進(jìn)行推薦,,比如旅游和攝影實(shí)際上是語(yǔ)義相近的兩個(gè)標(biāo)簽,,再比如相同的導(dǎo)演或者相同演員的電影在語(yǔ)義上也是比較相近的。


跨領(lǐng)域的推薦問(wèn)題,。微博的信息流里會(huì)推薦淘寶的商品,,然而微博和淘寶是兩個(gè)不同的領(lǐng)域,它是怎么做到的呢,?新浪微博有些用戶會(huì)經(jīng)常去曬黃山,、九寨溝,、泰山等這些照片,這個(gè)時(shí)候我們就知道他有可能是一位登山的愛(ài)好者,,這個(gè)時(shí)候淘寶就會(huì)可以給他推薦登山的裝備,,登山杖、登山鞋等等這些裝備,,利用這些背景知識(shí),,能夠打通不同的平臺(tái)之間的語(yǔ)義鴻溝。


知識(shí)型的推薦,,是基于知識(shí)的,。比如清華大學(xué)、北京大學(xué)都是頂級(jí)名校,,復(fù)旦大學(xué)也同樣是,,這個(gè)時(shí)候是可以推薦復(fù)旦大學(xué),再比如百度,、阿里和騰訊都屬于BAT級(jí)互聯(lián)網(wǎng)公司,,基于百度,、阿里就可以推薦騰訊,。


有了知識(shí)圖譜以后,我們可以從基于行為的推薦,,發(fā)展到行為跟語(yǔ)義相融合的智能推薦,。




三、如何構(gòu)建知識(shí)圖譜



構(gòu)建知識(shí)圖譜是包括這樣的生命周期或這樣的部分,,包括定義,、知識(shí)的抽取、知識(shí)的融合,、存儲(chǔ),、知識(shí)的推理、知識(shí)的應(yīng)用,,這樣的循環(huán)迭代的過(guò)程,。


我們先來(lái)理解一下本體的概念,本體是用于描述事物的本質(zhì)的,,維基百科里面對(duì)于計(jì)算機(jī)科學(xué)領(lǐng)域當(dāng)中的本體給出的定義是這樣的,,即:對(duì)于特定領(lǐng)域真實(shí)存在的實(shí)體的類型、屬性,,以及它們之間的相互關(guān)系的一種定義,。



我們?cè)賮?lái)看看知識(shí)圖譜和本體的關(guān)系,下面這張圖,,我們看到有兩個(gè)層,,就下面是本體層,,上面是事實(shí)層,那本體層是基于特定領(lǐng)域的概念的定義,,包括概念的屬性,,概念之間的關(guān)系,一般概念之間的關(guān)系是一種父子關(guān)系,,也有叫做上下位的關(guān)系,。事實(shí)層是具體的真實(shí)存在的實(shí)體,包括實(shí)體的屬性以及實(shí)體之間的關(guān)系,,每個(gè)實(shí)體都會(huì)映射到本體層相應(yīng)的概念,。面向?qū)γ娲蠹叶急容^熟悉,給大家舉例說(shuō)明一下,,本體層的概念就好比面向?qū)ο罄锩娴念惖母拍?,然后事?shí)層的實(shí)體就好比面向?qū)ο罄锩娴膶?duì)象,對(duì)象是從類當(dāng)中派生出來(lái)的,,同時(shí)繼承了類的一些屬性和關(guān)系,。這就是本體的概念。



為什么要講本體的概念,?一個(gè)更直觀的例子,,就是要對(duì)知識(shí)圖譜來(lái)進(jìn)行模式或者Schema的定義。這里的領(lǐng)域是科技,,在這科技領(lǐng)域下面是我們劃分的若干個(gè)主題,,比如互聯(lián)網(wǎng)主題、通訊主題,、手機(jī)主題,,在每個(gè)主題下面又有若干的概念,就是下面的概念層,,比如互聯(lián)網(wǎng)里面有深度學(xué)習(xí),、人工智能等等這些概念,然后通訊里面有智能手機(jī)這些概念,。在概念下面就是具體的事實(shí)層面,,就是實(shí)體層,比如特斯拉modelS,、蘋果iPhone7,、華為P10等等,這些都是具體的實(shí)體,,然后實(shí)體之間有關(guān)系,,它繼承的概念之間的關(guān)系。最下面一層是事件層,,這就是整個(gè)本體層的例子,。



給大家介紹一款比較好的開(kāi)源本體編輯工具,,叫Protégé。這個(gè)工具是斯坦福大學(xué)開(kāi)源的,,它的功能非常強(qiáng)大,,也是目前最流行的本體編輯工具,有網(wǎng)頁(yè)版和桌面版,,桌面版是免安裝的,,大家直接下載下來(lái)就可以試用。


它的好處是什么,?它屏蔽了具體的本體描述語(yǔ)言,,用戶只需要在概念層次上面進(jìn)行本體的模型構(gòu)建,同時(shí)也比較靈活,,能夠支持各種插件來(lái)擴(kuò)展特定的功能,。比如推理的功能可以基于插件來(lái)擴(kuò)展。不過(guò)這個(gè)工具對(duì)中文的支持不是很友好,。



下面一個(gè)非常重要的關(guān)鍵的步驟就是知識(shí)的抽取,,首先要抽取實(shí)體,然后是實(shí)體之間的關(guān)系,。我們看一下NER實(shí)體的抽取,,我們知道NER可以轉(zhuǎn)化為序列標(biāo)注的問(wèn)題,傳統(tǒng)的機(jī)器學(xué)習(xí)的方法,,CRF等都可以做,,而且CFR做的效果還是不錯(cuò)的,。不過(guò)CRF通常只能學(xué)習(xí)到相鄰詞位置比較近的上下文的特征,,它無(wú)法獲取整個(gè)句子甚至更長(zhǎng)的上下文的特征。


目前業(yè)界比較主流的,,包括學(xué)術(shù)界比較主流的一種做法是什么,?是深度循環(huán)神經(jīng)網(wǎng)絡(luò)加上結(jié)合CRF,這樣的做法更多的是雙向的循環(huán)神經(jīng)網(wǎng)絡(luò),,它可以分別從前往后以及從后往前這兩個(gè)方向來(lái)去學(xué)習(xí)上下文的特征,,然后進(jìn)行序列信號(hào)的記憶和傳遞,這是一種比較常見(jiàn)的做法,。



華為發(fā)布了新一代的麒麟處理,,通過(guò)從前往后就可以推理出最后面的文字,然后從后往前也可以推理出最前面的文字,,第一個(gè)字“朝”實(shí)際上是從后往前去進(jìn)行預(yù)測(cè)推理,。頂層用CRF對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)果進(jìn)行約束就可以,對(duì)這個(gè)輸出進(jìn)行更好的控制,。然后輸入層通常是詞向量或者字向量,,embedding能可以把單個(gè)字或者詞轉(zhuǎn)化為低維的稠密的語(yǔ)義向量,。



下面講一下關(guān)系抽取的技術(shù)。它有幾種方法,,第一種是基于有監(jiān)督的方法,,把關(guān)系抽取當(dāng)做分類問(wèn)題來(lái)看待,根據(jù)訓(xùn)練數(shù)據(jù)設(shè)計(jì)有效的特征,,來(lái)學(xué)習(xí)各種分類模型,,這是傳統(tǒng)的分類。這個(gè)方法不好的地方,,是需要大量的人工標(biāo)注的訓(xùn)練語(yǔ)料,,語(yǔ)料的標(biāo)注是非常的耗時(shí)耗力的。所以在有監(jiān)督的基礎(chǔ)上,,又提出了一種半監(jiān)督的方式,,半監(jiān)督的方式主要采用方式進(jìn)行關(guān)系的抽取,具體來(lái)說(shuō)就是要對(duì)于要抽取的關(guān)系,,首先基于手工設(shè)定若干的種子的實(shí)例,,然后迭代性的從數(shù)據(jù)當(dāng)中抽取關(guān)系對(duì)應(yīng)的關(guān)系模板和更多的實(shí)例,通過(guò)不斷迭代的方式來(lái)抽取越來(lái)越多的這些實(shí)例,。


還有一種是無(wú)監(jiān)督的方法,。無(wú)監(jiān)督的方法本質(zhì)上是一種聚類的方法,用擁有相同語(yǔ)義關(guān)系的實(shí)體,,它擁有相似上下文的信息是它的假設(shè),,因此它可以利用每個(gè)實(shí)體的上下文的信息來(lái)代表實(shí)體的語(yǔ)義關(guān)系,對(duì)實(shí)體進(jìn)行語(yǔ)義關(guān)系的聚類,。


這三種方法當(dāng)中,,有監(jiān)督的方法能夠抽取出有效的特征,然后在準(zhǔn)確率和召回率方面是更有優(yōu)勢(shì)的,,半監(jiān)督和無(wú)監(jiān)督的方法一般情況下,,效果都不是特別的好,所以業(yè)界現(xiàn)在用的比較多的還是有監(jiān)督的學(xué)習(xí)的方法,。


我們剛剛提到有監(jiān)督學(xué)習(xí)方法,,比較困難的地方就是怎么樣獲取大量分類的訓(xùn)練樣本,完全通過(guò)人工去標(biāo)注的方式顯然不是比較好的方式,。


有什么樣好的處理的方法,?用遠(yuǎn)程監(jiān)督的一種方法,典型的工具Deepdive,,也是斯坦福大學(xué)InfoLab實(shí)驗(yàn)室開(kāi)源的知識(shí)抽取的系統(tǒng),,通過(guò)弱監(jiān)督學(xué)習(xí)的方法,從非結(jié)構(gòu)化的文本當(dāng)中可以抽取出結(jié)構(gòu)化的關(guān)系的數(shù)據(jù)。開(kāi)發(fā)者不需要理解它里面的具體的算法,,只要在概念層次進(jìn)行思考基本的特征就可以了,,然后也可以使用已有的領(lǐng)域知識(shí)進(jìn)行推理,也能夠?qū)τ脩舻姆答佭M(jìn)行處理,,可以進(jìn)行實(shí)時(shí)反饋的一種機(jī)制,,這樣能夠提高整個(gè)預(yù)測(cè)的質(zhì)量。背后用的是也是一種遠(yuǎn)程監(jiān)督的技術(shù),,只要少量的運(yùn)訓(xùn)練的數(shù)據(jù)就可以了,。



我們來(lái)具體來(lái)看一下它是怎么樣來(lái)做這樣一件事情的。首先,,下面看到Mention的句子就是“奧巴馬和米歇爾結(jié)婚”,,它是句子,但Mention就是這些詞的標(biāo)記,,奧巴馬米歇爾都是Mention,,我們要推測(cè)它之間是不是配偶的關(guān)系。這個(gè)時(shí)候要對(duì)Mention:奧巴馬和米歇爾,,去對(duì)應(yīng)到知識(shí)圖譜里面具體的實(shí)體,,看一下這兩個(gè)實(shí)體在知識(shí)圖譜里面是不是存在著配偶的關(guān)系?如果是的話,,就把它拿過(guò)來(lái)作為正的訓(xùn)練樣本,,如果不是,它就是負(fù)的樣本,。前提假設(shè)就是知識(shí)圖譜里面的它的實(shí)體之間的關(guān)系都是正確的,,以這個(gè)為依據(jù),去做樣本的標(biāo)注,。



目前進(jìn)行實(shí)體關(guān)系抽取有兩大類方法,,有一類是基于流水線式的抽取,輸入一個(gè)句子,,首先抽取這實(shí)體,,再對(duì)實(shí)體進(jìn)行兩兩組合,,然后再進(jìn)行分類,,最后識(shí)別出實(shí)體之間的關(guān)系。這種做法是有缺點(diǎn)的,,第一,,它容易造成錯(cuò)誤的傳播,比如在第一步的時(shí)候,,實(shí)體如果識(shí)別錯(cuò)誤了,,后面的關(guān)系肯定也是錯(cuò)誤的。第二,,會(huì)產(chǎn)生沒(méi)有必要冗余的信息,,因?yàn)橐獙?duì)實(shí)體進(jìn)行兩兩的配對(duì),,然后再進(jìn)行關(guān)系的分類,很多配對(duì)之間實(shí)際上就沒(méi)有這樣的關(guān)系,,就是它會(huì)帶來(lái)了這樣非常多的冗余的信息,,錯(cuò)誤率也會(huì)被放大、被提升,。


現(xiàn)在用的比較多的另一種方法,,是聯(lián)合學(xué)習(xí)的方法,輸入一個(gè)句子,,通過(guò)實(shí)體識(shí)別和關(guān)系抽取的聯(lián)合模型,,可以直接得到有效的三元組。通常我們是基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合標(biāo)注的學(xué)習(xí)的方法,,里面涉及到兩個(gè)關(guān)鍵的工作,,一個(gè)是模型的參數(shù)共享的問(wèn)題,還有一個(gè)就是標(biāo)注策略,,怎么樣進(jìn)行有效的標(biāo)注,。模型共享是指的是在實(shí)體訓(xùn)練的時(shí)候能夠進(jìn)行實(shí)體識(shí)別和關(guān)系分類這兩個(gè)任務(wù),都會(huì)通過(guò)反向傳播來(lái)匹配來(lái)進(jìn)行關(guān)系的分類,,然后同時(shí)來(lái)實(shí)現(xiàn)這兩個(gè)參數(shù)之間的依賴,,兩個(gè)子任務(wù)之間的依賴。參數(shù)共享的方法,,它本質(zhì)上還是兩個(gè)子任務(wù),,只是說(shuō)它們這兩個(gè)任務(wù)之間通過(guò)參數(shù)共享有了交互,而且在訓(xùn)練的時(shí)候還要預(yù)先進(jìn)行實(shí)體識(shí)別,,識(shí)別實(shí)體之后再根據(jù)預(yù)測(cè)信息進(jìn)行兩兩匹配,,來(lái)進(jìn)行關(guān)系的分類,所以仍然會(huì)產(chǎn)生無(wú)關(guān)系時(shí)候冗余的信息存在,。



現(xiàn)在我們新提出了一種端到端序列標(biāo)注的策略,,把原來(lái)涉及到序列標(biāo)注和分類的兩個(gè)任務(wù)變成了完全的端到端的序列標(biāo)注的問(wèn)題,通過(guò)端到端的神經(jīng)網(wǎng)絡(luò)模型,,可以直接得到關(guān)系的三元組,,即實(shí)體關(guān)系的三元組。


新的標(biāo)注策略是像下面這張圖里面有三個(gè)部分來(lái)組成的,,第一部分是實(shí)體中的詞的位置,,比如b是表示開(kāi)始,i表示是在實(shí)體的內(nèi)部,,e表示是實(shí)體的結(jié)尾,,s表示是單個(gè)的實(shí)體。第二部分就是關(guān)系類型的信息,預(yù)定義的關(guān)系類型的編碼,,比如里面的CP,、CF,CP是國(guó)家總統(tǒng),,CF是公司創(chuàng)立者,,這樣兩種的關(guān)系。還有實(shí)體的角色的信息,,它表示是實(shí)體1還是實(shí)體2,?實(shí)體跟關(guān)系之外的其它的這些字符都用O來(lái)表示,這樣就進(jìn)行了實(shí)體的標(biāo)注,。



接下來(lái)我們講一下實(shí)體的融合,,這里最主要就是實(shí)體的對(duì)齊。


首先是實(shí)體對(duì)齊,,也叫實(shí)體歸一化,,是把具有不同的標(biāo)識(shí)的實(shí)體,但是在現(xiàn)實(shí)世界當(dāng)中可能是表達(dá)同樣意思的,,把它做歸一化,。比如中華人民共和國(guó)、中國(guó)和China,,這個(gè)三個(gè)指的是同一實(shí)體,,盡管它的表述方式不一樣,就把它歸一化為具有全局唯一標(biāo)識(shí)的實(shí)例對(duì)象,,然后添加到知識(shí)圖譜當(dāng)中去,。


現(xiàn)在實(shí)體對(duì)齊普遍采用的還是一種聚類的方法,關(guān)鍵在于定義合適的相似度的閾值,,一般從三個(gè)維度來(lái)依次來(lái)考察的,,首先會(huì)從字符的相似度的維度,基于的假設(shè)是具有相同描述的實(shí)體更有可能代表同實(shí)體,。第二個(gè)維度,,是從屬性的相似度的維度來(lái)看的,就是具有相同屬性的和以及屬性詞的這些實(shí)體,,有可能會(huì)代表是相同的對(duì)象,。第三個(gè)維度,是從結(jié)構(gòu)相似度的維度來(lái)看,,基于的假設(shè)是具有相同鄰居的實(shí)體更有可能指向同對(duì)象,。


進(jìn)行融合的時(shí)候要考慮各個(gè)數(shù)據(jù)源的數(shù)據(jù)的可靠性,以及在各個(gè)不同數(shù)據(jù)源當(dāng)中出現(xiàn)的頻度來(lái)綜合決定選用哪個(gè)類別或者哪個(gè)屬性詞,。還有一種方法就是是用來(lái)自LD(LinkedData),LD是很多人工標(biāo)記好的數(shù)據(jù),是非常準(zhǔn)確的,,其中有種關(guān)聯(lián)叫owl:sameAs,,它表示前后兩個(gè)是同實(shí)體的,利用這個(gè)作為訓(xùn)練數(shù)據(jù)來(lái)發(fā)現(xiàn)更多相同的實(shí)體對(duì),,是比較好的方法,。最后要說(shuō)的是,無(wú)論用哪種方法,,都不能保證百分之百的準(zhǔn)確率,,所以最后也要有人工審核和過(guò)濾。

 


知識(shí)存儲(chǔ),,就是如何選擇數(shù)據(jù)庫(kù),,從選擇層面,我們有圖數(shù)據(jù)庫(kù),,有NoSQL的數(shù)據(jù)庫(kù),,也有關(guān)系型數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)有很多選擇,。具體什么樣的情況下選擇什么樣的數(shù)據(jù)庫(kù),?通常是如果說(shuō)知識(shí)圖譜的關(guān)系結(jié)構(gòu)非常的復(fù)雜、關(guān)系非常的多,,這時(shí)候建議使用這個(gè)圖數(shù)據(jù)庫(kù),,比如Neo4J這樣的數(shù)據(jù)庫(kù)。另外一種就是它的關(guān)系并不是很復(fù)雜,,關(guān)系可能也就是1度,、2度的關(guān)系,更多的它是有非常多的屬性的數(shù)據(jù),,這個(gè)時(shí)候可以考慮關(guān)系式數(shù)據(jù)庫(kù),,或者是ES這樣的存儲(chǔ)。如果要考慮到知識(shí)圖譜的性能,、可擴(kuò)展性,、可分布式,是可以結(jié)合NoSQL的數(shù)據(jù)庫(kù),,比如TiTan,。根據(jù)實(shí)際的情況,一般是綜合起來(lái)使用的,,根據(jù)我們的經(jīng)驗(yàn),,我們會(huì)結(jié)合Neo4J和ES來(lái)綜合來(lái)使用,同時(shí)還結(jié)合這關(guān)系型數(shù)據(jù)庫(kù)MySQL等等,,根據(jù)不同的數(shù)據(jù)的特點(diǎn)來(lái)進(jìn)行選型,,而不是說(shuō)一味的追求圖數(shù)據(jù)庫(kù),。



順便了解一下目前主流的幾款圖數(shù)據(jù)庫(kù),Titan,、Graph Engine,、Neo4J這個(gè)三個(gè)分別都是開(kāi)源的,然后Titan是Apache旗下的,,Graph Engine是MIT的License,,Neo4J是GPL開(kāi)源的,既有商業(yè)版,,也有也有開(kāi)源免費(fèi)版,。然后它們的平臺(tái),像Titan是Linux,,Graph是windows,。而數(shù)據(jù)的支撐量級(jí),像Titan是后端存儲(chǔ),,基于Cassandra/Hbase/BDB這樣的分布式存儲(chǔ)引擎,,可以支持更大的數(shù)據(jù)量,千億級(jí)的數(shù)據(jù)量級(jí),;Neo4J商業(yè)版也可以支持到百億級(jí)的,,但是它的非商業(yè)版在數(shù)據(jù)量級(jí)比較大的時(shí)候,一般是在幾千萬(wàn)級(jí)的時(shí)候就可能會(huì)出現(xiàn)一些問(wèn)題,。



再看一下知識(shí)推理,,知識(shí)推理這邊有幾種方法,首先是基于符號(hào)推理,,我們上面說(shuō)的三元組的結(jié)構(gòu),,比如左邊的RDF,有概念,,然后基于概念符號(hào)進(jìn)行推理,。



這個(gè)是基于OWL進(jìn)行本體推理的例子,這個(gè)背后是基于OWL本體的推理,,最常見(jiàn)的OWL推理工具是Jena, Jena 2支持基于規(guī)則的簡(jiǎn)單推理,,它的推理機(jī)制支持將推理器(inference reasoners)導(dǎo)入Jena,創(chuàng)建模型時(shí)將推理器與模型關(guān)聯(lián)以實(shí)現(xiàn)推理,。

 


還有一種是基于圖(PRA)的推理的方法,,更直觀的一種方法,思想是比較簡(jiǎn)單的,,就是以連接兩個(gè)實(shí)體的已有路徑作為特征構(gòu)建分類器,,來(lái)預(yù)測(cè)它們之間可能存在的潛在關(guān)系。


比如左邊這個(gè)圖里面Charlotte Bronte,,我們要預(yù)測(cè)他的職業(yè)是不是作家,。在這個(gè)圖里面已知存在關(guān)系是什么呢,?他寫過(guò)一篇小說(shuō),它寫過(guò)一篇小說(shuō)Jane Eyre,,然后雙城記也是一部小說(shuō),,狄更斯是寫了雙城記這部小說(shuō),,狄更斯是作家,,同時(shí)它下面還有他的父親職業(yè)也是作家,所以基于這樣圖之間的關(guān)系,,就可以較大概率的推理出Charlotte Bronte的職業(yè)很有可能就是作家,,這就是基于圖之間的關(guān)系的特征構(gòu)建分類器來(lái)進(jìn)行預(yù)測(cè)的。 PRA提取特征的方法主要有隨機(jī)游走,、廣度優(yōu)先和深度優(yōu)先遍歷,,特征值計(jì)算方法有隨機(jī)游走probability,路徑出現(xiàn)/不出現(xiàn)的二值特征以及路徑的出現(xiàn)頻次等,。PRA方法的優(yōu)點(diǎn)是直觀,、解釋性好,但缺點(diǎn)也很明顯,,有三個(gè)主要缺點(diǎn):首先,,很難處理關(guān)系稀疏的數(shù)據(jù),其次,,很難處理低連通度的圖,,最后,是路徑特征提取的效率低且耗時(shí),。

 

 

還有是基于分布式的知識(shí)語(yǔ)義表示的方法,,比如像Trans系列的模型,在這個(gè)模型基礎(chǔ)上進(jìn)行語(yǔ)義的推理,。TransE這個(gè)模型的思想也比較直觀,,它是將每個(gè)詞表示成向量,然后向量之間保持一種類比的關(guān)系,。比如上面這個(gè)圖里面的北京中國(guó),,然后類比巴黎法國(guó),就是北京加上首都的關(guān)系就等于中國(guó),,然后巴黎加上capital的關(guān)系等于France,。所以它是無(wú)限的接近于偽實(shí)體的embed]ding。這個(gè)模型的特點(diǎn)是比較簡(jiǎn)單的,,但是它只能處理實(shí)體之間一對(duì)一的關(guān)系,,它不能處理多對(duì)一與多對(duì)多的關(guān)系。



后來(lái)提出了TransR的模型了,,TransR實(shí)際上是解決了上面提到的一對(duì)多或者多對(duì)一,、多對(duì)多的問(wèn)題,,它分別將實(shí)體和關(guān)系投射到不同的空間里面。一個(gè)實(shí)體的空間和一個(gè)關(guān)系的空間,,然后在實(shí)體空間和關(guān)系空間來(lái)構(gòu)建實(shí)體和關(guān)系的嵌入,,就對(duì)于每個(gè)元組<h,r,t>首先將實(shí)體空間中實(shí)體通過(guò)Mr向關(guān)系空間進(jìn)行投影得到hr和Tr,然后Hr加上r是不是約等于或者近似的等于Tr,,通過(guò)它們?cè)陉P(guān)系空間里面的距離,,來(lái)判斷在實(shí)體空間里面,H和T之間是不是具有這樣的關(guān)系,?


除了TransE,、TransR,還有更多的Trans系列的,,像TransH,、TransN、TransG等等這些模型,。清華大學(xué)的自然語(yǔ)言處理實(shí)驗(yàn)室發(fā)布了一款這個(gè)叫openKE的平臺(tái),,openKE它是開(kāi)源的知識(shí)表示學(xué)習(xí)的平臺(tái),是基于Tanserflow的工具包來(lái)開(kāi)發(fā)的,。它整合了Trans系列的很多算法,,提供統(tǒng)一的接口。它也是面向了預(yù)訓(xùn)練的數(shù)據(jù)來(lái)表示模型的,。



最后介紹一種基于深度學(xué)習(xí)的推理模型,,這個(gè)模型利用了卷積神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)體進(jìn)行關(guān)系的分類的,把句子的依存樹作為輸入,,就是將詞在樹中的不同的位置的嵌入式的表示拼接到這個(gè)詞向量當(dāng)中來(lái)學(xué)習(xí),,同時(shí)對(duì)面相樹結(jié)構(gòu)設(shè)計(jì)了獨(dú)特的卷積核。這種方法在實(shí)體分類的任務(wù)上,,相較于未使用位置關(guān)系的信息,,效果會(huì)有一定的提升。




四,、達(dá)觀經(jīng)驗(yàn)與案例



1.知識(shí)圖譜在達(dá)觀的知識(shí)問(wèn)答當(dāng)中的應(yīng)用


我們的智能問(wèn)答是融合了是知識(shí)圖譜問(wèn)答和基于檢索的問(wèn)答兩種方法進(jìn)行融合,。


首先,左邊會(huì)把用戶的語(yǔ)音經(jīng)過(guò)語(yǔ)音轉(zhuǎn)成文字以后,,進(jìn)行一個(gè)預(yù)處理,,預(yù)處理主要是做了分詞、糾錯(cuò),、詞性標(biāo)注,、實(shí)體屬性的識(shí)別,對(duì)這個(gè)句子進(jìn)行依存句法樹的結(jié)構(gòu)分析,。



預(yù)處理完了以后,,引擎會(huì)首先嘗試根據(jù)問(wèn)句的句法結(jié)構(gòu)進(jìn)行問(wèn)句模板的匹配,,如果說(shuō)能夠匹配到合適的問(wèn)句模板,這個(gè)時(shí)候再根據(jù)在預(yù)處理階段得到的問(wèn)句的實(shí)體屬性和關(guān)系,,對(duì)匹配到的問(wèn)題模板進(jìn)行實(shí)例化,,然后再根據(jù)實(shí)例化以后的問(wèn)句模板來(lái)生成知識(shí)圖譜的圖數(shù)據(jù)庫(kù)的查詢語(yǔ)言,然后在圖數(shù)據(jù)庫(kù)里面就可以把這個(gè)答案查出來(lái)了,。


另外一種情況是沒(méi)有匹配到合適的問(wèn)句模板,,這個(gè)時(shí)候會(huì)進(jìn)入到基于檢索的問(wèn)答模塊,最后是把基于知識(shí)圖譜和基于檢索的兩種的結(jié)果進(jìn)行融合,。


2. 在HR人崗精準(zhǔn)匹配里面的應(yīng)用


HR創(chuàng)建的JD能夠自動(dòng)的匹配到簡(jiǎn)歷庫(kù)里面最合適的候選人的簡(jiǎn)歷,,也即把JD的內(nèi)容和簡(jiǎn)歷庫(kù)里面簡(jiǎn)歷的內(nèi)容做語(yǔ)義的匹配,。


這里有一個(gè)問(wèn)題,,JD對(duì)技能的描述和不同的人的簡(jiǎn)歷中對(duì)技能的描述存在很多表達(dá)方式造成的語(yǔ)義方面的差異。我們分別對(duì)JD和簡(jiǎn)歷構(gòu)建技能圖譜,,通過(guò)技能圖譜的子圖匹配,,就可以比較好地來(lái)解決語(yǔ)義匹配的問(wèn)題。


我們?cè)谥R(shí)圖譜建設(shè)當(dāng)中的一些經(jīng)驗(yàn):


  • 第一,,界定好范圍,,就是要有一個(gè)明確的場(chǎng)景和問(wèn)題的定義,不能說(shuō)為了知識(shí)圖譜而知識(shí)圖譜,。如果沒(méi)有想清楚知識(shí)圖譜有什么樣的應(yīng)用的場(chǎng)景,,或者能解決什么樣的問(wèn)題,這樣的知識(shí)圖譜是比較難以落地的,。一些明確的場(chǎng)景,,比如解決商品數(shù)據(jù)的搜索問(wèn)題,或者從產(chǎn)品說(shuō)明書里面做相關(guān)問(wèn)題的回答,。


  • 第二,,做好schema的定義,就是上面講到的對(duì)于schema或者本體的定義,。第一步確定好場(chǎng)景和問(wèn)題以后,,就基于這樣的場(chǎng)景或者問(wèn)題,再進(jìn)行相關(guān)領(lǐng)域的schema的定義,。定義這個(gè)領(lǐng)域里概念的層次結(jié)構(gòu),、概念之間的關(guān)系的類型,這樣做是確保整個(gè)知識(shí)圖譜是比較嚴(yán)謹(jǐn)?shù)?,知識(shí)的準(zhǔn)確性是比較可靠的,。知識(shí)的模型的定義,或者schema的定義,,大部分情況下是通過(guò)這個(gè)領(lǐng)域的知識(shí)專家的參與,,自上而下的方式去定義的,。


  • 第三,數(shù)據(jù)是知識(shí)圖譜構(gòu)建基礎(chǔ),。數(shù)據(jù)的梳理就比較重要,,最需要什么樣的數(shù)據(jù)?依賴于我們要解決的問(wèn)題是什么,,或者我們的應(yīng)用場(chǎng)景是什么,?基于問(wèn)題和場(chǎng)景,梳理出領(lǐng)域相關(guān)的問(wèn)題,、相關(guān)的數(shù)據(jù),,包括結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),、無(wú)結(jié)構(gòu)化的數(shù)據(jù),,結(jié)合百科跟這個(gè)領(lǐng)域相關(guān)的數(shù)據(jù),領(lǐng)域的詞典,,或者領(lǐng)域?qū)<业慕?jīng)驗(yàn)的規(guī)則,。


  • 第四,不要重復(fù)去造輪子,,很多百科的數(shù)據(jù)和開(kāi)放知識(shí)圖譜的數(shù)據(jù),,是可以融合到我們的領(lǐng)域知識(shí)圖譜中。


  • 第五,,要有驗(yàn)證和反饋機(jī)制,,需要有管理后臺(tái),用戶可以不斷的和知識(shí)圖譜系統(tǒng)進(jìn)行交互,,不斷的進(jìn)行確認(rèn)和驗(yàn)證,,確保知識(shí)圖譜每一步推理和計(jì)算都是準(zhǔn)確的。


  • 第六,,知識(shí)圖譜構(gòu)建是持續(xù)迭代的系統(tǒng)工程,,不可能一蹴而就。


最后給大家介紹中文開(kāi)放知識(shí)圖譜,,達(dá)觀數(shù)據(jù)也是中文開(kāi)放知識(shí)圖譜發(fā)起單位之一,,這里面有很多開(kāi)放的數(shù)據(jù)和開(kāi)源的工具,其中的文章也是非常好的學(xué)習(xí)材料,。



下面是自由提問(wèn)環(huán)節(jié),。


Q:用知識(shí)圖譜來(lái)做反欺詐,和深度學(xué)習(xí)的方法相比,,或者是其它機(jī)器學(xué)習(xí)的相比,,知識(shí)圖譜是否有優(yōu)勢(shì)?


A:反欺詐是整個(gè)風(fēng)控流程中的一個(gè)非常重要的環(huán)節(jié)。其主要難點(diǎn)在于如何基于大數(shù)據(jù)把多個(gè)不同來(lái)源的數(shù)據(jù)(內(nèi)部,、外部,,格式化、非格式化)有機(jī)整合在一起,,并對(duì)這些數(shù)據(jù)之間的各種復(fù)雜且動(dòng)態(tài)變化的關(guān)系進(jìn)行建模,,從而構(gòu)建起一個(gè)反欺詐引擎。知識(shí)圖譜作為關(guān)系的直接表示方式,,可以提供一種非常直觀的可視化的手段以及內(nèi)部的推理機(jī)制來(lái)有效地分析各種復(fù)雜關(guān)系下可能存在的潛在風(fēng)險(xiǎn),。


我們知道深度學(xué)習(xí)的表示是基于一種低維稠密的數(shù)值向量,模型本身是一個(gè)“黑盒”,,我們無(wú)從知道內(nèi)部的各種特征的非線性組合是如何形成的,。相比于知識(shí)圖譜,深度學(xué)習(xí)的不可解釋性是最大的缺點(diǎn),。此外深度學(xué)習(xí)要真正達(dá)成效果,,需要依賴已經(jīng)標(biāo)注過(guò)的大樣本數(shù)據(jù)進(jìn)行訓(xùn)練,但在很多領(lǐng)域(包括反欺詐)這樣的數(shù)據(jù)獲取門檻極高,。


當(dāng)然,,深度學(xué)習(xí)和知識(shí)圖譜也是不完全互斥的,知識(shí)圖譜的構(gòu)建中的實(shí)體,、屬性、關(guān)系抽取等關(guān)鍵過(guò)程也會(huì)用到深度學(xué)習(xí)的循環(huán)神經(jīng)網(wǎng)絡(luò)等自然語(yǔ)言處理技術(shù),。

 

Q:知識(shí)圖譜的查詢跟關(guān)系數(shù)據(jù)庫(kù)的查詢感覺(jué)都一樣,,這兩個(gè)有什么樣的關(guān)系?


A:在關(guān)系型數(shù)據(jù)庫(kù)里面,,如果要聯(lián)合多個(gè)表執(zhí)行復(fù)雜查詢,,特別在數(shù)據(jù)量比較大的情況下是非常慢的。如果涉及到多種很復(fù)雜的關(guān)聯(lián)關(guān)系,,圖數(shù)據(jù)庫(kù)是比較好的選擇,。圖數(shù)據(jù)庫(kù)基于圖的遍歷,內(nèi)置對(duì)圖搜索的優(yōu)化算法,,可以非??焖龠M(jìn)行子圖的搜索。相較于傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù),,其性能會(huì)有多個(gè)數(shù)量級(jí)的提升,。


Q:純文本怎么進(jìn)行抽取,?


A:關(guān)于抽取,,我在前面講到了有很多的方法,包括實(shí)體抽取里面有NER的方法,NER有傳統(tǒng)的CRF的方法,,有基于循環(huán)神經(jīng)網(wǎng)絡(luò) CRF的方法,,也有端到端的聯(lián)合標(biāo)注的抽取方法,這種方法同時(shí)輸出實(shí)體和實(shí)體之間關(guān)系的三元組,。


Q:知識(shí)圖譜怎么和其它算法相結(jié)合,,應(yīng)用在搜索推薦上面?


A:在搜索里面,,更多的是基于知識(shí)圖譜去回答問(wèn)題,,它可以對(duì)query所表達(dá)的實(shí)體和屬性進(jìn)行識(shí)別,比如查詢“華為P10手機(jī)的內(nèi)存是多少?”這就是實(shí)體屬性值的查找,。華為P10是實(shí)體,,內(nèi)存是P10這個(gè)實(shí)體的屬性,對(duì)應(yīng)到知識(shí)圖譜里面,,可以快速定位到這個(gè)實(shí)體叫P10,,就可以直接把P10的內(nèi)存(屬性值)返回出來(lái),就可以直接給出64G或32G這樣的答案,。


Q:實(shí)體有哪些屬性是怎么定義的,?


A: 從如何定義的角度看,主要有兩種方法,,一種是自上而下的方法,,比如我們進(jìn)行模式(Schema)定義的時(shí)候,首先會(huì)對(duì)其中的各種概念進(jìn)行定義,,概念有哪些屬性,,概念之間的關(guān)系是什么樣的。后面抽取的各個(gè)實(shí)體都會(huì)映射到模式層的一個(gè)概念上去,,實(shí)體會(huì)自動(dòng)繼承所屬概念的屬性,。還有一種是自下而上的方法,實(shí)體的屬性是從原始數(shù)據(jù)中不斷抽取提出來(lái)的,,并對(duì)不同數(shù)據(jù)源的屬性與屬性值進(jìn)行融合(歸一化),。實(shí)際使用中,這兩種方法往往是同時(shí)使用互相補(bǔ)充的,。


Q:知識(shí)圖譜中的時(shí)間和空間關(guān)系怎么表達(dá),?


A:知識(shí)圖譜表達(dá)的是動(dòng)態(tài)的數(shù)據(jù),比如美國(guó)總統(tǒng)是特朗普對(duì)吧,?現(xiàn)在是的,,但三年前不是,五年后也不一定是,。隨著時(shí)間的推移,,它的三元組的關(guān)系是會(huì)有變化的,那這個(gè)時(shí)候怎么樣去表達(dá)?通常是在三元組的基礎(chǔ)上再擴(kuò)展一個(gè)維度形成四元組這樣的做法,,但是它會(huì)大大增加系統(tǒng)處理的復(fù)雜度,。也有一些其他的方法,比如可以是跟關(guān)系數(shù)據(jù)庫(kù)相結(jié)合的方式進(jìn)行擴(kuò)展,。


Q:如何衡量一個(gè)知識(shí)圖譜建立以后的效果,?如何有效的進(jìn)行學(xué)習(xí)改進(jìn)?


A:我們建立一個(gè)知識(shí)圖譜,,建立一個(gè)機(jī)器學(xué)習(xí)的算法模型,,對(duì)它的效果進(jìn)行衡量度量是非常關(guān)鍵的。在知識(shí)圖譜這里,,一定是基于某個(gè)場(chǎng)景具體的應(yīng)用,,然后再看這個(gè)場(chǎng)景或者這個(gè)具體的應(yīng)用使用了知識(shí)圖譜以后跟原來(lái)的做法來(lái)做一個(gè)比較,或者有一個(gè)管理后臺(tái),,人可以定期對(duì)知識(shí)圖譜系統(tǒng)的推理和計(jì)算的結(jié)果做一些檢測(cè)和驗(yàn)證,,然后對(duì)這些驗(yàn)證的結(jié)果再反饋到這個(gè)系統(tǒng)里面去,讓系統(tǒng)重新來(lái)進(jìn)行學(xué)習(xí),、改進(jìn),,建立人跟系統(tǒng)之間不斷的反饋、驗(yàn)證和自動(dòng)學(xué)習(xí)的過(guò)程,。


Q:可不可以用知識(shí)圖譜進(jìn)行分類,?


A:這個(gè)問(wèn)題很有意思。上面提到,,一方面我們可以基于分類的方式來(lái)做知識(shí)圖譜中實(shí)體關(guān)系的學(xué)習(xí),。另一方面,我們是否可以利用知識(shí)圖譜輔助進(jìn)行文本的分類,?這樣方面我們有一些經(jīng)驗(yàn)。對(duì)于文本分類中的特征工程,,我們的做法是通過(guò)知識(shí)圖譜進(jìn)行語(yǔ)義的關(guān)聯(lián)擴(kuò)充以獲取更多的語(yǔ)義特征,,尤其是對(duì)于短文本,對(duì)分類效果能有比較好的提升,。


--【完】--


AI圈·周末福利

已在西雅圖,、硅谷、紐約成功舉辦5屆的 AI NEXTCon 11月就要進(jìn)駐中國(guó)啦,!2018 AI開(kāi)發(fā)者大會(huì)(AI NEXTCon)由中國(guó)專業(yè)的IT社區(qū)-CSDN和硅谷AI專業(yè)社區(qū)-AlCamp聯(lián)合舉辦,!


大會(huì)亮點(diǎn):

  • 8大技術(shù)主題

  • 15 硅谷實(shí)力講師團(tuán)

  • 100 技術(shù)應(yīng)用案例精講

  • 120 國(guó)內(nèi)頂尖AI領(lǐng)袖

  • 200 技術(shù)&行業(yè)實(shí)力媒體

  • 2000 AI專業(yè)開(kāi)發(fā)者

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多