從一無所知到3分鐘快速了解“知識圖譜”

明滅的煙頭 2023-01-02 發(fā)布于四川

展開全文

知識圖譜是一把開啟智能機(jī)器大腦的鑰匙,，能夠打開Web 3.0時(shí)代的知識寶庫,。本文將從知識圖譜的概念、架構(gòu),、關(guān)鍵技術(shù),、應(yīng)用領(lǐng)域以及一些需要注意的問題等方面，帶大家走進(jìn)知識圖譜的世界,。

知識圖譜是什么,？

A knowledge graph consists of a set of interconnected typed entities and their attributes.

知識圖譜本質(zhì)上是語義網(wǎng)絡(luò)，是一種基于圖的數(shù)據(jù)結(jié)構(gòu),，由節(jié)點(diǎn)(Point)和邊(Edge)組成,。在知識圖譜里，每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,，每條邊為實(shí)體與實(shí)體之間的“關(guān)系”,。知識圖譜是關(guān)系的最有效的表示方式。

通俗地講,，知識圖譜就是把所有不同種類的信息（Heterogeneous Information）連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò),。知識圖譜提供了從“關(guān)系”的角度去分析問題的能力。

知識圖譜這個(gè)概念最早由Google提出,，主要是用來優(yōu)化現(xiàn)有的搜索引擎,。不同于基于關(guān)鍵詞搜索的傳統(tǒng)搜索引擎，知識圖譜可用來更好地查詢復(fù)雜的關(guān)聯(lián)信息,，從語義層面理解用戶意圖,，改進(jìn)搜索質(zhì)量。比如在Google的搜索框里輸入科比的時(shí)候,，搜索結(jié)果頁面的右側(cè)還會(huì)出現(xiàn)科比相關(guān)的信息比如出生年月,，家庭情況等等。

在知識圖譜里,，我們通常用“實(shí)體（Entity）”來表達(dá)圖里的節(jié)點(diǎn),、用“關(guān)系（Relation）”來表達(dá)圖里的“邊”。實(shí)體指的是現(xiàn)實(shí)世界中的事物比如人、地名,、概念,、公司等，關(guān)系則用來表達(dá)不同實(shí)體之間的某種聯(lián)系,，比如人-“居住在”-北京,、張三和李四是“朋友”等等。

通過上面這個(gè)例子,，讀者應(yīng)該對知識圖譜有了一個(gè)初步的印象,，其本質(zhì)是為了表示知識，從實(shí)際應(yīng)用的角度出發(fā)其實(shí)可以簡單地把知識圖譜理解成多關(guān)系圖（Multi-relational Graph）,。

知識圖譜的表示

那什么叫多關(guān)系圖呢,？圖是由節(jié)點(diǎn)（Vertex）和邊（Edge）來構(gòu)成，但這些圖通常只包含一種類型的節(jié)點(diǎn)和邊,。但相反,，多關(guān)系圖一般包含多種類型的節(jié)點(diǎn)和多種類型的邊。比如下圖因?yàn)閳D里包含了多種類型的節(jié)點(diǎn)和邊,。這些類型由不同的顏色來標(biāo)記,。

當(dāng)一個(gè)知識圖譜擁有屬性時(shí)，我們可以用屬性圖（Property Graph）來表示,，如上圖,，科比和凡妮莎是夫妻，他們的結(jié)婚時(shí)間是2001年到2020年,，其中結(jié)婚時(shí)間就可以作為關(guān)系的屬性,，類似的，科比也有自己的屬性,，比如性別,、出生日期等。這種屬性圖的表達(dá)很貼近現(xiàn)實(shí)生活中的場景,，也可以很好地描述業(yè)務(wù)中所包含的邏輯,。

除了屬性圖，知識圖譜也可以用RDF來表示,，它是由很多的三元組（Triples）來組成,。RDF在設(shè)計(jì)上的主要特點(diǎn)是易于發(fā)布和分享數(shù)據(jù)，但不支持實(shí)體或關(guān)系擁有屬性,，如果非要加上屬性,，則在設(shè)計(jì)上需要做一些修改。目前來看,，RDF主要還是用于學(xué)術(shù)的場景,，在工業(yè)界我們更多的還是采用圖數(shù)據(jù)庫（比如用來存儲屬性圖）的方式,。

知識圖譜主要有兩種存儲方式：一種是基于RDF的存儲；另一種是基于圖數(shù)據(jù)庫的存儲,。RDF一個(gè)重要的設(shè)計(jì)原則是數(shù)據(jù)的易發(fā)布以及共享，圖數(shù)據(jù)庫則把重點(diǎn)放在了高效的圖查詢和搜索上,。其次,，RDF以三元組的方式來存儲數(shù)據(jù)而且不包含屬性信息，但圖數(shù)據(jù)庫一般以屬性圖為基本的表示形式,，所以實(shí)體和關(guān)系可以包含屬性,，這就意味著更容易表達(dá)現(xiàn)實(shí)的業(yè)務(wù)場景。

知識抽取

知識圖譜的體系架構(gòu)是其指構(gòu)建模式結(jié)構(gòu),，如下圖所示,。知識圖譜的構(gòu)建過程需要隨人的認(rèn)知能力不斷更新迭代。

所謂的靜態(tài)關(guān)系圖譜,，意味著我們不考慮圖譜結(jié)構(gòu)本身隨時(shí)間的變化,，只是聚焦在當(dāng)前知識圖譜結(jié)構(gòu)上。然而,，我們也知道圖譜的結(jié)構(gòu)是隨時(shí)間變化的,。

在下面的圖中，我們給出了一個(gè)知識圖譜T時(shí)刻和T+1時(shí)刻的結(jié)構(gòu),，我們很容易看出在這兩個(gè)時(shí)刻中間,，圖譜結(jié)構(gòu)（或者部分結(jié)構(gòu)）發(fā)生了很明顯的變化。那怎么去判斷這些結(jié)構(gòu)上的變化呢,？感興趣的讀者可以關(guān)注我,，后面會(huì)持續(xù)更新知識圖譜相關(guān)技術(shù)棧，本文先不做過多討論,。

回到知識圖譜的體系架構(gòu)那張圖,，知識圖譜的構(gòu)建是后續(xù)應(yīng)用的基礎(chǔ)，而且構(gòu)建的前提是需要把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來,。對于垂直領(lǐng)域的知識圖譜來說,，它們的數(shù)據(jù)源主要來自兩種渠道：一種是業(yè)務(wù)本身的數(shù)據(jù)，這部分?jǐn)?shù)據(jù)通常包含在公司內(nèi)的數(shù)據(jù)庫表并以結(jié)構(gòu)化的方式存儲,；另一種是網(wǎng)絡(luò)上公開,、抓取的數(shù)據(jù)，這些數(shù)據(jù)通常是以網(wǎng)頁的形式存在所以是半結(jié)構(gòu)/非結(jié)構(gòu)化的數(shù)據(jù),。

前者一般只需要簡單預(yù)處理即可以作為后續(xù)AI系統(tǒng)的輸入,，但后者一般需要借助于自然語言處理等技術(shù)來提取出結(jié)構(gòu)化信息。比如在上面的搜索例子里,，科比和凡妮莎的關(guān)系就可以從非結(jié)構(gòu)化數(shù)據(jù)中提煉出來,，比如維基百科等數(shù)據(jù)源,。

信息抽取的難點(diǎn)在于處理非結(jié)構(gòu)化數(shù)據(jù)。從一段非結(jié)構(gòu)化的文本中,，需要抽取出實(shí)體,、關(guān)系和屬性。例如下圖是從維基百科拿到的科比文本信息：

要從海量文字中,，構(gòu)建出類似文章開頭的那種知識圖譜,，需要涉及幾個(gè)方面的自然語言處理技術(shù)：

實(shí)體命名識別（Name Entity Recognition）
關(guān)系抽取（Relation Extraction）
實(shí)體統(tǒng)一（Entity Resolution）
指代消解（Coreference Resolution）

?首先是實(shí)體命名識別,，就是從文本里提取出實(shí)體并對每個(gè)實(shí)體做分類/打標(biāo)簽：比如從上述文本里,，我們可以提取出實(shí)體-“科比·布萊恩特”，并標(biāo)記實(shí)體類型為 “人”,；我們也可以從中提取出“賓夕法尼亞洲費(fèi)城”,，并標(biāo)記實(shí)體類型為“位置”。

這種過程稱之為實(shí)體命名識別,，這是一項(xiàng)相對比較成熟的技術(shù),，有一些現(xiàn)成的工具可以用來做這件事情。其次,，我們可以通過關(guān)系抽取技術(shù),，把實(shí)體間的關(guān)系從文本中提取出來，比如實(shí)體“科比”和“賓夕法尼亞洲費(fèi)城”之間的關(guān)系為“出生于”等等,。

?另外,，在實(shí)體命名識別和關(guān)系抽取過程中，有兩個(gè)比較棘手的問題：一個(gè)是實(shí)體統(tǒng)一,，也就是說有些實(shí)體寫法上不一樣,，但其實(shí)是指向同一個(gè)實(shí)體。比如“科比·比恩·布萊恩特”和“科比”表面上是不同的字符串,，但其實(shí)指的都是科比這個(gè)人,，需要合并。

實(shí)體統(tǒng)一不僅可以減少實(shí)體的種類,，也可以降低圖譜的稀疏性（Sparsity）,；另一個(gè)問題是指代消解，也是文本中出現(xiàn)的“他”, “它”, “她”這些詞到底指向哪個(gè)實(shí)體,。

實(shí)體統(tǒng)一和指代消解問題相對于前兩個(gè)問題更具有挑戰(zhàn)性,。

大規(guī)模知識庫的構(gòu)建與應(yīng)用需要多種智能信息處理技術(shù)的支持。通過知識抽取技術(shù),，可以從一些公開的半結(jié)構(gòu)化,、非結(jié)構(gòu)化的數(shù)據(jù)中提取出實(shí)體、關(guān)系,、屬性等知識要素,。

通過知識融合,，可消除實(shí)體、關(guān)系,、屬性等指稱項(xiàng)與事實(shí)對象之間的歧義,，形成高質(zhì)量的知識庫。知識推理則是在已有的知識庫基礎(chǔ)上進(jìn)一步挖掘隱含的知識,，從而豐富,、擴(kuò)展知識庫。分布式的知識表示形成的綜合向量對知識庫的構(gòu)建,、推理、融合以及應(yīng)用均具有重要的意義,。

作為科普性的文章,，本文的目的是帶大家入門，關(guān)于知識圖譜更深入的知識抽取,、知識表示,、知識融合以及知識推理技術(shù)，篇幅有限,，將作為下一篇的重點(diǎn)內(nèi)容,，供大家參考。

知識圖譜的搭建

首先需要說明的一點(diǎn)是,，搭建一個(gè)知識圖譜系統(tǒng)最重要的核心在于對業(yè)務(wù)的理解以及對知識圖譜本身的設(shè)計(jì),，這就類似于對于一個(gè)業(yè)務(wù)系統(tǒng)，數(shù)據(jù)庫表的設(shè)計(jì)尤其關(guān)鍵,，而且這種設(shè)計(jì)絕對離不開對業(yè)務(wù)的深入理解以及對未來業(yè)務(wù)場景變化的預(yù)估,。當(dāng)然，在這里我們先不討論數(shù)據(jù)的重要性,。

一個(gè)完整的知識圖譜的構(gòu)建包含以下幾個(gè)步驟：

定義具體的業(yè)務(wù)問題
數(shù)據(jù)的收集 & 預(yù)處理
知識圖譜的設(shè)計(jì)
把數(shù)據(jù)存入知識圖譜
上層應(yīng)用的開發(fā),，以及系統(tǒng)的評估。

對于定義具體業(yè)務(wù)問題,，要明確的一點(diǎn)是,，對于自身的業(yè)務(wù)問題到底需不需要知識圖譜系統(tǒng)的支持。因?yàn)樵诤芏嗟膶?shí)際場景,，即使對關(guān)系的分析有一定的需求,，實(shí)際上也可以利用傳統(tǒng)數(shù)據(jù)庫來完成分析的。所以為了避免使用知識圖譜而選擇知識圖譜,，以及更好的技術(shù)選型,，以下給出了幾點(diǎn)總結(jié)，供參考,。

下一步就是要確定數(shù)據(jù)源以及做必要的數(shù)據(jù)預(yù)處理,。在這里我只說明的一點(diǎn),，并不是所有相關(guān)的數(shù)據(jù)都必須要進(jìn)入知識圖譜，對于這部分的一些決策原則在后續(xù)的文章中會(huì)有比較詳細(xì)的介紹,。

知識圖譜的設(shè)計(jì)是門藝術(shù),，作為程序媛，我把它交給更專業(yè)的人員,。存儲上我們要面臨存儲系統(tǒng)的選擇,，但由于我們設(shè)計(jì)的知識圖譜帶有屬性，圖數(shù)據(jù)庫可以作為首選,。但至于選擇哪個(gè)圖數(shù)據(jù)庫也要看業(yè)務(wù)量以及對效率的要求,。

如果數(shù)據(jù)量特別龐大，則Neo4j很可能滿足不了業(yè)務(wù)的需求,，這時(shí)候不得不去選擇支持準(zhǔn)分布式的系統(tǒng)比如OrientDB, JanusGraph等,，或者通過效率、冗余原則把信息存放在傳統(tǒng)數(shù)據(jù)庫中,，從而減少知識圖譜所承載的信息量,。通常來講，對于10億節(jié)點(diǎn)以下規(guī)模的圖譜來說Neo4j已經(jīng)足夠了,。

做完這些,，就可以來到我們最熟悉的環(huán)節(jié)，進(jìn)行應(yīng)用的開發(fā)（擼代碼）了,。

知識圖譜的應(yīng)用

知識圖譜應(yīng)用的前提是已經(jīng)構(gòu)建好了知識圖譜,，也可以把它認(rèn)為是一個(gè)知識庫。當(dāng)我們執(zhí)行搜索的時(shí)候,，就可以通過關(guān)鍵詞提取以及知識庫上的匹配可以直接獲得最終的答案,。

這種搜索方式跟傳統(tǒng)的搜索引擎是不一樣的，一個(gè)傳統(tǒng)的搜索引擎它返回的是網(wǎng)頁,、而不是最終的答案,，所以就多了一層用戶自己篩選并過濾信息的過程。

知識圖譜的應(yīng)用主要集中在搜索與推薦領(lǐng)域：

在語義搜索這一塊,，知識圖譜的搜索不同于常規(guī)的搜索,，常規(guī)的搜索是根據(jù)keyword找到對應(yīng)的網(wǎng)頁集合，然后通過page rank等算法去給網(wǎng)頁集合內(nèi)的網(wǎng)頁進(jìn)行排名,，然后展示給用戶,；基于知識圖譜的搜索是在已有的圖譜知識庫中遍歷知識，然后將查詢到的知識返回給用戶,，通常如果路徑正確,，查詢出來的知識只有1個(gè)或幾個(gè)，相當(dāng)精準(zhǔn),。

問答系統(tǒng)這一塊,，系統(tǒng)同樣會(huì)首先在知識圖譜的幫助下對用戶使用自然語言提出的問題進(jìn)行語義分析和語法分析,，進(jìn)而將其轉(zhuǎn)化成結(jié)構(gòu)化形式的查詢語句，然后在知識圖譜中查詢答案,。

實(shí)踐上的幾點(diǎn)建議

首先,，知識圖譜是一個(gè)比較新的工具，它的主要作用還是在于分析關(guān)系,，尤其是深度的關(guān)系,。所以在業(yè)務(wù)上，首先要確保它的必要性,，其實(shí)很多問題可以用非知識圖譜的方式來解決,。

知識圖譜領(lǐng)域一個(gè)最重要的話題是知識的推理。而且知識的推理是走向強(qiáng)人工智能的必經(jīng)之路,。但很遺憾的,，目前很多語義網(wǎng)絡(luò)的角度討論的推理技術(shù)（比如基于深度學(xué)習(xí)，概率統(tǒng)計(jì)）很難在實(shí)際的垂直應(yīng)用中落地,。其實(shí)目前最有效的方式還是基于一些規(guī)則的方法論，除非我們有非常龐大的數(shù)據(jù)集,。

最后,，還是要強(qiáng)調(diào)一點(diǎn)，知識圖譜工程本身還是業(yè)務(wù)為重心,，以數(shù)據(jù)為中心,。不要低估業(yè)務(wù)和數(shù)據(jù)的重要性。如果本篇對你有幫助,，點(diǎn)個(gè)贊互相鼓勵(lì)一下吧,！

參考：

《知識圖譜技術(shù)綜述》徐增林, 盛泳潘, 賀麗榮, 王雅芳
知識圖譜基礎(chǔ)（一）-什么是知識圖譜
這是一份通俗易懂的知識圖譜技術(shù)與應(yīng)用指南

作者：臧遠(yuǎn)慧

簡介：就職于中科星圖股份有限公司（北京），研發(fā)部后端技術(shù)組,。個(gè)人擅長 Python/Java 開發(fā),，了解前端基礎(chǔ)；熟練掌握 MySQL,，MongoDB,，了解 Redis,；熟悉 Linux 開發(fā)環(huán)境,，掌握 Shell 編程,，有良好的 Git 源碼管理習(xí)慣,；精通 Nginx ,，F(xiàn)lask,、Swagger 開發(fā)框架；有 Docker+Kubernetes 云服務(wù)開發(fā)經(jīng)驗(yàn)。對人工智能,、云原生技術(shù)有較大的興趣。

編輯：陶家龍

征稿：有投稿,、尋求報(bào)道意向技術(shù)人請聯(lián)絡(luò) [email protected]

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：明滅的煙頭 > 《電子》

舉報(bào)/認(rèn)領(lǐng)