本文根據(jù)幕布上這篇思維導(dǎo)圖總結(jié)而得無需AI基礎(chǔ),小白也能看懂的知識圖譜技術(shù)與應(yīng)用 對知識圖譜了解還不多,,后續(xù)會跟進,。。,。 一,、什么是知識圖譜?定義學(xué)術(shù)上:語義網(wǎng)絡(luò)(Semantic Network)的知識庫 應(yīng)用中:多關(guān)系圖(Multi-relational Graph) 什么叫多關(guān)系圖,?圖:由節(jié)點和邊構(gòu)成,,通常只包含一種類型的節(jié)點和邊 多關(guān)系圖:包含多種類型的節(jié)點和多種類型的邊
知識圖譜中的節(jié)點和邊節(jié)點: 通常用實體(Entity)來表達 實體:現(xiàn)實世界中的事物
邊 二、知識圖譜的表達屬性圖(Property Graph)運用前提:當(dāng)知識圖擁有屬性時 運用場景:工業(yè)界 [圖片上傳失敗...(image-b7b9b9-1534511439797)] 圖片概述:李明李飛是父子關(guān)系,,李明擁有138開頭的電話號,,開通時間是2018 電話號屬性:2018年開通 李明屬性:25歲、職位總經(jīng)理 RDF(資源描述框架)運用前提:不支持實體或關(guān)系擁有屬性 運用場景:學(xué)術(shù)界 三,、知識抽取數(shù)據(jù)主要來自2種渠道業(yè)務(wù)本身的數(shù)據(jù) 網(wǎng)絡(luò)公開,、抓取的數(shù)據(jù)
處理非結(jié)構(gòu)化數(shù)據(jù)涉及的自然語言處理技術(shù)實體命名識別(Name Entity Recognition) 關(guān)系抽取(Relation Extraction) 實體統(tǒng)一(Entity Resolution) 有些實體寫法不一樣,,但指向同一個實體 合并實體,,減少種類,降低圖譜稀疏性
指代消解(Coreference Resolution)
四,、知識圖譜的存儲基于RDF的存儲以三元組的方式來存儲數(shù)據(jù) 不包含屬性信息 數(shù)據(jù)易發(fā)布,、易共享 多用于學(xué)術(shù)界場景 推薦使用:Jena
基于圖數(shù)據(jù)庫的存儲以屬性圖為基本的表示形式 節(jié)點和關(guān)系可以帶有屬性 高效的圖查詢和搜索 多用于工業(yè)界場景 推薦使用:Neo4j
五,、金融知識圖譜的搭建搭建的核心: 對業(yè)務(wù)的理解 知識圖譜本身的設(shè)計
搭建步驟: 定義具體的業(yè)務(wù)問題 數(shù)據(jù)的收集和預(yù)處理 知識圖譜的設(shè)計 把數(shù)據(jù)存入知識圖譜 上層應(yīng)用的開發(fā),以及系統(tǒng)的評估
1. 定義具體的業(yè)務(wù)問題哪種業(yè)務(wù)問題適合用知識圖譜,? 哪種業(yè)務(wù)問題適合用傳統(tǒng)數(shù)據(jù)庫,? 對可視化需求不高 很少涉及關(guān)系的深度搜索 關(guān)系查詢效率要求不高 數(shù)據(jù)缺乏多樣性 暫時沒有人力或成本不夠
案例需要解決的業(yè)務(wù)問題 2. 數(shù)據(jù)的收集 & 預(yù)處理確定數(shù)據(jù)源: 用戶的基本信息 大多存儲在業(yè)務(wù)表里,,可直接提取使用: 如姓名、年齡,、學(xué)歷等 個別字段需要進一步處理: 同一實體如用不同名稱填寫,,則需要對齊
用戶行為數(shù)據(jù) 運營商數(shù)據(jù) 網(wǎng)絡(luò)上的公開信息
3. 知識圖譜的設(shè)計常見問題 需要哪些實體,、關(guān)系和屬性,? 哪些屬性可以做為實體,哪些實體可以作為屬性,? 哪些信息不需要放在知識圖譜中,? 設(shè)計知識圖譜BAFE原則 Business-業(yè)務(wù)原則 從業(yè)務(wù)邏輯出發(fā) Analytics-分析原則 與關(guān)系分析無關(guān)的實體不放進圖譜 Efficiency-效率原則 常用信息放進知識圖譜 對分析沒有太多作用的不放進圖譜 訪問效率低的不放進圖譜
Redundancy-冗余原則 重復(fù)性信息、高頻信息可放入傳統(tǒng)數(shù)據(jù)庫 4. 把數(shù)據(jù)存入知識圖譜10億節(jié)點以下規(guī)模的圖譜 使用Neo4j 超過10億節(jié)點的龐大數(shù)據(jù)量 選擇支持準(zhǔn)分布式的系統(tǒng)(OrientDB, JanusGraph) 通過效率,、冗余原則把信息存放在傳統(tǒng)數(shù)據(jù)庫中,,減少知識圖譜信息量
5. 上層應(yīng)用的開發(fā),以及系統(tǒng)的評估基于規(guī)則的方法論不一致性驗證 基于規(guī)則提取特征 [圖片上傳失敗...(image-13d414-1534511439797)] 基于模式的判斷 適用于找出團體欺詐 核心在于通過一些模式找到有可能存在風(fēng)險的團體或者子圖(sub-graph),,然后對這部分子圖做進一步的分析 如:三個實體共享很多信息,,可看做為團體并進一步分析
基于概率的方法社區(qū)挖掘:從數(shù)據(jù)圖中找出一些社區(qū),進行進一步分析 標(biāo)簽傳播:核心在于節(jié)點之間信息的傳遞 基于概率的方法的缺點:需要足夠多的數(shù)據(jù) 基于動態(tài)網(wǎng)絡(luò)的分析六,、知識圖譜在其他行業(yè)的應(yīng)用教育行業(yè)依據(jù)交互、評測,、互動數(shù)據(jù),,理解學(xué)生當(dāng)前的知識體系 根據(jù)邏輯進行個性化教育、因材施教 證券行業(yè)最為常見:“一個事件發(fā)生了,,對哪些公司產(chǎn)生什么樣的影響,?” 如:公司1高管的負面事件,對其他公司的影響
|