久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

知識圖譜簡介

 shawnsun007 2021-03-10

本文根據(jù)幕布上這篇思維導(dǎo)圖總結(jié)而得無需AI基礎(chǔ),小白也能看懂的知識圖譜技術(shù)與應(yīng)用
對知識圖譜了解還不多,,后續(xù)會跟進,。。,。

一,、什么是知識圖譜?

定義

學(xué)術(shù)上:語義網(wǎng)絡(luò)(Semantic Network)的知識庫
應(yīng)用中:多關(guān)系圖(Multi-relational Graph)

什么叫多關(guān)系圖,?

圖:由節(jié)點和邊構(gòu)成,,通常只包含一種類型的節(jié)點和邊
多關(guān)系圖:包含多種類型的節(jié)點和多種類型的邊


圖與多關(guān)系圖的區(qū)別

知識圖譜中的節(jié)點和邊

節(jié)點

  • 通常用實體(Entity)來表達

  • 實體:現(xiàn)實世界中的事物

  • 通常用關(guān)系(Relation)來表達

  • 關(guān)系:不同實體之間的某種聯(lián)系
    [圖片上傳失敗...(image-ffd958-1534511439797)]

二、知識圖譜的表達

屬性圖(Property Graph)

運用前提:當(dāng)知識圖擁有屬性時
運用場景:工業(yè)界
[圖片上傳失敗...(image-b7b9b9-1534511439797)]
圖片概述:李明李飛是父子關(guān)系,,李明擁有138開頭的電話號,,開通時間是2018
電話號屬性:2018年開通
李明屬性:25歲、職位總經(jīng)理

RDF(資源描述框架)

運用前提:不支持實體或關(guān)系擁有屬性
運用場景:學(xué)術(shù)界

三,、知識抽取

數(shù)據(jù)主要來自2種渠道

  1. 業(yè)務(wù)本身的數(shù)據(jù)

    • 包含在公司內(nèi)的數(shù)據(jù)庫表

    • 以結(jié)構(gòu)化的方式存儲

    • 只需簡單預(yù)處理即可輸入后續(xù)AI系統(tǒng)

  2. 網(wǎng)絡(luò)公開,、抓取的數(shù)據(jù)

    • 以網(wǎng)頁形式存在

    • 屬于非結(jié)構(gòu)化數(shù)據(jù)

    • 需要借助自然語言處理等技術(shù)提取結(jié)構(gòu)化信息

處理非結(jié)構(gòu)化數(shù)據(jù)涉及的自然語言處理技術(shù)

  • 實體命名識別(Name Entity Recognition)

    • 從文本里提取出實體

    • 對每個實體做分類/打標(biāo)簽
      [圖片上傳失敗...(image-c1bd24-1534511439797)]

  • 關(guān)系抽取(Relation Extraction)

    • 把實體間的關(guān)系從文本中提取出來
      [圖片上傳失敗...(image-df8184-1534511439797)]

  • 實體統(tǒng)一(Entity Resolution)

    • 有些實體寫法不一樣,,但指向同一個實體

    • 合并實體,,減少種類,降低圖譜稀疏性

  • 指代消解(Coreference Resolution)

    • 分清文中出現(xiàn)的代詞到底指向哪個實體
      [圖片上傳失敗...(image-772b6-1534511439797)]

四,、知識圖譜的存儲

基于RDF的存儲

  • 以三元組的方式來存儲數(shù)據(jù)

  • 不包含屬性信息

  • 數(shù)據(jù)易發(fā)布,、易共享

  • 多用于學(xué)術(shù)界場景

  • 推薦使用:Jena

基于圖數(shù)據(jù)庫的存儲

  • 以屬性圖為基本的表示形式

  • 節(jié)點和關(guān)系可以帶有屬性

  • 高效的圖查詢和搜索

  • 多用于工業(yè)界場景

  • 推薦使用:Neo4j

五,、金融知識圖譜的搭建

搭建的核心:

  1. 對業(yè)務(wù)的理解

  2. 知識圖譜本身的設(shè)計

搭建步驟:

  1. 定義具體的業(yè)務(wù)問題

  2. 數(shù)據(jù)的收集和預(yù)處理

  3. 知識圖譜的設(shè)計

  4. 把數(shù)據(jù)存入知識圖譜

  5. 上層應(yīng)用的開發(fā),以及系統(tǒng)的評估

1. 定義具體的業(yè)務(wù)問題

哪種業(yè)務(wù)問題適合用知識圖譜,?

  • 有強烈的可視化需求

  • 經(jīng)常涉及到關(guān)系的深度搜索

  • 對關(guān)系查詢效率有實時性要求

  • 數(shù)據(jù)多樣化,,解決數(shù)據(jù)孤島問題

  • 有能力、有成本搭建系統(tǒng)

哪種業(yè)務(wù)問題適合用傳統(tǒng)數(shù)據(jù)庫,?

  • 對可視化需求不高

  • 很少涉及關(guān)系的深度搜索

  • 關(guān)系查詢效率要求不高

  • 數(shù)據(jù)缺乏多樣性

  • 暫時沒有人力或成本不夠

案例需要解決的業(yè)務(wù)問題

  • P2P網(wǎng)貸環(huán)境下的反欺詐風(fēng)控

2. 數(shù)據(jù)的收集 & 預(yù)處理

確定數(shù)據(jù)源:

  1. 用戶的基本信息

    • 大多存儲在業(yè)務(wù)表里,,可直接提取使用: 如姓名、年齡,、學(xué)歷等

    • 個別字段需要進一步處理: 同一實體如用不同名稱填寫,,則需要對齊

  2. 用戶行為數(shù)據(jù)

    • 需要通過簡單的處理,提取有效的信息: 如:“用戶在某個頁面停留時長”

  3. 運營商數(shù)據(jù)

  4. 網(wǎng)絡(luò)上的公開信息

    • 需要信息抽取相關(guān)技術(shù)

3. 知識圖譜的設(shè)計

常見問題
需要哪些實體,、關(guān)系和屬性,?
哪些屬性可以做為實體,哪些實體可以作為屬性,?
哪些信息不需要放在知識圖譜中,?
設(shè)計知識圖譜BAFE原則
Business-業(yè)務(wù)原則
從業(yè)務(wù)邏輯出發(fā)

  • 觀察知識圖譜可以推導(dǎo)出業(yè)務(wù)邏輯

  • 設(shè)計時想好未來業(yè)務(wù)可能的變化

Analytics-分析原則
與關(guān)系分析無關(guān)的實體不放進圖譜
Efficiency-效率原則

  • 常用信息放進知識圖譜

  • 對分析沒有太多作用的不放進圖譜

  • 訪問效率低的不放進圖譜

Redundancy-冗余原則
重復(fù)性信息、高頻信息可放入傳統(tǒng)數(shù)據(jù)庫

4. 把數(shù)據(jù)存入知識圖譜

10億節(jié)點以下規(guī)模的圖譜
使用Neo4j
超過10億節(jié)點的龐大數(shù)據(jù)量

  • 選擇支持準(zhǔn)分布式的系統(tǒng)(OrientDB, JanusGraph)

  • 通過效率,、冗余原則把信息存放在傳統(tǒng)數(shù)據(jù)庫中,,減少知識圖譜信息量

5. 上層應(yīng)用的開發(fā),以及系統(tǒng)的評估

基于規(guī)則的方法論

不一致性驗證

  • 通過規(guī)則找出潛在的矛盾點

  • 如:李明,、李飛注明同樣的公司電話,,但兩人公司數(shù)據(jù)不一致

不一致性驗證

基于規(guī)則提取特征

  • 特征一般基于深度的搜索

  • 如:申請人二度關(guān)系里有多少個實體觸碰了黑名單?

[圖片上傳失敗...(image-13d414-1534511439797)]

基于模式的判斷

  • 適用于找出團體欺詐

  • 核心在于通過一些模式找到有可能存在風(fēng)險的團體或者子圖(sub-graph),,然后對這部分子圖做進一步的分析

  • 如:三個實體共享很多信息,,可看做為團體并進一步分析

多點共享信息
基于概率的方法

社區(qū)挖掘:從數(shù)據(jù)圖中找出一些社區(qū),進行進一步分析
標(biāo)簽傳播:核心在于節(jié)點之間信息的傳遞
基于概率的方法的缺點:需要足夠多的數(shù)據(jù)

基于動態(tài)網(wǎng)絡(luò)的分析
  • 聚焦時間變化與風(fēng)險之間的關(guān)聯(lián)

  • 如:從T到T+1時刻的圖譜結(jié)構(gòu)變化,,暗示著潛在風(fēng)險

    圖譜結(jié)構(gòu)變化

六,、知識圖譜在其他行業(yè)的應(yīng)用

教育行業(yè)

依據(jù)交互、評測,、互動數(shù)據(jù),,理解學(xué)生當(dāng)前的知識體系
根據(jù)邏輯進行個性化教育、因材施教

證券行業(yè)

最為常見:“一個事件發(fā)生了,,對哪些公司產(chǎn)生什么樣的影響,?”
如:公司1高管的負面事件,對其他公司的影響


高管負面事件

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多