目錄
【說在前面】本人博客新手一枚,,象牙塔的老白,職業(yè)場(chǎng)的小白,。以下內(nèi)容僅為個(gè)人見解,,歡迎批評(píng)指正,不喜勿噴,![認(rèn)真看圖][認(rèn)真看圖] 【補(bǔ)充說明】如果你對(duì)知識(shí)圖譜感興趣,歡迎先瀏覽我的另一篇隨筆:基于圖模型的智能推薦算法學(xué)習(xí)筆記 一,、知識(shí)圖譜的機(jī)遇與挑戰(zhàn)分享一下肖仰華教授的報(bào)告,。報(bào)告深度剖析知識(shí)圖譜的發(fā)展進(jìn)程,系統(tǒng)整理知識(shí)圖譜上半場(chǎng)的主要成果,,分析知識(shí)圖譜下半場(chǎng)的挑戰(zhàn)與機(jī)遇,,以期為各行業(yè)的認(rèn)知智能實(shí)踐帶來有益的參考。 ▌知識(shí)圖譜上半場(chǎng)1. 傳統(tǒng)知識(shí)工程2. 大數(shù)據(jù)知識(shí)工程 ① 大規(guī)模簡(jiǎn)單知識(shí)表示 ② 知識(shí)獲取 ③ 基于知識(shí)圖譜的簡(jiǎn)單推理 3. 大數(shù)據(jù)知識(shí)工程到底解決了哪些問題,? ① 語(yǔ)言表達(dá)鴻溝 ② 缺失的因果鏈條 ③ 碎片化數(shù)據(jù)的關(guān)聯(lián)與融合 ④ 深化行業(yè)數(shù)據(jù)的理解與洞察 ⑤ 顯著提升了機(jī)器的自然語(yǔ)言理解水平 ⑥ 基于知識(shí)圖譜的大規(guī)模知識(shí)服務(wù) ⑦ 知識(shí)圖譜可視化已大量應(yīng)用 ⑧ 大數(shù)據(jù)知識(shí)工程理論體系日趨完善 ▌知識(shí)圖譜下半場(chǎng)1. 應(yīng)用場(chǎng)景轉(zhuǎn)變 2. 新的趨勢(shì) ① 繁雜的應(yīng)用場(chǎng)景 ② 深度的知識(shí)應(yīng)用 ③ 密集的專家知識(shí) ④ 有限的數(shù)據(jù)資源 3. 機(jī)遇 4. 應(yīng)對(duì)策略 知識(shí)表示方面: ① 與其他知識(shí)表示的協(xié)同表示與推理 ② 知識(shí)圖譜的多模態(tài)表示 ③ 知識(shí)圖譜的個(gè)性化表示 知識(shí)獲取方面: ① 發(fā)展低成本知識(shí)獲取方法 ② 注重多粒度知識(shí)獲取 ③ 發(fā)展大規(guī)模常識(shí)知識(shí)獲取 ④ 復(fù)雜知識(shí)獲取機(jī)制與方法 知識(shí)應(yīng)用方面: ① 知識(shí)圖譜應(yīng)用透明化 ② 基于知識(shí)圖譜的可解釋人工智能 ③ 發(fā)展符號(hào)知識(shí)指導(dǎo)下的機(jī)器學(xué)習(xí)模型 ▌總結(jié) 二,、行業(yè)知識(shí)圖譜的構(gòu)建與應(yīng)用 分享一下PlantData的文章:行業(yè)知識(shí)圖譜構(gòu)建與應(yīng)用。 1. 知識(shí)圖譜整體結(jié)構(gòu)描述知識(shí)圖譜結(jié)構(gòu)拓?fù)鋱D如圖所示: 企業(yè)全量數(shù)據(jù)應(yīng)用挑戰(zhàn)及應(yīng)對(duì)策略: (1)多源異構(gòu)數(shù)據(jù)難以融合 使用知識(shí)圖譜(本體)對(duì)各類數(shù)據(jù)建模,,基于可動(dòng)態(tài)變化的數(shù)據(jù)模型(概念-實(shí)體-屬性-關(guān)系),,實(shí)現(xiàn)統(tǒng)一建模。 (2)數(shù)據(jù)模式動(dòng)態(tài)變遷困難 使用可支持?jǐn)?shù)據(jù)模式動(dòng)態(tài)變化的知識(shí)圖譜的數(shù)據(jù)存儲(chǔ),。 (3)非結(jié)構(gòu)化數(shù)據(jù)計(jì)算機(jī)難以理解 利用信息抽取技術(shù),。 (4)數(shù)據(jù)使用專業(yè)程度過高 (5)分散的數(shù)據(jù)難以統(tǒng)一消費(fèi)利用 在知識(shí)融合的基礎(chǔ)上,基于語(yǔ)義檢索,、知識(shí)問答,、圖計(jì)算、推理,、可視化等技術(shù),,提供數(shù)據(jù)檢索/分析/利用,,統(tǒng)一平臺(tái)。 2. 知識(shí)建模 (1)以實(shí)體為主體目標(biāo),,實(shí)現(xiàn)對(duì)不同來源的數(shù)據(jù)進(jìn)行映射與合并,。(實(shí)體抽取與合并) (2)利用屬性來表示不同數(shù)據(jù)源中針對(duì)實(shí)體的描述,形成對(duì)實(shí)體的全方位描述,。(屬性映射與歸并) (3)利用關(guān)系來描述各類抽象建模成實(shí)體的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,,從而支持關(guān)聯(lián)分析。(關(guān)系抽?。?/p> (4)通過實(shí)體鏈接技術(shù),,實(shí)現(xiàn)圍繞實(shí)體的多種類型數(shù)據(jù)的關(guān)聯(lián)存儲(chǔ)。(實(shí)體鏈接) (5)使用事件機(jī)制描述客觀世界中動(dòng)態(tài)發(fā)展,,體現(xiàn)事件與實(shí)體間的關(guān)聯(lián),;并利用時(shí)序描述事件的發(fā)展?fàn)顩r。(動(dòng)態(tài)事件描述) 知識(shí)建模工具:Protégé(本體編輯器,,較局限) 3. 知識(shí)抽取知識(shí)抽取的主要策略如圖所示(針對(duì)結(jié)構(gòu)化,、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的處理方式不同): 知識(shí)抽取中的文本信息抽取,,主要包括:實(shí)體識(shí)別,、關(guān)系抽取、事件抽取,、概念抽取,。信息抽取主要有兩大類工具:
非結(jié)構(gòu)化文本數(shù)據(jù)的處理包括以下步驟:
其中,,事件抽取可以分為預(yù)定義事件抽取和開放域事件抽取,,行業(yè)知識(shí)圖譜中主要為預(yù)定義事件抽取。采用模式匹配方法,,包括三個(gè)步驟:
還有基于機(jī)器學(xué)習(xí)模型的抽取:SVM,、邏輯回歸,、CRF、LSTM等: 補(bǔ)充說明,,關(guān)于知識(shí)表示,,歡迎先瀏覽我的另一篇隨筆:基于圖模型的智能推薦算法學(xué)習(xí)筆記,這里不再贅述,。
(1)數(shù)據(jù)層融合:實(shí)體鏈接技術(shù) 即等同性判斷:給定不同數(shù)據(jù)源中的實(shí)體,判斷其是否指向同一個(gè)真實(shí)世界實(shí)體(實(shí)體屬性與關(guān)系的合并),。
實(shí)體鏈接工具:Wikipedia Miner,、DBpedia Spotlight等,大部分都是針對(duì)百科類的知識(shí)庫(kù)工作的,,基本不支持中文的處理。 (2)語(yǔ)義描述層融合:Schema Mapping
當(dāng)然還有一些別的需要考慮,,例如多源知識(shí)融合,、沖突檢測(cè)與解決、跨語(yǔ)言融合,、知識(shí)驗(yàn)證等,。 例如,通過人機(jī)交互接口對(duì)錯(cuò)誤信息進(jìn)行人工糾正,,并以此作為種子案例,,通過強(qiáng)化學(xué)習(xí)加強(qiáng)模型的識(shí)別精度和魯棒性。 5. 知識(shí)存儲(chǔ)知識(shí)圖譜是基于圖的數(shù)據(jù)結(jié)構(gòu),,其存儲(chǔ)方式主要有兩種方式:RDF存儲(chǔ)和圖數(shù)據(jù)庫(kù),。
下面展示各大圖數(shù)據(jù)庫(kù)的對(duì)比: 6. 知識(shí)計(jì)算 (1)基于圖論的相關(guān)算法:
(2)本體推理:使用本體推理進(jìn)行新知識(shí)發(fā)現(xiàn)或沖突檢測(cè)。
本體知識(shí)推理工具:RDFox,。 (3)基于規(guī)則的推理:使用規(guī)則引擎,,編寫相應(yīng)的業(yè)務(wù)規(guī)則,通過推理輔助業(yè)務(wù)決策,。
基于規(guī)則推理工具:Drools 規(guī)則定義。 7. 知識(shí)應(yīng)用智能問答(基于語(yǔ)義解析的方法 基于信息檢索的方法),、語(yǔ)義搜索(基于實(shí)體鏈接),、可視化決策支持(D3.js、ECharts)等,。 舉例金融業(yè)的基于知識(shí)圖譜的風(fēng)險(xiǎn)管理:
可構(gòu)建的圖譜:例如公司圖譜,、產(chǎn)品圖譜,、?物圖譜、智能預(yù)警等,。在行業(yè)應(yīng)用中使用知識(shí)圖譜,,大致有如下幾種方式:
如果您對(duì)異常檢測(cè)感興趣,歡迎瀏覽我的另一篇博客:異常檢測(cè)算法演變及學(xué)習(xí)筆記 如果您對(duì)智能推薦感興趣,,歡迎瀏覽我的另一篇博客:智能推薦算法演變及學(xué)習(xí)筆記 ,、CTR預(yù)估模型演變及學(xué)習(xí)筆記 如果您對(duì)時(shí)間序列分析感興趣,,歡迎瀏覽我的另一篇博客:時(shí)間序列分析中預(yù)測(cè)類問題下的建模方案 、深度學(xué)習(xí)中的序列模型演變及學(xué)習(xí)筆記 如果您對(duì)數(shù)據(jù)挖掘感興趣,,歡迎瀏覽我的另一篇博客:數(shù)據(jù)挖掘比賽/項(xiàng)目全流程介紹 ,、機(jī)器學(xué)習(xí)中的聚類算法演變及學(xué)習(xí)筆記 如果您對(duì)人工智能算法感興趣,歡迎瀏覽我的另一篇博客:人工智能新手入門學(xué)習(xí)路線和學(xué)習(xí)資源合集(含AI綜述/python/機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/tensorflow),、人工智能領(lǐng)域常用的開源框架和庫(kù)(含機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/強(qiáng)化學(xué)習(xí)/知識(shí)圖譜/圖神經(jīng)網(wǎng)絡(luò)) 如果你是計(jì)算機(jī)專業(yè)的應(yīng)屆畢業(yè)生,,歡迎瀏覽我的另外一篇博客:如果你是一個(gè)計(jì)算機(jī)領(lǐng)域的應(yīng)屆生,你如何準(zhǔn)備求職面試,? 如果你是計(jì)算機(jī)專業(yè)的本科生,,歡迎瀏覽我的另外一篇博客:如果你是一個(gè)計(jì)算機(jī)領(lǐng)域的本科生,你可以選擇學(xué)習(xí)什么,? 如果你是計(jì)算機(jī)專業(yè)的研究生,,歡迎瀏覽我的另外一篇博客:如果你是一個(gè)計(jì)算機(jī)領(lǐng)域的研究生,你可以選擇學(xué)習(xí)什么,? 如果你對(duì)金融科技感興趣,,歡迎瀏覽我的另一篇博客:如果你想了解金融科技,不妨先了解金融科技有哪些可能,? 之后博主將持續(xù)分享各大算法的學(xué)習(xí)思路和學(xué)習(xí)筆記:hello world: 我的博客寫作思路 |
|