【原】你負責人工智能哪部分,？人工那部分,；知識圖譜的構建主要靠人工還是機器,？

學術頭條 2020-11-27

展開全文

這也是AI Time第3期主題：“論道知識圖譜：知識賦能智能與智能產生知識”，加州大學洛杉磯分校（UCLA）副教授孫怡舟,、加拿大蒙特利爾學習算法研究所 (MILA)研究員唐建和中科院自動化所副研究員劉康共同參與了此次論道,。

現(xiàn)在請大家思考一個場景，假想你是一個醫(yī)療創(chuàng)業(yè)公司的負責人,，目前想啟動一個健康問答的項目,，現(xiàn)在你是選擇集中資金和人力構建豐富的醫(yī)療知識圖譜，還是集中資金與人力去研發(fā)高效的問答算法,？你會怎么選擇,？

知識工程的前世今生

在進入知識圖譜領域之前，我們不妨先來回顧一下知識工程四十年多來發(fā)展歷程,。對知識工程的演進過程和技術進展記性總結后,，我們可以將知識工程分成五個標志性的階段：圖靈測試時期、專家系統(tǒng)時期,、Web1.0 萬維網時期,、Web2.0 群體智能時期以及Web 3.0 知識圖譜時期，如下圖所示：

知識工程發(fā)展歷程

1950-1970時期：圖靈測試—知識工程誕生前期

人工智能旨在讓機器能夠像人一樣解決復雜問題,，圖靈測試是評測智能的是手段,。這一階段主要有兩個方法：符號主義和連結主義。符號主義認為物理符號系統(tǒng)是智能行為的充要條件,，連結主義則認為大腦（神經元及其連接機制）是一切智能活動的基礎,。

這一階段具有代表性的工作是通用問題求解程序（GPS）：將問題進行形式化表達，通過搜索,，從問題初始狀態(tài),，結合規(guī)則或表示得到目標狀態(tài)。其中最成功應用是博弈論和機器定理證明等,。

這一時期的知識表示方法主要有：數(shù)理邏輯,、基于邏輯的知識表示、產生式規(guī)則和語義網絡等,。

這一時代人工智能和知識工程的先驅Minsky，Mccarthy和Newell以Simon四位學者因為他們在感知機,、人工智能語言和通用問題求解和形式化語言方面的杰出工作分別獲得了1969年,、1971年、1975年的圖靈獎,。

1970-1990時期：專家系統(tǒng)—知識工程蓬勃發(fā)展期

70年開始,，人工智能開始轉向建立基于知識的系統(tǒng)，通過“知識庫+推理機”實現(xiàn)機器智能,，這一時期涌現(xiàn)出很多成功的限定領域專家系統(tǒng),，如MYCIN醫(yī)療診斷專家系統(tǒng),、識別分子結構的DENRAL專家系統(tǒng)以及計算機故障診斷XCON專家系統(tǒng)等。

斯坦福人工智能實驗室的奠基人Feigenbaum教授在1980年的一個項目報告《Knowledge Engineering：The Applied Side of Artificial Intelligence》中提出知識工程的概念,，從此確立了知識工程在人工智能中的核心地位,。

這一時期知識表示方法有新的演進，包括框架和腳本等,。80年代后期出現(xiàn)了很多專家系統(tǒng)的開發(fā)平臺,，可以幫助將專家的領域知識轉變成計算機可以處理的知識。

1990-2000時期：Web1.0 萬維網

在1990年到2000年,，出現(xiàn)了很多人工構建大規(guī)模知識庫,，包括廣泛應用的英文WordNet，采用一階謂詞邏輯知識表示的Cyc常識知識庫,，以及中文的HowNet,。

Web 1.0萬維網的產生為人們提供了一個開放平臺，使用HTML定義文本的內容,，通過超鏈接把文本連接起來,，使得大眾可以共享信息。

W3C提出的可擴展標記語言XML,，實現(xiàn)對互聯(lián)網文檔內容的結構通過定義標簽進行標記,，為互聯(lián)網環(huán)境下大規(guī)模知識表示和共享奠定了基礎。這一時期在知識表示研究中還提出了本體的知識表示方法,。

2000-2006時期：Web2.0 群體智能

在2001年,，萬維網發(fā)明人、2016年圖靈獎獲得者Tim Berners-Lee在科學美國人雜志中發(fā)表的論文《The Semantic Web》正式提出語義Web的概念,，旨在對互聯(lián)網內容進行結構化語義表示,，利用本體描述互聯(lián)網內容的語義結構，通過對網頁進行語義標識得到網頁語義信息,，從而獲得網頁內容的語義信息,，使人和機器能夠更好地協(xié)同工作。W3C進一步提出萬維網上語義標識語言RDF（資源描述框架）和OWL（萬維網本體表述語言）等描述萬維網內容語義的知識描述規(guī)范,。

萬維網的出現(xiàn)使得知識從封閉知識走向開放知識,，從集中構建知識成為分布群體智能知識。原來專家系統(tǒng)是系統(tǒng)內部定義的知識,，現(xiàn)在可以實現(xiàn)知識源之間相互鏈接,，可以通過關聯(lián)來產生更多的知識而非完全由固定人生產。這個過程中出現(xiàn)了群體智能,，最典型的代表就是維基百科,，實際上是用戶去建立知識，體現(xiàn)了互聯(lián)網大眾用戶對知識的貢獻,，成為今天大規(guī)模結構化知識圖譜的重要基礎,。

2006年至今：Web 3.0 知識圖譜時期

將萬維網內容轉化為能夠為智能應用提供動力的機器可理解和計算的知識是這一時期的目標,。從2006年開始，大規(guī)模維基百科類富結構知識資源的出現(xiàn)和網絡規(guī)模信息提取方法的進步,，使得大規(guī)模知識獲取方法取得了巨大進展,。與Cyc、WordNet和HowNet等手工研制的知識庫和本體的開創(chuàng)性項目不同,，這一時期知識獲取是自動化的,，并且在網絡規(guī)模下運行。

當前知識圖譜自動構建的知識庫已成為語義搜索,、大數(shù)據(jù)分析,、智能推薦和數(shù)據(jù)集成的強大資產，在大型行業(yè)和領域中正在得到廣泛使用,。典型的例子是谷歌收購Freebase后在2012年推出的知識圖譜（Knowledge Graph）,，F(xiàn)acebook的圖譜搜索，Microsoft Satori以及商業(yè),、金融,、生命科學等領域特定的知識庫。最具代表性大規(guī)模網絡知識獲取的工作包括DBpedia,、Freebase,、KnowItAll、WikiTaxonomy和YAGO,，以及BabelNet,、ConceptNet、DeepDive,、NELL,、Probase、Wikidata,、XLORE,、Zhishi.me、CNDBpedia等,。這些知識圖譜遵循圖RDF數(shù)據(jù)模型,，包含數(shù)以千萬級或者億級規(guī)模的實體，以及數(shù)十億或百億事實（即屬性值和與其他實體的關系）,，并且這些實體被組織在成千上萬的由語義體現(xiàn)的客觀世界的概念結構中,。

在我國知識工程領域研究中，中科院系統(tǒng)所陸汝鈐院士,、計算所史忠植研究員等老一代知識工程研究學者為中國的知識工程研究和人才培養(yǎng)做出了突出貢獻，陸汝鈐院士因在知識工程和基于知識的軟件工程方面作出的系統(tǒng)和創(chuàng)造性工作,，以及在大知識領域的開創(chuàng)性貢獻,，榮獲首屆“吳文俊人工智能最高成就獎”,。

2011年2月14日，IBM的“Waltson”超級計算機登上了美國最受歡迎的智力問答節(jié)目《危險邊緣》(Jeopardy),，挑戰(zhàn)該節(jié)目的兩名總冠軍肯-詹寧斯和布拉德-魯特爾,，實現(xiàn)有史以來首次人機智力問答對決，并贏取高達100萬美元的獎金,。

“Waltson”由10臺IBM服務器組成,。這些服務器采用Linux操作系統(tǒng)，雖然沒有聯(lián)網,，但沃森存儲了大量圖書,、新聞和電影劇本資料、辭海,、文選和《世界圖書百科全書》等數(shù)百萬份資料,，每當讀完問題的提示后，“Waltson”就在不到三秒鐘的時間里對自己的數(shù)據(jù)庫"挖地三尺",，在長達2億頁的漫漫資料里展開搜索,。

那他究竟是如何能從這些浩瀚的數(shù)據(jù)中得到答案的呢？實際過程當然很復雜,，需要從雜亂無章的原始數(shù)據(jù)中提取有用的數(shù)據(jù),，即信息，在此基礎上理解它的含義,，即知識,，最后這些知識才能拿來為我們所用產生智能。

知識圖譜究竟主要是靠人工來構建,，還是靠機器自動來構建,？

網絡上曾流行這樣一段打趣的對話。

A:“你是做什么的的,？”

B:“做人工智能的,。”

A: “你負責人工智能的哪部分呢？”

B:“我負責人工那部分,。”

雖然這是玩笑話,，但實際上在構建知識圖譜的過程中，不可或缺地需要很多人工智慧的參與,。在某些垂直領域知識圖譜的構建上,，甚至需要非常多專家智慧的參與。盡管學術界與工業(yè)界都在努力嘗試自動抽取實體與發(fā)現(xiàn)實體之間的關系,，但是其精準度的局限性導致在某些對錯誤容忍性很低的領域,，比如醫(yī)療領域，可能并不能很好的應用,。

三位老師大體上都認為半自動結合人工是目前構建知識圖譜的理想方式,。劉老師表示知識表示的手段對于我們要表現(xiàn)的知識還存在局限性,，構建某個領域的知識圖譜也是很困難的，需要根據(jù)需求不斷更新數(shù)據(jù),。總的來說,，構建和維護知識圖譜都是一件很費時費力的事，人工的參與提高了精準性,，不可能完全摒棄掉人工智慧,。孫老師告訴大家，她的老師韓家煒教授近期的工作重點就在于知識圖譜的構建自動化,。

有必要融合知識圖譜嗎?

知識圖譜可以由任何機構和個人自由構建,，其背后的數(shù)據(jù)來源廣泛、質量參差不齊,，導致它們之間存在多樣性和異構性,。語義集成的提出就是為了能夠將不同的知識圖譜融合為一個統(tǒng)一、一致,、簡潔的形式,，為使用不同知識圖譜的應用程序間的交互建立操作性。

語義集成的常見流程

常用的技術包括本體匹配（也稱為本體映射）,、實例力匹配（也稱為實體對齊,、對象公共指消解）以及知識融合等。

對此,，三位老師均認為知識圖譜的融合是有必要的,。因為有些問題需綜合多個領域的圖譜才能回答，不同知識圖譜覆蓋的信息不同,，融合可構建更全面的知識圖譜,。孫老師強調不同語言之間的知識圖譜融合是最有意義的，對圖譜的要求自然是越全越好,，垂直融合盡可能獲取更多知識的話,，對推理的幫助更大。劉老師則表示融合時面臨著兩個問題：一個是不同圖譜之間的關鍵詞和字符不同,，另一個是不同圖譜之間的實例能否關聯(lián),。

“人工智能歷史上最有爭議的項目”之一Cyc

曾經在美國盛極一時的Cyc項目代表了Web1.0 萬維網時期典型的人工智能技術與思考，更神奇的是這個1984年啟動的項目,，直到今天還在繼續(xù),，并且始終處于建設中，它稱為是“人工智能歷史上最有爭議的項目”之一,，因此難免對它有批評的意見,，主要概括如下：

· 系統(tǒng)的復雜度：該系統(tǒng)具有創(chuàng)建百科全書式知識庫的野心，卻由特定知識工程師手動添加所有的知識到系統(tǒng)中

· 知識表示廣泛的具體化引發(fā)的可擴展性問題，特別是以常量的形式進行

· 對物質概念的解釋難以令人滿意,，對內在屬性和外在屬性區(qū)分不清晰

劉老師直言這是一個失敗的項目,，孫老師也同樣表示人的速度趕不上知識增長的速度，這是不可行的,。

除了“搜一搜，看一看”,，知識圖譜更深入的應用場景有哪些,？

知識應用能夠將知識圖譜特有的應用形態(tài)與領域數(shù)據(jù)與業(yè)務場景相結合并助力領域業(yè)務轉型。知識圖譜的典型應用包括智能推薦,、語義搜索,、智能問答以及可視化決策支持等三種。如何針對業(yè)務需求設計實現(xiàn)知識圖譜應用,，并基于數(shù)據(jù)特點進行優(yōu)化調整,，是知識圖譜應用的關鍵研究內容。

劉老師表示除了大眾看到的“搜一搜,，看一看”之外,，還有很多知識圖譜在背后發(fā)揮作用的場景，例如金融領域的風險評估,、銀行領域的征信,、電商領域的推薦場景和教育領域的APP；唐老師表示除此之外醫(yī)療領域也有很多場景有知識圖譜的應用,。

知識圖譜應當如何更加智能地應用到這些場景中,？

現(xiàn)在有很多人研究將知識圖譜應用到智能問答、機器翻譯和推薦等場景中,。但是,，實際在很多場景下，用了知識圖譜效果也不會提升多少,，甚至有可能會下降,。這里面可能存在的難點有兩個，一是知識圖譜本身的不完整性導致其效果有限,，二是將知識圖譜鏈入到各個具體任務時,，可能會引入大量的錯誤。

劉老師對此表示在場景下應用知識圖譜效果反而下降的原因在于兩點,，第一也是認為知識圖譜的覆蓋度過低,，第二是已有的知識和表達無法對應上。如果能提前預知用戶需求和圖譜應用場合,，對數(shù)據(jù)進行精細化后,，就能更好地應用到場景中去。

未來之路

如果未來的智能機器擁有一個大腦，知識圖譜就是這個大腦中的知識庫,，對于大數(shù)據(jù)智能具有重要意義,，將對自然語言處理、信息檢索和人工智能等領域產生深遠影響,。

現(xiàn)在以商業(yè)搜索引擎公司為首的互聯(lián)網巨頭已經意識到知識圖譜的戰(zhàn)略意義,，紛紛投入重兵布局知識圖譜，并對搜索引擎形態(tài)日益產生重要的影響,。同時,，我們也強烈地感受到，知識圖譜還處于發(fā)展初期,，大多數(shù)商業(yè)知識圖譜的應用場景非常有限,。可以看到，在未來的一段時間內,，知識圖譜將是大數(shù)據(jù)智能的前沿研究問題,，有很多重要的開放性問題亟待學術界和產業(yè)界協(xié)力解決。

學術頭條已建立知識圖譜微信交流群,，想進群的同學請加學術君微信：AMiner308,，記得備注：KG

贊賞