本文從基礎(chǔ)理論與關(guān)鍵技術(shù)等方面介紹了國內(nèi)外大數(shù)據(jù)知識(shí)工程領(lǐng)域近些年的發(fā)展?fàn)顩r,,從知識(shí)類型、知識(shí)范圍,、處理技術(shù)與應(yīng)用范圍等方面總結(jié)了大數(shù)據(jù)知識(shí)工程的總體發(fā)展趨勢(shì),。 引言 知識(shí)工程(Knowledge Engineering)這一概念是由美國斯坦福大學(xué)教授、專家系統(tǒng)之父愛德華·費(fèi)根鮑姆(Edward A. Feigenbaum)于上世紀(jì)70年代在第五屆人工智能國際會(huì)議上提出的,。當(dāng)時(shí)的背景是,,人工智能經(jīng)歷了60年代以數(shù)理邏輯為代表的符號(hào)主義學(xué)派的輝煌成就,,第一次陷入了低谷。費(fèi)根鮑姆認(rèn)為,,人工智能陷入低谷的原因在于忽略了的知識(shí)重要性,,“要增強(qiáng)人工智能程序/系統(tǒng)的性能,知識(shí)就是力量,。這種力量不在于推理過程,,而在于問題領(lǐng)域的專門知識(shí)。未來最強(qiáng)大的系統(tǒng)一定是那些包含大量知識(shí)的系統(tǒng)”[1],。因此,,人工智能必須引進(jìn)知識(shí)?;谶@一認(rèn)識(shí),,他提出了知識(shí)工程的概念。他認(rèn)為,,從工程角度來說,,知識(shí)工程主要包括三個(gè)方面,即知識(shí)獲?。ㄈ绾巫詣?dòng)或半自動(dòng)地獲取用于問題求解的重要知識(shí)),、知識(shí)表示(如何將領(lǐng)域知識(shí)表示為計(jì)算機(jī)內(nèi)存中便于應(yīng)用的數(shù)據(jù)結(jié)構(gòu))與知識(shí)利用(知識(shí)如何用于問題求解,其本質(zhì)在于對(duì)推理引擎的設(shè)計(jì)),。在當(dāng)時(shí)的背景下,,知識(shí)工程理念很快被人工智能界廣泛接受,但其后被賦予大同小異的內(nèi)涵,。比如,,維基百科將知識(shí)工程定義為“構(gòu)建、維護(hù)和使用基于知識(shí)的系統(tǒng)中所涉及的技術(shù),、科學(xué)和社會(huì)的各個(gè)方面”[2],。在國內(nèi),吳信東和鄒燕在1988年出版的《專家系統(tǒng)技術(shù)》[3]中指出,,知識(shí)工程結(jié)合了科學(xué),、技術(shù)和方法論三個(gè)方面的因素,研究知識(shí)的獲取,、形式化和計(jì)算機(jī)實(shí)現(xiàn),,用于設(shè)計(jì)和制造專家系統(tǒng)和其他知識(shí)庫系統(tǒng),??傮w上,知識(shí)工程涵蓋了知識(shí)處理與應(yīng)用的全生命周期,,包括知識(shí)的獲取,、處理,、管理、存儲(chǔ),、共享,、應(yīng)用和創(chuàng)新。其中,,知識(shí)獲取被廣泛認(rèn)為是知識(shí)工程的瓶頸,,限制了專家系統(tǒng)和其他人工智能系統(tǒng)的發(fā)展。 知識(shí)工程的發(fā)展大致經(jīng)歷了三個(gè)主要階段,。第一階段(1960s~1970s)是小規(guī)模知識(shí)工程階段,,也是知識(shí)工程研究方向的誕生階段。這一階段以費(fèi)根鮑姆團(tuán)隊(duì)于1968年研發(fā)出全球第一個(gè)專家系統(tǒng)DENDRAL(用于判斷物質(zhì)的分子結(jié)構(gòu))為標(biāo)志,。知識(shí)工程的第二階段(1980s~2000s)是大規(guī)模知識(shí)工程,。該階段以1984年道格·萊納特(Doug Lenat)開發(fā)的CYC大型知識(shí)庫為代表。同一時(shí)期,,國內(nèi)的知識(shí)工程與專家系統(tǒng)研究得到快速發(fā)展,。中國科學(xué)院院士陸汝鈐于20世紀(jì)80年代設(shè)計(jì)并主持開發(fā)了知識(shí)工程語言TUILI[4],繼而主持完成了知識(shí)工程平臺(tái)“'天馬’專家系統(tǒng)開發(fā)環(huán)境”,,兩項(xiàng)成果在當(dāng)時(shí)得到較大范圍的推廣應(yīng)用,。 第三階段(2010s至今),即當(dāng)前的基于大數(shù)據(jù)的超大規(guī)模知識(shí)工程時(shí)代,。隨著大數(shù)據(jù)時(shí)代的到來,,知識(shí)工程在這一階段迎來了新的發(fā)展機(jī)遇。這一階段,,以IBM沃森(Watson),、谷歌知識(shí)圖譜(Knowledge Graph)、微軟Probase,、百度知心,、搜狗汪仔等為代表的基于公開可訪問資源的超大規(guī)模知識(shí)工程產(chǎn)品,在產(chǎn)業(yè)界開始大規(guī)模部署和應(yīng)用,。特別是谷歌2012年發(fā)布了知識(shí)圖譜這一項(xiàng)目并將基于大數(shù)據(jù)的知識(shí)圖譜用于增強(qiáng)搜索引擎的性能之后,,大數(shù)據(jù)知識(shí)工程迅速得到了學(xué)術(shù)界、工業(yè)界甚至是政府部門的高度關(guān)注,。總體來說,,知識(shí)工程之所以在大數(shù)據(jù)時(shí)代迎來新的春天,其根本原因在于:一方面,,大數(shù)據(jù)為知識(shí)工程積累了海量“原料”,,而對(duì)大數(shù)據(jù)進(jìn)行結(jié)構(gòu)化、知識(shí)化是大數(shù)據(jù)價(jià)值落地的重要抓手;另一方面,,硬件存儲(chǔ)成本的大幅下降與算力的飛速提升,,以及機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)技術(shù)的高速發(fā)展,為基于大數(shù)據(jù)的超大規(guī)模知識(shí)工程提供了新的機(jī)遇,。 本文闡述國內(nèi)外大數(shù)據(jù)知識(shí)工程領(lǐng)域近些年的發(fā)展現(xiàn)狀,,同時(shí)展望未來的總體發(fā)展趨勢(shì)。 國內(nèi)外研究現(xiàn)狀 基礎(chǔ)理論 關(guān)于大數(shù)據(jù)知識(shí)工程的基礎(chǔ)理論,,以HACE原理,、開放知識(shí)網(wǎng)絡(luò)與大知識(shí)模型等為代表。 HACE原理由吳信東等人于2014年提出[5],,用以建模大數(shù)據(jù)與大知識(shí)的特征,。它指出大數(shù)據(jù)源于海量、異構(gòu)(Heterogeneous),、自治的(Autonomous)來源,,使用分布式、去中心化的控制,,尋求探索數(shù)據(jù)之間復(fù)雜的(Complex),、演化的(Evolving)關(guān)聯(lián)關(guān)系。這些特征使得從大數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)變得極具挑戰(zhàn),。2020年第11屆IEEE國際知識(shí)圖譜大會(huì)上,,美國德克薩斯大學(xué)達(dá)拉斯分校教授、ACM會(huì)士,、IEEE會(huì)士巴瓦尼·杜萊辛甘(Bhavani Thuraisingham)在其主題演講中將HACE 原理評(píng)價(jià)為大數(shù)據(jù)特征描述的牛頓定律[6],,對(duì)其奠基性貢獻(xiàn)做了定位。 同樣在2014年,,王元卓與程學(xué)旗等人提出了開放知識(shí)網(wǎng)絡(luò)(OpenKN)[7]的概念,。OpenKN是一個(gè)基于網(wǎng)絡(luò)大數(shù)據(jù)的開放式、可演化,、可計(jì)算的知識(shí)網(wǎng)絡(luò),。這里,開放是指知識(shí)的來源是多元化的,,包括來自互聯(lián)網(wǎng)的非結(jié)構(gòu)化多語言文本數(shù)據(jù)(如時(shí)事新聞等),、半結(jié)構(gòu)化的在線百科知識(shí)和數(shù)據(jù)、機(jī)器可讀的結(jié)構(gòu)化數(shù)據(jù),;可演化是指網(wǎng)絡(luò)可以不斷獲取最新的知識(shí),,進(jìn)行自我更新,同時(shí)可將其他知識(shí)網(wǎng)絡(luò)中的知識(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)形式吸納到自身的知識(shí)網(wǎng)絡(luò)中,;可計(jì)算是指知識(shí)網(wǎng)絡(luò)本身具有一個(gè)可對(duì)知識(shí)進(jìn)行推理計(jì)算的算子體系,,該體系還能對(duì)推理計(jì)算的復(fù)雜度等進(jìn)行評(píng)價(jià)。 2018年,陸汝鈐與靳小龍等人提出了基于10個(gè)MC(Massiveness Characteristics)的大知識(shí)模型[8],。這里的“C”同時(shí)也代表了大知識(shí)10種性質(zhì)的英文首字母,,具體包括概念(Concepts),、連通性(Connectedness),、干凈數(shù)據(jù)資源(Clean data resources)、案例(Cases),、可信(Confidence),、能力(Capabilities)、積累(Cumulativeness),、關(guān)注(Concerns),,以及一致性(Consistency)和完備性(Completeness)。這10種性質(zhì)中,,前5個(gè)MC從一般意義上刻畫了大知識(shí),,表明大知識(shí)是一個(gè)大規(guī)模的結(jié)構(gòu)化知識(shí)元素的集合,其中每個(gè)知識(shí)元素可以是一個(gè)概念,、一個(gè)實(shí)體,、一條數(shù)據(jù)、一個(gè)規(guī)則或者是其他計(jì)算機(jī)可操作的信息元素,。前5個(gè)MC并不同等重要,。MC1、MC2和MC5是大知識(shí)的必要性質(zhì),,而MC1~5一起構(gòu)成了大知識(shí)的充分性質(zhì),。第6項(xiàng)是大知識(shí)系統(tǒng)(Big Knowledge-System,BK-S)應(yīng)具備的性質(zhì),。一個(gè)大知識(shí)系統(tǒng)是由知識(shí)組件和功能組件組成的系統(tǒng),,其中知識(shí)組件滿足MC1~5,功能組件實(shí)現(xiàn)大規(guī)模能力(Massive Capabilities,,MC6),。第7、8兩個(gè)性質(zhì)反映了高級(jí)大知識(shí)系統(tǒng)(Advanced BK-S)的特性:MC7表示一個(gè)大知識(shí)系統(tǒng)應(yīng)當(dāng)持續(xù)不斷地增加和更新其知識(shí)元素和服務(wù)能力,,而MC8意味著高級(jí)大知識(shí)系統(tǒng)不受限于任何特定的知識(shí)領(lǐng)域,,它們收集任意類型的知識(shí)。因此,,這類大知識(shí)系統(tǒng)特別適用于搜索引擎以及公共知識(shí)的普及,。最后兩項(xiàng)(一致性和完備性)則提出了對(duì)未來大知識(shí)系統(tǒng)強(qiáng)大功能的需求。盡管現(xiàn)有的大知識(shí)系統(tǒng)不滿足這兩項(xiàng)屬性,,但未來的大知識(shí)系統(tǒng)都應(yīng)具備,。圖1描述了上述10個(gè)MC性質(zhì)與大知識(shí)、大知識(shí)系統(tǒng)、大知識(shí)工程等概念之間的邏輯關(guān)系[9],。 關(guān)鍵技術(shù) 大數(shù)據(jù)知識(shí)工程通過從大數(shù)據(jù)中挖掘提煉知識(shí),,實(shí)現(xiàn)對(duì)大數(shù)據(jù)的深度理解,其中的關(guān)鍵技術(shù)包括知識(shí)獲取,、知識(shí)融合,、知識(shí)表示與推理以及知識(shí)存儲(chǔ)等。 知識(shí)獲取是大數(shù)據(jù)知識(shí)工程中至關(guān)重要的一步,,旨在從非結(jié)構(gòu)化的文本語料中獲取知識(shí),。知識(shí)獲取按抽取內(nèi)容的不同可分為實(shí)體抽取、關(guān)系抽取和事件抽取等,。實(shí)體抽取旨在從原始語料中自動(dòng)識(shí)別出指定類型的命名實(shí)體,,具體可以看成待抽取字/詞序列上的序列標(biāo)注任務(wù)。近年來,,BERT等[10]預(yù)訓(xùn)練模型在實(shí)體抽取任務(wù)上取得了非常好的效果并得到了廣泛的關(guān)注,。關(guān)系抽取旨在發(fā)現(xiàn)實(shí)體之間的語義關(guān)聯(lián),從方法上來說,,關(guān)系分類可以分為詞典驅(qū)動(dòng),、基于模式匹配、基于機(jī)器學(xué)習(xí),、基于本體方法或多種方法的混合,。相對(duì)于實(shí)體表示的靜態(tài)知識(shí),事件表示的是涉及多個(gè)要素多個(gè)關(guān)系的動(dòng)態(tài)知識(shí),,因此近幾年關(guān)于事件抽取,、事件圖譜構(gòu)建的研究引起了學(xué)術(shù)界的研究興趣。事件抽取的目的是抽取文本中指定類型事件的實(shí)例,,具體可以細(xì)分為兩個(gè)子任務(wù),,即事件觸發(fā)詞抽取和事件論元抽取。按照抽取事件是否跨多個(gè)句子可以分成句子級(jí)事件抽取和篇章級(jí)事件抽取,。當(dāng)前主流研究工作集中于句子級(jí)別的事件抽取,,比如PLMEE[11]將BERT模型運(yùn)行在事件抽取中,并使用BERT自動(dòng)生成訓(xùn)練數(shù)據(jù),;DYGIE++[12]基于BERT預(yù)訓(xùn)練模型和圖卷積神經(jīng)網(wǎng)絡(luò)模型,,設(shè)計(jì)了一種多任務(wù)的事件抽取模型。 知識(shí)融合的目的是將不同來源的知識(shí)進(jìn)行對(duì)齊,、合并,,從而形成全局統(tǒng)一的知識(shí)標(biāo)識(shí)和關(guān)聯(lián)。知識(shí)融合包括不同知識(shí)圖譜的融合,,以及知識(shí)圖譜與從語料中獲取的新知識(shí)的融合,。前者主要涉及實(shí)體對(duì)齊技術(shù),,后者主要涉及實(shí)體鏈接技術(shù)。實(shí)體對(duì)齊的目的是將從不同數(shù)據(jù)源中抽取到的,,指向真實(shí)世界中同一個(gè)對(duì)象的實(shí)體指稱詞或概念進(jìn)行合并,。實(shí)體鏈接指的是利用知識(shí)庫中的實(shí)體對(duì)新抽取的實(shí)體指稱詞進(jìn)行消歧的過程,使實(shí)體指稱詞在已有知識(shí)圖譜或知識(shí)庫中找到對(duì)應(yīng)的映射,。如果實(shí)體指稱在知識(shí)庫中找不到對(duì)應(yīng)的實(shí)體,,則稱其為“NIL實(shí)體”。近年來,,基于表示學(xué)習(xí)的實(shí)體對(duì)齊與鏈接方法已成為主流,。比如,,Bayu等人[13]針對(duì)跨知識(shí)圖譜的實(shí)體對(duì)齊任務(wù),,提出并改進(jìn)了多種基于表示學(xué)習(xí)的對(duì)齊模型。官賽萍等人[14]提出了一種基于自學(xué)習(xí)和表示學(xué)習(xí)的無監(jiān)督實(shí)體對(duì)齊方法,,更好地利用實(shí)體的屬性信息進(jìn)行對(duì)齊,。Creswell等人[15]提出了一種無監(jiān)督的實(shí)體對(duì)齊框架。Feng等人[16]則提出了一個(gè)簡單有效的融合多種語義信息的實(shí)體表示方法促進(jìn)語境共性的學(xué)習(xí),,從而提升鏈接的準(zhǔn)確性,。 知識(shí)圖譜表示與推理嘗試將高維異構(gòu)的知識(shí)圖譜數(shù)據(jù)表示成實(shí)體和關(guān)系的低維向量嵌入,從而用于下游任務(wù),。知識(shí)推理是指根據(jù)知識(shí)圖譜中已有知識(shí),,推理出新知識(shí)或識(shí)別知識(shí)圖譜中的噪音,即知識(shí)圖譜補(bǔ)全和知識(shí)圖譜去噪,。近年來,,使用知識(shí)圖譜表示學(xué)習(xí)的方法解決知識(shí)推理任務(wù)成為了國內(nèi)外研究的熱點(diǎn)。Trouillon等人[17]將知識(shí)圖譜中的實(shí)體和關(guān)系投影到復(fù)數(shù)空間中,,將知識(shí)表示從實(shí)數(shù)空間擴(kuò)展到復(fù)數(shù)空間,,進(jìn)而通過復(fù)數(shù)向量計(jì)算實(shí)現(xiàn)知識(shí)推理。官賽萍等人[18]提出了一種共享嵌入的神經(jīng)網(wǎng)絡(luò)模型用于知識(shí)圖譜表示學(xué)習(xí),,同時(shí)考慮知識(shí)推理任務(wù)中實(shí)體預(yù)測(cè)和關(guān)系預(yù)測(cè)在難度上的差異性對(duì)損失函數(shù)進(jìn)行加權(quán),。Tay等人[19]提出了自適應(yīng)的魯棒轉(zhuǎn)移模型puTransE進(jìn)行知識(shí)圖譜實(shí)體和關(guān)系的表示學(xué)習(xí)。puTransE模型生成多個(gè)表示空間,,每個(gè)表示空間對(duì)應(yīng)一個(gè)采樣的關(guān)系和先后通過語義感知與結(jié)構(gòu)感知選擇機(jī)制得到的三元組集合,。Dettmers等人[20]將卷積神經(jīng)網(wǎng)絡(luò)引入到知識(shí)圖譜表示學(xué)習(xí)中,設(shè)計(jì)了一個(gè)參數(shù)高效,、計(jì)算快速的二維卷積神經(jīng)網(wǎng)絡(luò)用于圖譜的表示學(xué)習(xí),。Kifv等人[21]在圖卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,針對(duì)知識(shí)圖譜設(shè)計(jì)了一種多關(guān)系圖消息傳播機(jī)制進(jìn)行知識(shí)圖譜表示學(xué)習(xí),。Nathani等人[22]用圖注意力神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)實(shí)體學(xué)習(xí)不同關(guān)系空間中的向量表達(dá),。 發(fā)展趨勢(shì)與挑戰(zhàn) 發(fā)展趨勢(shì) 總的來說,,大數(shù)據(jù)知識(shí)工程的發(fā)展趨勢(shì)可以概括為以下幾個(gè)方面: 1.知識(shí)類型從靜態(tài)事實(shí)類知識(shí)向動(dòng)態(tài)過程類知識(shí)延伸 大數(shù)據(jù)知識(shí)工程關(guān)注的知識(shí)類型從相對(duì)靜態(tài)的事實(shí)類知識(shí)(知識(shí)圖譜)向動(dòng)態(tài)的過程類知識(shí)(事件圖譜、事理圖譜)延伸?,F(xiàn)有的知識(shí)圖譜通常以名詞性實(shí)體為核心,,聚焦于實(shí)體與實(shí)體之間關(guān)系的挖掘。而大數(shù)據(jù)中存在大量事件,,事件與事件之間存在多種多樣的關(guān)聯(lián)關(guān)系,,這在當(dāng)前的知識(shí)圖譜中較少涉及。常規(guī)知識(shí)圖譜的靜態(tài)特性滿足不了事件數(shù)據(jù)實(shí)時(shí)動(dòng)態(tài)更新的需求,。這就需要進(jìn)一步以事件為中心,,建立事件之間的相互關(guān)聯(lián)關(guān)系,挖掘事件之間的演化規(guī)律與模式,。這對(duì)常識(shí)推理和行為模式挖掘等任務(wù)都具有重要意義,。因此從知識(shí)圖譜拓展到事件圖譜、事理圖譜成為未來發(fā)展的一大趨勢(shì),。Glava?和?najder[23]于2015年提出事件圖譜——節(jié)點(diǎn)代表事件,,有向邊代表事件之間的關(guān)系的有向圖。2018年,,李忠陽等人提出了事理圖譜[24]的概念,,用于挖掘和刻畫事件之間的演化規(guī)律和模式。根據(jù)事件圖譜與事理圖譜的內(nèi)涵,,事理圖譜可以看作事件圖譜的“本體”,,而事件圖譜可以看作事理圖譜的實(shí)例化。對(duì)事件實(shí)例的抽取和預(yù)測(cè)是構(gòu)建事件圖譜的基本任務(wù),,而事件圖譜經(jīng)過表示,、演化和推理可以歸結(jié)出事理圖譜。當(dāng)前,,無論是事件抽取,、事件關(guān)系抽取,還是事件預(yù)測(cè)與事件推理,,其性能都還難以達(dá)到實(shí)際應(yīng)用的標(biāo)準(zhǔn),。因此,對(duì)事件/事理圖譜的深入研究與探索是未來幾年的重點(diǎn)發(fā)展趨勢(shì),。 2.知識(shí)范疇從單一的領(lǐng)域或通用知識(shí)向領(lǐng)域+通用知識(shí)轉(zhuǎn)變 領(lǐng)域知識(shí)覆蓋面窄,、體量小,往往以人工構(gòu)建方式為主,,精度高,;而通用知識(shí)覆蓋面寬、體量大,,往往通過自動(dòng)化抽取的方式構(gòu)建,,精度低,。在實(shí)際應(yīng)用中,單一的領(lǐng)域知識(shí)無法滿足對(duì)知識(shí)量的需求,,而單一通用知識(shí)無法滿足精度標(biāo)準(zhǔn),。為此,領(lǐng)域知識(shí)和通用知識(shí)的結(jié)合是重要的發(fā)展趨勢(shì),。一方面,,領(lǐng)域知識(shí)可以輔助發(fā)現(xiàn)和修正通用知識(shí)中的錯(cuò)誤;另一方面,,通用知識(shí)為領(lǐng)域知識(shí)提供補(bǔ)充,。在具體應(yīng)用中二者相結(jié)合,互為補(bǔ)充,。 3.數(shù)據(jù)類型從文本數(shù)據(jù)向多模態(tài)數(shù)據(jù)擴(kuò)展 在海量大數(shù)據(jù)中,,文本數(shù)據(jù)只占了一部分,還有大量的圖片,、視頻,、音頻等非文本數(shù)據(jù),。這些數(shù)據(jù)包含了大量信息,,是文本數(shù)據(jù)的重要補(bǔ)充。利用這些多模態(tài)數(shù)據(jù),,將構(gòu)建更為豐富的知識(shí)圖譜,,為上層應(yīng)用提供有利的基礎(chǔ)支撐。近年來,,有少量引入圖片數(shù)據(jù)的工作,。未來,數(shù)據(jù)多模態(tài)知識(shí)圖譜的構(gòu)建工作,,即除了文本數(shù)據(jù),、圖片數(shù)據(jù),將視頻和音頻等數(shù)據(jù)也引入知識(shí)圖譜構(gòu)建,,將是重要的發(fā)展趨勢(shì),。 4.知識(shí)處理方法從機(jī)器學(xué)習(xí)向機(jī)器學(xué)習(xí)與邏輯規(guī)則相結(jié)合演進(jìn) 純粹基于機(jī)器學(xué)習(xí)的方法通常在向量空間中對(duì)知識(shí)建模,學(xué)習(xí)知識(shí)的低維向量表示,,知識(shí)工程特別是知識(shí)推理,、知識(shí)計(jì)算任務(wù)被轉(zhuǎn)化為簡單向量操作,可計(jì)算性強(qiáng),。因此,,基于機(jī)器學(xué)習(xí)的方法便于批量計(jì)算。然而,,機(jī)器學(xué)習(xí)模型通常是個(gè)難以解釋的“黑盒子”,。邏輯規(guī)則方法的每一步都有據(jù)可循,,可解釋性強(qiáng)。當(dāng)邏輯規(guī)則正確時(shí),,準(zhǔn)確率高,,但需要逐個(gè)處理數(shù)據(jù),難以批量化,,可計(jì)算性比較差,。機(jī)器學(xué)習(xí)與邏輯規(guī)則的結(jié)合,優(yōu)勢(shì)互補(bǔ),,使得知識(shí)工程更加實(shí)用,,同時(shí)也提高了計(jì)算的可解釋性。目前,,這方面已經(jīng)有了一些研究工作,。比如,神經(jīng)定理證明器(NTPs)[25]以及由其擴(kuò)展而來的條件定理證明器(CTPs)[26]與貪心神經(jīng)定理證明器(GNTPs)[27]在融合連續(xù)向量空間中的機(jī)器學(xué)習(xí)模型與離散空間的邏輯規(guī)則方面進(jìn)行了嘗試,。然而,,針對(duì)機(jī)器學(xué)習(xí)與邏輯規(guī)則相結(jié)合的探索還有很大的空間,未來將其應(yīng)用到大數(shù)據(jù)知識(shí)工程的各項(xiàng)關(guān)鍵技術(shù)中將是很有前景的研究,。 5.知識(shí)工程應(yīng)用從典型場景向廣泛領(lǐng)域拓寬 2012年谷歌最早提出知識(shí)圖譜的概念,,從大數(shù)據(jù)中提取有用的知識(shí),這是大數(shù)據(jù)知識(shí)工程的重要一步,。隨后,,少數(shù)幾個(gè)行業(yè)(例如垂直搜索與智能問答)對(duì)大數(shù)據(jù)知識(shí)工程關(guān)注較多。當(dāng)前,,越來越多的行業(yè)試圖用好大數(shù)據(jù)帶來的紅利,,幾乎每個(gè)行業(yè)甚至每個(gè)企業(yè)都在構(gòu)建自己的知識(shí)圖譜??傮w上,,大數(shù)據(jù)知識(shí)工程在醫(yī)療診斷、電商推薦,、金融決策,、異常檢測(cè)、機(jī)器翻譯等行業(yè)已經(jīng)展示出很好的應(yīng)用前景,。 挑戰(zhàn)問題 大數(shù)據(jù)知識(shí)工程在不斷發(fā)展的過程中也帶來了很多的技術(shù)挑戰(zhàn)和問題,,未來大數(shù)據(jù)知識(shí)工程需要關(guān)注以下主要問題: 1.知識(shí)獲取的小樣本學(xué)習(xí)問題 現(xiàn)有知識(shí)工程涉及的模型往往需要大量高質(zhì)量的樣本進(jìn)行訓(xùn)練,需要耗費(fèi)很大的代價(jià)去獲取訓(xùn)練樣本,。在實(shí)際應(yīng)用中,,難以獲得大量訓(xùn)練樣本,極大限制了現(xiàn)有知識(shí)處理模型的應(yīng)用范圍,。與這些模型不同,,人類往往憑借少量樣本再加上相關(guān)經(jīng)驗(yàn)知識(shí)就能快速進(jìn)行學(xué)習(xí)推理,。在此過程中,大腦感知外部環(huán)境,,對(duì)感興趣或待學(xué)習(xí)的信息保持關(guān)注,,并通過與已有先驗(yàn)知識(shí)的結(jié)合快速建立起新的知識(shí),而后,,經(jīng)過神經(jīng)元的加工整理形成難以被遺忘的長時(shí)記憶,。由此,每個(gè)人不斷地從生活經(jīng)驗(yàn)中建立并整合知識(shí),,從而學(xué)會(huì)處理日益復(fù)雜的任務(wù),。在持續(xù)不斷的學(xué)習(xí)過程中,對(duì)以往的知識(shí)進(jìn)行檢索利用,,使得人們只需要少量的訓(xùn)練就能快速地學(xué)會(huì)新的任務(wù),。為此,基于小樣本學(xué)習(xí)的大數(shù)據(jù)知識(shí)工程將成為未來的重要研究方向,,即如何模擬人腦,,以已建立的公開高質(zhì)量知識(shí)圖譜(如YAGO、Freebase和NELL)等為先驗(yàn),,通過少量樣本進(jìn)行學(xué)習(xí),,快速高效地獲取新的知識(shí)。 2.常識(shí)的自動(dòng)獲取與推理問題 目前,,各界已經(jīng)積累了不少通用的知識(shí)圖譜,,但通用知識(shí)不同于最基本的常識(shí),而且自動(dòng)獲取的這些知識(shí)的準(zhǔn)確率往往無法滿足實(shí)際深度應(yīng)用的需求,。實(shí)際上,常識(shí)是對(duì)事物普遍存在的普遍共識(shí),。常識(shí)能使模型更加智能,,能夠輔助錯(cuò)誤知識(shí)的快速修正。從大數(shù)據(jù)中總結(jié)歸納并自動(dòng)學(xué)習(xí)海量,、高精度的常識(shí),,進(jìn)一步實(shí)現(xiàn)智能推理,是大數(shù)據(jù)知識(shí)工程能夠深度應(yīng)用的關(guān)鍵前提,。 3.知識(shí)工程的可解釋性問題 現(xiàn)有大數(shù)據(jù)知識(shí)工程往往關(guān)注模型性能的提升,,較少關(guān)注可解釋性問題。大數(shù)據(jù)知識(shí)工程需要借助表示學(xué)習(xí)等方法,,將機(jī)器學(xué)習(xí)與邏輯規(guī)則相融合,,實(shí)現(xiàn)從計(jì)算智能和感知智能到認(rèn)知智能的提升。關(guān)于認(rèn)知智能的研究目前還處于初級(jí)階段[28,29],,未來需要進(jìn)一步實(shí)現(xiàn)認(rèn)知智能的落地應(yīng)用,,實(shí)現(xiàn)基于知識(shí)圖譜的可解釋人工智能,。 (參考文獻(xiàn)略) 吳信東 明略科技集團(tuán)首席科學(xué)家,明略科學(xué)院院長,?!按髷?shù)據(jù)知識(shí)工程”教育部重點(diǎn)實(shí)驗(yàn)室(合肥工業(yè)大學(xué))主任。IEEE/AAAS Fellow,。主要研究方向?yàn)閿?shù)據(jù)挖掘,、知識(shí)工程和大數(shù)據(jù)分析。[email protected] 靳小龍 CCF高級(jí)會(huì)員,、大數(shù)據(jù)專家委員會(huì)副秘書長,。中國科學(xué)院計(jì)算技術(shù)研究所研究員。中國科學(xué)院大學(xué)崗位教授,。主要研究方向?yàn)橹R(shí)工程,、知識(shí)圖譜、大數(shù)據(jù)分析,。[email protected] 陳歡歡 CCF專業(yè)會(huì)員,、計(jì)算機(jī)視覺專委會(huì)委員。中國科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院教授,。主要研究方向?yàn)榇笾R(shí)工程,、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘,、演化計(jì)算等,。[email protected] 其他作者:吳共慶、劉均,、官賽萍,、陸汝鈐
|
|