作為人工智能的一個重要研究領(lǐng)域,,知識圖譜的研究和發(fā)展已經(jīng)走過了最初級的階段,。2012-2013 年左右,谷歌 Knowledge Graph 產(chǎn)品的初步成形,,開啟了知識圖譜時代,。但實際上再往前看,知識圖譜技術(shù)的早期落地成果是知識庫,,甚至 Web 2.0 的一些內(nèi)容也屬于早期落地案例之列,。 從知識圖譜的構(gòu)建技術(shù)來看,它主要包含四個階段:信息抽取,、信息融合,、信息推理和信息決策。在整個發(fā)展過程中,,它經(jīng)歷了從人工群體智慧構(gòu)建到自動獲取構(gòu)建的過程,。對于現(xiàn)在的行業(yè)來講,在構(gòu)建知識圖譜過程中,可能會遇到以下三種情況:第一種情況是數(shù)據(jù)比較少,,沒有信息,,行業(yè)的數(shù)字化應用程度不夠;第二種情況是信息特別多,,但是這些信息被分割存儲在不互通的各個部門中,,這時候就會很容易出現(xiàn)數(shù)據(jù)孤島的情況;第三種就是信息過于冗雜,,我們需要從紛繁的信息中剔除掉非常多的噪音和無效的信號,。針對這些問題,不同方式構(gòu)建的知識圖譜其實各有利弊,。 對于人工構(gòu)建知識圖譜,,它的好處可以簡單地概括成三個特性: 第一個特性是專家級的知識系統(tǒng)。 因為人工的知識一定是專家經(jīng)過多年的知識沉淀而形成的專家級知識,。在 80 年代末,就已經(jīng)有了這種專家系統(tǒng)——中醫(yī)醫(yī)療,,這其實就是專家知識系統(tǒng)在產(chǎn)業(yè)中應用的最簡單案例,。 第二個特性是可解釋性。這種人工構(gòu)建的規(guī)則一定有很強的可解釋性,,這是非常重要的一點,。 第三個特性是在法律法規(guī)和監(jiān)管意義上的合規(guī)性。 因為它是人工構(gòu)建的,,可以追責,,可以進行審計。所以在合規(guī)上,,人工構(gòu)建有非常大的優(yōu)勢,。 就自動化構(gòu)建而言,雖然它也具有一定的專家知識性,、可解釋性和合規(guī)性,,但是實際上它的這些特性比人工構(gòu)建要弱一點。但它也有三個人工構(gòu)建無法比擬的優(yōu)點: 第一,、它可以處理大批量的任務,。這種大批量的任務其實是非常重要的,因為很多的時候,,在非常初級的階段我們不能依靠人工去做非常多的重復性勞動,,而自動化很好地解決了這一問題。比如,,在大量的貸前,、貸中等金融審計和審批的工作中,其實很多是可以通過自動化的方式來完成的,。 第二,、它具有自適應性,。讓專家來人工構(gòu)建形成的規(guī)則其實具有一定的滯后性。但世界時時在變化,,我們的知識圖譜如果不能跟上這種演進的思路,,它將始終落后于這個時代。就比如在反洗錢或金融風控的業(yè)務上,,作弊也好,、風險也好,演進速度都是非??斓?,純粹靠人工構(gòu)建規(guī)則并不能滿足這樣的業(yè)務需求。因為所有的風險一定是要及時地覆蓋,,及時地處理,。對于營銷或者是對于其他的業(yè)務場景也是同樣的道理。能料敵于先,,有更好的自適應性,,是自動化的明顯優(yōu)勢之一。 第三,、它具有多源異構(gòu)的特點,。人類的每個專家都有自己的一個領(lǐng)域,想突破領(lǐng)域邊緣其實是非常難的,。但是這對于自動化來講則易如反掌,,只需利用各種辦法,或者是利用各種框架進行多元自動化的處置就能完成,。這是自動化構(gòu)建知識圖譜另外一個比較強的優(yōu)點,。 當然,自動化構(gòu)建也并非就是完美的,,它的缺點主要在于可解釋性和合規(guī)性上,。自動化一定是會存在一些的問題。但這也是我們?yōu)槭裁凑f人工和自動化是需要相輔相成來合力構(gòu)建我們知識圖譜技術(shù)的原因所在,。 知識圖譜技術(shù)發(fā)展到現(xiàn)在,,業(yè)內(nèi)不少聲音認為,其已經(jīng)來到了通用和多源異構(gòu)的階段,。 星環(huán)科技的 AI 負責人楊一帆分別對知識圖譜的通用階段和多源異構(gòu)階段進行了解釋,。他認為,整體而言,,知識圖譜可以分成幾個階段,,包括信息(數(shù)據(jù))抽取、信息(數(shù)據(jù))融合、信息推理,,最后則是輔助決策,。所謂的通用階段,一方面是指知識圖譜在解決業(yè)務難題時能提供一個通用的解決方案,;另一方面是指它屬于強人工智能,,目前還處于一個比較初級的發(fā)展階段,需要所有 AI 和大數(shù)據(jù)從業(yè)者朝著一個共同的目標去努力,。
所謂的多源異構(gòu),,第一步,我們要解決信息抽取的問題,,就是從多媒體數(shù)據(jù)中提取有效的信息,,從基礎場景的信息中提取我們想要知道的業(yè)務信息。第二步,,對應著知識圖譜的第二個階段,,就是信息的融合,即利用知識圖譜將不同來源的信息融合在一起,。但這是一個極其復雜的過程,,因此我們現(xiàn)在很大程度上還處于第一階段和第二階段。 知識圖譜能解決哪些 其他技術(shù)無法解決的問題,? 作為知識圖譜技術(shù)的底層支撐,數(shù)據(jù)和算法在知識圖譜中至關(guān)重要,。楊一帆認為,,數(shù)據(jù)和算法是相輔相成的關(guān)系。知識圖譜中的數(shù)據(jù)和算法,,就相當于我們這個時代的大數(shù)據(jù)和人工智能,,兩者的重要性是一樣的,缺一不可,。光有數(shù)據(jù)并不能體現(xiàn)出我們真正的價值,,而光有算法,就相當于只是擁有無源之水,。在知識圖譜中可以在另一個維度將數(shù)據(jù),、算法劃分成我們的數(shù)據(jù)資產(chǎn)、算法資產(chǎn),。其再加上我們的業(yè)務經(jīng)驗資產(chǎn)就構(gòu)成了完整的知識圖譜體系,。對于數(shù)據(jù)科學或?qū)嶋H業(yè)務而言,我們常說“Garbage in,,garbage out“,,即進來的數(shù)據(jù)是無用的,則出去的分析結(jié)果也是無用的。顯而易見,,數(shù)據(jù)質(zhì)量至關(guān)重要,。當我們擁有的數(shù)據(jù)越多,我們就有越多的渠道補充我們的信息,,去填滿一些知識漏洞等數(shù)據(jù)質(zhì)量問題,。但是光通過數(shù)據(jù)采集等手段并不能完全解決數(shù)據(jù)質(zhì)量問題。在知識圖譜的四個階段中,,信息融合,、推理和輔助決策這幾個環(huán)節(jié)都需要算法起主導作用,同時也需要大量的數(shù)據(jù)做支撐,。所以有時候,,算法也會影響到我們數(shù)據(jù)源本身。 在技術(shù)領(lǐng)域,,大家從來都認為“數(shù)據(jù)是一,,算法是零”。如果只有算法,,我們擁有的只是零,,其永遠不能體現(xiàn)出較強的價值和業(yè)務導向,甚至無法幫助我們進行產(chǎn)業(yè)升級和決策,。但是如果只有數(shù)據(jù),,我們永遠停留在一,就不能夠進行更大的升級,。就正如業(yè)界所流傳,,數(shù)據(jù)決定了我們技術(shù)應用的上限,而算法則能無限逼近這一上限,。數(shù)據(jù)和算法兩者缺一不可,,無論是一還是零,都是我們必須要有的,。 我們現(xiàn)有的很多人工智能和大數(shù)據(jù)技術(shù),,能解決的都是單一領(lǐng)域上的一些特定的問題。對于知識圖譜來講,,它和其他的技術(shù)有一些顯著的區(qū)別,,它解決了其他技術(shù)不能解決的難題。對此,,楊一帆列出了三點說明,。 他認為,知識圖譜能解決的第一個比較重要的問題就是知識和數(shù)據(jù)的孤島,。 對于其他的技術(shù)來講,,在單一領(lǐng)域中進行分析,、建模、處置,、研究都做得比較好,。但是對于跨領(lǐng)域的或跨部門的問題,沒有一個很好技術(shù)能解決,。拿人口普查來舉一個比較簡單的例子,。人口普查并不是涉及一個單獨部門的行動,它會涉及社會學,、經(jīng)濟學等,,需要把多種多樣的知識進行匯總,形成知識庫,。知識庫就是信息推理和抽取,,還要進行信息融合,甚至要做一些推測,,比如人口的組成,,人口對今后產(chǎn)業(yè)的影響,甚至是分析知識庫來幫助國家進行一些輔助的決策,。利用知識圖譜可以很好地打破領(lǐng)域墻和部門墻,,在這一點上其他技術(shù)暫時無法替代它。 第二個比較重要的點是信息的融合,。信息的融合與知識孤島和數(shù)據(jù)孤島存在一定的關(guān)聯(lián),。其在金融領(lǐng)域信息融合提及得比較多。因為金融事件有多種類型的信息,,包括交易側(cè)的信息,、客戶信息等。這種信息雖然不是知識孤島,,但信息量非常多,過于冗雜,。那么,,如何剔除信息中繁冗的信息來提取出主干信號?如何進行信息的篩選,、融合,?這個時候知識圖譜作為一個新興的工具和技術(shù),就能很好地解決上述問題,。 最后一點就是知識圖譜對于推理和決策進行強有力的支撐,。 別的技術(shù)或許也能做到一部分的推理和決策。但是知識圖譜從根本上來講,,就是融合多方的信息來源,,以及多方的可能性,,去做推理和更精準的決策,這是別的技術(shù)暫時無法替代的,。就拿關(guān)系型數(shù)據(jù)庫來講,,雖然它與知識圖譜有一定的相似性,但它其實無法解決多度關(guān)聯(lián)的問題,,也很少去涉及多源異構(gòu)的問題,。 知識圖譜目前面臨的技術(shù)難題和突破口 通過知識圖譜,不僅可以將互聯(lián)網(wǎng)的信息轉(zhuǎn)化成更接近人類認知世界的形式,,而且可以讓我們更好地組織,、管理和利用海量信息。目前支撐智能語義搜索,、移動個人助理以及深度問答系統(tǒng)等應用的核心技術(shù)正是知識圖譜技術(shù),。那么,面對不同的行業(yè),、不同類型的知識圖譜,,我們是否有一個通用的算法或框架來滿足各種需求?對于這個問題,,楊一帆認為,,通用的知識圖譜,想要落地還會面臨一些挑戰(zhàn),。在技術(shù)領(lǐng)域,,還沒有任何一種算法能夠解決所有問題,知識圖譜也是如此,。 知識圖譜除了以上提到的四個過程:信息抽取,、信息融合、信息推理和輔助決策外,,還需要做一些信息的分類,、搜索、推薦等工作,?;ヂ?lián)網(wǎng)飛速發(fā)展的當下,算法,、框架都在不斷變化,,知識圖譜也需要緊跟時代發(fā)展步伐,實時更新,,從而處理更復雜的關(guān)聯(lián)關(guān)系等,。在業(yè)界上,如何構(gòu)建一套通用的知識圖譜也一直是不同行業(yè)的 AI 從業(yè)者們嘗試去解決的問題,。 目前除了通用知識圖譜的構(gòu)建方面還存在一定挑戰(zhàn)外,,工業(yè)級知識圖譜的構(gòu)建在技術(shù)上也有一定掣肘,。在楊一帆看來,其中的技術(shù)難點主要表現(xiàn)在三個層面上,。第一是數(shù)據(jù),、第二是算法、第三是 AI 工程化,。 先講一下數(shù)據(jù),。 工業(yè)級知識圖譜構(gòu)建的第一個難題就是需要獲取數(shù)據(jù)的源非常多,需要我們深入到業(yè)務線上去獲取它,。有一些行業(yè)數(shù)字化做得比較好,,獲取數(shù)據(jù)源就比較輕松。但是在有些行業(yè)的工業(yè)場景中,,數(shù)據(jù)其實并不是非常地干凈,,或者數(shù)據(jù)獲取的手段也比較有限,甚至它就是多媒體數(shù)據(jù),,而且這類多媒體的數(shù)據(jù)質(zhì)量還很差,。如何獲取這類質(zhì)量不過關(guān)的數(shù)據(jù),是一個非常麻煩的事情,。這個時候就需要和 AI 的其他技術(shù)方向進行廣泛的合作,。 工業(yè)級知識圖譜對存儲和查詢,有非常高的要求,。首先,,存儲的體量會非常大、節(jié)點類型非常多,,關(guān)系非常復雜,,存儲的壓力巨大,查詢的條件可能會非常復雜,。另外,,工業(yè)級的知識圖譜,對性能的要求更高,,這是不可能通過一個非常簡單的手段就能解決的,。所以這一部分需要做的努力非常多。 第二點就是我們目前的算法還僅停留在認知領(lǐng)域,,就是理解數(shù)據(jù)、理解場景的一個程度,。而對于推理,,大家雖都在做這方面的努力但目前仍處于不成熟的階段。數(shù)據(jù)和算法首先要理解數(shù)據(jù),,理解場景,,理解業(yè)務,。但是如果在真實的工業(yè)場景中,我們要進行更大的產(chǎn)業(yè)升級,、需要對業(yè)務進行放大,、提煉,那么除了理解我們還需要推理,。推理和輔助決策這兩個過程是非常難的,,在算法上需要長時間的深耕和努力。 除了算法外,,在工業(yè)級的知識圖譜中,,小樣本的問題也更加嚴重。如果在實驗室或者是研究階段,,小樣本并不是一個大問題,,因為沒有人特別關(guān)注這個問題。但是在實際的工業(yè)場景中,,小樣本是一個非常嚴重的問題,,因為可能會造成大的事故。我們該如何認知它,,如何處理這些所謂的“黑天鵝”事件,?這是算法上需要做極大努力來突破解決的,因為涉及到認知科學,,所以還有很長的路要走,。 最后一點,就是 AI 工程化,。 工業(yè)級和企業(yè)級的知識圖譜往往會出現(xiàn)知識或部門的限制,,有需要碎片化的問題,有需要規(guī)?;膯栴},,針對這些問題,如何將算法和數(shù)據(jù)聯(lián)合起來,?這時候我們就需要工程化,、一體化、平臺化的工具解決所有的問題,,也就是 AI 工程化,。這也是需要 AI、大數(shù)據(jù),、以及業(yè)界的所有從業(yè)者一起去努力解決的問題,。 提及知識圖譜未來的發(fā)展方向時,楊一帆表示,,未來,,知識圖譜將在認知領(lǐng)域去做到一個比較好的深耕,。他舉了一個比較有意思的例子——IP 的挖掘。現(xiàn)在大家都在討論知識產(chǎn)權(quán),,那么,,對于知識產(chǎn)權(quán)的挖掘,其實不僅是說我們要把一些信息或政策進行解構(gòu),、進行規(guī)格化,。這只是第一步。我們還要去挖掘了解事情發(fā)展的整個脈絡到底是怎么樣的,?技術(shù)發(fā)展從無到有,,再到更高階到底是如何發(fā)展起來的?這些也都可以通過知識圖譜進行刻畫,。當然,,這只是一個簡單的例子,整個認知領(lǐng)域會更加復雜,。 楊一帆認為,,知識圖譜未來將迎來的第二大應用場景,是在一些垂直領(lǐng)域上的深耕和應用,。比如現(xiàn)在國家推行的就是大數(shù)據(jù)中心的建設和升級,。這個時候知識圖譜可以發(fā)揮更大的作用,除了數(shù)據(jù)上的統(tǒng)一,,我們還可以進行更多數(shù)據(jù)上的挖掘和人口普查,,這對我們判斷經(jīng)濟態(tài)勢等問題至關(guān)重要。另外,,知識圖譜在今年的抗疫之路上也已經(jīng)落地了一些應用成果,,如追蹤確診病例的行蹤軌跡從而找到密切接觸者等。 知識圖譜對于企業(yè)本身的賦能,、決策,,或者是說在金融上的量化作用可見一斑。而工業(yè)級知識圖譜真正要成為的不是一根所謂的“通用支柱”,,而是要實實在在深入到每一個產(chǎn)業(yè),,每一個行業(yè)中,幫助具體的行業(yè)解決具體的問題,,幫助大家更好地提高效率,,提高生產(chǎn)力。 嘉賓介紹: 楊一帆,,星環(huán)信息科技 - 人工智能產(chǎn)品研發(fā)總監(jiān),。中國科學技術(shù)大學統(tǒng)計學本科和碩士,University of Kentucky 統(tǒng)計博士學位;曾在美國銀行合規(guī)風險部門和阿里巴巴搜索事業(yè)部對抗智能團隊任職,;目前就職于星環(huán)科技 - 人工智能產(chǎn)品部。有豐富的統(tǒng)計學習,、深度學習,、圖嵌入研究經(jīng)歷。有十余篇論文發(fā)表于 SCI 期刊和會議,,涵蓋統(tǒng)計,、生物信息、機器學習中圖嵌入,、強化學習等方向,。參與和主導多項企業(yè)級人工智能產(chǎn)品研發(fā)和落地工作。 你也「在看」嗎,??? |
|
來自: ZZvvh2vjnmrpl4 > 《知識圖譜》