今年的CSDN主辦的 BDTC2018 大會知識圖譜分論壇上,,我作為嘉賓做了一次演講,結(jié)合我在知識圖譜,、移動搜索以及人工智能交互等領(lǐng)域的經(jīng)驗,,給知識圖譜的行業(yè)人士分享了一些所領(lǐng)域到的對于AI產(chǎn)品演進(jìn)路徑上的思考,。 人工智能領(lǐng)域一直以來有句老話,叫做有多少人工,,就有多少智能,。這件事在知識圖譜構(gòu)建上體現(xiàn)的尤為明顯。人工智能的技術(shù)瓶頸不是要代替智人作為動物的那一部分感知智能,,而在于代替我們最近幾千年發(fā)展起來的那些認(rèn)知能力,,也就是我們有了符號思維能力之后的智能。從知識圖譜到人工智能,,要想一蹴而就,,不太現(xiàn)實,也不可能實現(xiàn),。在這種情況下,,我們更應(yīng)該關(guān)注其中的實現(xiàn)路徑,而非最終目標(biāo),。 人工智能如何定義,?說到人工智能,,我覺得首先要搞清楚一件事情什么是人工智能,?人工智能到底離我們有多遠(yuǎn)?我們看看第一個話題,,每個人都在談?wù)摰降兹斯ぶ悄芩錾谑裁吹胤?,?jīng)過了什么樣的發(fā)展。我們都知道,,其實要講到人工智能這個話題,,要回溯到1946年世界上第一臺電子計算機(jī)埃尼阿克的誕生,埃尼阿克產(chǎn)生以后,,許多的計算機(jī)科學(xué)家對于計算機(jī)將來能夠代替人類做什么事情有很多聯(lián)想,,其中最著名的一個人是圖靈。圖靈在二戰(zhàn)的時候發(fā)明了非常重要的炸彈,,這個炸彈可以破解當(dāng)時德國的密碼體系,。在二戰(zhàn)以后,埃尼阿克發(fā)明以后,,圖靈在1950年左右在人工智能領(lǐng)域進(jìn)行了很多的探討,,并且提出了著名的圖靈測試。 真正的“人工智能”這個詞被提出來,,是在1956年Dartmouth的會議上,。當(dāng)年在Dartmouth提出來人工智能的人,包括明斯基,、西蒙,、麥卡塞等等,,這些年輕的人工學(xué)者他們提出概念以后,他們中間誕生了四位圖靈獎得主,。大家看到了,,時光荏苒,作為最后的一名參與者已經(jīng)去世了,,但是我們已經(jīng)可以看到人工智能的發(fā)展,。 人工智能的下一次大發(fā)展正在爆發(fā)過程中 但是人工智能的發(fā)展也不是一帆風(fēng)順的,就像一項技術(shù)一樣,,當(dāng)一項新技術(shù)出現(xiàn)在人類社會的時候,,大家會抱以非常高的期望。在人工智能剛剛提出的時候,,所有人都認(rèn)為人工智能用規(guī)則推理的方法可以解決這個問題,。因為當(dāng)時的計算機(jī)、存儲和各個方面的原因,,當(dāng)時是大型機(jī)的時代,。IBM的總裁曾經(jīng)說過,世界只需要五臺計算機(jī),,事實證明他錯了,。 但是人工智能經(jīng)過了五六十年代的發(fā)展,離大家的期望很遠(yuǎn),,所以人工智能進(jìn)入了沉寂期,。 隨著80年代個人電腦的發(fā)展,人工智能再次引起了大家的關(guān)注,。以日本的第五代計算機(jī)為重要的表現(xiàn),,以中國的863計劃,其實我們也設(shè)計了306主題,,就是智能計算機(jī)主題,。 在90年代人工智能又再次陷入了低谷,因為很多人發(fā)現(xiàn),,互聯(lián)網(wǎng)其實可以幫助我們解決很多的問題,,我們的信息化技術(shù)能夠解決我們生活中大部分的問題,而且我們并不需要人工智能,,而且人工智能也做不到,。 目前正處在人工智能大爆發(fā)的前夜。 人工智能的奇點在哪里,?奇點理論 根據(jù)美國未來學(xué)家,、谷歌公司工程總監(jiān)雷·庫茨魏爾的奇點理論。技術(shù)奇點(英語:Technological Singularity),又稱科技奇點,,出自奇點理論,,一個根據(jù)技術(shù)發(fā)展史總結(jié)出的觀點,認(rèn)為未來將要發(fā)生一件不可避免的事件──技術(shù)發(fā)展將會在很短的時間內(nèi)發(fā)生極大而接近于無限的進(jìn)步,。當(dāng)此轉(zhuǎn)捩點來臨的時候,,舊的社會模式將一去不復(fù)返,新的規(guī)則開始主宰這個世界,。而后人類時代的智能和技術(shù)我們根本無法理解,,就像金魚無法理解人類的文明一樣。 目前有各種各樣的智能,,比如圖片識別,,文字識別,但是這個跟真正的人類智能還有很大的差距,。講到人工智能,,很多人有各種各樣的想法,但是人工智能中最重要,,現(xiàn)在最需要突破,,也是最難點的地點在于什么地方?要回答這個問題,,其實我們有可能要先看一下人類,。我們都知道人類在地球上有300到400萬年的時間。 根據(jù)《人類簡史》中的對人類的發(fā)展史的研究:我們可以發(fā)現(xiàn),,就是在七萬到兩萬年之前,,人類在農(nóng)業(yè)革命、工業(yè)革命還有一個重要的革命是認(rèn)知革命,。而認(rèn)知革命是人類用語言和智能戰(zhàn)勝其他猿人的非常重要的方面,因為有幾個方面的事情,,一是可以把客觀事件描述得準(zhǔn)確,;二是八卦,我曾經(jīng)以為八卦是女性社會非常不好的習(xí)慣,,但是沒想到是非常重要的,,由原來的100人的團(tuán)隊可以變成150人到1000人的團(tuán)隊。因為有了語言,,我們可以交流我們在做夢中,,或者我們思維里面的東西,我們可以產(chǎn)生虛構(gòu)的概念,,我們可以產(chǎn)生宗教,、公私等等,從而讓我們?nèi)祟惓蔀榈厍虻闹髟住?/p> 語言成為了人類智能演進(jìn)的奇點 人工智能發(fā)展的階段從計算機(jī)發(fā)明以來,,結(jié)合我們對人類智能發(fā)展的認(rèn)識,,我們可以把人工智能分為三個階段:
當(dāng)前我們處在第二個階段,,圖像識別、語音識別,、文字ORC識別等等準(zhǔn)確率覆蓋率都已經(jīng)完全達(dá)到了實用的要求,,而且已經(jīng)在各行各業(yè)中取得了很好的應(yīng)用。 跟第二個階段相比,,我們在第三個階段:認(rèn)知智能的進(jìn)展就很小了,。最近幾年的核武器---深度神經(jīng)網(wǎng)絡(luò)對于我們語言的理解并沒有取得特別大的突破。 原因在哪,? 機(jī)器為啥理解不了語言中的語義,?從上圖中可以看出,跟圖像識別,、語音識別有所不同的是,,原始的圖像和語音都已經(jīng)蘊(yùn)含了大量的有效信息,只需要加以針對性的用大量數(shù)據(jù)訓(xùn)練,,就可以識別準(zhǔn)確,。 但是語言的理解不同,語言的理解中,,語音本身信息量很少,,大部分?jǐn)?shù)據(jù)都蘊(yùn)含在符號中,符號本身需要以可以被機(jī)器理解的形式進(jìn)行定義,,并且跟其他的符號發(fā)生關(guān)聯(lián),。所以機(jī)器要理解語義,首先就需要用機(jī)器可以理解并執(zhí)行的方式,,準(zhǔn)備好符號后面所代表的知識(概念),。 這個機(jī)器可以理解的知識數(shù)據(jù)庫就是知識圖譜了。 所以知識圖譜是機(jī)器理解語義,,實現(xiàn)認(rèn)知智能的基石,。 人工智能的基石:知識圖譜為啥大家都說知識圖譜是人工智能的基石呢?我們先從知識圖譜到底是個啥開始說起,。 知識圖譜是什么,? 知識圖譜其實就是一種可以被機(jī)器直接識別,并且方便做推理的一種結(jié)構(gòu)化,、標(biāo)準(zhǔn)化的以圖的方式存儲的知識庫,。 知識圖譜中有實體(表示世界中的各種事物,解決語言中是什么的問題),,也有關(guān)系(表示世界中的實體的各種關(guān)系,,用來表示各種事實)。 另外,圖譜中的關(guān)系會按照屬性定義,,只有被定義過的關(guān)系才可以存儲進(jìn)入圖譜,,這些屬性定義也是圖譜語義的重要組成部分。 圖譜中的實體會按照類型組織,,同一類型的實體擁有相同的屬性,。也就是說圖譜中會根據(jù)實體的屬性對實體進(jìn)行分類,反過來這些分類又可以幫助機(jī)器推理,,推測實體還有哪些未知的屬性,,以及這些屬性有哪些約束。 說到這里你應(yīng)該可以想到為啥說,,機(jī)器理解語言的語義需要知識圖譜了吧,,因為知識圖譜中存儲的就是前面提到的語言的背景的知識,更重要的是這些知識對于機(jī)器非常友好,,可以被直接推理和使用,,因為圖譜中的數(shù)據(jù)都是有嚴(yán)格的約束和定義的,在這些定義之上,,機(jī)器可以按照預(yù)先設(shè)定好的邏輯規(guī)則進(jìn)行推理,。從而表現(xiàn)出,機(jī)器理解了語言,,并且推理得出了新的知識(也就是圖譜中還沒有的facts(關(guān)系)) 知識圖譜的人工智能應(yīng)用前面說知識圖譜是認(rèn)知人工智能的基石,。那么它到底有什么應(yīng)用呢?目前來看知識圖譜有三大應(yīng)用場景: 一,、搜索引擎(實體詳情卡:將query中的實體識別出來,,以圖文并茂給出圖譜中實體相關(guān)的結(jié)構(gòu)化知識(屬性和關(guān)系),給出更加豐富的搜索結(jié)果,,讓用戶即搜即得,。相關(guān)實體推薦卡:基于圖譜中實體的分類以及實體之間的關(guān)系,給出相關(guān)實體推薦,,幫助用戶獲得順藤摸瓜的瀏覽式的搜索體驗,,讓用戶更容易找到自己感興趣的實體的知識) 二、問答,,知識圖譜上可以回答問題,進(jìn)行推理,。
三,、智能助手對話:對詞匯標(biāo)簽進(jìn)行知識填充,,結(jié)合語言結(jié)構(gòu)的分析,獲得語義,,需要大量高質(zhì)量的人工語義識別的標(biāo)注數(shù)據(jù),,理解語義,是實現(xiàn)有上下文的對話交互的基礎(chǔ) 未完待續(xù)...從知識圖譜到人工智能,,我們今天介紹了一些背景知識以及他們之間的內(nèi)在聯(lián)系,,因為篇幅的關(guān)系,今天我們先說到這里,。 今天只是這個系列的第一篇,,接下來我會繼續(xù)寫一下產(chǎn)品路徑上的探索。 關(guān)于作者 燦輝說搜索 葛燦輝 知識圖譜產(chǎn)品經(jīng)理 本人極客一枚,,做了七年搜索產(chǎn)品經(jīng)理,,于幾年前偶遇知識圖譜,從此迷上一發(fā)不可收拾,,從里到外,,從前到后深入研究,后承蒙眷顧,,獲得了一個寶貴的機(jī)會,,從零到一構(gòu)建一個千萬級的知識圖譜,中間遇坑無數(shù),,咬牙堅持推進(jìn),,終于構(gòu)建出來,并且在搜索產(chǎn)品中獲得規(guī)?;膽?yīng)用,,取得了較好的效果。不過,,無論是圖譜的構(gòu)建,,還是使用,目前還處于初級階段,,未來知識圖譜這個領(lǐng)域空間廣闊,,大有可為,我也會繼續(xù)專注下去,。 |
|