知識圖譜最初是由Google提出用來優(yōu)化搜索引擎的技術。隨著技術的發(fā)展,,它的外延正在不斷擴大,,目前從聊天機器人、智能醫(yī)療到大數(shù)據(jù)風險管理,、證券投資等等,,無一不與知識圖譜有關。知識圖譜也被認為是人工智能目前最火熱的賽道之一。 知識圖譜是如何提高我們的搜索效率的,?為什么稱它為人工智能背后的最強大腦,?如何將它應用于金融領域?在構建金融領域的知識圖譜會遇到哪些問題,? 我們邀請到了妙盈科技數(shù)據(jù)架構總監(jiān)Alex,,他向我們介紹了知識圖譜的底層技術,并解釋了知識圖譜為何能應用于眾多智能決策工具中,,以及妙盈科技是如何構建金融領域的知識圖譜,。 什么是知識圖譜?簡單來說,,知識圖譜就是把知識領域內所有實體和關系用圖的形式,,以網狀結構表達出來的工具。常見的實體包括:公司,、人物,、地名、某一事件,。常見的關系如:競爭關系,、對外投資等等。 在知識圖譜技術誕生前,,搜索引擎主要應用的是“字符串搜索”技術,,這項技術的局限是什么?在知識圖譜這項技術誕生前,,搜索引擎只會利用用戶輸入的文本數(shù)據(jù)串與所有網頁上的文本字符串進行匹配,,從而找出相關的部分,。 這種單純匹配文本字符串的做法,,好處是可以快速地找出的內容,但是局限也很明顯,。首先,,這種僅僅匹配文本,而不理解用戶真正意圖的做法,,用戶一旦使用提問式的數(shù)據(jù)串,,并不能找到問題的真正答案。其次,,單純的字符串匹配無法對信息進行進一步的延伸,,這大大的降低了搜索效率。 為什么說知識圖譜提高了搜索效率,?它是如何具體幫助人工智能的?知識圖譜可以讓萬物互聯(lián),,他也是人工智能背后的知識庫,是真正的“最強大腦”。沒有知識圖譜的幫助,,人工智能能夠接受的信息量十分有限,。二者是相互協(xié)作的關系。 妙盈科技的人工智能市場分析平臺AMI廣泛應用了知識圖譜這項技術,。比如用戶想要了解蘋果公司的股價,,利用知識圖譜技術,在AMI的圖譜搜索中,,用戶可以一鍵查看蘋果公司涉及到的所有信息,,如財報、競爭對手,、對外投資活動,、最新新聞動態(tài)等所有信息,顯著了用戶提升的搜索效率,。 知識圖譜如何具體地幫助AI發(fā)現(xiàn)實體之間的隱藏關系,?可以舉兩個例子形象的說明這個問題。首先在反欺詐領域,,通過知識圖譜,,我們可以從歷史欺詐活動或數(shù)據(jù)匯總將特定模式進行可視化,以此來評估其他的多筆交易是否滿足這個模式,,一旦滿足便觸發(fā)欺詐預警提醒用戶,。 另一個例子在金融市場研究中很常見。一個在洛杉磯的公司發(fā)生的公司兼并事件可能會對來自倫敦的競爭對手,、來自中國的供應商,,甚至該供應商的競爭者都帶來相當大的影響。在知識圖譜的幫助下,,我們就可以將這些原本這些孤立的事件當做一個整體進行考量,。 妙盈科技所建立的知識圖譜,與Google相比有什么不同,?從數(shù)據(jù)上來說,,Google的知識圖譜可以稱之為“全知識圖譜”,因為Google數(shù)據(jù)更全,、數(shù)據(jù)覆蓋面要更廣,。但是妙盈科技的知識圖譜則專為金融行業(yè)定制,我們的數(shù)據(jù)庫中所有數(shù)據(jù)都與金融相關,,從金融數(shù)據(jù)的角度來說,,我們比Google的數(shù)據(jù)覆蓋面肯定更廣。 在應用層面上,,妙盈科技的知識圖譜則更加深入,,我們會針對金融行業(yè)不同的需要進行定制化處理,,如股權穿透分析、同業(yè)分析的功能,,這些都是Google的知識圖譜無法達到的效果,。 為金融機構建立知識圖譜,什么是最關鍵的,?數(shù)據(jù)最關鍵,。與Google進行比較可以更形象的說明。從數(shù)據(jù)上來看,,Google對數(shù)據(jù)的第一要求是廣而全,,但是Google對數(shù)據(jù)來源的可靠程度要求不高。而金融行業(yè)對數(shù)據(jù)的準確性,、可靠性,、實時性往往都有更高的要求,因為這是跟投資決策進行直接掛鉤的,。 為金融機構建立知識圖譜面臨的主要挑戰(zhàn)是什么,?數(shù)據(jù)來源的可靠性、實時性是目前我們面臨的主要問題,。 為了保證數(shù)據(jù)的可靠性,,妙盈科技的數(shù)據(jù)團隊專門設計了一套數(shù)據(jù)測試框架。常見的數(shù)據(jù)測試只對抽取的樣本做可靠性測試,,但是為了保證金融行業(yè)對數(shù)據(jù)高準確性的要求,,我們放棄了樣本測試,而進行了全數(shù)據(jù)掃描,。這個方法的缺點是速度慢,,但是我們正在通過分布式系統(tǒng)以及并行計算提高數(shù)據(jù)檢測速度。 數(shù)據(jù)的實時性是我們目前面臨的另一個挑戰(zhàn),。目前知識圖譜所使用的數(shù)據(jù)大多來自傳統(tǒng)數(shù)據(jù)供應商,,它們仍采用人工錄入數(shù)據(jù)的方式。因此新發(fā)生的事件往往需要一段時間后才能反映在知識圖譜中,。妙盈科技正在研發(fā)一套新的AI模型解決這個問題,,模型完成后,,數(shù)據(jù)的錄入將不再依靠人工,,而是讓機器判定主體、事件以及客體,。讓新進發(fā)生的事件實時反映在知識圖譜中,,從而讓用戶更早的發(fā)現(xiàn)隱藏的市場信號或投資機會。這套AI模型會將消息源,、媒體數(shù)量以及相關語境都考慮進去,,同時保證數(shù)據(jù)的實時性與準確度。 標簽訓練也是我們比較關注的一點,金融行業(yè)對標簽標注的要求更高,,對標注人員的學歷以及金融背景都有一定的要求,。 未來,妙盈科技的知識圖譜將金融機構建立知識圖譜面臨的主要挑戰(zhàn)是什么,?未來,,妙盈科技的知識圖譜將不再需要人工標注,憑借我剛剛提到的AI模型,,實現(xiàn)全自動標注,。 |
|
來自: 昵稱16619343 > 《科學技術》