隨著互聯網、物聯網,、云計算等技術的快速發(fā)展,,以及智能終端、網絡社會,、數字地球等信息體的普及和建設,,全球數據量出現爆炸式增長,大數據蘊藏著價值信息,,但數據安全面臨嚴峻挑戰(zhàn),。11月19日下午,由中國新一代IT產業(yè)推進聯盟主辦,、CIO時代學院承辦的“第五期金融CIO論壇:走進奇虎360”在奇虎360總部順利舉行。360企業(yè)安全集團大數據應用事業(yè)部總經理李虎做出了題為《業(yè)務導向,,安全可靠的大數據體系》的主題分享,,他從大數據的思考和觀點、大數據總體架構的考慮和搭建及案例三個方面分享他關于數據技術的體會,。以下為演講實錄: 360企業(yè)安全集團大數據應用事業(yè)部總經理 李虎
各位專家下午好,,非常開心借此機會與各位專家分享360在大數據方面的一些探索和思考。我們都知道在360數據驅動安全的理念下,,運用大數據的思想,、理念和技術做出了許多實踐,剛才已舉了很多案例,。接下來我從三個方面分享我們在大數據方面的一些體會,。
一、對大數據的思考與觀點
為什么要談觀點,?因為最近這幾年“大數據”這個詞十分火熱,。其實我們非常堅信數據的力量之大,大數據技術應用是大勢所趨,,這是毫無異議的,。但近幾年也是泥沙俱下。大家對大數據抱有十分高的熱情,、十分大的投入,,但實際產出效果,、實際落地產生成效,相對投入產出比而言到目前為止還是遠遠不夠的,,至少沒有預期的大,。為什么會產生這個問題?這是值得我們思考的,。因此,,我們認為首先要對大數據正三觀,觀念要正確,,在此分享一下我們對大數據的看法,。
(一)大數據是工具,、手段而非目標,。
我們談大數據時可能是為了大數據而大數據,但卻忘了用它來做什么,。所以必須想清楚,,它再厲害也是工具,就像是倚天劍,、屠龍刀,,關鍵是有人去操作。最后解決問題才會有效,。
?。ǘ﹫猿謽I(yè)務導向,有效解決實際問題是關鍵,。
我們做過很多實踐,,大數據是大技術大投入,需要投入很多,、積累很多,,需要投入高端的人員、資源,,但能不能解決實際問題才是關鍵,,對大數據的體系很重要。我們的思考角度便是如此,,不是純技術的角度,,而是業(yè)務+技術的角度。
?。ㄈ┐髷祿こ袒?/strong>
大數據首先是作為一個技術,、算法提出來的,但我們堅信一點,,任何一項優(yōu)秀的技術如果實現不了工程化它就很難實現產業(yè)化,,如果不能產業(yè)化就不可能運用到很多的場合,、發(fā)揮很大的作用。這里我們提出大數據工程的概念,。如今提到的機器學習,、大數據技術、算法很多,,但從工程角度思考也非常重要,。
例如在30多年前,那時寫程序時的程序代碼量很小,,都是一些高手,,就像如今的極客,那些程序員很厲害,,都講一行代碼有多強的表達能力能做多少事情,。直到90年代初,大家都認為PC機有256K的內存是很大的,,原因是什么,?程序很小,所以跑的動,。但經過二三十年的發(fā)展,,軟件工程的出現是件很重要的事。將極客小眾精英的玩法變?yōu)楣こ袒?、體系化,、產業(yè)化的事,其最后的價值還能充分發(fā)揮,。有人專門做算法研究,但也需要關注工程化,。
?。ㄋ模┐髷祿w系
因為需要采集、存放很多數據,,經過深加工之后將原來潛藏在深層次的規(guī)律,、關系都找出來,它的價值非常大,,但其敏感性很強,,因此,它本身的安全是極其重要的,,在構建大數據的體系時,,首先要考慮全面安全的防護、監(jiān)管等,。這是我們看中的觀點,。
二,、大數據總體架構如何考慮與搭建
基于大數據體系的觀點,我們構建了360業(yè)務導向安全可靠的大數據體系,。大家都在講大數據體系,,那360的大數據體系有什么特點呢?有兩個關鍵詞:業(yè)務導向,、安全,。一般做IT的朋友習慣說看架構圖,且從下往上看,,下意識的一層層向上看,。但今天我提倡倒過來看,從業(yè)務角度出發(fā)來,。因此解讀這個架構時候我們倒著說,。我們將這個架構分成四層,從上往下分別為應用層,、模型層,、數據層和基礎設施層。我們在做任何事情前需要明白業(yè)務場景是什么,、將大數據用到什么地方,、希望它產生什么效果。
?。ㄒ唬脤?/strong>
這里舉一些例子,,如金融行業(yè)反欺詐、信貸風控,、企業(yè)內部內控,、員工行為分析、不良貸管理等,。公安行業(yè)中的維穩(wěn),、反恐、治安,、情報分析等也是實際應用,。以及其他行業(yè),包括網絡安全領域也是一個典型的應用場景,,這是應用層,。同時,應用層面不僅僅只是有模型結果,,我們希望變成持續(xù)化的閉環(huán),。以反欺詐為例,從事前預防、事中干預阻斷,、事后分析研判三個步驟展開,,分析研判的結果再返回到預防形成閉環(huán),這是從應用層角度來分析問題,。
?。ǘ┠P蛯?/strong>
模型層的關鍵是需要通過模型算出結果,無論是預警還是提示,,模型很重要,,但一般體系化模型層只寫算法,如神經網絡,、決策數等,。但我們認為模型算法只是其中的一塊,我們更看重建模能力,,一定要將算法充分利用,,建立有效的模型來解決實際問題,這里便體現了剛才談到的大數據工程理念,。以軟件工程為例,,其中有很多建模工具和開發(fā)工具,我們希望依托大數據工程的理念在這一層建立相應的建模工具平臺,,即天智平臺,。它整合貫通了大數據的全生命周期,從建模目標的確定到數據資產的管理,、數據準備,、數據預處理、數據特征的探索,、特征工程直至模型投產運行,,整個過程是全生命周期端到端的支持。同時,,我們希望這個平臺本身也應用大數據的技術和知識學習的理念,,以及推薦的算法、模型提煉出來的案例等,,都是不斷演進的,,而且可以越來越智能,,可以積累一個單位建模的能力,,且不斷持續(xù)提升這個能力。
?。ㄈ祿?/strong>
擁有模型后,,建模還需要基礎,因此需要數據層。數據層的核心是數據融合層,,這是天合平臺,。不論是結構化數據還是非結構化數據都需要融合到一起。我們會發(fā)現在傳統的應用場景中,,結構化的數據往往會起到骨架的作用,,但血肉是不夠豐滿的,導致模型不準或無法判斷,,如果將非結構化數據提煉出來,,綜合到一起會產生更多的信息維度,這種模式會更有效,。
?。ㄋ模┗A設施層
基礎設施層,是Hadoop,、Spark等,。從上往下看是一層層推導出來的。整個大數據體系的安全保障與監(jiān)管,。如我們整體的安全態(tài)勢感知,、威脅情報、數據安全,、云安全,、網絡安全、應用安全等一整套體系,,我們會保護好核心資產,,隨著未來的發(fā)展,大數據體系是非常核心的資產,,如何從一開始便將它保障好且與時俱進地持續(xù)保障它的安全,,顯得非常重要。因此,,整個體系我們稱之為4+1,。左邊的四層,右邊是一條,,整體構成大數據體系,。而且我們特別強調業(yè)務導向,安全可靠,。這是整體的體系架構,。
三、案例分享
接下來我與各位專家分享三個案例,,其中前兩個案例是應用層案例,,一個是金融行業(yè),、一個是公安行業(yè)。第三個案例是天智平臺的介紹,。
?。ㄒ唬┙鹑谛袠I(yè)案例
近幾年互聯網金融較為火爆、良莠不齊,,出現了不少P2P平臺騙貸,、跑路事件。9月24日互聯網金融管理辦法出臺,,要求各地的金融監(jiān)管機構——金融緝金融辦,,對轄區(qū)內所有的P2P平臺進行監(jiān)管。但監(jiān)管的話一定要有抓手,,因此我們用大數據的技術幫對方實現,,代表金融辦對行業(yè)進行監(jiān)管的例子。
首先看P2P平臺,,我們是代表監(jiān)管層看待問題,。其中涉及的主體,第一個主體是P2P平臺本身,,涉及到很多借款項目,、借款人、投資人,、擔保人等主體,,每個平臺上會有很多借貸的項目。從監(jiān)管層角度要看到轄區(qū)內所有的P2P平臺究竟發(fā)生了什么,、哪些平臺可能產生了較為嚴重的違規(guī)問題,。對方要及時處置,不能惡化,。為便于理解,,我們重點識別監(jiān)管哪幾類平臺呢?四類:瘋子,、騙子,、矮子、瞎子,。瘋子是什么呢,?是指他本身并不是想騙錢走人,但為了業(yè)績,、吸引VC,,進行一些操作使他的一些業(yè)績長大,吸引更多的投資人,。那么騙子是存心不良,,一開始就想騙錢,易租寶便是一個典型,,經查證后,,他不資不抵債,他是直接將錢揮霍了,。這種類別一定要識別出來,,其危害非常大。我們發(fā)現有些P2P平臺中的某些投資人是老年人,,將他的退休金,、養(yǎng)老金拿出來,而且涉及量非常大,,便會是一個非常嚴重的社會問題,。還有矮子、瞎子,,說他的能力不足,,或看著錢好賺就進來了,我們對這一類的關注度相對低一些,,其危害會小一些,。因此這個平臺的重點是要識別和盡早發(fā)現瘋子和騙子。
怎么做呢,?我們用大數據來計算,,總結為一套智能模型、一組標準體系,、一個數據平臺或一個數據中心,,以及一個應用平臺,最終將模型做成一個功能,,讓監(jiān)管層可直接使用的一組功能,。因時間關系,我重點為大家介紹一下智能模型,。我們的模型分為三個層次:數據元模型,、異常識別模型、風險評估模型(量化評估模型),,它們是相互遞進,、相互關聯的關系。
1.元模型
可能各位專家對元模型非常熟悉,,因為銀行大多做了倉庫,,遠離是相同的,我們用元模型技術描述P2P業(yè)態(tài),,將它的特征描述出來,,大概有7個主題域,、34個關鍵實體及600多個關鍵屬性。
2.異常識別模型
有了這個描述后,,我們建立了異常識別模型,,即通過大數據的方法,其中的辦法既用了傳統的專家經驗,、規(guī)則系統,,也用了機器學習,綜合建立了一系列模型,,這些模型經過訓練調優(yōu)后將之投產,,掃描實際運行的P2P平臺中各方面的數據,然后進行分析,。我們使用的數據除P2P平臺本身的數據外,,還采集了工商、稅務,、訴訟,、互聯網輿情、政府公開信息等,,很多是將非結構化數據全匯聚到一起進行發(fā)現,。
3.風險評估模型
風險評估模型,即量化指標模型,。它其實參考了很多風險,,包括信用評價等,綜合P2P特定場景做了一套風險評估指數模型,。
這三組模型之間是相互關聯的,,元模型是基礎,異常識別模型是實際應用,,然后再進一步綜合量化評估便可進行總體態(tài)勢的把握和感知,。
這是第一個案例,我們這有一些DEMO數據,。通過風控平臺,,首先告訴你監(jiān)管的P2P平臺服務了多少借款人、投資人,,募集了多少資金,,投資獲利如何??梢院苤庇^看到代表的是貸還資金增長趨勢,,貸還量增長非常快,,一方面說明其業(yè)務更加蓬勃,,但風險也增長也非??欤鰡栴}的可能性也比較大,。接著做風險指數,,對每個平臺進行評分,可進行排名,,分析哪個平臺風險比較高。剛才談的風險指數包括五個關鍵方面,。其中借款人結構性風險是較為嚴重的問題,。因此我們要進一步關注背后的問題是什么。
以自擔保的問題為例,。自擔保是明令禁止的,,但我們通過機器學習的方法,找出人與人之間的關系,。下面是借款人,,上面是擔保公司,直接看他們是沒有聯系的,,他們通過投資關系,、法人關系、高管關系,,背后是有關聯的,。他們通過四度關聯建立起聯系,最后屬于自擔保的事情,,這是非常危險的,。
還有一個來自金融融的例子,這個例子非常危險,,x某是xxx法人股東,,這個公司又是yyy金融信息有限公司的一個股東,yy金融又開辦了一個P2P平臺,,他怎么做的呢,?x某在P2P平臺上借錢,不斷地向投資人投,,實際上都是借給他,。他將錢又投到xxx公司中。一旦這個xxx出現問題,,其資金鏈就斷了,,他定會跑路。所以找清楚他背后的問題后,,便可以判斷出直接關停,。因此,,溯源很重要。
?。ǘ┨熘瞧脚_案例
我們主要的想法是什么呢,?即我們自己在做大數據時便發(fā)現,要將大數據智能建模做好,,路上有很多攔路虎,。因此會導致一個現象,其中有很多潛在價值需要挖掘,。大數據也是無處不在,,需求一定是巨大的。但目前的情況是什么,?它的價值還遠遠沒有發(fā)揮出來,,也就是說,目前有效的應用還是較少的,,主要原因是實施難度非常大,,關鍵瓶頸在建模能力、投產復雜性,,滿足不了需求廣泛性與響應及時性的實際要求,。
建模人員需要綜合能力,對業(yè)務,、數據,、IT了解,這種人永遠是稀缺資源,。即便軟件工程發(fā)展了幾十年,,優(yōu)秀的系統分析師一定是稀缺資源,將一個系統分析設計好是非常難的,。與他的成長經歷、天賦都有關,。這就導致門檻很高,、數量很少,可需求量很大,,怎么辦呢,?我們就想做個建模中心,由對方提需求,??蛇@樣周期非常長,而且少數人服務多數人的需求,根本趕不上發(fā)展,。第二個問題是投產的復雜性很大,,在建模時,要對數據做各種變換,、數據預處理,,當投產時,意味著要對生產數據做全面的處理,,才能將模型用上去,,否則模型無法運行,這兩個環(huán)節(jié)難度很大,,導致周期很長,。
實際的例子,如欺詐類問題,,犯罪分子經常撈一票就換手法,,他在打游擊,、捉謎藏,。等我們花半年、幾個月的時間將模型建出來投產,,他已經消失了,,跟不上時效,沒有意義,。因此我們稱之為精英模式,,小眾長周期是他的特點。只有很少的人能做到這件事,,而且事情設計周期很長,,包括數據協調、獲取數據等都有很多困難,。你可以說是一個內部管理問題,,但同時也是一個工程問題。
我舉幾個例子說明它為什么很難,。第一個問題是攔路虎,。如何將業(yè)務目標轉化為建模目標,看起來不用細講,,但其中的鴻溝之大就好比軟件工程將一個業(yè)務需求轉化為一個系統需求,,其實大家都知道鴻溝之大,不同水平的人做出的轉化率是不同的,,這是第一道難關,。如非本人交易,如果是有經驗的建模師聽說你要做非本人交易,,這肯定是二分類的問題,,你要進行識別,。然后再了解數據情況,如果數據量較大,,那可以用機器學習,,數據少還不夠。另外,,已有的樣本中哪些是有標記,、哪些無標記。如果沒有做標記,,只能做無監(jiān)督學習,。可這個精度較差,,因此會存在很多問題,。這個過程在特別有經驗的建模師看來是瞬間完成的。但對于絕大部分人而言,,掌握的過程可能要積年累月,,甚至很久都掌握不了,因此第一關就無法走下去了,。什么時候選什么模型,,選神經網絡還是回歸,都有很多麻煩事,。
還有一些實際的問題,,銀行數據量、表和字段數量級,,表可能是幾十萬上百萬數量級,,建模需要收入采用哪些手段做輸入,那么多數據存在什么庫中,?語義是什么,?時間久了數據字典也不一定及時更新,因此可能都說不清楚,,那怎么辦,?這些都是實際的問題。我們的平臺希望識別出關鍵的問題,,千方百計降低門檻,。
數據資產可視化管理以LDM為基礎,但不僅局限于LDM,,因為將來可能需要從外部采集數據,,這些數據用直觀可視化的方式匯聚到一起。例如其中的每一個球代表一張數據表,球體積越大代表字段或與它有關聯的表越多,,然后還原成可視化狀態(tài),。以非本人交易為例,首先當事人是一個關鍵,,篩選便可篩出若干張表都涉及當事人,,然后再以其為中心進行探索,找出與他相關的資料,,最后便可以進行標記,,選哪些數據作為輸入、構造特征的備選項,,可以生成數據需求清單,。因為即使有大數據平臺,也不可能將全行的數據灌輸上去,,一定是有選擇的,,但一定要知道從哪些庫去選擇哪些??陀^而言,,數據在數據中心,但業(yè)務隸屬關系上的數據屬于這條線,,有個人業(yè)務,、企業(yè)業(yè)務,、卡中心,,你調用數據也不是那么容易。通過數據需求清單便知道需要什么字段,,最后將這些數據加載在建模平臺上,。
數據規(guī)律可視化探索也是一個典型的例子。例如,,我找到一個非本人交易,,我從一個點入手分析他的交易特征,如交易對象,、交易終端,、資金流向等,最終可找出很多相關的因素,,便可以作為構造特征的參考,。如果說一個人通常發(fā)現他所有的交易特點,基本上每個人的交易都有一個往來圈子,,不會有任何隨意的交易,,除非網購。當突然出現一個從來沒有過資金往來的人時,這是一個特點,。第二個特點,,交易終端,例如,,一個人通常在ATM上轉帳,,說明這個人年齡較大,但突然用手機App轉給陌生人,,這是一個備選項,。
我們提出一個概念,通過這個平臺想達到什么目的呢,?即建立一個普惠模式,。讓更多人參與、更多人受益,。我們原來的需求很大,,但實現的很小,通過普惠模式,,便可以通過天智平臺使得更多需求釋放出來,,甚至一線業(yè)務人員也可以參與其中一些步驟,形成全行資源配合,。
四,、結語
簡單做個小結,首先我們堅信大數據肯定是大勢所趨,。但不是說它一下子就一步到位或包治百病,,但它的價值絕對非常大。堅持業(yè)務導向,,業(yè)務導向是初心,,不忘初心,方得始終,。從技術到工程是大數據產業(yè)化的必由之路,,這便是為什么建天合、天智的原因,。一定要將大數據工程化,,降低它的門檻,讓更多人參與進來,。中國人特別聰明,,你有機會讓他去玩,玩?zhèn)€一年半年一定可以構建起來,。因此,,天智平臺是幫助大家構建大數據的能力,。選擇一個恰當的切入點,腳踏實地開始積累是最佳的選擇,。我們每做一件事都要有較好的切入點,,而且最好每年有一個小的目標可以達成,讓它產生價值,,不斷的迭代,。謝謝! |
|