在之前的文章《講透大數(shù)據(jù),我只需要一頓飯》里,,我用做飯這件大家身邊的事情來介紹了大數(shù)據(jù)及數(shù)據(jù)分析工程,,應(yīng)該能夠讓大家對數(shù)據(jù)分析這件看上去很專業(yè)的行業(yè)有了一定的認(rèn)識,很高興的是文章也得到了很多數(shù)據(jù)圈專業(yè)人士的共鳴和互動,。 這篇文章我們會順著之前的思路,,稍微深入一點,聊聊數(shù)據(jù)分析架構(gòu),。 什么叫數(shù)據(jù)分析架構(gòu),,說的通俗點,其實就是數(shù)據(jù)采集(買菜),、數(shù)據(jù)建模(配菜),、數(shù)據(jù)加工(炒菜)、數(shù)據(jù)分析(吃菜)這些數(shù)據(jù)分析流程應(yīng)該如何劃分功能模塊(專業(yè)化分工),,才能方便靈活,、規(guī)模化,、最大化的滿足廣大數(shù)據(jù)消費者(吃貨)的數(shù)據(jù)分析(美食)需求,。 就好比吃飯這件事,我們可以自己在廚房里做,,去飯店吃,,或者叫外賣等不同方式,這幾種吃飯方式是人類生活方式的一種進化,,更是通過不同的專業(yè)化分工滿足了吃貨們不同時期,、不同層次的需求。 而數(shù)據(jù)分析作為一件相對來說比吃飯更專業(yè)的事情,,也同樣需要通過流程設(shè)計和專業(yè)化分工來滿足更廣泛的數(shù)據(jù)消費需求,,我們通常叫做架構(gòu)設(shè)計,。 閑話少說,先直接上圖,,我把迄今為止的數(shù)據(jù)分析架構(gòu)的歷史簡單分為三個階段: 數(shù)據(jù)分析1.0階段:業(yè)務(wù)報表這個階段是數(shù)據(jù)分析的初始階段。隨著數(shù)據(jù)庫技術(shù)的出現(xiàn),,企業(yè)紛紛開始信息化建設(shè),,業(yè)務(wù)流程信息化沉淀了大量數(shù)字化的業(yè)務(wù)數(shù)據(jù),而數(shù)據(jù)分析的需求其實大家一直都有,,既然有了數(shù)據(jù)沉淀,,通過這些數(shù)據(jù)進行報表統(tǒng)計和數(shù)據(jù)分析的需求自然就出現(xiàn)了。 1.0階段,,數(shù)據(jù)分析開始萌芽,,數(shù)據(jù)加工、報表統(tǒng)計都在業(yè)務(wù)系統(tǒng)里直接進行的(數(shù)據(jù)產(chǎn)生和數(shù)據(jù)分析都在同一個系統(tǒng)里進行,,所以這個時候還沒有數(shù)據(jù)采集一說),。這就好比自己在家里做飯吃,可以想象,,由于食材(數(shù)據(jù)),、廚房(數(shù)據(jù)庫資源)、手藝(專業(yè)能力)等方面的限制,,吃飯的體驗不會太好,,主要滿足吃飽(報表統(tǒng)計)的需求。 當(dāng)然現(xiàn)代業(yè)務(wù)報表有了很大的改變,,比如帆軟finereport一類的報表工具,,可以跨業(yè)務(wù)系統(tǒng)、跨數(shù)據(jù)庫取數(shù)做報表做分析,,甚至對接數(shù)據(jù)集市,、數(shù)據(jù)倉庫(接下來我正要說)。 finereport制作的dashboard 數(shù)據(jù)分析2.0階段:數(shù)據(jù)集市由于在業(yè)務(wù)系統(tǒng)里直接做數(shù)據(jù)分析體驗不好,,還可能會影響正常的業(yè)務(wù)流程,而企業(yè)數(shù)據(jù)分析的需求越來越完善,,業(yè)務(wù)人員自然而然的希望在業(yè)務(wù)系統(tǒng)之外專門搭建一個用于數(shù)據(jù)分析的獨立新系統(tǒng),,既能用于支持?jǐn)?shù)據(jù)分析,,又可以不影響正常的業(yè)務(wù)流程,,于是,數(shù)據(jù)集市應(yīng)運而生,。 從數(shù)據(jù)集市開始,,數(shù)據(jù)分析開始作為一個正式的行業(yè)出現(xiàn),,出現(xiàn)了從業(yè)務(wù)系統(tǒng)到數(shù)據(jù)集市的數(shù)據(jù)采集和傳輸(買菜)需求,另外,,數(shù)據(jù)加工,,數(shù)據(jù)分析等專業(yè)崗位和從業(yè)人員開始出現(xiàn)。 這就好比飯店的出現(xiàn)使得在吃飯這件事上出現(xiàn)了專業(yè)化分工,,同時也開創(chuàng)了餐飲行業(yè),。飯店里有人專門買菜,配菜,,炒菜,,大廚開始出現(xiàn),這一方式很好的滿足了廣大吃貨在省事,、美食選擇,、口感方面的需求,體驗自然是棒棒的,。 數(shù)據(jù)分析2.5階段:數(shù)據(jù)倉庫隨著企業(yè)數(shù)據(jù)分析活動如火如荼的開展,,數(shù)據(jù)集市開始越建越多,同樣的數(shù)據(jù)加工邏輯,、指標(biāo)等難免在分散的數(shù)據(jù)集市里被重復(fù)計算,,浪費計算資源不說,經(jīng)常就會出現(xiàn)數(shù)據(jù)統(tǒng)計口徑不一致的問題,,讓領(lǐng)導(dǎo)們不知道自己該相信哪個數(shù)據(jù),。 這就好比飯店開的多了,同樣的菜品在不同的飯店里難免會雷同,,但是同一個“魚香肉絲”不同飯店做出來的的口味難免會不一樣,,吃貨們肯定會迷惑哪家才是最正宗的,也希望知道哪個才是最好吃的,。 這個時候,,數(shù)據(jù)倉庫概念應(yīng)運而生。 數(shù)據(jù)倉庫為了解決數(shù)據(jù)集市分散建設(shè)帶來的數(shù)據(jù)不一致,、重復(fù)計算浪費資源等問題,,提倡以一個集中式平臺來統(tǒng)一進行數(shù)據(jù)采集、數(shù)據(jù)清洗,、數(shù)據(jù)加工,,并且向外部提供各種數(shù)據(jù)分析產(chǎn)品和服務(wù)。 數(shù)據(jù)倉庫算是開創(chuàng)了數(shù)據(jù)分析史真正意義上的一個時代,,對數(shù)據(jù)分析行業(yè)的發(fā)展和成熟有著不可磨滅的貢獻:
既然,,數(shù)據(jù)倉庫時代在數(shù)據(jù)分析史上有著如此重要的地位,,并且在今天仍然有著深遠(yuǎn)的影響,那么,,問題來了,。 為什么數(shù)據(jù)倉庫階段只是2.5而不是3.0呢?首先,,從架構(gòu)的角度來看,,個人認(rèn)為數(shù)據(jù)倉庫相對于數(shù)據(jù)集市并沒有本質(zhì)的區(qū)別,這個從上面的“數(shù)據(jù)分析架構(gòu)發(fā)展的三個階段”圖中也能看出來,,數(shù)據(jù)集市和數(shù)據(jù)倉庫的架構(gòu)是非常相似的,,數(shù)據(jù)倉庫可以簡單的認(rèn)為是一個超級數(shù)據(jù)集市,區(qū)別只在于規(guī)模,,這就好比為了規(guī)范菜品質(zhì)量,,讓大家能夠一站式吃到各種五花八門的菜品,我們開了個超級大飯店,,雖然這個飯店很大,,但仍然是個飯店。 其次,,數(shù)據(jù)倉庫以解決數(shù)據(jù)集市數(shù)據(jù)分散,、數(shù)據(jù)口徑不統(tǒng)一為目標(biāo),提出了打造企業(yè)級統(tǒng)一業(yè)務(wù)視圖的愿景(The single view of business ),,其建設(shè)方法強調(diào)數(shù)據(jù)采集規(guī)范化,,數(shù)據(jù)管理標(biāo)準(zhǔn)化以及數(shù)據(jù)加工流程化,這種建設(shè)思路從數(shù)據(jù)管理的角度來說是非常有價值的,,產(chǎn)出了很多成熟的數(shù)據(jù)管理規(guī)范和數(shù)據(jù)治理方法論,。 但......是...... 從數(shù)據(jù)分析的角度來看,雖然數(shù)倉系統(tǒng)的建設(shè)的確一定程度上滿足了業(yè)務(wù)部門的數(shù)據(jù)分析需求,,然而,,傳統(tǒng)數(shù)據(jù)倉庫建設(shè)方法在靈活的支持各種數(shù)據(jù)需求、敏捷的響應(yīng)分析請求,、普及企業(yè)數(shù)據(jù)驅(qū)動的分析文化方面,,卻始終心有余而力不足。 造成這種情況,,雖然有著技術(shù),、成本方面的原因,但架構(gòu)耦合性高,、建設(shè)方法過于僵化也是重要原因,,比如:
于是,,雖然數(shù)據(jù)倉庫進行了數(shù)十年的發(fā)展,,很多企業(yè)也是花了大量的人力和成本來進行數(shù)據(jù)倉庫系統(tǒng)的建設(shè),但缺乏敏捷性的平臺建設(shè)方式,,自主選擇少,,服務(wù)響應(yīng)慢,各類數(shù)據(jù)消費者的滿意度始終都不高,。 因此,,慢慢的,很多企業(yè)中的數(shù)據(jù)倉庫系統(tǒng),,開始變得有點古代皇宮御膳房的味道,,匯集各種食材,對于食材,、流程,、樣式有著嚴(yán)格的加工規(guī)范,充分保證了菜品的質(zhì)量和水準(zhǔn),,但是其上菜速度,、翻臺率以及能夠服務(wù)的食客數(shù)量都受到了極大的限制,所以只有能力為特定群體(皇家)提供各種特定的菜品,。 所以,雖然數(shù)據(jù)倉庫對于數(shù)據(jù)存儲,、數(shù)據(jù)采集,、數(shù)據(jù)加工、數(shù)據(jù)治理這些方面發(fā)展了成熟的方法論(相當(dāng)于專業(yè)的飯店后廚管理理論),,但對于滿足各種靈活,、敏捷、普及的數(shù)據(jù)分析需求,其作用一直是被詬病的,。 而進入到今天的大數(shù)據(jù)時代,,這個弊病就更加的明顯。 大數(shù)據(jù)浪潮帶來的挑戰(zhàn)不僅僅是數(shù)據(jù)量的爆發(fā)式增長,,更重要的是把個人,、企業(yè)、政府對數(shù)據(jù),、數(shù)據(jù)分析的重視性提升到了前所未有的高度,,整個社會對數(shù)據(jù)分析的需求也呈現(xiàn)爆發(fā)式的增長,。所以,,Gartner提出了平民數(shù)據(jù)科學(xué)家(citizen data scientist)的概念,更有廠商和業(yè)內(nèi)大牛喊出了“人人都是數(shù)據(jù)分析師”的口號,。 企業(yè)如何滿足成千上萬的內(nèi)部員工對于數(shù)據(jù)分析的需求,?企業(yè)如何滿足千萬級以上的外部客戶對于數(shù)據(jù)分析的需求?政府如何滿足上億的社會大眾對于數(shù)據(jù)分析的需求,?這成了大數(shù)據(jù)時代的數(shù)據(jù)架構(gòu)師們需要去回答的問題,。 可以說,用戶日益增長的數(shù)據(jù)分析需求與落后的數(shù)據(jù)服務(wù)能力之間的矛盾已經(jīng)成為大數(shù)據(jù)時代的主要矛盾,。 所以,,數(shù)據(jù)倉庫強調(diào)數(shù)據(jù)加工流程而忽視數(shù)據(jù)服務(wù)效率,過于嚴(yán)苛,、繁瑣的建設(shè)方法,,數(shù)據(jù)開發(fā)與數(shù)據(jù)治理脫節(jié)的問題,使得其難以快速進行規(guī)?;瘮U展,,也就無法應(yīng)對爆發(fā)式的數(shù)據(jù)分析和數(shù)據(jù)服務(wù)需求,拋開技術(shù),、成本上的限制不說,,傳統(tǒng)數(shù)倉的建設(shè)方法論顯然也是無法解決大數(shù)據(jù)時代的主要矛盾的。 那,,大數(shù)據(jù)時代,,大數(shù)據(jù)分析架構(gòu)的出路在哪呢?什么樣的數(shù)據(jù)平臺建設(shè)方法才是最有效的,?是否可以在數(shù)據(jù)倉庫成熟的建設(shè)方法論上進行改造來應(yīng)對爆發(fā)式的數(shù)據(jù)分析需求,? |
|
來自: 博容書屋 > 《商業(yè)BI》