久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

企業(yè)如何選擇數(shù)據(jù)分析架構(gòu),?——談?wù)?種架構(gòu)的利弊

 博容書屋 2018-07-21

作者:燕飛

Kyligence 大數(shù)據(jù)老司機,,擁有超過15年的大數(shù)據(jù)/數(shù)據(jù)倉庫領(lǐng)域從業(yè)經(jīng)驗,對大數(shù)據(jù)/數(shù)據(jù)倉庫的建設(shè)規(guī)劃,、架構(gòu)設(shè)計,、技術(shù)體系、方法論及主流廠商的產(chǎn)品和解決方案,,均有深入的研究和實踐,。

在之前的文章《講透大數(shù)據(jù),我只需要一頓飯》里,,我用做飯這件大家身邊的事情來介紹了大數(shù)據(jù)及數(shù)據(jù)分析工程,,應(yīng)該能夠讓大家對數(shù)據(jù)分析這件看上去很專業(yè)的行業(yè)有了一定的認(rèn)識,很高興的是文章也得到了很多數(shù)據(jù)圈專業(yè)人士的共鳴和互動,。

這篇文章我們會順著之前的思路,,稍微深入一點,聊聊數(shù)據(jù)分析架構(gòu),。

什么叫數(shù)據(jù)分析架構(gòu),,說的通俗點,其實就是數(shù)據(jù)采集(買菜),、數(shù)據(jù)建模(配菜),、數(shù)據(jù)加工(炒菜)、數(shù)據(jù)分析(吃菜)這些數(shù)據(jù)分析流程應(yīng)該如何劃分功能模塊(專業(yè)化分工),,才能方便靈活,、規(guī)模化,、最大化的滿足廣大數(shù)據(jù)消費者(吃貨)的數(shù)據(jù)分析(美食)需求,。

就好比吃飯這件事,我們可以自己在廚房里做,,去飯店吃,,或者叫外賣等不同方式,這幾種吃飯方式是人類生活方式的一種進化,,更是通過不同的專業(yè)化分工滿足了吃貨們不同時期,、不同層次的需求。

而數(shù)據(jù)分析作為一件相對來說比吃飯更專業(yè)的事情,,也同樣需要通過流程設(shè)計和專業(yè)化分工來滿足更廣泛的數(shù)據(jù)消費需求,,我們通常叫做架構(gòu)設(shè)計,。

閑話少說,先直接上圖,,我把迄今為止的數(shù)據(jù)分析架構(gòu)的歷史簡單分為三個階段:

企業(yè)如何選擇數(shù)據(jù)分析架構(gòu),?——談?wù)?種架構(gòu)的利弊

數(shù)據(jù)分析1.0階段:業(yè)務(wù)報表

這個階段是數(shù)據(jù)分析的初始階段。隨著數(shù)據(jù)庫技術(shù)的出現(xiàn),,企業(yè)紛紛開始信息化建設(shè),,業(yè)務(wù)流程信息化沉淀了大量數(shù)字化的業(yè)務(wù)數(shù)據(jù),而數(shù)據(jù)分析的需求其實大家一直都有,,既然有了數(shù)據(jù)沉淀,,通過這些數(shù)據(jù)進行報表統(tǒng)計和數(shù)據(jù)分析的需求自然就出現(xiàn)了。

1.0階段,,數(shù)據(jù)分析開始萌芽,,數(shù)據(jù)加工、報表統(tǒng)計都在業(yè)務(wù)系統(tǒng)里直接進行的(數(shù)據(jù)產(chǎn)生和數(shù)據(jù)分析都在同一個系統(tǒng)里進行,,所以這個時候還沒有數(shù)據(jù)采集一說),。這就好比自己在家里做飯吃,可以想象,,由于食材(數(shù)據(jù)),、廚房(數(shù)據(jù)庫資源)、手藝(專業(yè)能力)等方面的限制,,吃飯的體驗不會太好,,主要滿足吃飽(報表統(tǒng)計)的需求。

當(dāng)然現(xiàn)代業(yè)務(wù)報表有了很大的改變,,比如帆軟finereport一類的報表工具,,可以跨業(yè)務(wù)系統(tǒng)、跨數(shù)據(jù)庫取數(shù)做報表做分析,,甚至對接數(shù)據(jù)集市,、數(shù)據(jù)倉庫(接下來我正要說)。

企業(yè)如何選擇數(shù)據(jù)分析架構(gòu),?——談?wù)?種架構(gòu)的利弊

finereport制作的dashboard

數(shù)據(jù)分析2.0階段:數(shù)據(jù)集市

由于在業(yè)務(wù)系統(tǒng)里直接做數(shù)據(jù)分析體驗不好,,還可能會影響正常的業(yè)務(wù)流程,而企業(yè)數(shù)據(jù)分析的需求越來越完善,,業(yè)務(wù)人員自然而然的希望在業(yè)務(wù)系統(tǒng)之外專門搭建一個用于數(shù)據(jù)分析的獨立新系統(tǒng),,既能用于支持?jǐn)?shù)據(jù)分析,,又可以不影響正常的業(yè)務(wù)流程,,于是,數(shù)據(jù)集市應(yīng)運而生,。

從數(shù)據(jù)集市開始,,數(shù)據(jù)分析開始作為一個正式的行業(yè)出現(xiàn),,出現(xiàn)了從業(yè)務(wù)系統(tǒng)到數(shù)據(jù)集市的數(shù)據(jù)采集和傳輸(買菜)需求,另外,,數(shù)據(jù)加工,,數(shù)據(jù)分析等專業(yè)崗位和從業(yè)人員開始出現(xiàn)。

這就好比飯店的出現(xiàn)使得在吃飯這件事上出現(xiàn)了專業(yè)化分工,,同時也開創(chuàng)了餐飲行業(yè),。飯店里有人專門買菜,配菜,,炒菜,,大廚開始出現(xiàn),這一方式很好的滿足了廣大吃貨在省事,、美食選擇,、口感方面的需求,體驗自然是棒棒的,。

數(shù)據(jù)分析2.5階段:數(shù)據(jù)倉庫

隨著企業(yè)數(shù)據(jù)分析活動如火如荼的開展,,數(shù)據(jù)集市開始越建越多,同樣的數(shù)據(jù)加工邏輯,、指標(biāo)等難免在分散的數(shù)據(jù)集市里被重復(fù)計算,,浪費計算資源不說,經(jīng)常就會出現(xiàn)數(shù)據(jù)統(tǒng)計口徑不一致的問題,,讓領(lǐng)導(dǎo)們不知道自己該相信哪個數(shù)據(jù),。

這就好比飯店開的多了,同樣的菜品在不同的飯店里難免會雷同,,但是同一個“魚香肉絲”不同飯店做出來的的口味難免會不一樣,,吃貨們肯定會迷惑哪家才是最正宗的,也希望知道哪個才是最好吃的,。

這個時候,,數(shù)據(jù)倉庫概念應(yīng)運而生。

數(shù)據(jù)倉庫為了解決數(shù)據(jù)集市分散建設(shè)帶來的數(shù)據(jù)不一致,、重復(fù)計算浪費資源等問題,,提倡以一個集中式平臺來統(tǒng)一進行數(shù)據(jù)采集、數(shù)據(jù)清洗,、數(shù)據(jù)加工,,并且向外部提供各種數(shù)據(jù)分析產(chǎn)品和服務(wù)。

數(shù)據(jù)倉庫算是開創(chuàng)了數(shù)據(jù)分析史真正意義上的一個時代,,對數(shù)據(jù)分析行業(yè)的發(fā)展和成熟有著不可磨滅的貢獻:

  • 誕生了專門的數(shù)據(jù)倉庫技術(shù)(MPP,,massively parallel processing)以及一大批相關(guān)的專業(yè)廠商,來解決大量數(shù)據(jù)需要集中進行存儲,、加工和分析的技術(shù)難題
  • 發(fā)展了體系化的數(shù)據(jù)倉庫系統(tǒng)建設(shè)方法論和最佳實踐
  • 培養(yǎng)了一大批數(shù)據(jù)倉庫從業(yè)人員(DWer)

既然,,數(shù)據(jù)倉庫時代在數(shù)據(jù)分析史上有著如此重要的地位,,并且在今天仍然有著深遠(yuǎn)的影響,那么,,問題來了,。

為什么數(shù)據(jù)倉庫階段只是2.5而不是3.0呢?

首先,,從架構(gòu)的角度來看,,個人認(rèn)為數(shù)據(jù)倉庫相對于數(shù)據(jù)集市并沒有本質(zhì)的區(qū)別,這個從上面的“數(shù)據(jù)分析架構(gòu)發(fā)展的三個階段”圖中也能看出來,,數(shù)據(jù)集市和數(shù)據(jù)倉庫的架構(gòu)是非常相似的,,數(shù)據(jù)倉庫可以簡單的認(rèn)為是一個超級數(shù)據(jù)集市,區(qū)別只在于規(guī)模,,這就好比為了規(guī)范菜品質(zhì)量,,讓大家能夠一站式吃到各種五花八門的菜品,我們開了個超級大飯店,,雖然這個飯店很大,,但仍然是個飯店。

其次,,數(shù)據(jù)倉庫以解決數(shù)據(jù)集市數(shù)據(jù)分散,、數(shù)據(jù)口徑不統(tǒng)一為目標(biāo),提出了打造企業(yè)級統(tǒng)一業(yè)務(wù)視圖的愿景(The single view of business ),,其建設(shè)方法強調(diào)數(shù)據(jù)采集規(guī)范化,,數(shù)據(jù)管理標(biāo)準(zhǔn)化以及數(shù)據(jù)加工流程化,這種建設(shè)思路從數(shù)據(jù)管理的角度來說是非常有價值的,,產(chǎn)出了很多成熟的數(shù)據(jù)管理規(guī)范和數(shù)據(jù)治理方法論,。

但......是......

從數(shù)據(jù)分析的角度來看,雖然數(shù)倉系統(tǒng)的建設(shè)的確一定程度上滿足了業(yè)務(wù)部門的數(shù)據(jù)分析需求,,然而,,傳統(tǒng)數(shù)據(jù)倉庫建設(shè)方法在靈活的支持各種數(shù)據(jù)需求、敏捷的響應(yīng)分析請求,、普及企業(yè)數(shù)據(jù)驅(qū)動的分析文化方面,,卻始終心有余而力不足

造成這種情況,,雖然有著技術(shù),、成本方面的原因,但架構(gòu)耦合性高,、建設(shè)方法過于僵化也是重要原因,,比如:

  • 數(shù)據(jù)倉庫集中式的平臺架構(gòu)方式,將數(shù)據(jù)加工和數(shù)據(jù)服務(wù)都通過一個平臺來支持,必然會造成資源競爭,,無法兼顧,。這就好比一個飯店里,,后廚占得地方太大,,堂食的空間就小了,能夠同時響應(yīng)的消費者數(shù)量必然受到限制,。
  • 數(shù)據(jù)倉庫的數(shù)據(jù)加工是層層遞進,、環(huán)環(huán)相扣的方式,有著嚴(yán)格的加工流程,,并且涉及到多個角色的互相配合,,任何一個數(shù)據(jù)分析需求,從需求的提出到最終實現(xiàn),,快的要好幾周,,慢的要好幾個月,自然是跟不上業(yè)務(wù)的快速變化,??蛻舻搅孙埖辏灰窍朦c個菜單上沒有的菜品,,飯店都需要把買菜,、洗菜、配菜,、炒菜這些環(huán)節(jié)都走一遍,,上菜起碼得等2、3個小時甚至是第二天才有,,沒有哪個消費者能忍受的了吧,。
  • 很多數(shù)倉采用數(shù)據(jù)驅(qū)動的建設(shè)方式,不管是不是需要的數(shù)據(jù),,先往倉庫里放,,總覺得以后會用的上,導(dǎo)致倉庫規(guī)模極速膨脹,,并且存在大量無產(chǎn)出數(shù)據(jù),,運維成本和難度非常大。就好像開個飯店不管客人喜歡吃什么,,先把能買到的菜都買來,,拋開成本不說,光是運輸,、清洗,、倉儲的工作量就能把人給耗死。
  • 數(shù)倉建設(shè)有著成熟完善的數(shù)據(jù)治理配套理論,,什么元數(shù)據(jù)管理,、數(shù)據(jù)標(biāo)準(zhǔn)管理,、數(shù)據(jù)質(zhì)量管理等等,但是這些理論的落地往往最走變成了一紙規(guī)范,,卻沒法和數(shù)據(jù)倉庫建設(shè)過程有機的結(jié)合,,最后變成了你定你的規(guī)范,我建我的系統(tǒng),,或者是我先建系統(tǒng),,你再定規(guī)范,隨著系統(tǒng)越來越龐大,,沒人能夠很清楚的知道倉庫里到底有什么,,整個數(shù)倉自然就變的難以管理和使用。

于是,,雖然數(shù)據(jù)倉庫進行了數(shù)十年的發(fā)展,,很多企業(yè)也是花了大量的人力和成本來進行數(shù)據(jù)倉庫系統(tǒng)的建設(shè),但缺乏敏捷性的平臺建設(shè)方式,,自主選擇少,,服務(wù)響應(yīng)慢,各類數(shù)據(jù)消費者的滿意度始終都不高,。

因此,,慢慢的,很多企業(yè)中的數(shù)據(jù)倉庫系統(tǒng),,開始變得有點古代皇宮御膳房的味道,,匯集各種食材,對于食材,、流程,、樣式有著嚴(yán)格的加工規(guī)范,充分保證了菜品的質(zhì)量和水準(zhǔn),,但是其上菜速度,、翻臺率以及能夠服務(wù)的食客數(shù)量都受到了極大的限制,所以只有能力為特定群體(皇家)提供各種特定的菜品,。

企業(yè)如何選擇數(shù)據(jù)分析架構(gòu),?——談?wù)?種架構(gòu)的利弊

所以,雖然數(shù)據(jù)倉庫對于數(shù)據(jù)存儲,、數(shù)據(jù)采集,、數(shù)據(jù)加工、數(shù)據(jù)治理這些方面發(fā)展了成熟的方法論(相當(dāng)于專業(yè)的飯店后廚管理理論),,但對于滿足各種靈活,、敏捷、普及的數(shù)據(jù)分析需求,其作用一直是被詬病的,。

而進入到今天的大數(shù)據(jù)時代,,這個弊病就更加的明顯。

大數(shù)據(jù)浪潮帶來的挑戰(zhàn)不僅僅是數(shù)據(jù)量的爆發(fā)式增長,,更重要的是把個人,、企業(yè)、政府對數(shù)據(jù),、數(shù)據(jù)分析的重視性提升到了前所未有的高度,,整個社會對數(shù)據(jù)分析的需求也呈現(xiàn)爆發(fā)式的增長,。所以,,Gartner提出了平民數(shù)據(jù)科學(xué)家(citizen data scientist)的概念,更有廠商和業(yè)內(nèi)大牛喊出了“人人都是數(shù)據(jù)分析師”的口號,。

企業(yè)如何滿足成千上萬的內(nèi)部員工對于數(shù)據(jù)分析的需求,?企業(yè)如何滿足千萬級以上的外部客戶對于數(shù)據(jù)分析的需求?政府如何滿足上億的社會大眾對于數(shù)據(jù)分析的需求,?這成了大數(shù)據(jù)時代的數(shù)據(jù)架構(gòu)師們需要去回答的問題,。

可以說,用戶日益增長的數(shù)據(jù)分析需求與落后的數(shù)據(jù)服務(wù)能力之間的矛盾已經(jīng)成為大數(shù)據(jù)時代的主要矛盾,。

所以,,數(shù)據(jù)倉庫強調(diào)數(shù)據(jù)加工流程而忽視數(shù)據(jù)服務(wù)效率,過于嚴(yán)苛,、繁瑣的建設(shè)方法,,數(shù)據(jù)開發(fā)與數(shù)據(jù)治理脫節(jié)的問題,使得其難以快速進行規(guī)?;瘮U展,,也就無法應(yīng)對爆發(fā)式的數(shù)據(jù)分析和數(shù)據(jù)服務(wù)需求,拋開技術(shù),、成本上的限制不說,,傳統(tǒng)數(shù)倉的建設(shè)方法論顯然也是無法解決大數(shù)據(jù)時代的主要矛盾的。

那,,大數(shù)據(jù)時代,,大數(shù)據(jù)分析架構(gòu)的出路在哪呢?什么樣的數(shù)據(jù)平臺建設(shè)方法才是最有效的,?是否可以在數(shù)據(jù)倉庫成熟的建設(shè)方法論上進行改造來應(yīng)對爆發(fā)式的數(shù)據(jù)分析需求,?

大家可以看《基于hadoop架構(gòu)的企業(yè)數(shù)字化轉(zhuǎn)型方案!

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多