久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

 天道酬勤YXJ1 2016-04-22

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

數(shù)據(jù)倉庫在業(yè)界的定義,是數(shù)據(jù)倉庫之前BILL最早提出的,。數(shù)據(jù)倉庫的建設(shè)需要一個過程,,是一個方法論。數(shù)據(jù)倉庫建設(shè)是把企業(yè)中所有的數(shù)據(jù)整合,,加工,,分析的過程。用于解決數(shù)據(jù)經(jīng)營,管理問題,。他不像一個產(chǎn)品或者數(shù)據(jù)庫一樣,,可直接購買。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

OLTP就是我們通常說的所謂業(yè)務(wù)系統(tǒng),。它和數(shù)據(jù)倉庫是有明顯差異,,業(yè)務(wù)系統(tǒng)重在當(dāng)前數(shù)據(jù),重在是插入,,比如我們一個電商交易數(shù)據(jù)產(chǎn)生,,插入,這些數(shù)據(jù)都是放到業(yè)務(wù)系統(tǒng),。但是一般的智能推薦查詢系統(tǒng)來源都是通過數(shù)據(jù)倉庫,。可以簡單總結(jié)為:一個是面向業(yè)務(wù)記錄數(shù)據(jù),。一個是面向應(yīng)用管理決策應(yīng)用,。

另外一張圖中說明了數(shù)據(jù)倉庫與數(shù)據(jù)集市、數(shù)據(jù)挖掘的區(qū)別,,數(shù)據(jù)倉庫基礎(chǔ)來源是業(yè)務(wù)系統(tǒng),,業(yè)務(wù)系統(tǒng)通過ODS進(jìn)入數(shù)據(jù)倉庫,按主題存放,; 放到數(shù)據(jù)集市的時候,,一般是要面向具體的業(yè)務(wù)應(yīng)用主題,具體業(yè)務(wù)分析主題,,例如:商品或者庫存分析集市.

不論是數(shù)據(jù)倉庫還是數(shù)據(jù)集市,,主要區(qū)別是存放不同粒度數(shù)據(jù),但是數(shù)據(jù)挖掘和二者有很大差別,,數(shù)據(jù)挖掘也可以認(rèn)為是一個方法論,。數(shù)據(jù)挖掘是為了驗(yàn)證假設(shè),或者發(fā)現(xiàn)一些關(guān)系做的知識發(fā)現(xiàn),。例如:啤酒與尿布,,數(shù)據(jù)挖掘是數(shù)據(jù)倉庫典型的應(yīng)用方向。建數(shù)據(jù)倉庫是為了企業(yè)的分析主題,,當(dāng)然目的也可以是為了數(shù)據(jù)挖掘,。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

一般來說BI項(xiàng)目,有二個層面含義,廣義來說BI包括數(shù)據(jù)倉庫.傳統(tǒng)的BI更偏向數(shù)據(jù)展示方面。這個圖是BI項(xiàng)目各個功能與模塊.

我們從上往下看,,最上面提供數(shù)據(jù)來源,。可以把數(shù)據(jù)集市,,OLAP,CUBE,業(yè)務(wù)數(shù)據(jù),,WEB等都當(dāng)作數(shù)據(jù)源,,通過數(shù)據(jù)集成的方式再進(jìn)行處理,會通過元數(shù)據(jù)管理,。元數(shù)據(jù)為了打通BI和數(shù)據(jù)倉庫之間,,業(yè)務(wù)系統(tǒng)之間的關(guān)聯(lián)關(guān)系。

這種元數(shù)據(jù)的應(yīng)用,,一般我們也是把它做成血緣分析,,比如說統(tǒng)計(jì)口徑里面這個數(shù)據(jù)來源是哪個數(shù)據(jù)集市的字段,而這個數(shù)據(jù)集市字段又來自于哪個數(shù)據(jù)倉庫明細(xì)表的字段,,而這個明細(xì)表又來自于哪個業(yè)務(wù)系統(tǒng),,這個是通過元數(shù)據(jù)描述進(jìn)行追溯的,這個作為數(shù)據(jù)管理比較重要,。

之后在這基礎(chǔ)之上一般會建立一些可視化分析,,建報(bào)表,開發(fā)儀表盤(dashbroad),,門戶(portal),。用戶也會做些即席查詢或者報(bào)表導(dǎo)出,用戶也包括各種各樣用戶,,業(yè)務(wù)用戶,,管理用戶,IT伙伴,。

在一個數(shù)據(jù)倉庫項(xiàng)目過程中,,有三個環(huán)節(jié),有開發(fā)面,,有安全面,,有權(quán)限面,數(shù)據(jù)倉庫是企業(yè)系統(tǒng),,安全與權(quán)限還是很重要,。在開發(fā)面,一個項(xiàng)目會有元數(shù)據(jù),,報(bào)表,,表單,儀表盤,,門戶的開發(fā),,以及工作流,或者定制化,,這些都是基于數(shù)據(jù)倉庫的,。這是通常一個BI項(xiàng)目的開發(fā),。

安全性要求,哪些功能,,哪些報(bào)表,,哪些KPI,哪些角色可以看,。另一部分?jǐn)?shù)據(jù)層面的權(quán)限,,例如北京大區(qū)不能看到華東大區(qū),數(shù)據(jù)層面還有列控制,,行控制,,安全性在所有的BI項(xiàng)目或者數(shù)據(jù)倉庫項(xiàng)目中都是比較花成本的。

再來談管理權(quán)限,,管理涉及到數(shù)據(jù)質(zhì)量,,元數(shù)據(jù)管理,使用量的管理,,主要是指數(shù)據(jù)的使用量與報(bào)表的使用量,,做數(shù)據(jù)倉庫與數(shù)據(jù)項(xiàng)目中,花了大量時間整理數(shù)據(jù),,開發(fā)很多報(bào)表,,但是沒有人用或者很少人用,這是最可怕的事情,。加載與資源計(jì)劃管理主要是:硬件系統(tǒng)與負(fù)載管理,。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

這個圖是一個典型的BI項(xiàng)目,或者說數(shù)據(jù)展現(xiàn)的項(xiàng)目,,一般這樣的系統(tǒng)都是來源于數(shù)據(jù)倉庫或者建立了一個數(shù)據(jù)集市,。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

一般意義上數(shù)據(jù)倉庫項(xiàng)目有幾種類型建設(shè),先從結(jié)果倒推呈現(xiàn),,看下我們是怎么做的,。一般我們在需求分析和整個實(shí)施歷程會經(jīng)歷4個階段,需求理解,、梳理與組織,、方案設(shè)計(jì)、

實(shí)施與推廣,。在需求理解階段,,主要理解業(yè)務(wù)需求是什么樣,有沒有真實(shí)抓到痛點(diǎn)或者關(guān)鍵點(diǎn)是什么,,是否可以通過技術(shù)手段解決,,這個是在梳理過程中主要分析需求與數(shù)據(jù)基礎(chǔ)所能提供支撐的,中間是否有差距,,這樣才能進(jìn)行梳理,。

數(shù)據(jù)倉庫一般是在方案設(shè)計(jì)階段牽扯到數(shù)據(jù)模型的建模設(shè)計(jì)以及整個數(shù)據(jù)安全設(shè)計(jì),,這些會牽扯到整個數(shù)據(jù)倉庫項(xiàng)目的成與敗。其他都是從具體需求出發(fā),,例如進(jìn)行一些報(bào)表開發(fā),。也會涉及到數(shù)據(jù)倉庫實(shí)施推廣,在推廣面其實(shí)比較重要【但往往是被很多人忽略】,,因?yàn)槲覀兌际亲黾夹g(shù)活的,大家很辛苦都理解,,但在推廣面做不好的話,,實(shí)際上在企業(yè)內(nèi)部很難應(yīng)用起來【所以在做的時候一定要把項(xiàng)目的推廣同步考慮起來】。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

剛才是按流程看了下實(shí)施歷程,,我們換個角度看實(shí)施流程,,實(shí)際上實(shí)施過程分三個層面的,一個是基礎(chǔ),,當(dāng)然是我們的數(shù)據(jù)模型面向數(shù)據(jù)模型管理,,包括他的數(shù)據(jù)完整性、準(zhǔn)確性,、彈性怎么保持,。一個頂層,用戶看到的是界面,,UI設(shè)計(jì),、報(bào)表發(fā)布方式,報(bào)表門戶,,這是用戶可以看到的,。用戶進(jìn)來門戶看到的是各個業(yè)務(wù)主題,每個主題各項(xiàng)功能,,以及我們是否要做KPI分析,,常見業(yè)務(wù)型報(bào)表、操作型報(bào)表都是在這個層面,,從整體來看一個實(shí)施歷程會是這樣,。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

A:對于需求分析的過程,需求分析細(xì)節(jié)點(diǎn),,今天不會講太多,,這邊列出這幾頁主要想表達(dá)的內(nèi)容。所有想把數(shù)據(jù)倉庫好,,所有這些需求分析工作需要做好,,都是直接關(guān)系到數(shù)據(jù)倉庫具體實(shí)施過程,需求分析的意義在于我們的功夫不能白花,。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

剛才發(fā)的這張圖是經(jīng)過需求分析以后我們整理出來的第一個設(shè)計(jì)稿,。在一般的報(bào)表設(shè)計(jì)中會有表頭,、報(bào)表樣式、圖形樣式,、指標(biāo)說明,、支撐維度這幾個方面進(jìn)行設(shè)計(jì)。比如表頭主要是報(bào)表名稱,、時間,、以及各種篩選條件需要哪些排序、顯示哪些,,或者要不要清空按鈕,,確定按鈕長什么樣子。

報(bào)表樣式的圖實(shí)際是二維表,,圖表的命名各不一樣,,例如上面提到的報(bào)表很多公司叫銷售目標(biāo),也有的叫預(yù)算,,各家叫法不一樣,,按照自己的需要。

圖形樣式設(shè)計(jì)以及指標(biāo)說明統(tǒng)計(jì)口徑大家都很容易理解,,我主要想說明的是支撐維度是什么,,在這個圖的最右下角,我們把指標(biāo)所需要的支撐維度橫向都列出來了,,都是打鉤的狀態(tài),,打鉤是說明這個指標(biāo)需要這幾個維度支撐,比如說需要部門維度,、時間維度,、銷售人員、經(jīng)銷商或者產(chǎn)品維度這些打鉤的,,這些支撐維度決定了我們數(shù)據(jù)倉庫的設(shè)計(jì),。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

這里我們以客戶價值分析來舉例,數(shù)據(jù)架構(gòu)設(shè)計(jì)和表結(jié)構(gòu)設(shè)計(jì)的思路,,最基本的是每一個客戶的利潤貢獻(xiàn)度,,他對公司產(chǎn)生的收入以及成本。在建表的時候要將字段分為兩大類,,一類是指標(biāo),,比如是收入和成本,主要是數(shù)值型,;另一類是維度,,是分析的角度,比如地理位置,、客戶等級,、客戶忠誠度,。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

通過剛才的設(shè)計(jì)分析,我們基本將面向客戶價值的明細(xì)表設(shè)計(jì)完成了,,有基本明細(xì)表后可以做固定報(bào)表和自助查詢報(bào)表,,但是如果想要有更靈活的查詢,一般需要再匯總一次,,叫做面向DC(數(shù)據(jù)中心)或者面向數(shù)據(jù)集市的設(shè)計(jì),,即更高層級的匯總,可以用來做OLAP分析,、CUBE,,或者多維度的展現(xiàn)。

說一下數(shù)據(jù)倉庫存在的價值,,不管是面向客戶價值的基本明細(xì)表還是高度匯總后的設(shè)計(jì)表,都不能從業(yè)務(wù)系統(tǒng)直接簡單的查詢,,即使可用復(fù)雜的SQL實(shí)現(xiàn),,也會極大地影響業(yè)務(wù)系統(tǒng)本身的穩(wěn)定性,因?yàn)闃I(yè)務(wù)系統(tǒng)的第一任務(wù)是滿足日常業(yè)務(wù)處理,,不能因?yàn)槲覀兊牟樵冇绊懙綐I(yè)務(wù)系統(tǒng)的訂單錄入等情況,。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

下面是具體的模型設(shè)計(jì),一般在數(shù)據(jù)倉庫行業(yè),,業(yè)務(wù)模型有兩類,,一類是企業(yè)自有的數(shù)據(jù)模型,一類是行業(yè)模型,,比如金融業(yè):天睿,,銀行業(yè)、保險(xiǎn)業(yè),、制造業(yè),、醫(yī)療生命科學(xué)行業(yè),這些一般是實(shí)施顧問團(tuán)隊(duì)總結(jié)的,。但這些行業(yè)模型在中國市場運(yùn)行的不太好,,除了金融和電信稍好點(diǎn),其他行業(yè)因發(fā)展較快,、業(yè)務(wù)變化較快,,迭代較國外快很多。我不建議以自上而下的方式,、預(yù)先用一個模型將自己框住,,然后按填表似的填入各種業(yè)務(wù)數(shù)據(jù),這些看起來美好,,但是實(shí)際運(yùn)營中問題較多,。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

整個數(shù)據(jù)倉庫的規(guī)劃實(shí)施是一個長期的過程,,大體分為三個階段:規(guī)劃設(shè)計(jì)階段、模型落地階段,、優(yōu)化階段,,這是一直循環(huán)的,比如任何一個需求來了或者開發(fā)任務(wù)來了,,這個循環(huán)都要重走一遍,。前面一部分都屬于規(guī)劃設(shè)計(jì)階段,比如需求評估分析,、內(nèi)容設(shè)計(jì),、分析思路,這些都是剛?cè)胄械娜瞬惶煜さ?,而我們熟悉的主要是?shí)施階段,,從概念模型到邏輯模型到物理模型。但是現(xiàn)在很少做概念模型,,多是從邏輯模型開始,、然后是物理模型、元數(shù)據(jù)管理,。優(yōu)化部分,,包括對數(shù)部分,這樣的匯總邏輯是否合理準(zhǔn)確,,壓力,、物理模型調(diào)整、容量的規(guī)劃,,存儲哪些,、存儲多長時間。實(shí)際上,,數(shù)據(jù)倉庫主要是一系列的實(shí)施方法論,,主要是如何幫我們將業(yè)務(wù)主題的分析做好。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

在數(shù)據(jù)模型的具體設(shè)計(jì)中,,星型結(jié)構(gòu)用的較多,,但是在數(shù)據(jù)倉庫項(xiàng)目中基本也不會出現(xiàn)雪花型的數(shù)據(jù)存儲。星型已經(jīng)兼顧了靈活性和線性增長,,比如說:事實(shí)表就是中間的FACT,,,它是線性增長的,,但是維度表,,像時間維度、部門維度增長較緩慢,一般是比較靜態(tài)的,??偨Y(jié)一下,數(shù)據(jù)模型的設(shè)計(jì)原則是方便查詢,,像目前流行的tableau,、qlikview,基本已經(jīng)不分表,,將所有的維度和事實(shí)放在一張表里直接運(yùn)算,。

以我們前面的客戶價值分析為例,剛才設(shè)計(jì)的表結(jié)構(gòu),,把維表和事實(shí),,也就是維度字段與指標(biāo)字段都放到一張表,不會維度表與事實(shí)表分開存儲,,這樣會造成空間上的冗余和浪費(fèi),,但是在查詢速度與便利性方面,絕對會優(yōu)于星型與雪花型的存儲方式,。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

數(shù)據(jù)模型建好后,,就會建立一個ETL來去跑,做成一個定時任務(wù),; 像T+1,每天凌晨會跑前一天的數(shù)據(jù),,或者每隔一小時跑數(shù)據(jù),,按業(yè)務(wù)需求。把業(yè)務(wù)系統(tǒng)的數(shù)據(jù)通過ETL寫入到我們建立的數(shù)據(jù)模型中去,。為后面的BI平臺,,數(shù)據(jù)挖掘或者其它報(bào)表需求來使用這些數(shù)據(jù)。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

一個數(shù)據(jù)倉庫建設(shè)的本身大概分這些層級,。業(yè)務(wù)系統(tǒng)是企業(yè)本身就有的,,會有臨時區(qū)、歷史數(shù)據(jù)區(qū),、明細(xì)數(shù)據(jù)層,、數(shù)據(jù)集市層,這些大概就是數(shù)據(jù)倉庫基本涵蓋層面,。臨時區(qū)有的項(xiàng)目有,,有的項(xiàng)目沒有,主要牽扯到業(yè)務(wù)系統(tǒng)需不需要做臨時處理,,夜間是否可以中斷,,因?yàn)橛械氖?*24小時每秒都要跑的不能中斷的系統(tǒng)。

而歷史數(shù)據(jù)ODS層基本上是每個系統(tǒng)或者每個項(xiàng)目都會有的,它主要承擔(dān)兩種功能,一種是說它是跟業(yè)務(wù)系統(tǒng)表結(jié)構(gòu)基本上有一個一一對應(yīng)的關(guān)系,,這樣我們在對數(shù)時候,,也就是我們經(jīng)過輕度匯總、高度匯總后就可以直接跟ODS對數(shù)就可以了,,不用回頭再去找到業(yè)務(wù)系統(tǒng)去對數(shù),。ODS層的基礎(chǔ)任務(wù)層是作為數(shù)據(jù)倉庫的基礎(chǔ)來源,它是通過定時任務(wù)跟業(yè)務(wù)系統(tǒng)一一對應(yīng)的,。

明細(xì)數(shù)據(jù)層是根據(jù)ODS層匯總,、導(dǎo)入、調(diào)整來的,,這一層過程中基本會做一些數(shù)據(jù)清理,、合并、質(zhì)量校驗(yàn)這樣的一些工作,。ODS本身為了跟OLTP對應(yīng),,一般上是不做數(shù)據(jù)清洗的,可能會做一些簡單的,,但基本上清洗工作或者數(shù)據(jù)質(zhì)量校驗(yàn),,一些基礎(chǔ)的合并匯總都會在數(shù)據(jù)明細(xì)層完成。

對于數(shù)據(jù)集市層輕度匯總,、高度匯總,,典型的舉例可以回顧一下剛才我們所用客戶價值分析里面的兩張表,一個是客戶價值分析明細(xì)表實(shí)際就是輕度匯總數(shù)據(jù),,面向DC的高度匯總數(shù)據(jù),,就是我們高度匯總數(shù)據(jù)。這樣一個數(shù)據(jù)倉庫的完整流程大概類似于這樣,。

可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)
可視化:李昊:談?wù)剶?shù)據(jù)倉庫建設(shè)心得(上)(下)

最后簡單介紹兩個項(xiàng)目案例,,一個是金龍汽車,做大客車的,;一個是麥考林,,是做女性電商的。金龍汽車這邊有一個比較好玩的是,,用一個案例舉例,,客戶訂單及時交付率或者是訂單及時響應(yīng)率,這樣的一個指標(biāo)當(dāng)時我們把它分解成十幾個指標(biāo),,真正背后應(yīng)用場景是這樣的,,他們的客車是從訂單到交付的中間環(huán)節(jié)特別多。

訂單從意向訂單到確認(rèn)了以后,,設(shè)計(jì)部門會要確認(rèn)一下,,因?yàn)橄襁@種客車每一臺發(fā)動機(jī)、輪胎、車廂都是個性化定制的,,所以會要設(shè)計(jì)部門涉及確認(rèn),,確認(rèn)時間影響了整個訂單及時率。從確認(rèn)以后到訂單簽單,、合同簽訂以及到設(shè)計(jì)完成,、生產(chǎn)完成、質(zhì)量檢測完成,、入庫完成以及交付完成每一個環(huán)節(jié)都會有一個指標(biāo)分析在做,,中間甚至入庫、或者中間生產(chǎn)過程都會四小時指標(biāo),,每一個指標(biāo)都有一個責(zé)任人,,每一個責(zé)任人都要對這個指標(biāo)負(fù)責(zé)的。

因?yàn)檫@次分享對象,,很多是做數(shù)據(jù)挖掘,,數(shù)據(jù)分析的同學(xué)。所以對于數(shù)據(jù)倉庫的理解可能不是那么多,,希望通過今天分享有所收獲,。而且對于開發(fā)工程師來說,一般數(shù)據(jù)倉庫的項(xiàng)目,,真正深入做完之后都會或多或少對你所做的業(yè)務(wù)理解的會比較深了,。今天的分享大概會是這樣,我先把前面的提問簡單回答一下,。

Q:

1. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘有什么聯(lián)系和區(qū)別,?

2. 數(shù)據(jù)倉庫與數(shù)據(jù)庫有什么區(qū)別?

3. 那數(shù)據(jù)集市與數(shù)據(jù)庫,、數(shù)據(jù)倉庫 有什么區(qū)別?

這三個問題基本算一類問題,,我統(tǒng)一回答下,。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系,數(shù)據(jù)倉庫是一個整體數(shù)據(jù)存儲邏輯,,數(shù)據(jù)挖掘是一個具體的知識驗(yàn)證,,或者知識設(shè)想的時候做的一個具體工作,它發(fā)現(xiàn)的結(jié)果一般會存儲在企業(yè)的知識庫里,。

時間關(guān)系,,其他幾個問題我會后續(xù)更新到網(wǎng)站上面,敬請期待,。謝謝各位,,共同學(xué)習(xí)。

來源:中國統(tǒng)計(jì)網(wǎng)

鏈接:http://www./cms/article/articledetails?articleid=1661

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多