久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

yahoo數(shù)據(jù)倉庫介紹

 wlscut 2011-01-22

1. Yahoo數(shù)據(jù)倉庫的整體架構(gòu)

  Yahoo數(shù)據(jù)倉庫在基礎(chǔ)架構(gòu)上由hadoop集群和Oracle集群組成,,hadoop集群是一個計算平臺,完成所有ETL數(shù)據(jù)處理過程,;Oracle集群只是一個查詢環(huán)境,。

    數(shù)據(jù)通過Data highway從源系統(tǒng)加載進入數(shù)據(jù)倉庫的ODS層,ODS層數(shù)據(jù)保持與源系統(tǒng)數(shù)據(jù)結(jié)構(gòu)一樣,。EDW數(shù)據(jù)層并沒有嚴(yán)格意義的數(shù)據(jù)層次的邏輯細(xì)分,,它可能有多層的ETL加工過程,;多層的數(shù)據(jù)存儲,。這一個層數(shù)據(jù)主要采用維度建模的方法,根據(jù)應(yīng)用需求建立數(shù)據(jù)模型,。數(shù)據(jù)采用列式存儲的數(shù)據(jù)結(jié)構(gòu)存儲,。

    數(shù)據(jù)經(jīng)過加工處理完成后,數(shù)據(jù)將會同步到Oracle的集群中用做數(shù)據(jù)查詢,。Yahoo用Oracle做查詢環(huán)境,,他們的大量采用了基于時間RANGE分區(qū)和HASH子分區(qū)的方式來提升查詢響應(yīng)性能(類似與Greenplum的方式)。數(shù)據(jù)采用了壓縮技術(shù),,同時基于壓縮和讀取的方式上ORACLE官方為他們定制了一些改進,,從而獲取更好的讀取IO和壓縮能力。

    MSTR報表工具連接ORALCE完成大部分報表查詢功能,,同時,,如果要查詢最明細(xì)的數(shù)據(jù),工具會連接到HADOOP集群上,,通過創(chuàng)建一些臨時表來滿足查詢功能,。

    同時,Yahoo的倉庫配備了一個功能強大的元數(shù)據(jù)管理系統(tǒng),,他們的元數(shù)據(jù)是通過SQL解析,,直接將ETL mapping的元數(shù)據(jù)解析進入元數(shù)據(jù)庫,,做到了字段級別的MAPPING,。同時他們的PM會維護最新的業(yè)務(wù)元數(shù)據(jù)(業(yè)務(wù)規(guī)則,,指標(biāo)定義)進入的元數(shù)據(jù)庫系統(tǒng),。

 

2.  Yahoo數(shù)據(jù)倉庫建模方法

Yahoo數(shù)據(jù)倉庫建?;旧喜捎镁S度建模的思想,他們強調(diào)一致的維度在保持?jǐn)?shù)據(jù)倉庫模型的一致性上的作用,。他們會花一定的時間去識別每個新進入倉庫的數(shù)據(jù)表,并了解它的業(yè)務(wù)規(guī)則和數(shù)據(jù)屬性,,由數(shù)據(jù)架構(gòu)師完成對數(shù)據(jù)整合的設(shè)計工作,。

Yahoo也建立一些稀疏的寬表,,它的基于每個日志訪問記錄表的寬表就有上千個字段。

 3 . Yahoo數(shù)據(jù)倉庫的團隊成員構(gòu)成

Yahoo團隊主要由DHW配置人員,ETL開發(fā)人員,、數(shù)據(jù)架構(gòu)師,、BI分析人員和PM人員組成。他們介紹他們團隊大概有30個人,,應(yīng)該只有一個PM而且投入也是50%,從這看來他們的應(yīng)用需求應(yīng)該比我們B2B少很多,。

 

4. Data Architect的職責(zé)

數(shù)據(jù)架構(gòu)師基本上負(fù)責(zé)整個全局?jǐn)?shù)據(jù)倉庫的模型,,表的設(shè)計。數(shù)據(jù)架構(gòu)師對掌控整個倉庫的表結(jié)構(gòu),。同時,,Yahoo經(jīng)常從外面收購不同的公司,,很大一個職責(zé)和任務(wù)是需要整合新的據(jù)源進入數(shù)據(jù)倉庫的模型中,。

 

5. Yahoo實時倉庫的現(xiàn)狀

Yahoo的實時倉庫應(yīng)用較少,,應(yīng)用點就是廣告的結(jié)算使用,,按時間窗口,,采用Oracle的LogMiner捕獲準(zhǔn)實時變化數(shù)據(jù),通過事件觸發(fā)后續(xù)的ETL處理過程,。

 

6. Yahoo對數(shù)據(jù)倉庫人力資源的使用原則

Yahoo的數(shù)據(jù)倉庫人力資源不在業(yè)務(wù)方,,而由自己控制,。他們將商業(yè)價值和對數(shù)據(jù)倉庫整體影響排在前面兩個最重要的位置,。當(dāng)出現(xiàn)資源沖突的時候,不由業(yè)務(wù)方的獨自利益為導(dǎo)向,。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多