選擇合適的ETL工具 ■ 黃予輝 目前,商業(yè)智能系統(tǒng)有兩種實施策略: 一種是將BI系統(tǒng)建造在目前已有的業(yè)務系統(tǒng)之上,,以企業(yè)應用集成(EAI)系統(tǒng)為核心,,將各個業(yè)務系統(tǒng)的獨立數據統(tǒng)一成標準數據格式(如XML),然后,,由BI系統(tǒng)進行整合,、分析、展現(xiàn),。此類BI系統(tǒng)通常是與EAI系統(tǒng)捆綁在一起的,,其架構讀者可通過EAI系統(tǒng)的相關資料進行了解,此處將不做討論,。 另一種是將BI系統(tǒng)建立在企業(yè)級的數據倉庫基礎上,,由數據倉庫將企業(yè)的業(yè)務數據統(tǒng)一存儲在企業(yè)邏輯數據模型架構中,然后,,通過在數據倉庫基礎上建立邏輯或物理的數據集市,、數據決策系統(tǒng)、數據在線分析系統(tǒng)等子系統(tǒng),,完成數據的整合,、分析,然后由前端展現(xiàn)工具對已有的數據(原始數據,、整合數據)進行匯總及展現(xiàn),。由于此類BI系統(tǒng)可以分步實施,,用戶可逐步建立其BI系統(tǒng),所以成功率比較高,。以目前已有的商業(yè)智能系統(tǒng)來看,,此種架構將成為商業(yè)智能系統(tǒng)發(fā)展的主流。以下的討論將以此種架構為基礎,。 在企業(yè)級的以數據倉庫系統(tǒng)為中心的商業(yè)智能系統(tǒng)中,其組成架構包括以下幾部分: ● 源數據系統(tǒng) ● 可操作數據存儲系統(tǒng)(ODS) ● 數據決策系統(tǒng)(DDS) ● 在線分析系統(tǒng)(OLAP) ● 前端展現(xiàn)工具 ● 元數據系統(tǒng) 商業(yè)智能系統(tǒng)運行的基礎是互相獨立,、互不兼容的,、復雜的源數據系統(tǒng),各個源數據系統(tǒng)是企業(yè)在不同的歷史時期建立的,,面向不同業(yè)務需求的生產系統(tǒng),。因此,依照合理的方式整合源數據系統(tǒng),,將源數據統(tǒng)一存儲在以企業(yè)邏輯模型構建的ODS系統(tǒng)中,,DDS、OLAP,、前端展現(xiàn)工具依照用戶需求,,對數據進行匯總、展示,,并按照用戶喜好的方式,,將結果展現(xiàn)在用戶面前是商業(yè)智能系統(tǒng)的基本任務。由于企業(yè)業(yè)務系統(tǒng)的復雜性,,各個源數據系統(tǒng)的數據結構,、格式、定義各不相同,,為了能有效的整合企業(yè)數據系統(tǒng),,保持數據的一致性,并將數據統(tǒng)一地展現(xiàn)在客戶面前,,ETL解決方案是用戶唯一的選擇,。 ETL解決方案包括數據抽取(E),、數據傳輸,、轉換與清洗(T)、數據加載,、調度(L),,毋庸置言,ETL系統(tǒng)將貫穿整個商業(yè)智能系統(tǒng)的全過程,,如圖所示,,從源數據系統(tǒng)到前端展示系統(tǒng)的整個商業(yè)智能系統(tǒng)各個組件之間,,都存在ETL過程。 ETL方案對整個商業(yè)智能系統(tǒng)的重要性可與血液與人體的作用相提并論,,一個有效的ETL處理方案將是系統(tǒng)成功的首要因素,。 ETL方案的選擇應考慮以下方面: ● 數據操作效率; ● 數據操作時間周期,; ● 定制的靈活性,。 對ETL來說,數據操作的效率是最重要的考慮因素,。對效率的考察,,應包括以下幾點: 1. 是否支持復雜的數據操作; 2. 是否支持多任務并行操作,; 3. 是否符合系統(tǒng)對數據處理時間窗口的要求,。 數據操作時間周期的支持包括: 1. 是否支持各種數據處理時間周期的混合操作; 2. 是否支持數據的小批量持續(xù)加載,; 3. 是否支持數據的大批量定時加載,。 定制靈活性包括: 1. 是否支持數據依賴的建立; 2. 是否支持數據流的建立,; 3. 是否支持操作定時啟動,; 4. 是否可擴展; 5. 開發(fā)環(huán)境是什么,,開發(fā)是否簡單,、靈活。 對于ETL流程的建立,,通常有以下兩種方式: ● 利用數據庫系統(tǒng),、業(yè)務子系統(tǒng)工具自行開發(fā) ● 購買現(xiàn)成的ETL工具 通常情況下,ETL方案中,,以上兩種方式是同時存在的,。一般情況下,利用各個子系統(tǒng)提供的工具進行自行開發(fā),,可充分利用子系統(tǒng)的優(yōu)化操作,,提高數據處理效率,但其靈活性和可擴展性欠佳,;購買現(xiàn)成的ETL工具(如EAI,、Informatic等廠商的ETL工具),可靈活定制數據處理流程,,簡化數據開發(fā),,縮短ETL方案實施周期,但其處理效率較低,。因此,,建議讀者應結合以上的ETL建立方式,,在保證ETL性能的前提下,購買合適的ETL工具,。(本文作者為NCR Teradata數據倉庫事業(yè)部技術顧問)
|
|
來自: 荷露叮咚 > 《商業(yè)智能》