數(shù)據(jù)倉庫技術(shù)作為一項數(shù)據(jù)管理領(lǐng)域的新技術(shù),,其精髓在于針對聯(lián)機分析處理(OLAP)提出了一種綜合的解決方案,與以往很多技術(shù)不同的是,,它主要是一種概念,,在此概念指導(dǎo)下完成系統(tǒng)的構(gòu)造。既沒有可以直接購買到的現(xiàn)成產(chǎn)品,,也沒有具體的分析規(guī)范和實現(xiàn)方法,,也就是說沒有成熟、可靠且被廣泛接受的數(shù)據(jù)倉庫標準,。在以往關(guān)系數(shù)據(jù)庫的設(shè)計和實現(xiàn)中,,不僅有詳細的理論推導(dǎo),還有無數(shù)的設(shè)計實例,,無論你使用的是什么公司的數(shù)據(jù)庫產(chǎn)品,、開發(fā)工具,只要按照規(guī)范做,,那么實現(xiàn)同一業(yè)務(wù)需求的方案都會很相似,。而現(xiàn)有數(shù)據(jù)倉庫的實現(xiàn)中,,出現(xiàn)了MOLAP方案和ROLAP方案的區(qū)別,出現(xiàn)了形形色色的數(shù)據(jù)倉庫建模工具,、表現(xiàn)工具,,而設(shè)計人員的個人經(jīng)驗和素質(zhì)也會在其中扮演很重要的角色。 |
數(shù)據(jù)倉庫技術(shù)的實現(xiàn)方式 |
目前在數(shù)據(jù)倉庫技術(shù)的實際應(yīng)用中主要包括如下幾種具體實現(xiàn)方式,。 |
1,、在關(guān)系數(shù)據(jù)庫上建立數(shù)據(jù)倉庫(ROLAP) |
2、在多維數(shù)據(jù)庫上建立數(shù)據(jù)倉庫(MOLAP) |
MOLAP方案是以多維方式來組織數(shù)據(jù),,以多維方式來存儲數(shù)據(jù),;ROLAP方案則以二維關(guān)系表為核心表達多維概念,通過將多維結(jié)構(gòu)劃分為兩類表:維表和事實表,,使關(guān)系型結(jié)構(gòu)能較好地適應(yīng)多維數(shù)據(jù)的表示和存儲,。在多維數(shù)據(jù)模型的表達方面,多維矩陣比關(guān)系表更清晰且占用的存儲更少,,而通過關(guān)系表間的連接來查詢數(shù)據(jù)的ROLAP系統(tǒng),,系統(tǒng)性能成為最大問題。MOLAP方案比ROLAP方案要簡明,,索引及數(shù)據(jù)聚合可以自動進行并自動管理,,但同時喪失了一定的靈活性。ROLAP方案的實現(xiàn)較為復(fù)雜,,但靈活性較好,,用戶可以動態(tài)定義統(tǒng)計和計算方式,另外能保護在已有關(guān)系數(shù)據(jù)庫上的投資,。 |
由于兩種方案各有優(yōu)劣,,因此在實際應(yīng)用中,往往將MOLAP和ROLAP結(jié)合使用,,即所謂的混合模型,。利用關(guān)系數(shù)據(jù)庫存儲歷史數(shù)據(jù)、細節(jié)數(shù)據(jù)或非數(shù)值型數(shù)據(jù),,發(fā)揮關(guān)系數(shù)據(jù)庫技術(shù)成熟的優(yōu)勢,減少花費,,而在多維數(shù)據(jù)庫中存儲當前數(shù)據(jù)和常用統(tǒng)計數(shù)據(jù),,以提高操作性能。 |
3,、在原有關(guān)系庫上建立邏輯上的數(shù)據(jù)倉庫 |
由于目前正在運行的OLTP系統(tǒng)中已經(jīng)積累了海量數(shù)據(jù),,如何從中提取出決策所需的有用信息就成為用戶最迫切的需要。新建數(shù)據(jù)倉庫固然能從功能,、性能各方面給出一個完整的解決方案,,但需要投入大量的人力,、物力,并且數(shù)據(jù)倉庫的建設(shè)和分析數(shù)據(jù)的積累需要一段時間,,無法及時滿足用戶對信息分析的迫切需要,。因此在籌建數(shù)據(jù)倉庫的前期,可以采用一些合適的表現(xiàn)工具,,在原有OLTP系統(tǒng)上建立起一個邏輯的數(shù)據(jù)倉庫系統(tǒng),。盡管由于原有OLTP系統(tǒng)設(shè)計上的局限性,這樣的系統(tǒng)可能無法實現(xiàn)很多分析功能,,但這樣一個系統(tǒng)中數(shù)據(jù)結(jié)構(gòu)固定,、信息分析需求相對穩(wěn)定成熟,因此數(shù)據(jù)倉庫的建模,、實現(xiàn)過程會相對容易,、便捷;同時,,這樣的系統(tǒng)也會成為將來真正數(shù)據(jù)倉庫建設(shè)的原型,。 |
信息系統(tǒng)與數(shù)據(jù)倉庫的關(guān)系 |
由于數(shù)據(jù)量大、數(shù)據(jù)來源多樣化,,在商業(yè)銀行構(gòu)建管理信息系統(tǒng)時,,不可避免地會遇上如何管理這些浩如煙海的數(shù)據(jù),以及如何從中提取有用的信息的問題,;而數(shù)據(jù)倉庫的最大優(yōu)點在于它能把企業(yè)網(wǎng)絡(luò)中不同信息島上的商業(yè)數(shù)據(jù)集中到一起,,存儲在一個單一的集成的數(shù)據(jù)庫中,并提供各種手段對數(shù)據(jù)進行統(tǒng)計,、分析,。因此可以說,在銀行使用數(shù)據(jù)倉庫構(gòu)建管理信息系統(tǒng),,既有壓力,,又有數(shù)據(jù)基礎(chǔ),它們之間的聯(lián)系是必然的,,難以割舍的,。 |
數(shù)據(jù)倉庫在商業(yè)銀行的應(yīng)用范圍包括存款分析、貸款分析,、客戶市場分析,、相關(guān)金融業(yè)分析決策(證券、外匯買賣),、風險預(yù)測,、效益分析等。 |
在銀行信息系統(tǒng)構(gòu)建時,由于歷史情況和現(xiàn)實需求的不同,,存在兩種途徑: |
由于目前國內(nèi)商業(yè)銀行對銀行內(nèi)部運營的監(jiān)管,缺乏很好的數(shù)據(jù)搜集機制,,因此可以在構(gòu)建管理信息系統(tǒng)時,,分數(shù)據(jù)收集錄入和數(shù)據(jù)匯總分析兩部分來考慮。這樣的系統(tǒng)中由于不需考慮大量歷史數(shù)據(jù)的處理問題,,同時考慮到搜集過程中可能存在多個數(shù)據(jù)來源,,因此可以在系統(tǒng)建設(shè)的同時構(gòu)建數(shù)據(jù)倉庫,將搜集來的各種數(shù)據(jù)通過數(shù)據(jù)抽取整合到數(shù)據(jù)倉庫中,。 |
而對于已經(jīng)存在OLTP系統(tǒng),其中沉淀了大量歷史數(shù)據(jù),,則可以先在原有系統(tǒng)上建立邏輯數(shù)據(jù)倉庫,,即使用數(shù)據(jù)分析的表現(xiàn)工具,在關(guān)系模型上構(gòu)建一個虛擬的多維模型,。當系統(tǒng)需求穩(wěn)定后,,再建立物理數(shù)據(jù)倉庫,這樣既節(jié)省投資,,又縮短開發(fā)工期,。 |
模型設(shè)計(包括邏輯模型設(shè)計和物理模型設(shè)計)是系統(tǒng)的基礎(chǔ)和成敗的關(guān)鍵,,在實際操作中,,視實現(xiàn)技術(shù)的不同應(yīng)分別對下列問題引起注意。 |
1,、直接構(gòu)建數(shù)據(jù)倉庫 |
直接構(gòu)建數(shù)據(jù)倉庫時,,必須按業(yè)務(wù)分析的要求重組OLTP系統(tǒng)中的數(shù)據(jù),并要按不同側(cè)重點分別組織,,使之便于使用,。 |
主題是一個邏輯概念,它應(yīng)該能夠完整,、統(tǒng)一地刻畫出分析對象所涉及的各項數(shù)據(jù)以及相互聯(lián)系,。劃分主題的根據(jù)主要來源于兩方面:對原有固定報表的分析和對業(yè)務(wù)人員的訪談。原有固定報表能較好地反映出以往工作對數(shù)據(jù)分析的需求,,而且數(shù)據(jù)含義和格式相對成熟,、穩(wěn)定,在模型設(shè)計中需要大量借鑒,。但僅僅滿足于替代目前的手工報表還遠遠不應(yīng)是構(gòu)建管理信息系統(tǒng)的目標,,還應(yīng)該通過業(yè)務(wù)訪談,,進一步挖掘出日常工作中潛在的更廣,、更深的分析需求,。只有這樣,才能真正了解構(gòu)建數(shù)據(jù)倉庫模型所需的主題劃分,。 |
主題的劃分實際上是與分析內(nèi)容的范圍直接相關(guān)的,,一旦主題劃分清楚了,下一步就是細化分析的具體內(nèi)容以及根據(jù)分析內(nèi)容的性質(zhì)確定它在數(shù)據(jù)倉庫中的位置,。通常維元素對應(yīng)的是分析角度,,而度量對應(yīng)的是分析關(guān)心的具體指標。一個指標究竟是作為維元素,、度量還是維屬性,,取決于具體的業(yè)務(wù)需求,但從實際操作中可以總結(jié)出如下的概念性經(jīng)驗:作為維元素或維屬性的通常是離散型的數(shù)據(jù),,只允許有限的取值,;作為度量的是連續(xù)型數(shù)據(jù),取值無限,。如果一定要用連續(xù)型數(shù)據(jù)作為維元素,,則必須對其按取值進行分段,以分段值作為實際的維元素,。判斷分析指標是作為維元素還是維屬性時,,則需要綜合考慮這個指標占用的存儲空間與相關(guān)查詢的使用頻度。 |
需要特別強調(diào)的是,,在細化分析內(nèi)容的過程中,,務(wù)必解決指標的歧義問題。在不同報表中以及在業(yè)務(wù)訪談中同一名稱的指標,,是否是在同樣條件限定下,,通過同樣方法提取或計算得到的,它們之間的相互關(guān)系是什么,,這些問題都必須從熟悉業(yè)務(wù)的分析人員那里得到準確,、清晰的答案,否則將會影響到模型設(shè)計,、數(shù)據(jù)提取,、數(shù)據(jù)展現(xiàn)等多個方面。 |
數(shù)據(jù)倉庫模型中所存儲的數(shù)據(jù)的粒度將對信息系統(tǒng)的多方面產(chǎn)生影響,。事實表中以各種維度的什么層次作為最細粒度,,將決定存儲的數(shù)據(jù)能否滿足信息分析的功能需求,而粒度的層次劃分,、以及聚合表中粒度的選擇將直接影響查詢的響應(yīng)時間,。 |
如果同一個信息系統(tǒng)要在大范圍、多層次上同時運行,如部門級和企業(yè)級,,還應(yīng)考慮不同層次的數(shù)據(jù)倉庫采用不同的粒度,。 |
復(fù)合指標尤其是比率類指標的定義,必須注意累加時是先加減后乘除,,還是反之,。戶數(shù)、筆數(shù)的計算,,這類指標在分析或報表中經(jīng)常出現(xiàn),,但不需要作為單獨的指標物理存在于數(shù)據(jù)庫中,但定義分析模型時一定應(yīng)該準備,。度量的時間特性,,針對分析指標在時間維上的不同表現(xiàn),可分為可累加指標,、半可累加指標和不可累加指標,。 |
2、在原有數(shù)據(jù)基礎(chǔ)上構(gòu)建邏輯數(shù)據(jù)倉庫 |
如果直接使用OLTP系統(tǒng)中的數(shù)據(jù)進行數(shù)據(jù)分析處理,,會遇到許多麻煩,,有時甚至是不可能實現(xiàn)的。這并不是說關(guān)系數(shù)據(jù)庫不好,,而是因為其設(shè)計思路不適應(yīng)較大規(guī)模數(shù)據(jù)分析,。因此在使用這種方法時,需要注意下列問題的處理: |
這是實現(xiàn)過程中最常遇到的問題,,也往往是最難解決的問題,。OLTP系統(tǒng)中存儲的時間往往采用與實際業(yè)務(wù)發(fā)生相同的時間單位,如帳務(wù)數(shù)據(jù)單位為日期,,財務(wù)報表單位為月或半年,。而面向分析時,往往要將不同時間單位的數(shù)據(jù)統(tǒng)一到同一個結(jié)果中,,這樣就必須存在適當?shù)霓D(zhuǎn)換機制才能實現(xiàn),。 |
所謂冗余信息,就是指不同關(guān)系表中存在的同一含義的字段,,而同一含義不僅指這些字段的取得或計算方式一樣,,還指它們成立的條件一樣,例如截止某一時間同一地區(qū)的同一貸種的貸款余額,。在OLTP系統(tǒng)中,,這樣的字段往往是基于性能考慮而設(shè)計的,而在面向分析設(shè)計模型時,,為了保證結(jié)果的唯一性和準確性,,就必須用且只用其中之一的數(shù)據(jù)產(chǎn)生分析結(jié)果,。 |
由于OLTP系統(tǒng)中表的設(shè)計面向業(yè)務(wù)處理,既要保證數(shù)據(jù)的完整性,、一致性,,又要考慮響應(yīng)時間,因此表與表之間既相對獨立,,又相互依賴。在設(shè)計數(shù)據(jù)倉庫邏輯模型時,,對表間的連接必須做出相應(yīng)取舍,,既要保證分析數(shù)據(jù)能通過連接取得或計算出,又要避免出現(xiàn)環(huán)路,,造成分析數(shù)據(jù)的歧義,。另外,不同的連接途徑還會出現(xiàn)不同的查詢速度,,影響數(shù)據(jù)分析的響應(yīng)性能,。 |
如果上述問題不能在原有數(shù)據(jù)庫基礎(chǔ)上得到很好的解決,那么權(quán)益之計就是構(gòu)建統(tǒng)計表,,即簡單化的數(shù)據(jù)倉庫,,形式類似數(shù)據(jù)倉庫的事實表,定時計算統(tǒng)計數(shù)據(jù)放入,,將時間,、冗余、連接等問題擯除,,進行簡單分析,。 |
數(shù)據(jù)抽取是一件技術(shù)含量不高,,但非常煩瑣的工作,,必須有專人負責數(shù)據(jù)抽取的工作。在對其進行設(shè)計時,,要注意的問題有: |
1,、數(shù)據(jù)抽取的規(guī)則要作為元數(shù)據(jù)進行規(guī)范和管理,抽取過程中的源表,、源字段,、目的表、目的字段,、轉(zhuǎn)換規(guī)則以及轉(zhuǎn)換條件都要作好詳細記錄,。這樣不僅便于編程人員實現(xiàn),而且在抽取規(guī)則或邏輯模型發(fā)生變化時也便于修改,。 |
2,、如何記錄業(yè)務(wù)數(shù)據(jù)庫中的變動情況是數(shù)據(jù)抽取中一個重要的環(huán)節(jié),。由于數(shù)據(jù)倉庫中按時間保存數(shù)據(jù),因此不同時間點之間數(shù)據(jù)的差異就成為一個關(guān)鍵性因素,。通??梢岳脭?shù)據(jù)庫管理系統(tǒng)提供的手段在數(shù)據(jù)庫級產(chǎn)生數(shù)據(jù)變動日志,根據(jù)日志再判斷數(shù)據(jù)的變動情況完成抽取,,這樣是一個從性能,、可操作性以及對原業(yè)務(wù)系統(tǒng)的影響等多方面綜合考慮都比較理想的方法。 |
3,、當數(shù)據(jù)倉庫中同一表中的數(shù)據(jù)來自于原有系統(tǒng)中不同的表,,甚至不同的庫時,抽取時務(wù)必保證這些數(shù)據(jù)單位一致,,而且都滿足同一時間條件,。 |
4、數(shù)據(jù)抽取不僅要考慮數(shù)據(jù)的提取,,還要考慮抽取的時間安排和執(zhí)行方式,,這樣才是一個完整的數(shù)據(jù)抽取方案,也才能保證抽取出來的數(shù)據(jù)準確,、可用,。 |
數(shù)據(jù)倉庫的建設(shè)是一個長期工作,,它同其他系統(tǒng)一樣需要在運行的過程中不斷進行調(diào)整、完善,。這其中包括兩方面的工作: |
數(shù)據(jù)倉庫涉及海量數(shù)據(jù)的查詢,數(shù)據(jù)的大量寫入讀出,,不僅對數(shù)據(jù)庫系統(tǒng)的要求很高,,而且與OLTP系統(tǒng)的要求極為不同,因此在系統(tǒng)設(shè)計,、實施和維護的過程中,,數(shù)據(jù)倉庫系統(tǒng)的性能都是一個不可忽視的問題。尤其是在運行期間,,要密切關(guān)注應(yīng)用對系統(tǒng)資源的消耗情況,,針對應(yīng)用的特點及時對系統(tǒng)進行調(diào)整,包括調(diào)整數(shù)據(jù)庫參數(shù),、數(shù)據(jù)分片放置,、創(chuàng)建特殊索引乃至提高系統(tǒng)配置等。 |
應(yīng)用與需求是相互促進,、不斷發(fā)展的,,隨著信息系統(tǒng)建成運行,用戶在對系統(tǒng)了解不斷加深的過程中,,也會對系統(tǒng)提出更新更高的要求,。如何在最小投入的前提下滿足用戶的需求,也是一個值得注意和潛心研究的問題,。首先要盡可能挖掘現(xiàn)有系統(tǒng)的潛力,,其次考慮,對主題的增加或可在現(xiàn)有系統(tǒng)上增加少量指標就可解決的需求,,對系統(tǒng)進行適當調(diào)整,,最后才考慮對系統(tǒng)進行重構(gòu),盡可能減小系統(tǒng)建設(shè)中的投入,。 |
按照上述方法實現(xiàn)的應(yīng)用中,主要完成了報表的生成和日常業(yè)務(wù)的分析,,這并不能給企業(yè)帶來真正的效益,,也遠遠沒有發(fā)揮出數(shù)據(jù)倉庫的應(yīng)用價值。隨著應(yīng)用的深入,,可以由企業(yè)的技術(shù)人員與業(yè)務(wù)人員緊密配合,,規(guī)劃出對企業(yè)有實際價值的應(yīng)用模型,并根據(jù)實際業(yè)務(wù)的發(fā)展不斷調(diào)整模型自身的參數(shù),,以期找出企業(yè)運作過程中的規(guī)律,,即在數(shù)據(jù)倉庫上進行數(shù)據(jù)挖掘,構(gòu)建DSS系統(tǒng),,這樣才能充分體現(xiàn)構(gòu)建數(shù)據(jù)倉庫的意義,,從而最終為企業(yè)帶來效益。 |
盡管數(shù)據(jù)倉庫技術(shù)還需要不斷發(fā)展,、完善,,但只要企業(yè)能認識到信息分析的重要性,業(yè)務(wù)人員和技術(shù)人員能真正配合起來,,相信不久的將來會有更多的實用成果出現(xiàn),。 |
|