明確倉庫的對象:主題和元數(shù)據(jù)
大多數(shù)商務(wù)數(shù)據(jù)都是多維的,,所以采集和表示三維以上的數(shù)據(jù)不能完全借用業(yè)務(wù)數(shù)據(jù)庫設(shè)計(jì)中的方法,,必須有一種新的方法來表達(dá)多維數(shù)據(jù)。現(xiàn)階段流行的有2種方 法,,一是面向?qū)ο蠓椒?,即把商?wù)數(shù)據(jù)抽象為對象,再使用Rational Rose等對象建模工具來表達(dá)這些對象,;另一種方法就是使用信息包圖,,這是一種簡便且高效的方法,在項(xiàng)目中使用的普及率很高,。 信息包圖實(shí)際上是自上而下數(shù)據(jù)建模方法的一個(gè)很好的工具,。自上而下的建模技術(shù)從用戶的觀點(diǎn)開始設(shè)計(jì)。用戶的觀點(diǎn)是通過與用戶交流得到的,,可以進(jìn)一步明確用 戶的信息需求,。自上而下的方法幾乎考慮了所有的信息源,以及這些信息源影響商務(wù)活動(dòng)的方式,,它使得設(shè)計(jì)者可以圍繞著一個(gè)通常的主題或商務(wù)領(lǐng)域進(jìn)行信息包的 開發(fā),。 下面就詳述如何通過信息打包技術(shù)建立信息包圖,從而確定數(shù)據(jù)倉庫中的主題和元數(shù)據(jù),。 3.4.1 信息打包技術(shù) 1.信息打包技術(shù)的基本使用 信息打包法是一種自頂向下的設(shè)計(jì)方法,,它從管理者的角度出發(fā)把焦點(diǎn)集中在企業(yè)的一個(gè)或幾個(gè)主題上,著重分析主題所涉及數(shù)據(jù)的多維特性,。此法具體分4個(gè)階段: (1)采用自頂向下的方法對商務(wù)數(shù)據(jù)的多維特性進(jìn)行分析,,用信息打包圖表示維度和類別之間的傳遞和映射關(guān)系,建立概念模型,。其中類別是按一定的標(biāo)準(zhǔn)對一個(gè)維度的分類劃分,,如產(chǎn)品可按顏色、質(zhì)地,、產(chǎn)地和銷地等不同標(biāo)準(zhǔn)分類,。 (2)對企業(yè)的大量的指標(biāo)實(shí)體數(shù)據(jù)進(jìn)行篩選,提取出可利用的中心指標(biāo),。其中指標(biāo)也稱為關(guān)鍵性能指標(biāo)和關(guān)鍵商務(wù)測量的值,,是在維度空間衡量商務(wù)信息的一種方法。比如產(chǎn)品收入金額,、原材料消耗,、補(bǔ)充新雇員或設(shè)備運(yùn)行時(shí)間等都可以叫做指標(biāo)。 (3)在信息打包圖的基礎(chǔ)上構(gòu)造星形圖,,對其中的詳細(xì)類別實(shí)體進(jìn)行分析,,進(jìn)一步擴(kuò)展為雪花圖,建立邏輯模型。 (4)在星形圖和雪花圖的基礎(chǔ)上,,根據(jù)所定義數(shù)據(jù)標(biāo)準(zhǔn),,通過對實(shí)體、鍵標(biāo),、非鍵標(biāo)、數(shù)據(jù)容量,、更新頻率和實(shí)體特征進(jìn)行定義,,完成物理數(shù)據(jù)模型的設(shè)計(jì)。 信息包圖可以幫助用戶完成以下工作: l 定義某一商務(wù)中涉及的共同主題范圍,,例如:時(shí)間,、顧客、地理位置和產(chǎn)品,。 l 設(shè)計(jì)可以跟蹤的,、確定一個(gè)商務(wù)事件怎樣被運(yùn)行和完成的關(guān)鍵商務(wù)指標(biāo)。 l 決定數(shù)據(jù)怎樣被傳遞給數(shù)據(jù)倉庫的用戶,。 l 確定用戶怎樣按層次聚合數(shù)據(jù)和移動(dòng)數(shù)據(jù),。 l 決定在給定的用戶分析或查詢中實(shí)際包含了多少數(shù)據(jù)。 l 定義怎樣訪問數(shù)據(jù),,它的進(jìn)入點(diǎn)是什么,。用戶想訪問哪里,以及怎樣引導(dǎo)進(jìn)入信息包,。 l 估計(jì)數(shù)據(jù)倉庫大小,。 l 確定一個(gè)數(shù)據(jù)倉庫里數(shù)據(jù)的更新頻率。 l 制定信息怎樣被打包才能更好地提供給用戶,。 圖3-24是一個(gè)空白的信息包圖,。注意信息包圖上面的橫線,這里要寫上信息包的說明,??梢杂羞x擇地填上概括說明和詳細(xì)說明或者說明信息包圖描述的是什么信 息。而陰影部分就是代表在一定的維度和類別下的度量指標(biāo),,這部分體現(xiàn)的就是數(shù)據(jù)分析的主要任務(wù),,在制作信息包圖時(shí)需要和用戶一起完成。 在以后對AdventureWorksDW數(shù)據(jù)倉庫的分析中,,主要是對Adventure Works Cycles公司的銷售情況進(jìn)行分析,,根據(jù)前面對需求的分析,結(jié)合信息打包法的4個(gè)階段,,可以通過如下的方法建立信息包圖,。 (1)獲取各個(gè)商務(wù)部門對商務(wù)數(shù)據(jù)的多維特性分析結(jié)果,確定影響銷售的維度,這里可以提煉出日期,、區(qū)域,、產(chǎn)品、客戶年齡和客戶狀況等5個(gè)維度,。 (2)對每個(gè)維度進(jìn)行分析,,確定它與類別之間的傳遞和映射關(guān)系,如在AdventureWorks業(yè)務(wù)數(shù)據(jù)庫中,,日期有年,、季度和月甚至更小的級別,而區(qū)域一般就分為國家,、地區(qū),、城市和具體的商店。 (3)確定用戶需要的指標(biāo)體系,,這里以銷售情況作為事實(shí)依據(jù)確定相關(guān)的銷售指標(biāo),,如實(shí)際銷售、計(jì)劃銷售,、預(yù)測銷售,、計(jì)劃偏差和預(yù)測偏差等。 有了以上的分析,,就可以畫出銷售分析的信息包圖,,如圖3-25所示,其他分析需求的信息包圖可以用類似的方法表示,。 (4)這一步可以在信息打包圖的基礎(chǔ)上構(gòu)造星形圖,,如圖3-26所示。然后根據(jù)實(shí)際情況,,把詳細(xì)類別實(shí)體連接到星形圖中就可以得到企業(yè)數(shù)據(jù)倉庫的雪花模 型,。如在這里的AdventureWorks業(yè)務(wù)數(shù)據(jù)庫中,已經(jīng)通過表“ProductCategory”,、“ProductSubcategory”和 “Product”對產(chǎn)品進(jìn)行了層次分類,,把它們掛到圖3-26的星形圖中可以形成圖3-27所示的雪花架構(gòu)圖。 注意,,按照設(shè)計(jì)慣例,,指標(biāo)實(shí)體、維度實(shí)體和詳細(xì)類別實(shí)體分別用矩形,、菱形和六角形表示,。 通過以上技術(shù),實(shí)際上建立起了數(shù)據(jù)倉庫的概念模型和邏輯模型,。如圖3-25所示的信息包圖是在最終用戶和技術(shù)人員共同完成的,,通過它數(shù)據(jù)的構(gòu)成便由客觀世 界轉(zhuǎn)換到了主觀世界,。而圖3-26則屬于邏輯模型,因?yàn)樗谛畔鼒D的基礎(chǔ)上將信息轉(zhuǎn)換成了關(guān)系模型,。對比最終數(shù)據(jù)倉庫的架構(gòu)(在3.2.2節(jié)有敘述)可 知,,這時(shí)離構(gòu)建完整的數(shù)據(jù)倉庫數(shù)據(jù)庫已經(jīng)很近了。 2.信息動(dòng)態(tài)打包 信息打包圖中涉及的維度及其對應(yīng)的類別是事先固定的,。這種將維度和類別固定所帶來的最直接的問題是,,所設(shè)計(jì)的數(shù)據(jù)倉庫不僅對一些特定的查詢分析操作的適應(yīng) 能力差,而且當(dāng)查詢或分析的要求發(fā)生變化時(shí)根本無法適應(yīng),。解決該問題的方法是允許維度和類別進(jìn)行自由改變,,這就是信息動(dòng)態(tài)打包的方法。 信息動(dòng)態(tài)打包包括2方面的內(nèi)容:與該指標(biāo)分析對應(yīng)的維度的動(dòng)態(tài)組合及與維度關(guān)聯(lián)的類別的動(dòng)態(tài)組合,。參考南京大學(xué)李雪梅等人的《一種基于信息動(dòng)態(tài)打包的數(shù)據(jù)倉庫的設(shè)計(jì)方法》一文,,可以得到信息動(dòng)態(tài)打包方法的7步大法,。 (1)采用自頂向下的方法,,通過與企業(yè)的領(lǐng)導(dǎo)和管理人員交談挖掘出盡可能多的主題,然后根據(jù)這些主題找出對應(yīng)的指標(biāo)實(shí)體,,進(jìn)一步對每個(gè)指標(biāo)實(shí)體采用基本信息打包法分析出其中包含的最明顯的維度實(shí)體,。 圖3-28和圖3-29分別是對銷售分析和顧客人口統(tǒng)計(jì)分析得到的兩個(gè)星形圖,其中前者包括時(shí)間,、地區(qū)和產(chǎn)品3個(gè)維度實(shí)體,,后者包括時(shí)間、地區(qū)和顧客3個(gè)維度實(shí)體,。 (2)綜合考慮所有的主題,,采用指標(biāo)實(shí)體矩陣對定義的信息包和維度實(shí)體進(jìn)行統(tǒng)一和標(biāo)準(zhǔn)化處理。利用圖3-30所示的統(tǒng)一實(shí)體矩陣來消除實(shí)體定義中的歧異和不一致,,從而保證數(shù)據(jù)倉庫中實(shí)體定義的一致性,。矩陣中交叉點(diǎn)的‘X’表示相關(guān)。 (3)對于單個(gè)指標(biāo)實(shí)體(信息包)找出所有的與該指標(biāo)實(shí)體相關(guān)的但屬于其他信息包的維度實(shí)體,,再根據(jù)其與該信息包的相關(guān)程度進(jìn)行排序,,得到該指標(biāo)實(shí)體的一 個(gè)所有相關(guān)維度指標(biāo)的一個(gè)有序集。需要特別指出的是,,由于維度定義的相對性,,當(dāng)某些詳細(xì)類別實(shí)體中的單個(gè)類別與指標(biāo)實(shí)體的查詢或分析密切相關(guān)時(shí)也可以將它 作為單獨(dú)的維度實(shí)體。如顧客細(xì)節(jié)實(shí)體中包括年齡組,、性別,、收入組、職業(yè),、教育和婚姻狀況等,,而其中年齡組,、性別、收入組和職業(yè)與銷售分析密切相關(guān),,故可以 將它們分別作為銷售的不同的維度實(shí)體,。這樣我們就可以得到與銷售分析相關(guān)的維度實(shí)體集Dim銷售={時(shí)期,地區(qū),產(chǎn)品,年齡組,性別,收入組,職業(yè)}。這 里我們定義前3者的相關(guān)度為1,,其他維度實(shí)體的相關(guān)度為0.5,。 (4)對于每個(gè)維度實(shí)體,進(jìn)行類別劃分,,找出所有可行類別,。然后對這些類別的劃分條件根據(jù)其粒度從大到小進(jìn)行排序,得到該維度實(shí)體的類別指標(biāo)的一個(gè)有序集,。 (5)創(chuàng)建指標(biāo)實(shí)體的動(dòng)態(tài)維,。可以把維度實(shí)體分為2類,,一類是指對該指標(biāo)實(shí)體的分析必不可少的維度實(shí)體,,稱之為必需維;另一類則可以根據(jù)需要自由選擇,,稱為可選維,。如DIM銷售集合中,時(shí)期,、地區(qū)和產(chǎn)品是必需維,,其余的則是可選維。 (6)創(chuàng)建與維度實(shí)體對應(yīng)的動(dòng)態(tài)類別實(shí)體,。不同于維度實(shí)體,,類別實(shí)體均設(shè)為可選的,類別實(shí)體可以根據(jù)具體情況自行確定,。 (7)建立數(shù)據(jù)倉庫中各個(gè)指標(biāo)的概念模型(信息打包圖)和邏輯模型(星形圖或雪花圖),。 信息動(dòng)態(tài)打包的數(shù)據(jù)倉庫設(shè)計(jì)方法采用了維度和類別動(dòng)態(tài)重組技術(shù),提供可以修改的數(shù)據(jù)存儲方式,,從而使所設(shè)計(jì)的數(shù)據(jù)倉庫具有真正自適應(yīng)的數(shù)據(jù)結(jié)構(gòu),,較好地滿足企業(yè)未來查詢和分析的需要。 3.4.2 理解數(shù)據(jù)倉庫中的主題 通過信息包圖實(shí)際上確定了數(shù)據(jù)倉庫的主題和大部分元數(shù)據(jù),。這一節(jié)先講數(shù)據(jù)包圖和主題的關(guān)系,。 1.主題的概念 主題(Subject)是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行綜合、歸類和分析利用的一個(gè)抽象概念,,每一個(gè)主題基本對應(yīng)一個(gè)宏觀的分析領(lǐng)域,。在邏輯意 義上,它是對應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象,。例如在前面信息包圖使用的例子中,,“銷售分析”就是一個(gè)分析領(lǐng)域,,因此這個(gè)數(shù)據(jù)倉庫應(yīng)用的主題就 是“銷售分析”。 面向主題的數(shù)據(jù)組織方式,,就是在較高層次上對分析對象數(shù)據(jù)的一個(gè)完整并且一致的描述,,能刻畫各個(gè)分析對象所涉及的企業(yè)各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系,。所謂 較高層次是相對面向應(yīng)用的數(shù)據(jù)組織方式而言的,,是指按照主題進(jìn)行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級別。與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用進(jìn)行數(shù)據(jù)組織的特點(diǎn)相對應(yīng),, 數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進(jìn)行組織的,。例如,一個(gè)生產(chǎn)企業(yè)的數(shù)據(jù)倉庫所組織的主題可能有產(chǎn)品訂貨分析和貨物發(fā)運(yùn)分析等,。而按應(yīng)用來組織則可能為財(cái)務(wù)子系 統(tǒng),、銷售子系統(tǒng)、供應(yīng)子系統(tǒng),、人力資源子系統(tǒng)和生產(chǎn)調(diào)度子系統(tǒng),。 主題是根據(jù)分析的要求來確定的。這與按照數(shù)據(jù)處理或應(yīng)用的要求來組織數(shù)據(jù)是不同的,。如在生產(chǎn)企業(yè)中,,同樣是材料供應(yīng),,在操作型數(shù)據(jù)庫系統(tǒng)中,,人們所關(guān)心的 是怎樣更方便和更快捷地進(jìn)行材料供應(yīng)的業(yè)務(wù)處理;而在進(jìn)行分析處理時(shí),,人們就應(yīng)該關(guān)心材料的不同采購渠道和材料供應(yīng)是否及時(shí),,以及材料質(zhì)量狀況等。 數(shù)據(jù)倉庫面向在數(shù)據(jù)模型中已經(jīng)定義好的公司的主要主題領(lǐng)域,。典型的主題領(lǐng)域包括顧客,、產(chǎn)品、訂單和財(cái)務(wù)或是其他某項(xiàng)事務(wù)或活動(dòng),。
2.主題域的獲取
主題域是對某個(gè)主題進(jìn)行分析后確定的主題的邊界,。分析主題域,確定要裝載到數(shù)據(jù)倉庫的主題是信息打包技術(shù)的第一步,。而在進(jìn)行數(shù)據(jù)倉庫設(shè)計(jì)時(shí),,一般是一次先 建立一個(gè)主題或企業(yè)全部主題中的一部分,因此在大多數(shù)數(shù)據(jù)倉庫的設(shè)計(jì)過程中都有一個(gè)主題域的選擇過程,。主題域的確定必須由最終用戶和數(shù)據(jù)倉庫的設(shè)計(jì)人員共 同完成,。 比如,對于Adventure Works Cycle這種類型的公司管理層需要分析的主題一般包括供應(yīng)商主題,、商品主題,、客戶主題和倉庫主題,。其中商品主題的內(nèi)容包括記錄超市商品的采購情況、商品 的銷售情況和商品的存儲情況,;客戶主題包括的內(nèi)容可能有客戶購買商品的情況,;倉庫主題包括倉庫中商品的存儲情況和倉庫的管理情況等,如圖3-31所示,。 確定主題邊界實(shí)際上需要進(jìn)一步理解業(yè)務(wù)關(guān)系,,因此在確定整個(gè)分析主題后,還需要對這些主題進(jìn)行初步的細(xì)化才便于獲取每一個(gè)主題應(yīng)該具有的邊界,。對于圖3-31的4個(gè)主題及其在企業(yè)中的業(yè)務(wù)關(guān)系可以確定邊界如圖3-32所示,。 3.確定主題的內(nèi)容 主題雖然在信息包圖中只占據(jù)標(biāo)題的位置,但是卻是信息打包方法中最重要的部分,,當(dāng)主題定義好之后,,數(shù)據(jù)倉庫中的邏輯模型也就基本成形了。此時(shí),,需要在主題 的邏輯關(guān)系模式中包含所有的屬性及與系統(tǒng)相關(guān)的行為,。數(shù)據(jù)倉庫中的數(shù)據(jù)存儲結(jié)構(gòu)也需要在邏輯模型的設(shè)計(jì)階段完成定義,需要向里面增加所需要的信息和能充分 代表主題的屬性組,。以Adventure Works Cycle這類公司數(shù)據(jù)倉庫為例,,如表3-7所示可以分別在“商品”、“銷售”和“客戶”主題上增加能夠進(jìn)一步說明主題的屬性組,。 表3-7 主題的詳細(xì)描述 4.主題的使用 由于數(shù)據(jù)倉庫的設(shè)計(jì)是一個(gè)螺旋發(fā)展的過程,,在剛開始,沒有必要在數(shù)據(jù)倉庫的數(shù)據(jù)庫中體現(xiàn)所有的主題,,選擇最重要的主題作為數(shù)據(jù)倉庫設(shè)計(jì)的試金石是很有必要的,。因此使用主題首先是找到需要分析的主題域。 例如在AdventureWorksDW數(shù)據(jù)倉庫的概念模型設(shè)計(jì)中,,在對需求進(jìn)行分析后,,認(rèn)識到“商品”主題既是一個(gè)銷售型企業(yè)最基本的業(yè)務(wù)對象,又是進(jìn) 行決策分析的最主要領(lǐng)域,,因而把“銷售分析”主題域定義為要首先建立的主題,。通過“商品”主題的建立,經(jīng)營者就可以對整個(gè)企業(yè)的經(jīng)營狀況有較全面的了解,。 先實(shí)施“商品”主題可以盡快地滿足企業(yè)管理人員建立數(shù)據(jù)倉庫的最初要求,,所以先選定“商品”主題進(jìn)行實(shí)施。 通過將主題邊界的劃分應(yīng)用到已經(jīng)得到的關(guān)系模型上還能形成原始的概念模型,。這一模型是把主題域的劃分和事務(wù)處理數(shù)據(jù)庫中的表結(jié)合起來的模型,,例如在上面的 例子中,商品主題可能涵蓋的關(guān)系表有商品表,、供應(yīng)關(guān)系表,、購買關(guān)系表和倉儲關(guān)系表,;倉庫主題可能涵蓋的關(guān)系表有倉庫關(guān)系表、倉庫表,、倉庫管理關(guān)系表和管理 員表,。把這些表的鍵和字段聯(lián)系起來,就可以形成如 圖3-33所示的原始概念模型圖,。 3.4.3 理解數(shù)據(jù)倉庫中的元數(shù)據(jù) 信息包圖同樣也包含了數(shù)據(jù)倉庫中的大部分元數(shù)據(jù),。元數(shù)據(jù)最普通的定義是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”。正是有了元數(shù)據(jù),,才使得數(shù)據(jù)倉庫的最終用戶可以隨心所欲地使用 數(shù)據(jù)倉庫,,利用數(shù)據(jù)倉庫進(jìn)行各種管理決策模式的探討。元數(shù)據(jù)是數(shù)據(jù)倉庫的應(yīng)用靈魂,,可以說沒有元數(shù)據(jù)就沒有數(shù)據(jù)倉庫,。 1.元數(shù)據(jù)的類型 通常把元數(shù)據(jù)分為技術(shù)元數(shù)據(jù)(Technical Metadata)和業(yè)務(wù)元數(shù)據(jù)(Business Metadata)。 技術(shù)元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)倉庫技術(shù)細(xì)節(jié)的數(shù)據(jù),,這些元數(shù)據(jù)應(yīng)用于開發(fā),、管理和維護(hù)數(shù)據(jù)倉庫,它主要包含以下信息,。 l 數(shù)據(jù)倉庫結(jié)構(gòu)的描述,,包括倉庫模式、視圖,、維,、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容,; l 業(yè)務(wù)系統(tǒng),、數(shù)據(jù)倉庫和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式,; l 匯總用的算法,,包括度量和維定義算法,數(shù)據(jù)粒度,、主題領(lǐng)域,、聚合、匯總和預(yù)定義的查詢與報(bào)告,; l 由操作環(huán)境到數(shù)據(jù)倉庫環(huán)境的映射,,包括源數(shù)據(jù)和它們的內(nèi)容、數(shù)據(jù)分割,、數(shù)據(jù)提取,、清理、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則及安全(用戶授權(quán)和存取控制),。 業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),,它提供了介于使用者和實(shí)際系統(tǒng)之間的語義層,,使得不懂計(jì)算機(jī)技術(shù)的業(yè)務(wù)人員也能夠“讀懂”數(shù)據(jù)倉庫中的數(shù) 據(jù)。業(yè)務(wù)元數(shù)據(jù)主要包括以下信息:使用者的業(yè)務(wù)術(shù)語所表達(dá)的數(shù)據(jù)模型,、對象名和屬性名,;訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源;系統(tǒng)所提供的分析方法及公式和報(bào)表的 信息,。 在信息打包過程中,,需要用包圖表示維度和類別還有它們之間的傳遞和映射關(guān)系,實(shí)際上這個(gè)操作就是在原業(yè)務(wù)系統(tǒng)的基礎(chǔ)上創(chuàng)建了元數(shù)據(jù),。其中的維度,、類別還有 層次關(guān)系是屬于典型的技術(shù)型元數(shù)據(jù),而業(yè)務(wù)系統(tǒng)中與之對應(yīng)的術(shù)語則屬于業(yè)務(wù)元數(shù)據(jù),。比如前面的例子中提煉出的日期,、區(qū)域、產(chǎn)品,、客戶年齡和客戶狀況等維 度,,實(shí)際銷售、計(jì)劃銷售,、預(yù)測銷售,、計(jì)劃偏差和預(yù)測偏差等指標(biāo)皆屬于元數(shù)據(jù)。這些數(shù)據(jù)在以后的分析中起到了極為重要的作用,。下面將對這些作用進(jìn)行歸納,。 2.元數(shù)據(jù)的作用 從元數(shù)據(jù)的類型和作用來看,元數(shù)據(jù)實(shí)際上是要解決何人在何時(shí),、何地為了什么原因及怎樣使用數(shù)據(jù)倉庫的問題,。再具體化一點(diǎn),元數(shù)據(jù)在數(shù)據(jù)倉庫管理員的眼中是 數(shù)據(jù)倉庫中的包含了所有內(nèi)容和過程的完整知識庫和文檔,,而在最終用戶(即數(shù)據(jù)分析人員)眼中,,元數(shù)據(jù)則是數(shù)據(jù)倉庫的信息地圖。 數(shù)據(jù)分析員為了能有效地使用數(shù)據(jù)倉庫環(huán)境,,往往需要元數(shù)據(jù)的幫助,。尤其是在數(shù)據(jù)分析員進(jìn)行信息分析處理時(shí),他們首先需要去查看元數(shù)據(jù),。元數(shù)據(jù)還涉及到數(shù)據(jù) 從操作型環(huán)境到數(shù)據(jù)倉庫環(huán)境中的映射,。當(dāng)數(shù)據(jù)從操作型環(huán)境進(jìn)入數(shù)據(jù)倉庫環(huán)境時(shí),數(shù)據(jù)要經(jīng)歷一系列重大的轉(zhuǎn)變,,包含了數(shù)據(jù)的轉(zhuǎn)化,、過濾、匯總和結(jié)構(gòu)改變等過 程。數(shù)據(jù)倉庫的元數(shù)據(jù)要能夠及時(shí)跟蹤這些轉(zhuǎn)變,,當(dāng)數(shù)據(jù)分析員需要就數(shù)據(jù)的變化從數(shù)據(jù)倉庫環(huán)境追溯到操作型環(huán)境中時(shí),,就要利用元數(shù)據(jù)來追蹤這種轉(zhuǎn)變。另外,, 由于數(shù)據(jù)倉庫中的數(shù)據(jù)會存在很長一段時(shí)間,,其間數(shù)據(jù)倉庫往往可能會改變數(shù)據(jù)的結(jié)構(gòu)。隨著時(shí)間的流逝來跟蹤數(shù)據(jù)結(jié)構(gòu)的變化,,是元數(shù)據(jù)另一個(gè)常見的使用功能,。 元數(shù)據(jù)描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容,、鏈和索引等項(xiàng)內(nèi)容,。在傳統(tǒng)的數(shù)據(jù)庫中,元數(shù)據(jù)是對數(shù)據(jù)庫中各個(gè)對象的描述,,數(shù)據(jù)庫中的數(shù)據(jù)字典就是一種元數(shù)據(jù),。在關(guān)系數(shù)據(jù) 庫中,這種描述就是對數(shù)據(jù)庫,、表,、列、觀點(diǎn)和其他對象的定義,;但在數(shù)據(jù)倉庫中,,元數(shù)據(jù)定義了數(shù)據(jù)倉庫中的許多對象——表、列,、查詢,、商業(yè)規(guī)則及數(shù)據(jù)倉庫內(nèi) 部的數(shù)據(jù)轉(zhuǎn)移。元數(shù)據(jù)是數(shù)據(jù)倉庫的重要構(gòu)件,,是數(shù)據(jù)倉庫的指示圖,。元數(shù)據(jù)在數(shù)據(jù)源抽取、數(shù)據(jù)倉庫開發(fā),、商務(wù)分析,、數(shù)據(jù)倉庫服務(wù)和數(shù)據(jù)求精與重構(gòu)工程等過程 都有重要的作用,在圖3-34中可以看到元數(shù)據(jù)在整個(gè)數(shù)據(jù)倉庫開發(fā)和應(yīng)用過程中的巨大影響,。因此,,設(shè)計(jì)一個(gè)描述能力強(qiáng)并且內(nèi)容完善的元數(shù)據(jù),對數(shù)據(jù)倉庫進(jìn) 行有效地開發(fā)和管理具有決定性意義,。 元數(shù)據(jù)擁有的巨大作用的發(fā)揮會在后面對數(shù)據(jù)倉庫的分析中逐步體會到。這一節(jié)實(shí)際上通過信息打包技術(shù)建立起了數(shù)據(jù)倉庫的概念模型,,通過信息包圖得到的星形結(jié) 構(gòu)或雪花形結(jié)構(gòu)實(shí)際上為數(shù)據(jù)倉庫建立起了邏輯模型,。可以說,通過對主題和元數(shù)據(jù)的分析,,應(yīng)該能夠?qū)默F(xiàn)實(shí)世界到主觀世界的過程(即概念模型的構(gòu)建)有深刻 的認(rèn)識,,而對邏輯模型還需要從事實(shí)和維度的角度進(jìn)一步研究。 |
|