何時需要使用數(shù)據(jù)挖掘工具
數(shù)據(jù)挖掘,,簡單說,,就是從大量的數(shù)據(jù)中,抽取出潛在的,、有價值的知識,、模型或規(guī)則的過程。隨著信息技術(shù)的迅速發(fā)展和企業(yè)信息化的深入,,企業(yè)積累的數(shù)據(jù)越來越多,。數(shù)據(jù)的背后應(yīng)隱藏著許多重要信息,企業(yè)自然希望能夠?qū)ζ溥M行更高層次的分析,,以便更好地利用這些數(shù)據(jù),。數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入,、修改、統(tǒng)計,、查詢等功能,,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢,,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象,。
可以說,數(shù)據(jù)挖掘是企業(yè)數(shù)據(jù)積累的必然結(jié)果和自然需要,。而各行各業(yè)日益加劇的市場競爭,,進一步加速了對數(shù)據(jù)挖掘的需求和數(shù)據(jù)挖掘技術(shù)的發(fā)展??蛻舯3?、客戶價值分析、客戶流失預(yù)測,、客戶信用分析,、交叉銷售等等,已經(jīng)不再是誘人的口號,,而是已經(jīng)成功應(yīng)用到電信,、金融、零售,、保險等行業(yè),。
此外數(shù)據(jù)倉庫技術(shù)的發(fā)展和廣泛實施為有效的數(shù)據(jù)挖掘提供了可能。IDC的調(diào)研報告中,,2003年數(shù)據(jù)倉庫將達(dá)到200億美元的市場規(guī)模,。數(shù)據(jù)倉庫將海量復(fù)雜的客戶行為數(shù)據(jù)集中起來,建立一個整合的,、結(jié)構(gòu)化的數(shù)據(jù)模型,,在此基礎(chǔ)上對數(shù)據(jù)進行標(biāo)準(zhǔn)化、抽象化,、規(guī)范化分類,、分析,為企業(yè)管理層提供及時的決策信息,,為企業(yè)業(yè)務(wù)部門提供有效的反饋數(shù)據(jù)?,F(xiàn)在,NCR,、IBM,、Oracle等等廠商都在數(shù)據(jù)倉庫領(lǐng)域有所建樹,一些預(yù)見性的模型和解決方案已經(jīng)被建立起來,,數(shù)據(jù)倉庫已不僅僅是簡單的數(shù)據(jù)存儲,,而成為對客戶資料進行分析,、挖掘客戶潛力的基石。
可以說,,如果企業(yè)在發(fā)展中已經(jīng)積累了大量的數(shù)據(jù),,也希望從這些寶貴的信息財富中得到為企業(yè)降低成本、增加利潤,、提高核心競爭能力效率的秘訣,,那么,該是實施數(shù)據(jù)挖掘的時候了,。當(dāng)然首先建立企業(yè)數(shù)據(jù)倉庫是有效進行數(shù)據(jù)挖掘的基礎(chǔ)。
如何進行數(shù)據(jù)挖掘工具的選擇
數(shù)據(jù)挖掘和數(shù)據(jù)倉庫一樣是一個過程,,只有將數(shù)據(jù)挖掘工具提供的技術(shù)和實施經(jīng)驗與企業(yè)的業(yè)務(wù)邏輯和需求緊密結(jié)合,,并在實施過程中不斷磨合,才能夠取得成功,。因此我們在選擇數(shù)據(jù)挖掘工具時,,要全面考慮多方因素,其中應(yīng)著重關(guān)注一下四點:
1. 數(shù)據(jù)挖掘工具與數(shù)據(jù)倉庫能夠緊密結(jié)合
●可以減少數(shù)據(jù)轉(zhuǎn)換的時間,。
盡管數(shù)據(jù)挖掘并不要求一定要在數(shù)據(jù)倉庫之上進行,,但數(shù)據(jù)挖掘的種種問題將耗費巨大的時間和資源,如從不同的數(shù)據(jù)集市中進行數(shù)據(jù)采集,數(shù)據(jù)清洗,,數(shù)據(jù)變換等等,。一旦需要建立新的模型,您將不得不再次重復(fù)這個過程。大約70%的數(shù)據(jù)挖掘過程將花費在數(shù)據(jù)準(zhǔn)備階段,。數(shù)據(jù)倉庫通過減少數(shù)據(jù)冗余和系統(tǒng)管理使得數(shù)據(jù)挖掘更可行,,并使模型開發(fā)人員可以更集中于對數(shù)據(jù)的分析。
●可以充分利用整個企業(yè)的數(shù)據(jù)和詳細(xì)數(shù)據(jù),。
在數(shù)據(jù)倉庫內(nèi)直接進行的數(shù)據(jù)挖掘提供了集中式數(shù)據(jù)挖掘體系,,可以對數(shù)據(jù)倉庫中所有數(shù)據(jù)進行分析,包括了企業(yè)的詳細(xì)數(shù)據(jù),,這樣就能夠挖掘出更多,、更合理的模式。
●可以充分利用數(shù)據(jù)倉庫的處理能力
在數(shù)據(jù)倉庫內(nèi)直接進行的數(shù)據(jù)挖掘,,開發(fā)模型,、測試模型和部署模型都能夠充分利用數(shù)據(jù)倉庫的處理能力,得到更好的性能,;另外,,多個數(shù)據(jù)挖掘項目可以也同時進行。
2. 數(shù)據(jù)挖掘的功能和方法
數(shù)據(jù)挖掘過程一般包括數(shù)據(jù)抽樣,、數(shù)據(jù)描述和預(yù)處理,、數(shù)據(jù)變換,、模型建立、模型評估和發(fā)布等步驟,。數(shù)據(jù)挖掘工具應(yīng)該能夠為每個步驟提供相應(yīng)的功能集,。
數(shù)據(jù)挖掘工具必須提供常用的數(shù)據(jù)挖掘模式,如分類模式,、聚類模式,、回歸模式、關(guān)聯(lián)模式,、序列模式等,。
數(shù)據(jù)挖掘工具還應(yīng)該能夠方便地提供挖掘出的模型(例如能夠用SQL語句導(dǎo)出模型),從而在企業(yè)的應(yīng)用中集成使用該模型,。
3. 數(shù)據(jù)挖掘工具的伸縮性
數(shù)據(jù)挖掘工具的伸縮性主要考慮兩個方面,,一是數(shù)據(jù)量(行)增大時的性能表現(xiàn),二是當(dāng)挖掘維度增加時的性能表現(xiàn),;如果兩種情況下挖掘時間呈線性增長,,則可認(rèn)為工具的伸縮性較好。
一般而言,,能夠緊密結(jié)合數(shù)據(jù)倉庫,,充分利用數(shù)據(jù)倉庫處理能力的數(shù)據(jù)挖掘工具有更好的伸縮性。
4. 數(shù)據(jù)挖掘工具的可視化
數(shù)據(jù)挖掘工具是否能夠?qū)崿F(xiàn)數(shù)據(jù)可視化,、挖掘模型可視化,、挖掘過程可視化,可視化程度,、質(zhì)量和交互靈活性嚴(yán)重影響到數(shù)據(jù)挖掘系統(tǒng)的使用和解釋能力,。
當(dāng)前主流的挖掘工具如SAS Enterprise Miner、IBM Intelligent Miner,、Teradata Warehouse Miner,、SPSS Clementine等都能夠提供常用的挖掘過程和挖掘模式。
總之,,每個企業(yè)必須結(jié)合自己的實際情況何需要,,充分考慮廠商在數(shù)據(jù)倉庫領(lǐng)域的咨詢和實施經(jīng)驗,避免踏入僅僅“選擇工具”的陷阱,,力求獲得一個完整的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘解決方案,,并和廠商一起完成這個復(fù)雜的、富有挑戰(zhàn)性,、創(chuàng)造性并充滿樂趣的過程,。惟其如此,才能夠?qū)?shù)據(jù)倉庫和數(shù)據(jù)挖掘真正融入企業(yè)日常的經(jīng)營決策之中。
|