合理選擇數(shù)據(jù)挖掘工具2005-08-03 09:40作者:李逸波 于吉紅 白曉明出處:計算機與信息技術(shù)責任編輯:方舟
摘 要:數(shù)據(jù)挖掘作為一項從海量數(shù)據(jù)中提取知識的信息技術(shù)引起了國內(nèi)外學術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注,,它在商業(yè)方面的成功應用使得軟件開發(fā)商不斷開發(fā)新的數(shù)據(jù)挖掘工具,改進現(xiàn)有的數(shù)據(jù)挖掘工具,,一時之間數(shù)據(jù)挖掘工具可謂琳瑯滿目,,于是出現(xiàn)了如何合理選擇挖掘工具的問題。鑒于此,,本文提出并討論了五點關(guān)于合理選擇數(shù)據(jù)挖掘工具的技巧,。
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)挖掘工具,;數(shù)據(jù)倉庫 隨著數(shù)據(jù)庫和計算機網(wǎng)絡的廣泛應用,,加上先進的數(shù)據(jù)自動生成和采集工具的使用,人們擁有的數(shù)據(jù)量急劇增大,。然而數(shù)據(jù)的極速增長與數(shù)據(jù)分析方法的改進并不成正比,,一方面人們希望在已有的大量數(shù)據(jù)的基礎上進行科學研究、商業(yè)決策,、企業(yè)管理,,另一方面?zhèn)鹘y(tǒng)的數(shù)據(jù)分析工具很難令人滿意的對數(shù)據(jù)進行深層次的處理,這樣二者之間的矛盾日益突出,,正是在這種狀況下,,數(shù)據(jù)挖掘應運而生。數(shù)據(jù)挖掘作為一項從海量數(shù)據(jù)中提取知識的信息技術(shù)是一個"以發(fā)現(xiàn)為驅(qū)動"的過程,,已經(jīng)引起了學術(shù)界和產(chǎn)業(yè)界的極大重視,。特別是從1989年8月在美國底特律召開的第11屆國際人工智能聯(lián)合會議上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn)概念以來,數(shù)據(jù)挖掘在國際國內(nèi)都受到了前所未有的重視,,目前數(shù)據(jù)挖掘廣泛應用于各個領域,,如地理學、地質(zhì)學,、生物醫(yī)學等等,,總之數(shù)據(jù)挖掘的出現(xiàn)使數(shù)據(jù)庫技術(shù)進入了一個更高級的階段,,不僅能對過去的數(shù)據(jù)進行查詢和遍歷,還能夠找出以往數(shù)據(jù)間潛在的聯(lián)系,,促進信息的傳播,。 數(shù)據(jù)挖掘技術(shù)概述 1,、數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘是一個從數(shù)據(jù)中提取模式的過程,,是一個受多個學科影響的交叉領域,包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計學,、機器學習,、可視化和信息科學等;數(shù)據(jù)挖掘反復使用多種數(shù)據(jù)挖掘算法從觀測數(shù)據(jù)中確定模式或合理模型,,是一種決策支持過程,。通過預測客戶的行為,幫助企業(yè)的決策者調(diào)整市場策略,,減少風險,,做出正確的決策。由于傳統(tǒng)的事物型工具(如查詢工具,、報表工具)無法回答事先未定義的綜合性問題或跨部門/機構(gòu)的問題,,因此其用戶必須清楚地了解問題的目的。數(shù)據(jù)挖掘就可以回答事先未加定義的綜合性問題或跨部門/機構(gòu)的問題,,挖掘潛在的模式并預測未來的趨勢,,用戶不必提出確切的問題,而且模糊問題更有利于發(fā)現(xiàn)未知的事實,。 2,、數(shù)據(jù)挖掘的主要方法和途徑 數(shù)據(jù)挖掘有很多種分類方法,如按發(fā)現(xiàn)的知識種類,,挖掘的數(shù)據(jù)庫類型,,挖掘方法,挖掘途徑,,所采用的技術(shù)等等,。下面只討論四個應用比較廣泛的方法: ·關(guān)聯(lián)規(guī)則(Association Rule) 在數(shù)據(jù)挖掘領域中,關(guān)聯(lián)規(guī)則應用最為廣泛,,是重要的研究方向,。表示數(shù)據(jù)庫中一組對象之間某種關(guān)聯(lián)關(guān)系的規(guī)則,一般來講,,可以用多個參數(shù)來描述一個關(guān)聯(lián)規(guī)則的屬性,,常用的有:可信度,支持度,,興趣度,,期望可信度,,作用度。 ·離群數(shù)據(jù)(Outlier) 離群數(shù)據(jù)就是明顯偏離其他數(shù)據(jù),、不滿足數(shù)據(jù)的一般模式或行為,、與存在的其他數(shù)據(jù)不一致的數(shù)據(jù)。數(shù)據(jù)挖掘的大部分研究忽視了離群數(shù)據(jù)的存在和意義,,現(xiàn)有的方法往往研究如何減少離群數(shù)據(jù)對正常數(shù)據(jù)的影響,,或僅僅把其當作噪音來對待。這些離群數(shù)據(jù)可能來源于計算機錄入錯誤,、人為錯誤等,,也可能就是數(shù)據(jù)的真實反映。 ·基于案例的推理(case-based reasoning, CBR) 基于案例的推理來源于人類的認知心理活動,,它屬于類比推理方法,。其基本思想是基于人們在問題求解中習慣于過去處理類似問題的經(jīng)驗和獲取的知識,在針對新舊情況的差異作相應的調(diào)整,,從而得到新問題的解并形成新的案例,。CBR方法的應用越來越受到人們的重視,在許多領域都有較好的推廣前景,,例如,,在氣象、環(huán)保,、地震,、農(nóng)業(yè)、醫(yī)療,、商業(yè),、CAD等領域;CBR也可用在計算機軟硬件的生產(chǎn)中,,如軟件及硬件的故障檢測,;CBR方法尤其在不易總結(jié)出專家知識的領域中,應用越來越普遍,,也越來越深入,。 ·支持向量機(Support Vector Machine,SVM) 支持向量機是近幾年發(fā)展起來的新型通用的知識發(fā)現(xiàn)方法,,在分類方面具有良好的性能,。SVM是建立在計算學習理論的結(jié)構(gòu)風險最小化原則之上,主要思想是針對兩類分類問題在高位空間中尋找一個超平面作為兩類的分割,,以保證最小的分類錯誤率,。 數(shù)據(jù)挖掘工具 伴隨越來越多的軟件供應商加入數(shù)據(jù)挖掘這一行列,使得現(xiàn)有的挖掘工具的性能得到進一步的增強,使用更加便捷,,也使得其價格門檻迅速降低,,為應用的普及帶來了可能。當然數(shù)據(jù)倉庫技術(shù)的發(fā)展同樣功不可沒,。數(shù)據(jù)倉庫是將海量復雜的客戶行為數(shù)據(jù)集中起來建立的一個整合的,、結(jié)構(gòu)化的數(shù)據(jù)模型,是實施數(shù)據(jù)挖掘的基礎,,這里不作為討論的重點,。 1、數(shù)據(jù)挖掘工具分類 一般來講,,數(shù)據(jù)挖掘工具根據(jù)其適用的范圍分為兩類:專用數(shù)據(jù)挖掘工具和通用數(shù)據(jù)挖掘工具,。專用數(shù)據(jù)挖掘工具是針對某個特定領域的問題提供解決方案,在涉及算法的時候充分考慮了數(shù)據(jù),、需求的特殊性,并作了優(yōu)化,;而通用數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型,。 2,、數(shù)據(jù)挖掘工具的選擇 數(shù)據(jù)挖掘是一個過程,只有將數(shù)據(jù)挖掘工具提供的技術(shù)和實施經(jīng)驗與企業(yè)的業(yè)務邏輯和需求緊密結(jié)合,,并在實施的過程中不斷的磨合,,才能取得成功,因此我們在選擇數(shù)據(jù)挖掘工具的時候,,要全面考慮多方面的因素,,主要包括以下幾點: 數(shù)據(jù)挖掘的功能和方法 即是否可以完成各種數(shù)據(jù)挖掘的任務,如:關(guān)聯(lián)分析,、分類分析,、序列分析、回歸分析,、聚類分析,、自動預測等。我們知道數(shù)據(jù)挖掘的過程一般包括數(shù)據(jù)抽樣,、數(shù)據(jù)描述和預處理,、數(shù)據(jù)變換、模型的建立,、模型評估和發(fā)布等,,因此一個好的數(shù)據(jù)挖掘工具應該能夠為每個步驟提供相應的功能集。數(shù)據(jù)挖掘工具還應該能夠方便的導出挖掘的模型,,從而在以后的應用中使用該模型,。 ·數(shù)據(jù)挖掘工具的可伸縮性 也就是說解決復雜問題的能力,,一個好的數(shù)據(jù)挖掘工具應該可以處理盡可能大的數(shù)據(jù)量,可以處理盡可能多的數(shù)據(jù)類型,,可以盡可能高的提高處理的效率,,盡可能使處理的結(jié)果有效。如果在數(shù)據(jù)量和挖掘維數(shù)增加的情況下,,挖掘的時間呈線性增長,,那么可以認為該挖掘工具的伸縮性較好。 ·操作的簡易性 一個好的數(shù)據(jù)挖掘工具應該為用戶提供友好的可視化操作界面和圖形化報表工具,,在進行數(shù)據(jù)挖掘的過程中應該盡可能提高自動化運行程度,。總之是面向廣大用戶的而不是熟練的專業(yè)人員,。 ·數(shù)據(jù)挖掘工具的可視化 這包括源數(shù)據(jù)的可視化,、挖掘模型的可視化、挖掘過程的可視化,、挖掘結(jié)果的可視化,,可視化的程度、質(zhì)量和交互的靈活性都將嚴重影響到數(shù)據(jù)挖掘系統(tǒng)的使用和解釋能力,。畢竟人們接受外界信息的80%是通過視覺獲得的,,自然數(shù)據(jù)挖掘工具的可視化能力就相當重要。 ·數(shù)據(jù)挖掘工具的開放性 即數(shù)據(jù)挖掘工具與數(shù)據(jù)庫的結(jié)合能力,。好的數(shù)據(jù)挖掘工具應該可以連接盡可能多的數(shù)據(jù)庫管理系統(tǒng)和其他的數(shù)據(jù)資源,,應盡可能的與其他工具進行集成;盡管數(shù)據(jù)挖掘并不要求一定要在數(shù)據(jù)庫或數(shù)據(jù)倉庫之上進行,,但數(shù)據(jù)挖掘的數(shù)據(jù)采集,、數(shù)據(jù)清洗、數(shù)據(jù)變換等等將耗費巨大的時間和資源,,因此數(shù)據(jù)挖掘工具必須要與數(shù)據(jù)庫緊密結(jié)合,,減少數(shù)據(jù)轉(zhuǎn)換的時間,充分利用整個的數(shù)據(jù)和數(shù)據(jù)倉庫的處理能力,,在數(shù)據(jù)倉庫內(nèi)直接進行數(shù)據(jù)挖掘,,而且開發(fā)模型,測試模型,,部署模型都要充分利用數(shù)據(jù)倉庫的處理能力,,另外,多個數(shù)據(jù)挖掘項目可以同時進行,。 當然,,上述的只是一些通用的參考指標,具體選擇挖掘工具時還需要從實際情況出發(fā)具體分析。 數(shù)據(jù)挖掘工具的現(xiàn)狀 比較著名的有IBM Intelligent Miner,、SAS Enterprise Miner,、SPSS Clementine等,它們都能夠提供常規(guī)的挖掘過程和挖掘模式,。 1,、Intelligent Miner 由美國IBM公司開發(fā)的數(shù)據(jù)挖掘軟件Intelligent Miner是一種分別面向數(shù)據(jù)庫和文本信息進行數(shù)據(jù)挖掘的軟件系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。Intelligent Miner for Data可以挖掘包含在數(shù)據(jù)庫,、數(shù)據(jù)倉庫和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫或普通文件中的結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)挖掘,。它已經(jīng)成功應用于市場分析、詐騙行為監(jiān)測及客戶聯(lián)系管理等,;Intelligent Miner for Text允許企業(yè)從文本信息進行數(shù)據(jù)挖掘,,文本數(shù)據(jù)源可以是文本文件、Web頁面,、電子郵件,、Lotus Notes數(shù)據(jù)庫等等。 2,、Enterprise Miner 這是一種在我國的企業(yè)中得到采用的數(shù)據(jù)挖掘工具,,比較典型的包括上海寶鋼配礦系統(tǒng)應用和鐵路部門在春運客運研究中的應用。SAS Enterprise Miner是一種通用的數(shù)據(jù)挖掘工具,,按照"抽樣--探索--轉(zhuǎn)換--建模--評估"的方法進行數(shù)據(jù)挖掘??梢耘cSAS數(shù)據(jù)倉庫和OLAP集成,,實現(xiàn)從提出數(shù)據(jù)、抓住數(shù)據(jù)到得到解答的"端到端"知識發(fā)現(xiàn),。 3,、SPSS Clementine SPSS Clementine是一個開放式數(shù)據(jù)挖掘工具,曾兩次獲得英國政府SMART 創(chuàng)新獎,,它不但支持整個數(shù)據(jù)挖掘流程,,從數(shù)據(jù)獲取、轉(zhuǎn)化,、建模,、評估到最終部署的全部過程,還支持數(shù)據(jù)挖掘的行業(yè)標準--CRISP-DM,。Clementine的可視化數(shù)據(jù)挖掘使得"思路"分析成為可能,,即將集中精力在要解決的問題本身,而不是局限于完成一些技術(shù)性工作(比如編寫代碼),。提供了多種圖形化技術(shù),,有助理解數(shù)據(jù)間的關(guān)鍵性聯(lián)系,指導用戶以最便捷的途徑找到問題的最終解決辦法。 其它常用的數(shù)據(jù)挖掘工具還有LEVEL5 Quest ,、MineSet (SGI) ,、Partek 、SE-Learn ,、SPSS 的數(shù)據(jù)挖掘軟件Snob,、Ashraf Azmy 的SuperQuery 、WINROSA ,、XmdvTool 等,。 結(jié)束語 經(jīng)過十多年的發(fā)展,數(shù)據(jù)挖掘工具的性能獲得了顯著的改善,,不論是自動化程度還是適用范圍都發(fā)生了巨大變化,,價格的門檻迅速降低,對于推進數(shù)據(jù)挖掘在企業(yè)和電子商務中的應用具有特殊的意義,。但是還應該看到,,現(xiàn)在的數(shù)據(jù)挖掘工具還存在許多的不足,1999年的調(diào)查顯示多數(shù)的數(shù)據(jù)挖掘工具只使用了有限的幾種技術(shù),,且集中在比較簡單的數(shù)據(jù)挖掘技術(shù)種類上,。 所以我們呼吁每個企業(yè)都必須結(jié)合自己的實際情況,充分考慮本企業(yè)在數(shù)據(jù)挖掘領域的實施經(jīng)驗,,避免踏進僅僅是"選擇工具"的陷阱,,從而獲得一個完善的數(shù)據(jù)挖掘解決方案,真正把數(shù)據(jù)挖掘融入到企業(yè)的經(jīng)營決策中,。 |
|
來自: congting13 > 《我的圖書館》