數(shù)據(jù)挖掘介紹分類(lèi):學(xué)習(xí)筆記
2007.2.12 13:03 作者:lynn | 評(píng)論:0 | 閱讀:298
一. 關(guān)鍵詞 1. DM(Data Mining),DW(Data Warehouse),OLAP,,BI 二. 數(shù)據(jù)庫(kù)已經(jīng)成為收集和分布信息的系統(tǒng)的基礎(chǔ),。數(shù)據(jù)采集目的在于此后根據(jù)數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行正確決策。這些海量數(shù)據(jù)的深層隱藏的是很多的商業(yè)模式(Pattern),,規(guī)則(Rules),,這些隱藏的“商業(yè)知識(shí)”對(duì)于當(dāng)前的數(shù)據(jù)擁有者來(lái)說(shuō)意義非凡,因此他們可能預(yù)測(cè)整個(gè)集團(tuán)未來(lái)的商業(yè)策略,,市場(chǎng)開(kāi)發(fā)計(jì)劃,,以及為公司帶來(lái)新的盈利點(diǎn),而要把這些目前還隱藏在大量看似無(wú)關(guān)聯(lián)的數(shù)據(jù)背后的“知識(shí)”挖掘出來(lái)需要使用專(zhuān)門(mén)的統(tǒng)計(jì)學(xué)或測(cè)量方法,。 三. 什么是數(shù)據(jù)挖掘 下面是一些“前人”對(duì)數(shù)據(jù)挖掘的定義: 1. “挖掘”出數(shù)據(jù)中隱藏的模式,,趨勢(shì),,關(guān)系的過(guò)程(Groth) 2. 通過(guò)自動(dòng)或半自動(dòng)的方式在海量數(shù)據(jù)中發(fā)現(xiàn)有用的模式,,規(guī)則的過(guò)程(Beryy&Linoff) 3. 分析普通的數(shù)據(jù)(通常是海量的)來(lái)發(fā)現(xiàn)數(shù)據(jù)之間比較穩(wěn)定地關(guān)系,以易于理解的方式將數(shù)據(jù)總結(jié)出來(lái)向數(shù)據(jù)所有者提供有價(jià)值的決策支持,。(Hand,Mannila&Smyth) 4. 在不需要人或很少地手工干預(yù)下通過(guò)可行地計(jì)算機(jī)技術(shù)來(lái)挖掘開(kāi)采數(shù)據(jù),,對(duì)數(shù)據(jù)進(jìn)行分析(Wegman) 5. 從大量的數(shù)據(jù)庫(kù)中抽取出此前還沒(méi)發(fā)現(xiàn)的有效實(shí)用地的信息,并且此后使用此信息來(lái)幫助制定關(guān)鍵的商業(yè)決策的過(guò)程(Cabena etal) 四. 在做數(shù)據(jù)挖掘之前我們需要做哪些工作,? 1. 大量的數(shù)據(jù)準(zhǔn)備(Case,,數(shù)據(jù)挖掘的事例)(一般應(yīng)該是108-1012 Bytes,,也就是百M到TB級(jí)別) u 103=1K u 106= u 109= u 1012=1T 2. 數(shù)據(jù)要是多維的(數(shù)據(jù)挖掘的變量) 一般是某個(gè)數(shù)據(jù)要有10到104個(gè)屬性,也就是同一個(gè)數(shù)據(jù)可能從幾個(gè)不同的角度來(lái)觀察 五. 為什么需要數(shù)據(jù)挖掘,? 1. 目前只有很小一部分(通常是5%到10%)的數(shù)據(jù)曾經(jīng)被分析使用過(guò),其它的數(shù)據(jù)在Insert到數(shù)據(jù)庫(kù)之后就很少再被查看分析過(guò),。 2. 數(shù)據(jù)也許從來(lái)沒(méi)有被分析過(guò),,但是當(dāng)前數(shù)據(jù)管理者由于害怕在將來(lái)這些數(shù)據(jù)可能會(huì)用到,為了不錯(cuò)過(guò)將來(lái)的使用還是會(huì)源源不斷地將這些數(shù)據(jù)收集起來(lái),。這樣話數(shù)據(jù)庫(kù)只會(huì)是越來(lái)越大,,在其中查找有用的信息時(shí)的效率會(huì)越來(lái)越低。 六.Huber-Wegman數(shù)據(jù)集大小分類(lèi)法
七.現(xiàn)狀 a) 最近幾十年,,許多公司組織花費(fèi)了大量的資源用于構(gòu)建及維護(hù)資訊數(shù)據(jù)庫(kù),包括開(kāi)發(fā)大規(guī)模數(shù)據(jù)倉(cāng)庫(kù) b) 通常情況下,,現(xiàn)有的數(shù)據(jù)不能通過(guò)常規(guī)的分析方式分析,,原因可能有許多丟失不全的記錄也可能是數(shù)據(jù)是以定量的方式而非定質(zhì)的形式存在的 c) 在大多數(shù)情況下,當(dāng)前數(shù)據(jù)庫(kù)中的信息由于不能方便地訪問(wèn)分析而沒(méi)有得到足夠地重視估或者沒(méi)有充分使用,。 d) 一些數(shù)據(jù)庫(kù)增長(zhǎng)得太快以至于連系統(tǒng)管理員也經(jīng)常不清楚系統(tǒng)中哪些信息可以用來(lái)處理當(dāng)前手頭的問(wèn)題,,以及系統(tǒng)中的數(shù)據(jù)與當(dāng)前手頭上的問(wèn)題之間的關(guān)系。 e) 如果為公司組織提供一種方法在這些大數(shù)據(jù)庫(kù)中“挖掘”出重要的信息及商業(yè)模式對(duì)他們是非常有直接的利益好處的 八.為什么最近數(shù)據(jù)挖掘如此受關(guān)注 a) 主要是因?yàn)橛?jì)算機(jī)技術(shù)尤其是數(shù)據(jù)庫(kù)管理方面的技術(shù)很復(fù)雜棘手 b) 因?yàn)閿?shù)據(jù)庫(kù)中的數(shù)據(jù)增長(zhǎng)很快,,手動(dòng)查找信息會(huì)變得非常困難。數(shù)據(jù)挖掘?qū)τ诎l(fā)現(xiàn)和描述關(guān)系表中的隱藏模式非常有用,。數(shù)據(jù)挖掘提供的算法允許自動(dòng)模式查找,。 九.KDD數(shù)據(jù)庫(kù)中的“知識(shí)發(fā)現(xiàn)”(Knowledge Discovery in Databases) a) “知識(shí)發(fā)現(xiàn)”最早是人工智能(AI,Artificial Intelligence)領(lǐng)域的一個(gè)名詞 b) KDD由以下幾個(gè)部分組成(當(dāng)然包括“數(shù)據(jù)挖掘”) i. “數(shù)據(jù)清洗”(去除噪音數(shù)據(jù)和不統(tǒng)一數(shù)據(jù)) ii. “數(shù)據(jù)整合”(多個(gè)數(shù)據(jù)源的數(shù)據(jù)匯總到一起) iii. “數(shù)據(jù)篩選”(根據(jù)當(dāng)前要分析的主題從數(shù)據(jù)庫(kù)中選取出與主題相關(guān)的數(shù)據(jù)) iv. “數(shù)據(jù)轉(zhuǎn)換”(整理,,轉(zhuǎn)換數(shù)據(jù)使他們便于使用諸如“匯總”,,“聚合”等挖掘算法的形式) v. “數(shù)據(jù)挖掘”(這可是核心的步驟,使用智能化方法來(lái)抽取出隱含的模式,,規(guī)則) vi. “模式評(píng)估”(對(duì)剛才新發(fā)現(xiàn)的“知識(shí)”進(jìn)行驗(yàn)證評(píng)估來(lái)檢驗(yàn)此模式是不是可行) vii. “知識(shí)表示”(將挖掘出來(lái)的模式使用可視化的形式顯現(xiàn)給用戶(hù)) 十.用于數(shù)據(jù)庫(kù)挖掘的數(shù)據(jù)庫(kù) 可以用于數(shù)據(jù)庫(kù)挖掘的數(shù)據(jù)庫(kù)有如下幾種: u 關(guān)系型數(shù)據(jù)庫(kù) u 數(shù)據(jù)倉(cāng)庫(kù) u 事務(wù)處理數(shù)據(jù)庫(kù) u 支持對(duì)象的關(guān)系型數(shù)據(jù)庫(kù) u 面向?qū)ο蟮臄?shù)據(jù)庫(kù) 十一. 數(shù)據(jù)倉(cāng)庫(kù)(DW,,Data Warehouse) 面向同一個(gè)主題,從多個(gè)數(shù)據(jù)源收集在一起,,隨時(shí)間變化但信息本身又相對(duì)穩(wěn)定的信息數(shù)據(jù)集合,。 數(shù)據(jù)倉(cāng)庫(kù)將報(bào)告數(shù)據(jù)從運(yùn)行著的數(shù)據(jù)庫(kù)系統(tǒng)中隔離出來(lái)。通過(guò)將查詢(xún)工作移動(dòng)到更有效率的系統(tǒng),,這種隔離能夠提高運(yùn)行系統(tǒng)的性能,。可以提高安全性,。敏感信息將保存在不會(huì)暴露給查詢(xún)的運(yùn)行數(shù)據(jù)庫(kù)中,。由數(shù)據(jù)倉(cāng)庫(kù)提供的提取級(jí)別簡(jiǎn)化了對(duì)決策支持應(yīng)用程序生成的統(tǒng)計(jì)表的訪問(wèn),。 OLTP中的數(shù)據(jù)定期插入到數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)和安全性方面相對(duì)于OLTP來(lái)說(shuō)理簡(jiǎn)化,,因?yàn)?/span>Data Warehouse的主要目的就是為了提高分析查詢(xún)的效率,,而不是進(jìn)行聯(lián)機(jī)事務(wù)處理。 常規(guī)OLTP數(shù)據(jù)庫(kù)的基本單位是一個(gè)二維表,,由行,,列組成,而數(shù)據(jù)倉(cāng)庫(kù)的基本單位是多維立方體,,可能從多個(gè)角度來(lái)觀察分析這個(gè)數(shù)據(jù)實(shí)體,,它是來(lái)自現(xiàn)有數(shù)據(jù)源的集成信息儲(chǔ)備庫(kù)。這些單元之間通常是以“星型結(jié)構(gòu)(Star Schema)”或者“雪花結(jié)構(gòu)(Snow Flake Schema)”的形式想關(guān)聯(lián)起來(lái)的,。 |
|
來(lái)自: 我不認(rèn)識(shí)你 > 《IT》