數(shù)據(jù)挖掘介紹

我不認(rèn)識(shí)你 2008-04-08

展開(kāi)全文

數(shù)據(jù)挖掘介紹

2007.2.12 13:03 作者：lynn | 評(píng)論：0 | 閱讀：298

一. 關(guān)鍵詞

1. DM(Data Mining)，DW（Data Warehouse）,OLAP,，BI

二. 數(shù)據(jù)庫(kù)已經(jīng)成為收集和分布信息的系統(tǒng)的基礎(chǔ),。數(shù)據(jù)采集目的在于此后根據(jù)數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行正確決策。這些海量數(shù)據(jù)的深層隱藏的是很多的商業(yè)模式（Pattern）,，規(guī)則（Rules）,，這些隱藏的“商業(yè)知識(shí)”對(duì)于當(dāng)前的數(shù)據(jù)擁有者來(lái)說(shuō)意義非凡，因此他們可能預(yù)測(cè)整個(gè)集團(tuán)未來(lái)的商業(yè)策略,，市場(chǎng)開(kāi)發(fā)計(jì)劃,，以及為公司帶來(lái)新的盈利點(diǎn)，而要把這些目前還隱藏在大量看似無(wú)關(guān)聯(lián)的數(shù)據(jù)背后的“知識(shí)”挖掘出來(lái)需要使用專(zhuān)門(mén)的統(tǒng)計(jì)學(xué)或測(cè)量方法,。

三. 什么是數(shù)據(jù)挖掘

下面是一些“前人”對(duì)數(shù)據(jù)挖掘的定義：

1. “挖掘”出數(shù)據(jù)中隱藏的模式,，趨勢(shì),，關(guān)系的過(guò)程（Groth）

2. 通過(guò)自動(dòng)或半自動(dòng)的方式在海量數(shù)據(jù)中發(fā)現(xiàn)有用的模式,，規(guī)則的過(guò)程（Beryy＆Linoff）

3. 分析普通的數(shù)據(jù)（通常是海量的）來(lái)發(fā)現(xiàn)數(shù)據(jù)之間比較穩(wěn)定地關(guān)系，以易于理解的方式將數(shù)據(jù)總結(jié)出來(lái)向數(shù)據(jù)所有者提供有價(jià)值的決策支持,。（Hand,Mannila&Smyth）

4. 在不需要人或很少地手工干預(yù)下通過(guò)可行地計(jì)算機(jī)技術(shù)來(lái)挖掘開(kāi)采數(shù)據(jù),，對(duì)數(shù)據(jù)進(jìn)行分析（Wegman）

5. 從大量的數(shù)據(jù)庫(kù)中抽取出此前還沒(méi)發(fā)現(xiàn)的有效實(shí)用地的信息，并且此后使用此信息來(lái)幫助制定關(guān)鍵的商業(yè)決策的過(guò)程（Cabena etal）

四. 在做數(shù)據(jù)挖掘之前我們需要做哪些工作,？

1. 大量的數(shù)據(jù)準(zhǔn)備（Case,，數(shù)據(jù)挖掘的事例）(一般應(yīng)該是10⁸-10¹² Bytes,，也就是百M到TB級(jí)別)

u 10³=1K

u 10⁶=1M

u 10⁹=1G

u 10¹²=1T

2. 數(shù)據(jù)要是多維的（數(shù)據(jù)挖掘的變量）

一般是某個(gè)數(shù)據(jù)要有10到10⁴個(gè)屬性，也就是同一個(gè)數(shù)據(jù)可能從幾個(gè)不同的角度來(lái)觀察

五. 為什么需要數(shù)據(jù)挖掘,？

1. 目前只有很小一部分（通常是5％到10％）的數(shù)據(jù)曾經(jīng)被分析使用過(guò)，其它的數(shù)據(jù)在Insert到數(shù)據(jù)庫(kù)之后就很少再被查看分析過(guò),。

2. 數(shù)據(jù)也許從來(lái)沒(méi)有被分析過(guò),，但是當(dāng)前數(shù)據(jù)管理者由于害怕在將來(lái)這些數(shù)據(jù)可能會(huì)用到，為了不錯(cuò)過(guò)將來(lái)的使用還是會(huì)源源不斷地將這些數(shù)據(jù)收集起來(lái),。這樣話數(shù)據(jù)庫(kù)只會(huì)是越來(lái)越大,，在其中查找有用的信息時(shí)的效率會(huì)越來(lái)越低。

六．Huber-Wegman數(shù)據(jù)集大小分類(lèi)法

描述	數(shù)據(jù)大?。ㄗ止?jié)）	存儲(chǔ)模式
極小	10²	紙
小	10⁴	一疊紙
中	10⁶	一張軟盤(pán)
大	10⁸	硬盤(pán)
很大	10¹⁰	多個(gè)硬盤(pán)
極大	10¹²	磁帶
海量	10¹⁵	分布式存儲(chǔ)

七．現(xiàn)狀

a) 最近幾十年,，許多公司組織花費(fèi)了大量的資源用于構(gòu)建及維護(hù)資訊數(shù)據(jù)庫(kù)，包括開(kāi)發(fā)大規(guī)模數(shù)據(jù)倉(cāng)庫(kù)

b) 通常情況下,，現(xiàn)有的數(shù)據(jù)不能通過(guò)常規(guī)的分析方式分析,，原因可能有許多丟失不全的記錄也可能是數(shù)據(jù)是以定量的方式而非定質(zhì)的形式存在的

c) 在大多數(shù)情況下，當(dāng)前數(shù)據(jù)庫(kù)中的信息由于不能方便地訪問(wèn)分析而沒(méi)有得到足夠地重視估或者沒(méi)有充分使用,。

d) 一些數(shù)據(jù)庫(kù)增長(zhǎng)得太快以至于連系統(tǒng)管理員也經(jīng)常不清楚系統(tǒng)中哪些信息可以用來(lái)處理當(dāng)前手頭的問(wèn)題,，以及系統(tǒng)中的數(shù)據(jù)與當(dāng)前手頭上的問(wèn)題之間的關(guān)系。

e) 如果為公司組織提供一種方法在這些大數(shù)據(jù)庫(kù)中“挖掘”出重要的信息及商業(yè)模式對(duì)他們是非常有直接的利益好處的

八．為什么最近數(shù)據(jù)挖掘如此受關(guān)注

a) 主要是因?yàn)橛?jì)算機(jī)技術(shù)尤其是數(shù)據(jù)庫(kù)管理方面的技術(shù)很復(fù)雜棘手

b) 因?yàn)閿?shù)據(jù)庫(kù)中的數(shù)據(jù)增長(zhǎng)很快,，手動(dòng)查找信息會(huì)變得非常困難。數(shù)據(jù)挖掘?qū)τ诎l(fā)現(xiàn)和描述關(guān)系表中的隱藏模式非常有用,。數(shù)據(jù)挖掘提供的算法允許自動(dòng)模式查找,。

九．KDD數(shù)據(jù)庫(kù)中的“知識(shí)發(fā)現(xiàn)”（Knowledge Discovery in Databases）

a) “知識(shí)發(fā)現(xiàn)”最早是人工智能（AI，Artificial Intelligence）領(lǐng)域的一個(gè)名詞

b) KDD由以下幾個(gè)部分組成（當(dāng)然包括“數(shù)據(jù)挖掘”）

i. “數(shù)據(jù)清洗”（去除噪音數(shù)據(jù)和不統(tǒng)一數(shù)據(jù)）

ii. “數(shù)據(jù)整合”（多個(gè)數(shù)據(jù)源的數(shù)據(jù)匯總到一起）

iii. “數(shù)據(jù)篩選”（根據(jù)當(dāng)前要分析的主題從數(shù)據(jù)庫(kù)中選取出與主題相關(guān)的數(shù)據(jù)）

iv. “數(shù)據(jù)轉(zhuǎn)換”（整理,，轉(zhuǎn)換數(shù)據(jù)使他們便于使用諸如“匯總”,，“聚合”等挖掘算法的形式）

v. “數(shù)據(jù)挖掘”（這可是核心的步驟，使用智能化方法來(lái)抽取出隱含的模式,，規(guī)則）

vi. “模式評(píng)估”（對(duì)剛才新發(fā)現(xiàn)的“知識(shí)”進(jìn)行驗(yàn)證評(píng)估來(lái)檢驗(yàn)此模式是不是可行）

vii. “知識(shí)表示”（將挖掘出來(lái)的模式使用可視化的形式顯現(xiàn)給用戶(hù)）

十．用于數(shù)據(jù)庫(kù)挖掘的數(shù)據(jù)庫(kù)

可以用于數(shù)據(jù)庫(kù)挖掘的數(shù)據(jù)庫(kù)有如下幾種：

u 關(guān)系型數(shù)據(jù)庫(kù)

u 數(shù)據(jù)倉(cāng)庫(kù)

u 事務(wù)處理數(shù)據(jù)庫(kù)

u 支持對(duì)象的關(guān)系型數(shù)據(jù)庫(kù)

u 面向?qū)ο蟮臄?shù)據(jù)庫(kù)

十一．數(shù)據(jù)倉(cāng)庫(kù)（DW,，Data Warehouse）

面向同一個(gè)主題，從多個(gè)數(shù)據(jù)源收集在一起,，隨時(shí)間變化但信息本身又相對(duì)穩(wěn)定的信息數(shù)據(jù)集合,。

數(shù)據(jù)倉(cāng)庫(kù)將報(bào)告數(shù)據(jù)從運(yùn)行著的數(shù)據(jù)庫(kù)系統(tǒng)中隔離出來(lái)。通過(guò)將查詢(xún)工作移動(dòng)到更有效率的系統(tǒng),，這種隔離能夠提高運(yùn)行系統(tǒng)的性能,。可以提高安全性,。敏感信息將保存在不會(huì)暴露給查詢(xún)的運(yùn)行數(shù)據(jù)庫(kù)中,。由數(shù)據(jù)倉(cāng)庫(kù)提供的提取級(jí)別簡(jiǎn)化了對(duì)決策支持應(yīng)用程序生成的統(tǒng)計(jì)表的訪問(wèn),。

OLTP中的數(shù)據(jù)定期插入到數(shù)據(jù)倉(cāng)庫(kù)中，數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)和安全性方面相對(duì)于OLTP來(lái)說(shuō)理簡(jiǎn)化,，因?yàn)?/span>Data Warehouse的主要目的就是為了提高分析查詢(xún)的效率,，而不是進(jìn)行聯(lián)機(jī)事務(wù)處理。

常規(guī)OLTP數(shù)據(jù)庫(kù)的基本單位是一個(gè)二維表,，由行,，列組成，而數(shù)據(jù)倉(cāng)庫(kù)的基本單位是多維立方體,，可能從多個(gè)角度來(lái)觀察分析這個(gè)數(shù)據(jù)實(shí)體,，它是來(lái)自現(xiàn)有數(shù)據(jù)源的集成信息儲(chǔ)備庫(kù)。這些單元之間通常是以“星型結(jié)構(gòu)（Star Schema）”或者“雪花結(jié)構(gòu)（Snow Flake Schema）”的形式想關(guān)聯(lián)起來(lái)的,。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：我不認(rèn)識(shí)你 > 《IT》

舉報(bào)/認(rèn)領(lǐng)