久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

數(shù)據(jù)挖掘介紹

 我不認(rèn)識(shí)你 2008-04-08

數(shù)據(jù)挖掘介紹

分類(lèi):學(xué)習(xí)筆記
2007.2.12 13:03 作者:lynn | 評(píng)論:0 | 閱讀:298

一.     關(guān)鍵詞

1.              DM(Data Mining)DWData Warehouse,OLAP,,BI

二.     數(shù)據(jù)庫(kù)已經(jīng)成為收集和分布信息的系統(tǒng)的基礎(chǔ),。數(shù)據(jù)采集目的在于此后根據(jù)數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行正確決策。這些海量數(shù)據(jù)的深層隱藏的是很多的商業(yè)模式(Pattern),,規(guī)則(Rules),,這些隱藏的“商業(yè)知識(shí)”對(duì)于當(dāng)前的數(shù)據(jù)擁有者來(lái)說(shuō)意義非凡,因此他們可能預(yù)測(cè)整個(gè)集團(tuán)未來(lái)的商業(yè)策略,,市場(chǎng)開(kāi)發(fā)計(jì)劃,,以及為公司帶來(lái)新的盈利點(diǎn),而要把這些目前還隱藏在大量看似無(wú)關(guān)聯(lián)的數(shù)據(jù)背后的“知識(shí)”挖掘出來(lái)需要使用專(zhuān)門(mén)的統(tǒng)計(jì)學(xué)或測(cè)量方法,。

三.     什么是數(shù)據(jù)挖掘

 下面是一些“前人”對(duì)數(shù)據(jù)挖掘的定義:

1.              “挖掘”出數(shù)據(jù)中隱藏的模式,,趨勢(shì),,關(guān)系的過(guò)程(Groth

2.              通過(guò)自動(dòng)或半自動(dòng)的方式在海量數(shù)據(jù)中發(fā)現(xiàn)有用的模式,,規(guī)則的過(guò)程(BeryyLinoff

3.              分析普通的數(shù)據(jù)(通常是海量的)來(lái)發(fā)現(xiàn)數(shù)據(jù)之間比較穩(wěn)定地關(guān)系,以易于理解的方式將數(shù)據(jù)總結(jié)出來(lái)向數(shù)據(jù)所有者提供有價(jià)值的決策支持,。(Hand,Mannila&Smyth

4.              在不需要人或很少地手工干預(yù)下通過(guò)可行地計(jì)算機(jī)技術(shù)來(lái)挖掘開(kāi)采數(shù)據(jù),,對(duì)數(shù)據(jù)進(jìn)行分析(Wegman

5.              從大量的數(shù)據(jù)庫(kù)中抽取出此前還沒(méi)發(fā)現(xiàn)的有效實(shí)用地的信息,并且此后使用此信息來(lái)幫助制定關(guān)鍵的商業(yè)決策的過(guò)程(Cabena etal

四.     在做數(shù)據(jù)挖掘之前我們需要做哪些工作,?

1.              大量的數(shù)據(jù)準(zhǔn)備(Case,,數(shù)據(jù)挖掘的事例)(一般應(yīng)該是108-1012 Bytes,,也就是百MTB級(jí)別)

u        103=1K

u        106=1M

u        109=1G

u        1012=1T

2.              數(shù)據(jù)要是多維的(數(shù)據(jù)挖掘的變量)

一般是某個(gè)數(shù)據(jù)要有10104個(gè)屬性,也就是同一個(gè)數(shù)據(jù)可能從幾個(gè)不同的角度來(lái)觀察

五.     為什么需要數(shù)據(jù)挖掘,?

1.              目前只有很小一部分(通常是5%到10%)的數(shù)據(jù)曾經(jīng)被分析使用過(guò),其它的數(shù)據(jù)在Insert到數(shù)據(jù)庫(kù)之后就很少再被查看分析過(guò),。

2.              數(shù)據(jù)也許從來(lái)沒(méi)有被分析過(guò),,但是當(dāng)前數(shù)據(jù)管理者由于害怕在將來(lái)這些數(shù)據(jù)可能會(huì)用到,為了不錯(cuò)過(guò)將來(lái)的使用還是會(huì)源源不斷地將這些數(shù)據(jù)收集起來(lái),。這樣話數(shù)據(jù)庫(kù)只會(huì)是越來(lái)越大,,在其中查找有用的信息時(shí)的效率會(huì)越來(lái)越低。

六.Huber-Wegman數(shù)據(jù)集大小分類(lèi)法

描述

數(shù)據(jù)大?。ㄗ止?jié))

存儲(chǔ)模式

極小

102

104

一疊紙

106

一張軟盤(pán)

108

硬盤(pán)

很大

1010

多個(gè)硬盤(pán)

極大

1012

磁帶

海量

1015

分布式存儲(chǔ)

 

七.現(xiàn)狀

a)         最近幾十年,,許多公司組織花費(fèi)了大量的資源用于構(gòu)建及維護(hù)資訊數(shù)據(jù)庫(kù),包括開(kāi)發(fā)大規(guī)模數(shù)據(jù)倉(cāng)庫(kù)

b)        通常情況下,,現(xiàn)有的數(shù)據(jù)不能通過(guò)常規(guī)的分析方式分析,,原因可能有許多丟失不全的記錄也可能是數(shù)據(jù)是以定量的方式而非定質(zhì)的形式存在的

c)        在大多數(shù)情況下,當(dāng)前數(shù)據(jù)庫(kù)中的信息由于不能方便地訪問(wèn)分析而沒(méi)有得到足夠地重視估或者沒(méi)有充分使用,。

d)        一些數(shù)據(jù)庫(kù)增長(zhǎng)得太快以至于連系統(tǒng)管理員也經(jīng)常不清楚系統(tǒng)中哪些信息可以用來(lái)處理當(dāng)前手頭的問(wèn)題,,以及系統(tǒng)中的數(shù)據(jù)與當(dāng)前手頭上的問(wèn)題之間的關(guān)系。

e)         如果為公司組織提供一種方法在這些大數(shù)據(jù)庫(kù)中“挖掘”出重要的信息及商業(yè)模式對(duì)他們是非常有直接的利益好處的

八.為什么最近數(shù)據(jù)挖掘如此受關(guān)注

a)         主要是因?yàn)橛?jì)算機(jī)技術(shù)尤其是數(shù)據(jù)庫(kù)管理方面的技術(shù)很復(fù)雜棘手

b)        因?yàn)閿?shù)據(jù)庫(kù)中的數(shù)據(jù)增長(zhǎng)很快,,手動(dòng)查找信息會(huì)變得非常困難。數(shù)據(jù)挖掘?qū)τ诎l(fā)現(xiàn)和描述關(guān)系表中的隱藏模式非常有用,。數(shù)據(jù)挖掘提供的算法允許自動(dòng)模式查找,。

九.KDD數(shù)據(jù)庫(kù)中的“知識(shí)發(fā)現(xiàn)”(Knowledge Discovery in Databases

a)         “知識(shí)發(fā)現(xiàn)”最早是人工智能(AIArtificial Intelligence)領(lǐng)域的一個(gè)名詞

b)        KDD由以下幾個(gè)部分組成(當(dāng)然包括“數(shù)據(jù)挖掘”)

                         i.              “數(shù)據(jù)清洗”(去除噪音數(shù)據(jù)和不統(tǒng)一數(shù)據(jù))

                       ii.              “數(shù)據(jù)整合”(多個(gè)數(shù)據(jù)源的數(shù)據(jù)匯總到一起)

                      iii.              “數(shù)據(jù)篩選”(根據(jù)當(dāng)前要分析的主題從數(shù)據(jù)庫(kù)中選取出與主題相關(guān)的數(shù)據(jù))

                     iv.              “數(shù)據(jù)轉(zhuǎn)換”(整理,,轉(zhuǎn)換數(shù)據(jù)使他們便于使用諸如“匯總”,,“聚合”等挖掘算法的形式)

                       v.              “數(shù)據(jù)挖掘”(這可是核心的步驟,使用智能化方法來(lái)抽取出隱含的模式,,規(guī)則)

                     vi.              “模式評(píng)估”(對(duì)剛才新發(fā)現(xiàn)的“知識(shí)”進(jìn)行驗(yàn)證評(píng)估來(lái)檢驗(yàn)此模式是不是可行)

                    vii.              “知識(shí)表示”(將挖掘出來(lái)的模式使用可視化的形式顯現(xiàn)給用戶(hù))

十.用于數(shù)據(jù)庫(kù)挖掘的數(shù)據(jù)庫(kù)

可以用于數(shù)據(jù)庫(kù)挖掘的數(shù)據(jù)庫(kù)有如下幾種:

u       關(guān)系型數(shù)據(jù)庫(kù)

u       數(shù)據(jù)倉(cāng)庫(kù)

u       事務(wù)處理數(shù)據(jù)庫(kù)

u       支持對(duì)象的關(guān)系型數(shù)據(jù)庫(kù)

u       面向?qū)ο蟮臄?shù)據(jù)庫(kù)

 

十一.       數(shù)據(jù)倉(cāng)庫(kù)(DW,,Data Warehouse

面向同一個(gè)主題,從多個(gè)數(shù)據(jù)源收集在一起,,隨時(shí)間變化但信息本身又相對(duì)穩(wěn)定的信息數(shù)據(jù)集合,。

數(shù)據(jù)倉(cāng)庫(kù)將報(bào)告數(shù)據(jù)從運(yùn)行著的數(shù)據(jù)庫(kù)系統(tǒng)中隔離出來(lái)。通過(guò)將查詢(xún)工作移動(dòng)到更有效率的系統(tǒng),,這種隔離能夠提高運(yùn)行系統(tǒng)的性能,。可以提高安全性,。敏感信息將保存在不會(huì)暴露給查詢(xún)的運(yùn)行數(shù)據(jù)庫(kù)中,。由數(shù)據(jù)倉(cāng)庫(kù)提供的提取級(jí)別簡(jiǎn)化了對(duì)決策支持應(yīng)用程序生成的統(tǒng)計(jì)表的訪問(wèn),。

OLTP中的數(shù)據(jù)定期插入到數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)和安全性方面相對(duì)于OLTP來(lái)說(shuō)理簡(jiǎn)化,,因?yàn)?/span>Data Warehouse的主要目的就是為了提高分析查詢(xún)的效率,,而不是進(jìn)行聯(lián)機(jī)事務(wù)處理。

常規(guī)OLTP數(shù)據(jù)庫(kù)的基本單位是一個(gè)二維表,,由行,,列組成,而數(shù)據(jù)倉(cāng)庫(kù)的基本單位是多維立方體,,可能從多個(gè)角度來(lái)觀察分析這個(gè)數(shù)據(jù)實(shí)體,,它是來(lái)自現(xiàn)有數(shù)據(jù)源的集成信息儲(chǔ)備庫(kù)。這些單元之間通常是以“星型結(jié)構(gòu)(Star Schema)”或者“雪花結(jié)構(gòu)(Snow Flake Schema)”的形式想關(guān)聯(lián)起來(lái)的,。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多