久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

數(shù)據(jù)挖掘?qū)W習(xí)

 rating123 2019-05-23

1.2、數(shù)據(jù)質(zhì)量分析

(1.數(shù)據(jù)質(zhì)量分析的目的:

保證數(shù)據(jù)的正確性,、保證數(shù)據(jù)的有效性

例如:國際漫游通話客戶只有0.01%,,因此對(duì)國際漫游通話時(shí)長該變量統(tǒng)計(jì)正確性毫無問題,也認(rèn)為該變量缺少有效的信息而有數(shù)據(jù)質(zhì)量問題,,因?yàn)樵撟兞刻峁┖玫男畔⒅荒軐?duì)最多0.01%的客戶產(chǎn)生影響,,對(duì)未來預(yù)測模型的貢獻(xiàn)實(shí)在是微乎其微。

(2.數(shù)據(jù)質(zhì)量分析的內(nèi)容

在數(shù)據(jù)的正確性分析方面:

1,、缺失值:缺失數(shù)據(jù)包括空值或編碼為無意義的指(null)

2,、數(shù)據(jù)錯(cuò)誤:通常是在輸入數(shù)據(jù)時(shí),造成的排字錯(cuò)誤

3,、度量標(biāo)準(zhǔn)錯(cuò)誤:正確輸入但因?yàn)椴徽_的度量標(biāo)準(zhǔn)而導(dǎo)致的錯(cuò)誤數(shù)據(jù)

4,、編碼不一致:通常包括非標(biāo)準(zhǔn)度量單位或不一致的值。例如,,同時(shí)使用M和male表示性別,;

在數(shù)據(jù)的有效性方面:

關(guān)注數(shù)據(jù)統(tǒng)計(jì)方面的信息;

例如:占比,、方差、均值,、分位數(shù)等,,以此來了解這些數(shù)據(jù)包含的信息度程度。

(3.數(shù)據(jù)質(zhì)量分析的方法:

1,、值分析

例如:

通過本圖,,X37 和 X38 的非零百分比超過80%,其他變量多數(shù)為0,,這些為0的變量包含的信息少,,以此他們對(duì)數(shù)據(jù)進(jìn)行挖掘意義不大。

如果為了保證數(shù)據(jù)的有效性,,取閥值為80%,,則這15個(gè)變量,又有X37 和 X38 會(huì)納入下一輪數(shù)據(jù)樣本的變量體系中,。

1).唯一值分析:

它的最簡單情況:是變量只有一個(gè)取值,,這樣的變量對(duì)于數(shù)據(jù)挖掘建模無法提供任何有效的信息。

例如,,對(duì)于一定系統(tǒng)的變量:國籍———中國

另一種情況:對(duì)于變量業(yè)務(wù)含義有一定的了解,,還能分析變量唯一值數(shù)比預(yù)期是多還是少。

例如:性別:男,、女,、不確定,;如果出現(xiàn)4,5中取值就要查看是否存在數(shù)據(jù)的質(zhì)量問題

2).無效值分析:

空值,空字符串,,null,,0(無意義)都是無效值,對(duì)于無效值較多的變量(例如:該變量無效值比例超過90%等),,首先懷疑數(shù)據(jù)處理過程是否存在錯(cuò)誤,;

如無錯(cuò)誤,對(duì)于極差或無效的變量,,在建模時(shí)將慎用甚至棄用,。

3).異常值分析:

在多數(shù)情況下,變量不允許出現(xiàn)負(fù)值,、空值,。異常值分析主要是分析變量是否存在異常值得情況,再結(jié)合一定的業(yè)務(wù)背景知識(shí),,確認(rèn)是否存在錯(cuò)誤的數(shù)據(jù),。

2、統(tǒng)計(jì)分析

統(tǒng)計(jì)的基本統(tǒng)計(jì)概念:總體和樣本,。從總體中隨機(jī)產(chǎn)生若干個(gè)個(gè)體的集合成為樣本,。

從統(tǒng)計(jì)學(xué)的角度,統(tǒng)計(jì)的任務(wù)是由樣本推斷總體,。

從數(shù)據(jù)探索角度,,關(guān)注的通常由樣本推斷總體的數(shù)據(jù)特征。

1).基本統(tǒng)計(jì)量

(1),、表示位置的統(tǒng)計(jì)量:

1 眾數(shù):變量中發(fā)生頻率最大的值,。例如:用戶狀態(tài)(正常,欠費(fèi)停機(jī),,申請停機(jī),,拆機(jī)、消號(hào)),,該變量的眾數(shù)是 “正?!?則是正常的。

2 中位數(shù):中位數(shù)可避免極端數(shù)據(jù),,代表這數(shù)據(jù)總體的中等情況,。例如:從小到大排序,總數(shù)是奇數(shù),,取中間的數(shù),,總數(shù)是偶數(shù),取中間兩個(gè)數(shù)的平均數(shù),。

3 算數(shù)平均數(shù):又稱均值,,描述數(shù)據(jù)去指導(dǎo)額平均位置,,數(shù)學(xué)表達(dá)式:~x (均值)=  ∑x  /  n;

(2),、表示數(shù)據(jù)散度的統(tǒng)計(jì)量:

1 標(biāo)準(zhǔn)差:它是各個(gè)數(shù)據(jù)與均值偏離程度的度量,,這種偏離也成異變。數(shù)學(xué)表達(dá)式:S = ([ ∑(x  - ~x)2 ] / n)?   ;這里可將n改為n-1,,是無偏估計(jì),。

2 方差:標(biāo)準(zhǔn)差的平方。

3 極差:最大值和最小值之差,。

(3),、表示分布形狀的統(tǒng)計(jì)量:

1 偏度:正態(tài)分布的偏度為0,偏度<0稱分布具有負(fù)偏離(左偏態(tài)),,此時(shí)數(shù)據(jù)位于均值左邊的位于右邊的多,有個(gè)尾巴拖到左邊,,說明左邊有極端值,偏度>0稱分布具有正偏離(右偏態(tài)),。偏度接近如于0 ,,可認(rèn)為分布對(duì)稱。例如:知道分布有可能在偏度上偏離正態(tài)分布,,則可用偏度來檢驗(yàn)分布的正態(tài)性,。偏度的絕對(duì)值數(shù)值越大表示其分布形態(tài)的偏斜程度越大。

偏度計(jì)算公式:(n:總數(shù),;    ~x:均值,;   SD:標(biāo)準(zhǔn)差)

2 峰度:描述總體中所有取值分布形態(tài)陡緩程度的統(tǒng)計(jì)量(與正態(tài)分布比較,,就是正態(tài)分布的峰頂),。例如:正態(tài)分布為3,若峰度 > 3 ,,這表示分布有沉重的尾巴,,說明樣本中含有較多遠(yuǎn)離均值的數(shù)據(jù)。峰度的絕對(duì)值數(shù)值越大表示其分布形態(tài)的陡緩程度與正態(tài)分布的差異程度越大,。

峰度計(jì)算公式:(n:總數(shù),;    ~x:均值;   SD:標(biāo)準(zhǔn)差)

統(tǒng)計(jì)量中最重要的是均值和標(biāo)準(zhǔn)差,。樣本是隨機(jī)變量,,所以用他們?nèi)ネ茢嗫傮w時(shí),可靠性和統(tǒng)計(jì)量的概率分布更準(zhǔn)確,。不過在數(shù)據(jù)挖掘的不同階段,,要用不同的統(tǒng)計(jì)量去認(rèn)識(shí)和評(píng)估數(shù)據(jù)。

(4),、表示分布描述性統(tǒng)計(jì)量

1 分位數(shù):將數(shù)據(jù)從小到大排序,,小于某個(gè)值得數(shù)據(jù)占總數(shù)的百分比,。例如:通常所說的中位數(shù)就是50%分位數(shù),即小于中位數(shù)所占總數(shù)的50%,。

隨機(jī)變量的特征完全由它的概率分布函數(shù)或概率密度函數(shù)來描述,。

設(shè)有隨機(jī)變量 X ,其分布函數(shù)定義為 X <= x  的概率,,即 F(x) = P { X <= x  }是連續(xù)型隨機(jī)變量,。

則 其密度函數(shù) P(x) 與 F(x)的關(guān)系為:

 

分位數(shù),就可以用上面這樣定義:對(duì)于 0 < α < 1 ,,使某分布函數(shù) F(x) = α  的  x ,,為這個(gè)分布的  α  分位數(shù),記作  Xα ,。

對(duì)于下面要講的直方圖頻數(shù)分布圖,,當(dāng)  n  充分大時(shí),頻率就是頻數(shù)的近似,,因此直方圖可以看作密度函數(shù)圖形的(離散化)近似,。

2).統(tǒng)計(jì)信息方法分析


如圖所示:均值,最大值,,最小值,,中位數(shù)描述的是數(shù)據(jù)的基本特征,從數(shù)據(jù)的質(zhì)量分析的角度來講,,極差,、方差、標(biāo)準(zhǔn)差更有用,,因?yàn)檫@幾個(gè)統(tǒng)計(jì)量更關(guān)注這個(gè)變量所有數(shù)據(jù)的特征,。

例1:如果發(fā)現(xiàn)某些數(shù)據(jù)的極差變化很大,則說明這些數(shù)據(jù)的數(shù)據(jù)量級(jí)差別很大,,很可能需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,。

例2:如果發(fā)現(xiàn)一些變量的標(biāo)準(zhǔn)差很小,則說明數(shù)據(jù)的變化很大,,有可能說明這個(gè)變量所包含的信息比較少,,在數(shù)據(jù)挖掘中就可以考慮是否需要?jiǎng)h除這些變量。

認(rèn)識(shí)統(tǒng)計(jì)變量的本身不同的特征,,需要注意一下幾點(diǎn):

(1,),、查看數(shù)據(jù)與正態(tài)分布的接近程度(即分析數(shù)據(jù)的的分布情況,這是核心),,可以選取有代表性的統(tǒng)計(jì)量表示整體情況,。例如:在數(shù)據(jù)分布為正態(tài)時(shí),可以用均值來代替數(shù)據(jù)的整體情況,,在數(shù)據(jù)分布較為偏斜時(shí),,眾數(shù)與中數(shù)就能代替數(shù)據(jù)的整體情況,。

(2)、用均值和極值評(píng)判時(shí),,要有一定的業(yè)務(wù)常識(shí),,或與歷史進(jìn)行對(duì)比。例如:查看最小值是否符合業(yè)務(wù)邏輯,,最高值是否準(zhǔn)確,,真實(shí)。均值是否合理,。單純均值和極值評(píng)判時(shí)需要借助一定的業(yè)務(wù)經(jīng)驗(yàn),。具有局限性。

(3),、標(biāo)準(zhǔn)差反映數(shù)據(jù)的分散程度,。

如圖:深灰,淺灰,,淡灰區(qū)域分別對(duì)應(yīng)1,,2,3倍標(biāo)準(zhǔn)差,,對(duì)應(yīng)的概率為68.3%,,95.5%,99.7%,。

例如:變量是以正態(tài)分布的,,則當(dāng)最大值(或最小值)與均值的差超過3倍標(biāo)準(zhǔn)差時(shí),很可能這些極值存在問題,。

現(xiàn)實(shí)中,,一方面數(shù)據(jù)量巨大,因此,,極值超過3倍標(biāo)準(zhǔn)差也是正常的,,另一方面,許多變量分布并不滿足正態(tài)分布,,使用時(shí)要注意。

3,、頻次圖與直方圖分析

通過頻次圖與直方圖分析能對(duì)數(shù)據(jù)進(jìn)行更深入,、更直觀的分析。同時(shí),,可以有效地觀測出數(shù)據(jù)分布的兩個(gè)重要特征:集中趨勢和離散趨勢,。

1).直方圖分析

直方圖適用于對(duì)大量連續(xù)性數(shù)據(jù)進(jìn)行整理加工,找出其統(tǒng)計(jì)規(guī)律,,以便對(duì)其總體分布特征進(jìn)行推斷,。

直方圖(數(shù)值等寬)分析步驟如下:

(1),、找出最大,小值

(2),、先排序,,然后分組(6~20組為宜)

(3)、組數(shù)/(最大值-最小值),求出組距寬度

(4),、計(jì)算各組  界限位(上,、下界限位)。

(5),、統(tǒng)計(jì)各組數(shù)據(jù)出現(xiàn)的頻數(shù),,作頻數(shù)分布表

(6)、以組距為底長,,以頻數(shù)為高,,作各組的矩形圖。

其中各組的界限位可以從第一組一次計(jì)算,,第一組的   下界=最小值-(組距/2),,上界=下界值+組距;  第二組的下界=第一組的上界 ,,上界=第二組下界+組距

例子1:

這是一個(gè)比較正常的直方圖

例子2:

該圖變量的數(shù)據(jù)過于集中,,這對(duì)數(shù)據(jù)挖掘來說意義不大,所以就可以刪除該變量,。

2).頻次圖分析

頻次圖是為了計(jì)算離散型數(shù)據(jù)各值分布情況的統(tǒng)計(jì)方法,,它有助于理解某些特殊數(shù)值的意義,同時(shí)它也可以支持多個(gè)維度組合分布情況,。

對(duì)分類變量進(jìn)行頻次圖分析步驟:

(1),、集中和記錄數(shù)據(jù),計(jì)算總的分類數(shù)N

(2),、將數(shù)據(jù)按序排列,,分為N組

(3)、統(tǒng)計(jì)各組數(shù)據(jù)出現(xiàn)的頻數(shù),,作頻數(shù)分布表

(4),、作頻次圖

例子:

 

這是2000-2014年的全球7級(jí)以上的地震頻次圖,分類是按年份,。

4,、衍生變量

它是由其他既有變量通過不同形式的組合而衍生的變量,衍生變量與原始變量有一定的相關(guān)性,,但是不是所有的衍生變量都有意義,,要適度,看情況。

例子:密度 = 質(zhì)量 / 體積  ,; 線密度 = 質(zhì)量 /長度  ,;要研究那個(gè)物體可以漂浮在水面上,只要根據(jù)密度這一衍生變量就可以判斷出,。

衍生變量是數(shù)據(jù)挖掘探索最重要的環(huán),,但是對(duì)于一個(gè)項(xiàng)目來說,有無數(shù)個(gè)衍生變量,。

幾個(gè)基本的衍生變量的方法:

(1),、對(duì)多個(gè)列變量進(jìn)行組合

例如:身高的平方 / 體重 (肥胖指數(shù)) ; 負(fù)債 / 收益 ,; 總通話時(shí)間 / 總呼叫次數(shù)  ,; 網(wǎng)頁訪問量 / 購買總量  等;

(2),、按照維度(也叫變量)分類

例如:在分析無線通信酷虎六十現(xiàn)象時(shí)發(fā)現(xiàn),,按照手機(jī)型號(hào)分類匯總的流失率比單純用手機(jī)型號(hào)分類的數(shù)據(jù)更有用。

(3),、對(duì)某個(gè)變量進(jìn)一步分解

例如:對(duì)于日期變量,,可進(jìn)一步分解為季度、節(jié)假日,、工作日,、周末    等變量。

(4),、對(duì)具有時(shí)間序列特征的變量可以進(jìn)一步提取時(shí)序特征,。

例如:一段時(shí)間的總開銷量、平均增長率,、初始值與終值的比率,、兩個(gè)相鄰值之間的比率、顧客在暑假購物占年度比重,、周末電話平均長度與每周電話平均長度,。

例子:證劵市場上的各種技術(shù)指標(biāo)基本都是衍生變量。

(1),、環(huán)境準(zhǔn)備與讀取原始數(shù)據(jù)

(2),、計(jì)算衍生變量

(3)、收集并保持?jǐn)?shù)據(jù)

(4),、數(shù)據(jù)可視化

比如:

(5),、評(píng)價(jià)型衍生變量

在衍生變量中有一類重要的衍生變量,這類變量作用是用于評(píng)價(jià)被挖掘事物和好壞,,就是評(píng)價(jià)型衍生變量(目標(biāo),,比如:好壞等),而其他的叫指標(biāo)型衍生變量,。

因?yàn)閿?shù)據(jù)挖掘中很多算法是機(jī)器學(xué)習(xí)算法,,這類算法的典型特點(diǎn)是需要有輸入和輸出的樣本訓(xùn)練機(jī)器。

比如:評(píng)價(jià)股票的好壞,,針對(duì)上面的可視化結(jié)果,,在根據(jù)一定規(guī)則進(jìn)行衍生得到它的好壞。

重復(fù)一到四步,,生成可視化圖:


(6),、衍生變量的收集與集成

當(dāng)產(chǎn)生衍生變量后,為了便于后學(xué)的數(shù)據(jù)處理,,通常需要將數(shù)據(jù)收集在一起,,如果在不同的文件或表中,也常常合并在一種表中,。

5,、數(shù)據(jù)可視化

對(duì)數(shù)據(jù)可視化,經(jīng)過分析,,篩選出我們需要的好數(shù)據(jù),。

1)、數(shù)據(jù)分布形狀可視化

例如:柱狀分布圖

通過圖可以看到dv3過于集中,,相當(dāng)于固定值,,這種最好刪除??梢妼?duì)數(shù)據(jù)進(jìn)行可視化分析意義很大,。

2)、數(shù)據(jù)關(guān)聯(lián)情況可視化

在進(jìn)行變量篩選前,,可先利用關(guān)聯(lián)可視化了解各變量的關(guān)聯(lián)關(guān)系,。

例如:


通過該圖可以看出任意兩個(gè)變量的關(guān)聯(lián)趨向。


通過該圖,,從宏觀上表現(xiàn)出變量間的關(guān)聯(lián)強(qiáng)度,,實(shí)踐中往往用于篩選變量。

3),、數(shù)據(jù)分組可視化

它是按照不同的分位數(shù)將數(shù)據(jù)進(jìn)行分組,,典型的圖形就是箱體圖。根據(jù)香體乳可以看出數(shù)據(jù)的分布特征和異常值的數(shù)量,,這對(duì)于確定是否需要進(jìn)行異常值處理很有利,。

例如:




    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請遵守用戶 評(píng)論公約

    類似文章 更多