缺失值的處理方法

Z2ty6osc12zs6c 2018-07-16

展開全文

轉(zhuǎn)載自http://blog.sina.com.cn/s/blog_670445240102v08m.html

對(duì)于數(shù)據(jù)挖掘和分析人員來說,，數(shù)據(jù)準(zhǔn)備（Data Preparation,，包括數(shù)據(jù)的抽取、清洗,、轉(zhuǎn)換和集成）常常占據(jù)了70%左右的工作量,。而在數(shù)據(jù)準(zhǔn)備的過程中，數(shù)據(jù)質(zhì)量差又是最常見而且令人頭痛的問題,。本文針對(duì)缺失值和特殊值這種數(shù)據(jù)質(zhì)量問題,，進(jìn)行了初步介紹并推薦了一些處理方法。

值得注意的是,，這里所說的缺失值,，不僅包括數(shù)據(jù)庫中的NULL值，也包括用于表示數(shù)值缺失的特殊數(shù)值（比如,，在系統(tǒng)中用-999來表示數(shù)值不存在）,。如果我們僅有數(shù)據(jù)庫的數(shù)據(jù)模型，而缺乏相關(guān)說明,，常常需要花費(fèi)更多的精力來發(fā)現(xiàn)這些數(shù)值的特殊含義,。而如果我們漠視這些數(shù)值的特殊性，直接拿來進(jìn)行挖掘,，那么很可能會(huì)得到錯(cuò)誤的結(jié)論,。

還有一種數(shù)值缺失的情況，是因?yàn)槲覀円?strong>統(tǒng)計(jì)的時(shí)間窗口并非對(duì)所有數(shù)據(jù)都適合。例如,，我們希望計(jì)算出“客戶在以前六個(gè)月內(nèi)的最大存款余額”,，對(duì)于那些建立賬戶尚不滿六個(gè)月的客戶來說，統(tǒng)計(jì)出來的數(shù)值與我們想要得到的就可能存在差距,。

一般來說,，對(duì)缺失值的填充方法有多種，用某個(gè)常數(shù)來填充常常不是一個(gè)好方法,。最好建立一些模型,，根據(jù)數(shù)據(jù)的分布來填充一個(gè)更恰當(dāng)?shù)臄?shù)值。（例如根據(jù)其它變量對(duì)記錄進(jìn)行數(shù)據(jù)分箱,，然后選擇該記錄所在分箱的相應(yīng)變量的均值或中位數(shù)，來填充缺失值,，效果會(huì)更好一些）

造成數(shù)據(jù)缺失的原因

在各種實(shí)用的數(shù)據(jù)庫中,，屬性值缺失的情況經(jīng)常發(fā)全甚至是不可避免的。因此,，在大多數(shù)情況下,，信息系統(tǒng)是不完備的，或者說存在某種程度的不完備,。

缺失值的產(chǎn)生的原因多種多樣,，主要分為機(jī)械原因和人為原因。機(jī)械原因是由于機(jī)械原因?qū)е碌臄?shù)據(jù)收集或保存的失敗造成的數(shù)據(jù)缺失,，比如數(shù)據(jù)存儲(chǔ)的失敗,，存儲(chǔ)器損壞，機(jī)械故障導(dǎo)致某段時(shí)間數(shù)據(jù)未能收集（對(duì)于定時(shí)數(shù)據(jù)采集而言）,。人為原因是由于人的主觀失誤,、歷史局限或有意隱瞞造成的數(shù)據(jù)缺失，比如,，在市場調(diào)查中被訪人拒絕透露相關(guān)問題的答案,，或者回答的問題是無效的，數(shù)據(jù)錄入人員失誤漏錄了數(shù)據(jù)

造成數(shù)據(jù)缺失的原因是多方面的,，主要可能有以下幾種：

1）有些信息暫時(shí)無法獲取,。例如在醫(yī)療數(shù)據(jù)庫中，并非所有病人的所有臨床檢驗(yàn)結(jié)果都能在給定的時(shí)間內(nèi)得到,，就致使一部分屬性值空缺出來,。又如在申請(qǐng)表數(shù)據(jù)中，對(duì)某些問題的反映依賴于對(duì)其他問題的回答,。

2）有些信息是被遺漏的,。可能是因?yàn)檩斎霑r(shí)認(rèn)為不重要、忘記填寫了或?qū)?shù)據(jù)理解錯(cuò)誤而遺漏,，也可能是由于數(shù)據(jù)采集設(shè)備的故障,、存儲(chǔ)介質(zhì)的故障、傳輸媒體的故障,、一些人為因素等原因而丟失了,。

3）有些對(duì)象的某個(gè)或某些屬性是不可用的。也就是說,，對(duì)于這個(gè)對(duì)象來說,，該屬性值是不存在的，如一個(gè)未婚者的配偶姓名,、一個(gè)兒童的固定收入狀況等,。

4）有些信息（被認(rèn)為）是不重要的。如一個(gè)屬性的取值與給定語境是無關(guān)的,，或訓(xùn)練數(shù)據(jù)庫的設(shè)計(jì)者并不在乎某個(gè)屬性的取值（稱為dont-care value）,。

5）獲取這些信息的代價(jià)太大。

6）系統(tǒng)實(shí)時(shí)性能要求較高,，即要求得到這些信息前迅速做出判斷或決策,。

數(shù)據(jù)缺失機(jī)制

在對(duì)缺失數(shù)據(jù)進(jìn)行處理前，了解數(shù)據(jù)缺失的機(jī)制和形式是十分必要的,。將數(shù)據(jù)集中不含缺失值的變量（屬性）稱為完全變量,，數(shù)據(jù)集中含有缺失值的變量稱為不完全變量，Little 和 Rubin定義了以下三種不同的數(shù)據(jù)缺失機(jī)制：

1）完全隨機(jī)缺失（Missing Completely at Random,，MCAR）,。數(shù)據(jù)的缺失與不完全變量以及完全變量都是無關(guān)的。

2）隨機(jī)缺失（Missing at Random,，MAR）,。數(shù)據(jù)的缺失僅僅依賴于完全變量。

3）非隨機(jī),、不可忽略缺失（Not Missing at Random,NMAR,，or nonignorable）。不完全變量中數(shù)據(jù)的缺失依賴于不完全變量本身,，這種缺失是不可忽略的,。

從缺失值的所屬屬性上講，如果所有的缺失值都是同一屬性,，那么這種缺失成為單值缺失,，如果缺失值屬于不同的屬性，稱為任意缺失,。另外對(duì)于時(shí)間序列類的數(shù)據(jù),，可能存在隨著時(shí)間的缺失,，這種缺失稱為單調(diào)缺失。

空值語義

對(duì)于某個(gè)對(duì)象的屬性值未知的情況,，我們稱它在該屬性的取值為空值(null value),。空值的來源有許多種,，因此現(xiàn)實(shí)世界中的空值語義也比較復(fù)雜,。總的說來,，可以把空值分成以下三類：

1)不存在型空值,。即無法填入的值，或稱對(duì)象在該屬性上無法取值,，如一個(gè)未婚者的配偶姓名等,。

2)存在型空值。即對(duì)象在該屬性上取值是存在的,，但暫時(shí)無法知道,。一旦對(duì)象在該屬性上的實(shí)際值被確知以后，人們就可以用相應(yīng)的實(shí)際值來取代原來的空值,，使信息趨于完全。存在型空值是不確定性的一種表征,，該類空值的實(shí)際值在當(dāng)前是未知的,。但它有確定性的一面，諸如它的實(shí)際值確實(shí)存在,，總是落在一個(gè)人們可以確定的區(qū)間內(nèi),。一般情況下，空值是指存在型空值,。

3)占位型空值,。即無法確定是不存在型空值還是存在型空值，這要隨著時(shí)間的推移才能夠清楚,，是最不確定的一類,。這種空值除填充空位外，并不代表任何其他信息,。

空值處理的重要性和復(fù)雜性

數(shù)據(jù)缺失在許多研究領(lǐng)域都是一個(gè)復(fù)雜的問題,。對(duì)數(shù)據(jù)挖掘來說，空值的存在,，造成了以下影響：首先,，系統(tǒng)丟失了大量的有用信息；第二,，系統(tǒng)中所表現(xiàn)出的不確定性更加顯著,，系統(tǒng)中蘊(yùn)涵的確定性成分更難把握,；第三，包含空值的數(shù)據(jù)會(huì)使挖掘過程陷入混亂,，導(dǎo)致不可靠的輸出,。

數(shù)據(jù)挖掘算法本身更致力于避免數(shù)據(jù)過分適合所建的模型，這一特性使得它難以通過自身的算法去很好地處理不完整數(shù)據(jù),。因此,，空缺的數(shù)據(jù)需要通過專門的方法進(jìn)行推導(dǎo)、填充等,，以減少數(shù)據(jù)挖掘算法與實(shí)際應(yīng)用之間的差距,。

空值處理方法的分析比較

處理不完備數(shù)據(jù)集的方法主要有以下三大類：

（一）刪除元組

也就是將存在遺漏信息屬性值的對(duì)象（元組，記錄）刪除,，從而得到一個(gè)完備的信息表,。這種方法簡單易行，在對(duì)象有多個(gè)屬性缺失值,、被刪除的含缺失值的對(duì)象與信息表中的數(shù)據(jù)量相比非常小的情況下是非常有效的,，類標(biāo)號(hào)（假設(shè)是分類任務(wù)）缺少時(shí)通常使用。然而,，這種方法卻有很大的局限性,。它是以減少歷史數(shù)據(jù)來換取信息的完備，會(huì)造成資源的大量浪費(fèi),，丟棄了大量隱藏在這些對(duì)象中的信息,。在信息表中本來包含的對(duì)象很少的情況下，刪除少量對(duì)象就足以嚴(yán)重影響到信息表信息的客觀性和結(jié)果的正確性,；當(dāng)每個(gè)屬性空值的百分比變化很大時(shí),，它的性能非常差。因此,，當(dāng)遺漏數(shù)據(jù)所占比例較大,，特別當(dāng)遺漏數(shù)據(jù)非隨機(jī)分布時(shí)，這種方法可能導(dǎo)致數(shù)據(jù)發(fā)生偏離,，從而引出錯(cuò)誤的結(jié)論,。

（二）數(shù)據(jù)補(bǔ)齊

這類方法是用一定的值去填充空值，從而使信息表完備化,。通?；诮y(tǒng)計(jì)學(xué)原理，根據(jù)決策表中其余對(duì)象取值的分布情況來對(duì)一個(gè)空值進(jìn)行填充,，譬如用其余屬性的平均值來進(jìn)行補(bǔ)充等,。數(shù)據(jù)挖掘中常用的有以下幾種補(bǔ)齊方法：

(1)人工填寫（filling manually）

由于最了解數(shù)據(jù)的還是用戶自己，因此這個(gè)方法產(chǎn)生數(shù)據(jù)偏離最小,，可能是填充效果最好的一種,。然而一般來說,，該方法很費(fèi)時(shí)，當(dāng)數(shù)據(jù)規(guī)模很大,、空值很多的時(shí)候,，該方法是不可行的。

(2)特殊值填充（Treating Missing Attribute values as Special values）

將空值作為一種特殊的屬性值來處理,，它不同于其他的任何屬性值,。如所有的空值都用“unknown”填充。這樣將形成另一個(gè)有趣的概念,，可能導(dǎo)致嚴(yán)重的數(shù)據(jù)偏離,，一般不推薦使用。

(3)平均值填充（Mean/Mode Completer）

將信息表中的屬性分為數(shù)值屬性和非數(shù)值屬性來分別進(jìn)行處理,。如果空值是數(shù)值型的,，就根據(jù)該屬性在其他所有對(duì)象的取值的平均值來填充該缺失的屬性值；如果空值是非數(shù)值型的,，就根據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理,，用該屬性在其他所有對(duì)象的取值次數(shù)最多的值(即出現(xiàn)頻率最高的值)來補(bǔ)齊該缺失的屬性值。另外有一種與其相似的方法叫條件平均值填充法（Conditional Mean Completer）,。在該方法中,，缺失屬性值的補(bǔ)齊同樣是靠該屬性在其他對(duì)象中的取值求平均得到，但不同的是用于求平均的值并不是從信息表所有對(duì)象中取,，而是從與該對(duì)象具有相同決策屬性值的對(duì)象中取得,。這兩種數(shù)據(jù)的補(bǔ)齊方法，其基本的出發(fā)點(diǎn)都是一樣的,，以最大概率可能的取值來補(bǔ)充缺失的屬性值，只是在具體方法上有一點(diǎn)不同,。與其他方法相比,，它是用現(xiàn)存數(shù)據(jù)的多數(shù)信息來推測缺失值。

(4)熱卡填充（Hot deck imputation,，或就近補(bǔ)齊）

對(duì)于一個(gè)包含空值的對(duì)象,，熱卡填充法在完整數(shù)據(jù)中找到一個(gè)與它最相似的對(duì)象，然后用這個(gè)相似對(duì)象的值來進(jìn)行填充,。不同的問題可能會(huì)選用不同的標(biāo)準(zhǔn)來對(duì)相似進(jìn)行判定,。該方法概念上很簡單，且利用了數(shù)據(jù)間的關(guān)系來進(jìn)行空值估計(jì),。這個(gè)方法的缺點(diǎn)在于難以定義相似標(biāo)準(zhǔn),，主觀因素較多。

(5)K最近距離鄰法（K-means clustering）

先根據(jù)歐式距離或相關(guān)分析來確定距離具有缺失數(shù)據(jù)樣本最近的K個(gè)樣本,，將這K個(gè)值加權(quán)平均來估計(jì)該樣本的缺失數(shù)據(jù),。

同均值插補(bǔ)的方法都屬于單值插補(bǔ),，不同的是，它用層次聚類模型預(yù)測缺失變量的類型,，再以該類型的均值插補(bǔ),。假設(shè)X=(X1,X2…Xp)為信息完全的變量，Y為存在缺失值的變量,，那么首先對(duì)X或其子集行聚類,，然后按缺失個(gè)案所屬類來插補(bǔ)不同類的均值。如果在以后統(tǒng)計(jì)分析中還需以引入的解釋變量和Y做分析,，那么這種插補(bǔ)方法將在模型中引入自相關(guān),，給分析造成障礙。

(6)使用所有可能的值填充（Assigning All Possible values of the Attribute）

這種方法是用空缺屬性值的所有可能的屬性取值來填充,，能夠得到較好的補(bǔ)齊效果,。但是，當(dāng)數(shù)據(jù)量很大或者遺漏的屬性值較多時(shí),，其計(jì)算的代價(jià)很大,，可能的測試方案很多。另有一種方法,，填補(bǔ)遺漏屬性值的原則是一樣的,，不同的只是從決策相同的對(duì)象中嘗試所有的屬性值的可能情況，而不是根據(jù)信息表中所有對(duì)象進(jìn)行嘗試,，這樣能夠在一定程度上減小原方法的代價(jià),。

(7)組合完整化方法（Combinatorial Completer）

這種方法是用空缺屬性值的所有可能的屬性取值來試，并從最終屬性的約簡結(jié)果中選擇最好的一個(gè)作為填補(bǔ)的屬性值,。這是以約簡為目的的數(shù)據(jù)補(bǔ)齊方法,，能夠得到好的約簡結(jié)果；但是,，當(dāng)數(shù)據(jù)量很大或者遺漏的屬性值較多時(shí),，其計(jì)算的代價(jià)很大。另一種稱為條件組合完整化方法（Conditional Combinatorial Complete）,，填補(bǔ)遺漏屬性值的原則是一樣的,，不同的只是從決策相同的對(duì)象中嘗試所有的屬性值的可能情況，而不是根據(jù)信息表中所有對(duì)象進(jìn)行嘗試,。條件組合完整化方法能夠在一定程度上減小組合完整化方法的代價(jià),。在信息表包含不完整數(shù)據(jù)較多的情況下，可能的測試方案將巨增,。

(8)回歸（Regression）

基于完整的數(shù)據(jù)集,，建立回歸方程（模型）。對(duì)于包含空值的對(duì)象,，將已知屬性值代入方程來估計(jì)未知屬性值,，以此估計(jì)值來進(jìn)行填充,。當(dāng)變量不是線性相關(guān)或預(yù)測變量高度相關(guān)時(shí)會(huì)導(dǎo)致有偏差的估計(jì)。

(9)期望值最大化方法（Expectation maximization,，EM）

在缺失類型為隨機(jī)缺失的條件下,，假設(shè)模型對(duì)于完整的樣本是正確的，那么通過觀測數(shù)據(jù)的邊際分布可以對(duì)未知參數(shù)進(jìn)行極大似然估計(jì)（Little and Rubin）,。這種方法也被稱為忽略缺失值的極大似然估計(jì),，對(duì)于極大似然的參數(shù)估計(jì)實(shí)際中常采用的計(jì)算方法是期望值最大化(Expectation Maximization，EM）,。該方法比刪除個(gè)案和單值插補(bǔ)更有吸引力,，它一個(gè)重要前提：適用于大樣本。有效樣本的數(shù)量足夠以保證ML估計(jì)值是漸近無偏的并服從正態(tài)分布,。但是這種方法可能會(huì)陷入局部極值,，收斂速度也不是很快，并且計(jì)算很復(fù)雜,。

EM算法是一種在不完全數(shù)據(jù)情況下計(jì)算極大似然估計(jì)或者后驗(yàn)分布的迭代算法,。在每一迭代循環(huán)過程中交替執(zhí)行兩個(gè)步驟：E步（Excepctaion step,期望步），在給定完全數(shù)據(jù)和前一次迭代所得到的參數(shù)估計(jì)的情況下計(jì)算完全數(shù)據(jù)對(duì)應(yīng)的對(duì)數(shù)似然函數(shù)的條件期望,；M步（Maximzation step,，極大化步），用極大化對(duì)數(shù)似然函數(shù)以確定參數(shù)的值,，并用于下步的迭代,。算法在E步和M步之間不斷迭代直至收斂，即兩次迭代之間的參數(shù)變化小于一個(gè)預(yù)先給定的閾值時(shí)結(jié)束,。該方法可能會(huì)陷入局部極值,，收斂速度也不是很快，并且計(jì)算很復(fù)雜,。

(10)多重填補(bǔ)（Multiple Imputation,，MI）

多值插補(bǔ)的思想來源于貝葉斯估計(jì)，認(rèn)為待插補(bǔ)的值是隨機(jī)的,，它的值來自于已觀測到的值。具體實(shí)踐上通常是估計(jì)出待插補(bǔ)的值,，然后再加上不同的噪聲,，形成多組可選插補(bǔ)值。根據(jù)某種選擇依據(jù),，選取最合適的插補(bǔ)值,。

多重填補(bǔ)方法分為三個(gè)步驟：;為每個(gè)空值產(chǎn)生一套可能的填補(bǔ)值，這些值反映了無響應(yīng)模型的不確定性,；每個(gè)值都被用來填補(bǔ)數(shù)據(jù)集中的缺失值,，產(chǎn)生若干個(gè)完整數(shù)據(jù)集合,。;每個(gè)填補(bǔ)數(shù)據(jù)集合都用針對(duì)完整數(shù)據(jù)集的統(tǒng)計(jì)方法進(jìn)行統(tǒng)計(jì)分析。;對(duì)來自各個(gè)填補(bǔ)數(shù)據(jù)集的結(jié)果進(jìn)行綜合,，產(chǎn)生最終的統(tǒng)計(jì)推斷,，這一推斷考慮到了由于數(shù)據(jù)填補(bǔ)而產(chǎn)生的不確定性。該方法將空缺值視為隨機(jī)樣本,，這樣計(jì)算出來的統(tǒng)計(jì)推斷可能受到空缺值的不確定性的影響,。該方法的計(jì)算也很復(fù)雜。

多重插補(bǔ)方法分為三個(gè)步驟：①為每個(gè)空值產(chǎn)生一套可能的插補(bǔ)值,，這些值反映了無響應(yīng)模型的不確定性,；每個(gè)值都可以被用來插補(bǔ)數(shù)據(jù)集中的缺失值，產(chǎn)生若干個(gè)完整數(shù)據(jù)集合,。②每個(gè)插補(bǔ)數(shù)據(jù)集合都用針對(duì)完整數(shù)據(jù)集的統(tǒng)計(jì)方法進(jìn)行統(tǒng)計(jì)分析,。③對(duì)來自各個(gè)插補(bǔ)數(shù)據(jù)集的結(jié)果，根據(jù)評(píng)分函數(shù)進(jìn)行選擇,，產(chǎn)生最終的插補(bǔ)值,。

假設(shè)一組數(shù)據(jù)，包括三個(gè)變量Y1,，Y2,，Y3，它們的聯(lián)合分布為正態(tài)分布,，將這組數(shù)據(jù)處理成三組,，A組保持原始數(shù)據(jù)，B組僅缺失Y3,，C組缺失Y1和Y2,。在多值插補(bǔ)時(shí)，對(duì)A組將不進(jìn)行任何處理,，對(duì)B組產(chǎn)生Y3的一組估計(jì)值（作Y3關(guān)于Y1,，Y2的回歸），對(duì)C組作產(chǎn)生Y1和Y2的一組成對(duì)估計(jì)值（作Y1,，Y2關(guān)于Y3的回歸）,。

當(dāng)用多值插補(bǔ)時(shí)，對(duì)A組將不進(jìn)行處理,，對(duì)B,、C組將完整的樣本隨機(jī)抽取形成為m組（m為可選擇的m組插補(bǔ)值），每組個(gè)案數(shù)只要能夠有效估計(jì)參數(shù)就可以了,。對(duì)存在缺失值的屬性的分布作出估計(jì),，然后基于這m組觀測值，對(duì)于這m組樣本分別產(chǎn)生關(guān)于參數(shù)的m組估計(jì)值，給出相應(yīng)的預(yù)測即,，這時(shí)采用的估計(jì)方法為極大似然法,，在計(jì)算機(jī)中具體的實(shí)現(xiàn)算法為期望最大化法（EM）。對(duì)B組估計(jì)出一組Y3的值,，對(duì)C將利用 Y1,Y2,Y3它們的聯(lián)合分布為正態(tài)分布這一前提,，估計(jì)出一組(Y1，Y2）,。

上例中假定了Y1,Y2,Y3的聯(lián)合分布為正態(tài)分布,。這個(gè)假設(shè)是人為的，但是已經(jīng)通過驗(yàn)證（Graham和Schafer于1999）,，非正態(tài)聯(lián)合分布的變量,，在這個(gè)假定下仍然可以估計(jì)到很接近真實(shí)值的結(jié)果。

多重插補(bǔ)和貝葉斯估計(jì)的思想是一致的,，但是多重插補(bǔ)彌補(bǔ)了貝葉斯估計(jì)的幾個(gè)不足,。

(1)貝葉斯估計(jì)以極大似然的方法估計(jì)，極大似然的方法要求模型的形式必須準(zhǔn)確,，如果參數(shù)形式不正確,，將得到錯(cuò)誤得結(jié)論，即先驗(yàn)分布將影響后驗(yàn)分布的準(zhǔn)確性,。而多重插補(bǔ)所依據(jù)的是大樣本漸近完整的數(shù)據(jù)的理論,，在數(shù)據(jù)挖掘中的數(shù)據(jù)量都很大，先驗(yàn)分布將極小的影響結(jié)果,，所以先驗(yàn)分布的對(duì)結(jié)果的影響不大,。

(2)貝葉斯估計(jì)僅要求知道未知參數(shù)的先驗(yàn)分布，沒有利用與參數(shù)的關(guān)系,。而多重插補(bǔ)對(duì)參數(shù)的聯(lián)合分布作出了估計(jì),，利用了參數(shù)間的相互關(guān)系。

(11)C4.5方法

通過尋找屬性間的關(guān)系來對(duì)遺失值填充,。它尋找之間具有最大相關(guān)性的兩個(gè)屬性,，其中沒有遺失值的一個(gè)稱為代理屬性，另一個(gè)稱為原始屬性,，用代理屬性決定原始屬性中的遺失值,。這種基于規(guī)則歸納的方法只能處理基數(shù)較小的名詞型屬性。

就幾種基于統(tǒng)計(jì)的方法而言,，刪除元組法和平均值法差于hot deck,、EM和MI；回歸是比較好的一種方法,，但仍比不上hot deck和EM；EM缺少M(fèi)I包含的不確定成分[46]。值得注意的是,，這些方法直接處理的是模型參數(shù)的估計(jì)而不是空缺值預(yù)測本身,。它們合適于處理無監(jiān)督學(xué)習(xí)的問題，而對(duì)有監(jiān)督學(xué)習(xí)來說,，情況就不盡相同了,。譬如，你可以刪除包含空值的對(duì)象用完整的數(shù)據(jù)集來進(jìn)行訓(xùn)練,，但預(yù)測時(shí)你卻不能忽略包含空值的對(duì)象,。另外，C4.5和使用所有可能的值填充方法也有較好的補(bǔ)齊效果,，人工填寫和特殊值填充則是一般不推薦使用的,。

補(bǔ)齊處理只是將未知值補(bǔ)以我們的主觀估計(jì)值，不一定完全符合客觀事實(shí),，在對(duì)不完備信息進(jìn)行補(bǔ)齊處理的同時(shí),，我們或多或少地改變了原始的信息系統(tǒng)。而且,，對(duì)空值不正確的填充往往將新的噪聲引入數(shù)據(jù)中,，使挖掘任務(wù)產(chǎn)生錯(cuò)誤的結(jié)果。因此,，在許多情況下,，我們還是希望在保持原始信息不發(fā)生變化的前提下對(duì)信息系統(tǒng)進(jìn)行處理。這就是第三種方法：

（三）不處理

直接在包含空值的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘,。這類方法包括貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)等,。

貝葉斯網(wǎng)絡(luò)是用來表示變量間連接概率的圖形模式，它提供了一種自然的表示因果信息的方法,，用來發(fā)現(xiàn)數(shù)據(jù)間的潛在關(guān)系,。在這個(gè)網(wǎng)絡(luò)中，用節(jié)點(diǎn)表示變量,，有向邊表示變量間的依賴關(guān)系,。貝葉斯網(wǎng)絡(luò)僅適合于對(duì)領(lǐng)域知識(shí)具有一定了解的情況，至少對(duì)變量間的依賴關(guān)系較清楚的情況,。否則直接從數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)的結(jié)構(gòu)不但復(fù)雜性較高（隨著變量的增加,，指數(shù)級(jí)增加），網(wǎng)絡(luò)維護(hù)代價(jià)昂貴,，而且它的估計(jì)參數(shù)較多,，為系統(tǒng)帶來了高方差，影響了它的預(yù)測精度,。當(dāng)在任何一個(gè)對(duì)象中的缺失值數(shù)量很大時(shí),，存在指數(shù)爆炸的危險(xiǎn),。

人工神經(jīng)網(wǎng)絡(luò)可以有效的對(duì)付空值，但人工神經(jīng)網(wǎng)絡(luò)在這方面的研究還有待進(jìn)一步深入展開,。人工神經(jīng)網(wǎng)絡(luò)方法在數(shù)據(jù)挖掘應(yīng)用中的局限性

總結(jié)：大多數(shù)數(shù)據(jù)挖掘系統(tǒng)都是在數(shù)據(jù)挖掘之前的數(shù)據(jù)預(yù)處理階段采用第一,、第二類方法來對(duì)空缺數(shù)據(jù)進(jìn)行處理。并不存在一種處理空值的方法可以適合于任何問題,。無論哪種方式填充,，都無法避免主觀因素對(duì)原系統(tǒng)的影響，并且在空值過多的情形下將系統(tǒng)完備化是不可行的,。從理論上來說,，貝葉斯考慮了一切，但是只有當(dāng)數(shù)據(jù)集較小或滿足某些條件（如多元正態(tài)分布）時(shí)完全貝葉斯分析才是可行的,。而現(xiàn)階段人工神經(jīng)網(wǎng)絡(luò)方法在數(shù)據(jù)挖掘中的應(yīng)用仍很有限,。值得一提的是，采用不精確信息處理數(shù)據(jù)的不完備性已得到了廣泛的研究,。不完備數(shù)據(jù)的表達(dá)方法所依據(jù)的理論主要有可信度理論,、概率論、模糊集合論,、可能性理論,，D-S的證據(jù)理論等。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： Z2ty6osc12zs6c > 《缺失值處理》

舉報(bào)/認(rèn)領(lǐng)