如何處理缺失數(shù)據(jù)？給你支3招,！

昵稱49912720 2017-12-10

展開全文

研究實例

某研究人員擬研究針灸療法對于治療肩部疼痛的效果,，設計了一個隨機單盲對照臨床試驗，一共納入了52名患有肩袖肌腱炎的運動員,，隨機分為2組,，分別接受針灸治療和虛擬針灸治療，治療共持續(xù)4周,，研究以基線和治療后的肩關節(jié)評分作為療效評價指標,，最終共有45名研究對象完成了本次臨床試驗。

在該研究中,，有7名（13.5%）研究對象因為各種各樣的原因退出了本次臨床試驗,，其中試驗組3名，對照組4名,，研究人員未能真實地記錄到他們治療后的療效情況,，無法準確評估治療效果，由于病例脫落而產(chǎn)生了缺失數(shù)據(jù),。

在臨床試驗的過程中,，病例脫落是非常常見的，而且往往也是不可避免的,，缺失數(shù)據(jù)不僅會降低臨床試驗統(tǒng)計分析的把握度,，而且會給試驗結果的評價帶來一定的偏倚。那么,，為了保證研究結果的穩(wěn)定性和可靠性,，我們今天就來討論一下，在進行統(tǒng)計分析時,，應該如何科學有效的處理這些缺失數(shù)據(jù)呢,？

1、直接剔除法

當脫落病例占總病例數(shù)量的比例很小時,，而且病例脫落是完全隨機發(fā)生的,，即脫落的原因與臨床試驗本身無關，例如研究對象因工作出差而退出研究,，或搬家而造成失訪等,，此時可以考慮直接舍棄脫落病例產(chǎn)生的缺失記錄，形成一個完全數(shù)據(jù)集,，僅對記錄完整的數(shù)據(jù)進行統(tǒng)計分析（complete case analysis）,。

然而,，在實際研究中,，缺失數(shù)據(jù)往往占有相當?shù)谋戎?，直接刪除缺失數(shù)據(jù)會丟失大量信息，減少了對原始數(shù)據(jù)的利用效率,，造成資源浪費,，特別是當樣本量本身很少的時候。此外,，盲目刪除缺失數(shù)據(jù)可能導致統(tǒng)計分析結果產(chǎn)生一定的偏倚,，當缺失數(shù)據(jù)和完全觀測的數(shù)據(jù)之間存在系統(tǒng)差異時，會影響研究結論的客觀性及正確性,，甚至可能會得出錯誤的結論。

2,、單一填補法：LOCF

在臨床試驗中,，研究人員一般會每隔一定的時間對研究對象進行定期隨訪,，直至試驗結束。若研究對象在試驗期間發(fā)生脫落或失訪,，造成該研究對象在該隨訪時間點之后,，所有的數(shù)據(jù)均無法觀測到，這是臨床試驗中最常見的一種數(shù)據(jù)缺失的類型,，此時可以嘗試采用單一填補法對缺失數(shù)據(jù)進行填補,。

在單一填補法中，末次觀測值轉結法（Last Observation Carried Forward,，LOCF）,，是臨床試驗中最常用的一種缺失數(shù)據(jù)的處理方法。顧名思義,，它是利用研究對象脫落或失訪前最后一次的觀測值來進行填補,，之后各時間點的觀測值均為缺失前最后一次時間點的觀測值,。

需要注意的是,，在使用LOCF法進行缺失值填補時的一個前提條件是，認為研究對象的情況在脫落或失訪后保持不變,，或者說不會發(fā)生太大的變化,，但在實際研究中往往不太現(xiàn)實,。

例如圖1所示，在研究藥物治療阿爾茨海默病的臨床試驗中,，患者本身的認知功能會隨著時間的推移而呈現(xiàn)下降趨勢,，該研究的目的是為了評價試驗藥物能否延緩疾病的進程。如果該藥物本身與安慰劑相比并無明顯差異,，但由于試驗組患者因為藥物引起的不良反應而提前退出試驗,，那么用LOCF方法就不能真實地反映出試驗組患者認知功能隨時間變化而不斷下降的趨勢，反而有可能得出試驗藥物優(yōu)于安慰劑藥物的錯誤結論,。

在一開始介紹的研究實例中,，不管是試驗組還是對照組，肩部疼痛本身會隨著時間的推移呈現(xiàn)好轉的趨勢,，如果采用LOCF法對缺失數(shù)據(jù)進行填補,，7名脫落患者治療后被填補的數(shù)據(jù)即為基線時的數(shù)據(jù)，此時會認為7名患者治療前后肩關節(jié)評分的改善值為0,，從而導致效應指標的變異度減小,，標準差下降，可信區(qū)間縮小,。但由于該研究中試驗組和對照組脫落患者的比例較為接近,，所以很難界定是高估還是低估試驗組的療效。

3,、多重填補法

多重填補法（Multiple Imputation,，MI），其原理是以病例脫落前的變量作為協(xié)變量,，建立適當?shù)幕貧w模型,，根據(jù)構建的模型對缺失值進行預測和填補。為了避免填補缺失值時可能會低估效應指標的可信區(qū)間范圍,，多重填補法采用了隨機抽樣的方法來填補缺失值,，其填補過程可以簡單理解以下3個步驟：

1、首先利用回歸模型預測出與該脫落病例特點相似的其他病人的效應指標均值,，及其變異范圍,，對每個缺失數(shù)據(jù)都構造出多個替代值，并從中隨機抽取一個替代值進行填補,，反復多次抽取就可以形成多個不同的填補數(shù)據(jù)集,。

2、對每個填補數(shù)據(jù)集均采用與完全數(shù)據(jù)集相同的統(tǒng)計方法進行分析,，得出多個分析結果,。

3、最后將得到的多個分析結果進行綜合,，產(chǎn)生最終的統(tǒng)計推斷,，綜合考量后得出結論,。

（多重填補法可以通過R軟件的mice包、SAS的Proc MI過程等軟件進行實現(xiàn),，有興趣的同學可以留言進行咨詢,。）

圖2. 多重填補法過程

三種方法比較

在上述研究實例中，我們模擬生成了52名患者干預前后的肩關節(jié)評分值,，作為完整數(shù)據(jù)集進行分析,，然后隨機抽取了7名患者作為脫落病例，形成一個缺失數(shù)據(jù)集,，分別利用上述三種方法對缺失值進行填補和統(tǒng)計分析,，如表1所示。

結果顯示,，直接剔除法和多重填補法的分析結果基本一致,，且與完整數(shù)據(jù)集的結果接近，而LOCF填補法的分析結果與完整數(shù)據(jù)集的結果相比,，產(chǎn)生了一定的偏倚,，療效指標被低估，且95% CI較其他兩種方法更窄,。

表1. 三種缺失數(shù)據(jù)填補方法的比較

以上三種方法是臨床試驗中常用的三種處理缺失數(shù)據(jù)的方法,，當然還有其他的處理方法,，如均值填補法,、基線觀測值結轉法（Baseline Observation Carried Forward，BOCF）,、最差觀測值結轉法（Worsts Observation Carried Forward,，WOCF）等，大家也可以進行嘗試,。

雖然缺失數(shù)據(jù)可以在統(tǒng)計分析中采用一定的方法進行填補,，以此校正缺失數(shù)據(jù)對分析結果帶來的偏倚，但是由于缺失數(shù)據(jù)本身的局限性,，我們終究還是無法獲知臨床試驗中脫落病例真實的效應大小,。特別是當試驗中缺失數(shù)據(jù)的比例過高，病例脫落在試驗組和對照組分布不均勻,，或者病例脫落的原因與處理因素或結局直接相關時,，在后期分析階段采用統(tǒng)計方法對缺失數(shù)據(jù)進行填補也不是萬能的。

因此,，在臨床試驗的實施過程和數(shù)據(jù)管理階段應盡可能地預防缺失數(shù)據(jù)的產(chǎn)生,，強化數(shù)據(jù)收集，避免病例脫落,，從而保證數(shù)據(jù)的完整和有效,。

本文經(jīng)授權轉載自微信公眾號“醫(yī)咖會”