久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

缺失值處理的現(xiàn)代方法

 Z2ty6osc12zs6c 2018-07-16
     前文:缺失值的機(jī)制和傳統(tǒng)處理方法http://blog.sina.com.cn/s/blog_7fb03f7d01012j6p.html
    傳統(tǒng)的方法存在種種不足,新的方法也在不斷發(fā)展,,其中最為研究者推崇的方法為多重填補(bǔ)(Multiple Imputation, MI)和極大似然估計(jì)(Allison, 2003; Graham, 2009; Schafer & Graham, 2002)。

極大似然估計(jì)

極大似然估計(jì)在處理缺失值數(shù)據(jù)時(shí)又稱作全息極大似然估計(jì)(Full Information Maximum Likelihood, FIML),,意指使用所有觀測(cè)變量的全部信息,。FIML同ML分析完整數(shù)據(jù)過程一樣,只是在計(jì)算單個(gè)對(duì)數(shù)似然值時(shí)使用全部完整信息而不考慮缺失值(公示見,,Enders, 2006, 2010),。因此,,ML處理缺失值并非使用替代值將缺失填補(bǔ),而是使用已知信息采用迭代的方式估計(jì)參數(shù),。FIML在MCAR和MAR下產(chǎn)生無偏和有效的參數(shù)估計(jì)值,。當(dāng)在非正態(tài)分布時(shí),F(xiàn)IML需要使用同完整數(shù)據(jù)時(shí)的參數(shù)校正統(tǒng)計(jì)量(S-Bχ2等,,見本章),,Bootstrapping也是有效的策略之一。

FIML法包含輔助變量的分析使用Graham (2003)提出的飽和相關(guān)模型(Saturated Correlates),,即將輔助變量納入模型中,,同時(shí)允許輔助變量間、輔助變量與外生觀測(cè)指標(biāo)以及內(nèi)生觀測(cè)指標(biāo)的測(cè)量誤差相關(guān),。假設(shè)第5章PTSD例子的數(shù)據(jù)存在缺失值,,同時(shí)假定性別和年齡為輔助變量,表9-5給了使用FIML估計(jì)DSM三因子結(jié)構(gòu)的Mplus程序,。

表9-5 FIML處理缺失值的Mplus語句

TITLE: CFA Model With Missing Data;

DATA: FILE IS PTSD with Missing.dat;

VARIABLE:

NAME are gender age y1-y17;

USEVARIABLES = y1-y17;

MISSING = ALL (9);

AUXILIARY = (m) gender age; !設(shè)置自動(dòng)包含輔助變量,,(m)指定缺失分析的輔助變量。也可在模型中設(shè)置輔助變量與指標(biāo)的相關(guān),,見(Enders, 2010,,例5-14)

ANALYSIS:

TYPE = missing;!第5版之后此項(xiàng)為默認(rèn)設(shè)置;

ESTIMATOR = ML; !非正態(tài)時(shí)可以選用MLM或MLR等,;

INFORMATION =observed; !Mplus提供Expected和Observed兩種信息矩陣,,兩者的區(qū)別在于計(jì)算標(biāo)準(zhǔn)誤時(shí)依據(jù)的缺失值機(jī)制不同,期望矩陣的要求是MCAR而觀測(cè)依據(jù)的是MAR,,所以通常使用的Observed矩陣(Enders, 2010),。

BOOTSTRAP = 500 (residual); !獲得BOOTSTRAP標(biāo)準(zhǔn)誤;

MODEL:

F1 by y1-y5*;

F2 by y6-y12*;

F3 by y13-y17*;

F1-F3@ 1;

OUTPUT: sampstat standardized;

 

多重插補(bǔ)法(Multiple Imputation, MI)

該方法由Rubin(1987)最早提出,,假設(shè)在數(shù)據(jù)隨機(jī)缺失情況下,,用兩個(gè)或更多能反映數(shù)據(jù)本身概率分布的值來填補(bǔ)缺失值的方法。一個(gè)完整的MI包含三步:數(shù)據(jù)填補(bǔ)(Imputation Phase),,計(jì)算(Analysis Phase)和匯總(Pooling Phase),。數(shù)據(jù)填補(bǔ)是關(guān)鍵一步,對(duì)每一個(gè)缺失數(shù)據(jù)填補(bǔ)m( m > 1)次,。每次填補(bǔ)將產(chǎn)生一個(gè)完全數(shù)據(jù)集,,以此類推,共產(chǎn)生m個(gè)完全數(shù)據(jù)集,。第二步,,對(duì)每一個(gè)完全數(shù)據(jù)集采用標(biāo)準(zhǔn)的完全數(shù)據(jù)分析方法進(jìn)行分析。第三步,將所每次分析得到的結(jié)果進(jìn)行綜合,,得到最終的統(tǒng)計(jì)推斷,。根據(jù)數(shù)據(jù)缺失機(jī)制、模式以及變量類型,,可分別采用回歸,、預(yù)測(cè)均數(shù)匹配( predictive mean matching, PMM )、趨勢(shì)得分( propensity score, PS ),、Logistic回歸,、判別分析以及馬爾可夫鏈蒙特卡羅( Markov Chain Monte Carlo, MCMC) 等不同的方法進(jìn)行填補(bǔ)。與FIML不同,,MI采用填補(bǔ)缺失值的方法,。MI要求數(shù)據(jù)缺失為MAR,如果采用ML估計(jì)同樣要求數(shù)據(jù)分布符合多元正態(tài)分布假設(shè),,但研究發(fā)現(xiàn)違反正態(tài)性假設(shè)對(duì)MI參數(shù)精確性影響不大(Demirtas, Freels, & Yucel, 2008; Schafer, 1997),。另外一個(gè)影響估計(jì)精確性的因素是缺失率,Demirtas等(2008)的研究發(fā)現(xiàn)缺失率高達(dá)25%仍能得到精確的參數(shù)估計(jì)結(jié)果,。

在具體使用MI時(shí)需要考慮m的次數(shù),,類似Bootstrapping抽樣,理論上來說m的數(shù)量越多估計(jì)越精確,,但太大的數(shù)量會(huì)增加計(jì)算負(fù)荷,,模擬研究指出m = 20在多數(shù)情況下是合適的(Graham, Olchowski, & Gilreath, 2007),。

   在Mplus中執(zhí)行MI需要兩步,,第一步數(shù)據(jù)插補(bǔ),第二步使用第一步插補(bǔ)的數(shù)據(jù)集估計(jì)計(jì)算并輸出匯總結(jié)果,,兩步的Mplus語句呈現(xiàn)在表9-6中,。

 

表9-6 多重插補(bǔ)法處理缺失值的Mplus語句

TITLE: CFA Model With Missing Data;

DATA: FILE IS PTSD with Missing.dat;

VARIABLE:

NAME are gender age y1-y17;

USEVARIABLES = y1-y17;

MISSING = ALL (9);

AUXILIARY = (m) gender age; !括號(hào)內(nèi)的m表示其后的變量作為缺失值的輔助變量。

DATA IMPUTATION:

  IMPUTE = y1-y17; !設(shè)置存在缺失值的變量進(jìn)行插補(bǔ),,如果是類別變量在變量名后加“(C)”,。

  NDATASETS = 50; !設(shè)置m = 50,默認(rèn)值為5,;

  save = PTSDimp*.dat; !設(shè)置插補(bǔ)的50個(gè)數(shù)據(jù)集保存文件名,,“*”將被數(shù)值替換。

 ANALYSIS:

   type = basic;

  ! SEED FOR DATA AUGMENTATION ALGORITHM;

  bseed = 79566;

  ! NUMBER OF DATA AUGMENTATION CHAINS;

  chains = 1;

 

TITLE: Summary Statistics with Multiply Imputed Data;

DATA: FILE IS PTSDimplist.dat;使用第一步保存的插補(bǔ)數(shù)據(jù)文件集,;

   TYPE = imputation;進(jìn)行MI設(shè)置,;

VARIABLE:

   NAME are gender age y1-y17;

USEVARIABLES = y1-y17;

ANALYSIS:

  ESTIMATOR = ML;

  INFORMATION = observed; 標(biāo)準(zhǔn)誤基于觀測(cè)信息矩陣;

MODEL:

  F1 by y1-y5*;

F2 by y6-y12*;

F3 by y13-y17*;

F1-F3@ 1;

OUTPUT: STANDARDIZED;

Mplus學(xué)習(xí)機(jī)會(huì):

http://blog.sina.com.cn/s/blog_7fb03f7d01012fx1.html

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多