轉(zhuǎn)自個(gè)人微信公眾號(hào)【Memo_Cleon】的統(tǒng)計(jì)學(xué)習(xí)筆記:加權(quán)線性回歸(加權(quán)最小二乘法回歸),。 殘差恒定是線性回歸建模的一個(gè)前提條件,,《線性回歸中的方差齊性探察》一文曾介紹過各種線性回歸的方差齊性的檢驗(yàn)方法。如果出現(xiàn)了異方差,,數(shù)據(jù)變換,、方差穩(wěn)健估計(jì)(使用三明治方差估計(jì)量)、加權(quán)最小二乘法回歸,、非參數(shù)回歸都是可以考慮的方法。此次筆記介紹加權(quán)最小二乘法(weighted least square,,WLS)回歸,。 SPSS中至少有兩個(gè)過程可以實(shí)現(xiàn)加權(quán)線性回歸,一是直接在線性回歸中直接指明權(quán)重(WLS weight),,該方法需要先確定權(quán)重,;二是權(quán)重估計(jì)(Weight Estimation),用于獲取最優(yōu)的權(quán)重并以這個(gè)權(quán)重進(jìn)行WLS回歸,。一般來說,,在線性回歸中的WLS權(quán)重以取樣本的頻數(shù),、方差的倒數(shù)多見。頻數(shù)好理解,,比如在你想看下血液中某些指標(biāo)間的關(guān)系,,如果同一個(gè)受試者的血液接受了不同次數(shù)的檢測(cè),在進(jìn)行回歸時(shí)用的是各個(gè)受試者的平均值,,很顯然同一個(gè)患者檢測(cè)次數(shù)越多,,其結(jié)果越穩(wěn)定,在進(jìn)行分析時(shí)可以直接將檢測(cè)的次數(shù)作為權(quán)重,。方差的倒數(shù)則有多種實(shí)現(xiàn)形式,,而且結(jié)果也略有差異:①最直接的方法就是直接計(jì)算。先將某解釋變量分成一定數(shù)量的組,,求得每個(gè)組的響應(yīng)變量的方差,,擬合方差與該解釋變量分組值的線性關(guān)系獲得回歸方程,然后再將該解釋變量的原始值代入回歸方程求得解釋變量每個(gè)具體值對(duì)應(yīng)的方差估計(jì)值,,取其倒數(shù)作為權(quán)重,;②先采用普通最小二乘法(Ordinary least-squares,OLS)擬合回歸模型求得殘差,,以殘差平方(或殘差絕對(duì)值)對(duì)合適的解釋變量進(jìn)行回歸,,獲得回歸方程,再這個(gè)回歸方程獲得擬合值,,權(quán)重為擬合值(或擬合值平方)的倒數(shù),。②中方法的邏輯是殘差平方的期望值是方差。與OLS相比,,WLS估計(jì)的回歸系數(shù)標(biāo)準(zhǔn)誤更?。ǜ€(wěn)定、變異更?。?,回歸系數(shù)差別不大,如果差別過大則需要WLS的殘差再次進(jìn)行權(quán)重回歸(迭代再加權(quán)最小二乘)不斷獲得修正的權(quán)重,。SPSS中的權(quán)重估計(jì)(Weight Estimation)則相對(duì)比較簡(jiǎn)單,,只需要設(shè)定權(quán)重變量和冪范圍就可以了,軟件會(huì)自動(dòng)計(jì)算冪范圍內(nèi)的各個(gè)權(quán)重,,權(quán)重為權(quán)重變量取冪后的倒數(shù)【1/(weight variable)**power】,,并使用最佳的權(quán)重進(jìn)行加權(quán)回歸。本次筆記演示權(quán)重估計(jì)的SPSS操作步驟,。 示例:272例兒童年齡與白細(xì)胞值得關(guān)系,。數(shù)據(jù)來源:白話統(tǒng)計(jì).電子工業(yè)出版社,2018.這實(shí)際上并不是一個(gè)十分恰當(dāng)?shù)睦樱湔龖B(tài)分布也不滿足要求,,在《Box-Cox變換:非正態(tài)數(shù)據(jù)的處理》有過演示,。因此本文不考慮線性,、正態(tài)性,只是單純演示方差不齊下采用加權(quán)最小二乘法的SPSS操作步驟,。 【2】方差齊性考察:檢驗(yàn)方法有很多,可參見《線性回歸中的方差齊性探察》,。Analyze>>Regression>>Linear… Dependent(因變量):選入WC,; Independent(自變量):選入age; Plot…:X選入標(biāo)準(zhǔn)化預(yù)測(cè)值(ZPRED),,Y選入標(biāo)準(zhǔn)化殘差(ZRESID),; Save…:選中殘差部分的[未標(biāo)準(zhǔn)化殘差]。 Graphs>>Chart Builder,; Gallery: Scatter/Dot>>Simple Scatter,,將age拖入橫坐標(biāo),剛生成的未標(biāo)準(zhǔn)化殘差拖入縱坐標(biāo),。 結(jié)果顯示隨著年齡的增長,,殘差呈逐漸減少的趨勢(shì),方差不齊,。 【3】權(quán)重估計(jì):Analyze>>Regression>>Weight Estimation… Dependent(響應(yīng)變量):選入WC,;Weight Variable(權(quán)重變量):選入age,。權(quán)重估計(jì)過程以此變量取冪后的倒數(shù)對(duì)數(shù)據(jù)進(jìn)行加權(quán),。Power Range (冪范圍):默認(rèn)-2~2,步長0.5,。與權(quán)重變量結(jié)合使用計(jì)算權(quán)重,,-6.5≤冪范圍取值≤7.5,冪的值范圍為從低值到高值,,增量由指定的步長值(by)確定,,冪范圍中值的總數(shù)不能超過150。權(quán)重估計(jì)過程將利用冪范圍的每個(gè)冪值擬合多個(gè)回歸方程,,使對(duì)數(shù)似然函數(shù)最大的冪對(duì)應(yīng)的回歸方程為最佳模型,。Option…:選中將最優(yōu)權(quán)重另存為新變量。結(jié)果會(huì)首先給出冪總結(jié)表,,顯示冪值等于-1.5時(shí),,對(duì)數(shù)似然值最大(-739.097),同時(shí)會(huì)給出權(quán)重weight=age^-1.5時(shí)的回歸結(jié)果,,數(shù)據(jù)表中會(huì)增加一列名稱為[WGT_1]的數(shù)據(jù)表示權(quán)重(Weight for WC from WLS, MOD_2 AGE** 1.5)。但由于我們?cè)O(shè)置的步長為0.5,,最佳冪值在-1.5左右,,-2~-1之間,,為獲得更為精確的冪值,我們可以將冪范圍和步長做進(jìn)一步精確: Power range:-2 through -1 by:0.1調(diào)整后結(jié)果同未調(diào)整的結(jié)果,,冪值等于-1.5時(shí),,對(duì)數(shù)似然值最大。在此冪值計(jì)算的權(quán)重下,,進(jìn)行加權(quán)線性回歸結(jié)果,。在冪總結(jié)表之后是最佳模型(冪值為-1.5時(shí))的統(tǒng)計(jì)結(jié)果:加權(quán)最小二乘法(WLS)的參數(shù)估計(jì)結(jié)果同普通最小二乘法(OLS)的參數(shù)估計(jì)結(jié)果差別并不是太大,方差不齊對(duì)參數(shù)估計(jì)準(zhǔn)確性影響不大,,影響的是參數(shù)估計(jì)值的精確度,,也就是說WLS估計(jì)的解釋變量回歸系數(shù)標(biāo)準(zhǔn)誤更小(更穩(wěn)定,、變異更?。1纠齇LS估計(jì)的系數(shù)標(biāo)準(zhǔn)誤0.076,,而WLS為0.072,。
還有一點(diǎn)需要說明,WLS結(jié)果的復(fù)相關(guān)系數(shù)比OLS要大,,這是因?yàn)榧词乖赪LS相關(guān)系數(shù)的計(jì)算還是按照OLS法進(jìn)行計(jì)算的,,因此加權(quán)后的回歸方程相關(guān)系數(shù)必然小于OLS,也就是說此時(shí)不能用相關(guān)系數(shù)來判斷模型的優(yōu)劣,。 權(quán)重估計(jì)中給出了模型的一些基本信息,,如果想得到更多的信息,可以運(yùn)行線性回歸,,將權(quán)重估計(jì)成的變量WGT_1選入WLS weight框即可,,具體操作和結(jié)果解讀可參見《多重線性回歸分析》。Analyze>>Regression>>Linear…
|