上篇文章,,我們介紹了幾種處理共線性的方法,。比如逐步回歸法、手動剔除變量法是最常使用的方法,,但是往往使用這類方法會剔除掉我們想要研究的自變量,,導(dǎo)致自己希望研究的變量無法得到研究。因而,,此時就需要使用更為科學(xué)的處理方法即嶺回歸,。 嶺回歸嶺回歸分析(Ridge Regression)是一種改良的最小二乘法,其通過放棄最小二乘法的無偏性,,以損失部分信息為代價來尋找效果稍差但回歸系數(shù)更符合實際情況的模型方程,。 簡單來說,當方程變量中存在共線性時,,一個變量的變化也會導(dǎo)致其他變量改變,。嶺回歸就是在原方程的基礎(chǔ)上加入了一個會產(chǎn)生偏差,但可以保證回歸系數(shù)穩(wěn)定的正常數(shù)矩陣KI,。雖然會導(dǎo)致信息丟失,,但可以換來回歸模型的合理估計,。 分析步驟嶺回歸分析步驟共為2步:(1)結(jié)合嶺跡圖尋找最佳K值;(2)輸入K值進行回歸建模,。 第一步:拖入數(shù)據(jù),,生成嶺跡圖,尋找最合適的K值,。 SPSSAU嶺跡圖 K值的選擇原則是各個自變量的標準化回歸系數(shù)趨于穩(wěn)定時的最小K值,。K值越小則偏差越小,當K值為0時則為普通線性O(shè)LS回歸,;SPSSAU提供K值智能建議,,也可通過主觀識別判斷選擇K值。 第二步:對于K值,,其越小越好,,通常建議小于1;確定好K值后,,即可輸入K值,,得出嶺回歸模型估計,查看分析結(jié)果,。 嶺回歸分析案例(1)背景 現(xiàn)測得胎兒身高,、頭圍、體重和胎兒受精周齡數(shù)據(jù),,希望建立胎兒身高,、頭圍、體重去和胎兒受精周齡間的回歸模型,。根據(jù)醫(yī)學(xué)常識情況(同時結(jié)合普通線性最小二乘法OLS回歸測量),,發(fā)現(xiàn)三個自變量之間有著很強的共線性,VIF值高于200,;可知胎兒身高,、體重之間肯定有著很強的正相關(guān)關(guān)系,因而使用嶺回歸模型,。 (2)分析步驟 第一步:嶺回歸分析前需要結(jié)合嶺跡圖確認K值,。首先拖拽身長、頭圍,、體重到X分析框,,胎兒受精周齡到Y(jié)分析框,不輸入K值,,SPSSAU會默認生成嶺跡圖,,同時給出智能分析建議。 操作路徑:進階方法>嶺回歸分析 嶺跡圖 SPSSAU智能分析 第二步:對于K值,,其越小越好,,通常建議小于1,;本案例中K值取0.01,返回分析界面,,輸入K值,,得出嶺回歸模型估計。 (3)輸出結(jié)果 表1用于整體分析模型擬合情況,,可以看出,,模型R平方值為0.959,意味著身長(cm), 頭圍(cm), 體重(g)可以解釋胎兒受精周齡的0.959變化原因,,模型擬合程度好,。 表2為嶺回歸ANOVA檢驗,用于判定模型是否有意義,,本例中顯示P值<0.05,,說明模型有意義。 表3為嶺回歸分析結(jié)果,,根據(jù)分析結(jié)果可知,,模型公式為:胎兒受精周齡=9.994 + 0.430*身長(cm)-0.284*頭圍(cm) + 0.007*體重(g)。身長,、體重通過顯著性檢驗(P<0.05)說明對胎兒受精周齡有影響關(guān)系,。 總結(jié)分析可知:身長(cm),體重(g)會對胎兒受精周齡產(chǎn)生顯著的正向影響關(guān)系。但是頭圍(cm)并不會對胎兒受精周齡產(chǎn)生影響關(guān)系,。 其他說明嶺回歸分析需要特別注意兩點,,分別是共線性判斷和分析步驟,。 1. 是否呈現(xiàn)出共線性,,一定需要有理有據(jù),比如VIF值過高,,也或者自變量之間的相關(guān)關(guān)系過高(比如大于0.6),;如果數(shù)據(jù)并沒有共線性,依舊建議使用普通線性最小二乘法回歸,。 2. 嶺回歸建模共分為兩步,,分別是尋找最佳K值和建模。嶺跡圖中,,如果過了某點時趨于穩(wěn)定,,則該點對應(yīng)的K值為最佳K值,以及K值是越小越好,。 |
|