上一期介紹了多因素分析方法類型,、用途,、注意事項。今天我們開始介紹多因素分析中最基本,、最常用的方法——多元線性回歸分析,。
(一)多元線性回歸的數(shù)學模型及其基本原理 26期我們介紹的簡單線性回歸分析研究一個反應變量與一個自變量之間的線性依存關(guān)系,,而多元線性回歸分析是簡單線性回歸分析的擴展形式,,是研究一個反應變量與多個自變量之間的線性依存關(guān)系,。如果應變量y和自變量x1,x2,,x3,,…,xk有如下線性關(guān)系: 則稱式11-1為應變量y在自變量上的k元線性回歸模型,,式中β0為截距,,βj(j=1,2,…,k)為偏回歸系數(shù),表示x1每改變一個單位時,,y的改變量,;ε為誤差或殘差,模型假定誤差ε獨立且服從均值為0方差為σ2的正態(tài)分布,。通過一組實際觀察數(shù)據(jù),,可求出式11-1中的參數(shù)βj的估計值bj,從而建立經(jīng)驗回歸方程: 式11-2中是在自變量x1,,x2,,x3,…,,xk條件下對觀察值y的平均估計值,,又稱平均值。 多元線性回歸分析是應用一個數(shù)學模型來提示總體中若干個自變量與一個因變量之間的線性依存關(guān)系,,并評估用這個數(shù)學模型模擬相關(guān)事物變化規(guī)律的準確性,。多元線性回歸分析可以從統(tǒng)計意義上確定在消除了其它自變量的影響后,每一個自變量對因變量的影響,,并估計出在其他自變量固定不變的情況下,,每一個自變量對因變量的數(shù)值影響大小。 對于多元線性回歸分析,,要求觀察數(shù)據(jù)和模型的殘差滿足以下前提條件: ? 因變量y是連續(xù)型隨機變量,,且服從正態(tài)分布;如果不滿足會導致統(tǒng)計檢驗結(jié)果出現(xiàn)偏倚,。 ? 自變量是固定變量,,即非隨機變量或無度量誤差的變量;如果不滿足會導致結(jié)果失真,。 ? 自變量之間不存在多重共線性,,即,一些自變量間存在較強的線性關(guān)系,;如果不滿足會導致結(jié)論的不唯一性,。 ? 自變量與殘差獨立;如果不滿足說明模型中缺少重要自變量,。 ? 殘差是隨機變量,,且均值為零,,方差為常數(shù)s2;如果不滿足會導致參數(shù)估計出現(xiàn)偏倚,。 ? 殘差ei之間相互獨立,;如果不滿足會導致結(jié)果出現(xiàn)誤導。 ? 殘差服從正態(tài)分布,;如果不滿足會導致統(tǒng)計檢驗結(jié)果出現(xiàn)偏倚,。 1. 估計參數(shù) 多元線性回歸模型的參數(shù)估計方法有普通最小二乘法、最大似然法和矩估計,。一般情況下,,采用的是最小二乘法,即使得殘差平方和最小的方法,。令參數(shù)βj的估計值bj,,bj為偏回歸系數(shù)。對于多元線性回歸分析,,除了估計偏回歸系數(shù)外,,還要判斷哪一個自變量對因變量的影響最大。由于各自變量的單位不同,,因此不能直接用偏回歸系數(shù)來解釋各自變量的重要性,。為了去年量綱的影響,可以應用以下兩種方法將偏回歸系數(shù)標準化: ? 將原始變量標準化后再進行回歸,,得到的就是標準偏回歸系數(shù); ? 將估計的bj偏回歸系數(shù)除以因變量y的標準差s,,再乘以該系數(shù)對應的自變量的標準差,。 偏回歸系數(shù)沒有消除量綱的影響,在同一模型中的偏回歸系數(shù)估計值不能相互比較,,在不同的模型中可以進行比較,;標準回歸系數(shù)估計值消除了量綱的影響,本身沒有實際意義,,不能直接解釋自變量與因變量間的依存關(guān)系,,也不能在不同模型中進行比較,但是可以在同一模型中對參數(shù)估計值進行比較,。 2. 檢驗參數(shù) 對于式11-2中k個自變量(j=1,2,…,k,,),利用偏回歸系數(shù)估計值bj以及bj的標準誤,,可以對所有模型參數(shù)進行統(tǒng)計假設檢驗: 3. 檢驗總體模型 多元線性回歸模型的總體檢驗應用方差分析,,即因變量y的總體變異可以被分解為兩部分:一部分是由回歸引起的變異;另一部分是由殘差引起的變異,,即不能由回歸模型解釋的部分,。對模型總體檢驗的統(tǒng)計假設: 多元線性回歸分析也可以得到擬合回歸模型的復確定系數(shù)R2 ,,它表示因變量y的總變異被所有自變量x所能解釋的總分占的比例,反映所有自變量與因變量的線性相關(guān)強度,。 4.模型診斷 模型診斷是分析實際樣本數(shù)據(jù)與擬合的回歸模型之間的擬合情況,,通過一些診斷統(tǒng)計量來檢測數(shù)據(jù)、模型與推斷過程中可能存在的不合理性,,并提出相應解決方案的過程,。多元線性回歸分析的模型診斷一般包括以下幾個部分: (1)自變量之間是否存在多重共線性 多元線性回歸模型的多重共線性可用容忍度(tolerance)、方差膨脹因子(variance inflation factor)和最大條件指數(shù)(condition number)進行診斷,。自變量xj的容忍度tol=1-R2,,其變化范圍是0到1之間,當tol(xj)=0,,則該自變量xj與其它的x變量有相當嚴重的多重共線性,;如果tol(xj)=1,則該自變量xj與其它的x變量完全獨立,。 方差膨脹因子等容忍度的倒數(shù),,即vif(xj)= 1/tol(xj),當vif(xj)=1時,,則該自變量與其它的x變量完全獨立,;當vif(xj)趨近于∞時,該自變量xj與其它x變量有相當嚴重的多重共線性,。一般當vif(xj)≥10時,,認為xj與其它x變量有嚴重的多重共線性。 最大條件指數(shù)記為f,,當f>10時,,且當該自變量的變異由每一個主成分解釋所占比例vp>0.5時,可能認為這些自變量是嚴重相關(guān)的,。 如果自變量性存在共線性,,根據(jù)偏相關(guān)系數(shù)大小,去掉其中一個對因變量影響最小的自變量,,或根據(jù)方差比例vp的大小,,去掉vp值大的自變量,再重新作共線性診斷,,直至多重共線性不存在為止,。 (2)殘差的獨立性 多元線性回歸的殘差獨立性診斷等價于檢查數(shù)據(jù)是否受趨勢影響,可以繪制e*t散點圖或ei*ei-1散點圖,;也可以用Durbin-Watson檢驗方法,,計算DW值來判斷隨機誤差項ei是否一階自相關(guān),DW值的聚會范圍在0~4之間,接近0或4,,則可以認為具有一階自相關(guān),。 如果殘差間存在一階自相關(guān),則計算因變量的一階差商,,以此為新的因變量進行分析,。這種情況通常多數(shù)出現(xiàn)在時間序列數(shù)據(jù)。 (3)殘差的均值為零,,方差為常數(shù) 多元線性回歸的自變量與殘差的獨立性可通過繪制殘差和預測值的散點圖來檢驗殘差的均值和方差的齊性,。如果殘差隨機地分布在橫軸的上下兩側(cè),形成一個很窄的條帶狀,,則可以認為殘差的均值為零,,方差為常數(shù)。否則,,說明殘差的均值不為零,,或殘差的變異不均勻。 如果殘差的均值不為零或方差不為常數(shù),,首先應用學生化殘差Student或Cook的距離殘差Cook’s D應檢查數(shù)據(jù)中是否存在異常點,。如果Student>或D>0.5,可考慮異常點的存在,。如果數(shù)據(jù)中不存在異常點,,可以用加權(quán)回歸分析,消除方差的影響,,或?qū)⒁蜃兞窟M行變量變換再擬合回歸模型,。 (4)殘差服從正態(tài)分布 多元線性回歸模型殘差的正態(tài)性可通過繪制殘差的直方圖和累積概率圖來檢驗其正態(tài)性。如果不服從正態(tài)分布,,可以對因變量進行變量變換,,使得因變量近似地服從正態(tài)分布。 另:上期的表11-2有個小錯誤,,在此作以糾正,向各位讀者道歉,!更正后的表如下: 表11-2 研究因素間互依性常用的統(tǒng)計學方法及其SAS過程步 整理不易,,歡迎點亮再看哦!
參考文獻: [1] 高惠璇. SAS系統(tǒng)SAS/STAT軟件使用手冊[M]. 北京:中國統(tǒng)計出版社, 1997. [2] 孫振球, 徐勇勇. 醫(yī)學統(tǒng)計學[M].北京:人民衛(wèi)生出版社, 2014. [3] 張家放. 醫(yī)用多元統(tǒng)計方法[M]. 武漢:華中科技大學出版社, 2002.
|