SPSS 教程36 啞變量設(shè)置分析 啞變量(DummyVariable),,也叫虛擬變量,是解決回歸分析分類自變量的重要舉措,。它是“不發(fā)聲”的過程變量,,通過設(shè)置啞變量,可將多分類變量進(jìn)行二值化的處理,,從而結(jié)局多分類特別是無需多分類變量無法納入回歸分析模型的尷尬局面,。 回歸分析的棘手問題--非線性關(guān)系 回歸分析要求自變量與應(yīng)變量存在著線性關(guān)系 回歸分析主要探討自變量x與研究結(jié)局變量y的關(guān)系,無論線性回歸,,logistic回歸或者COX回歸都要求x與y或者y的轉(zhuǎn)換存在著線性關(guān)系。x對y的影響,,可以用回歸系數(shù)b值來反映,。 b1意味著,x平均每增加一個單位y增加的量,。比如,,x是年齡,y是血壓,,那么x平均增加一歲,,血壓將增加的數(shù)量。這樣的解釋,,要求x與y有線性關(guān)系,,意味著x無論是50歲,還是60歲,,增加1個單位的情況下,,血壓增加的幅度都一致。否則,,b1,,不代表x是50歲時對血壓的影響,也不代表60歲時對血壓的影響。 回歸分析無法去探討無序多分類自變量與結(jié)局的關(guān)系 最令人棘手的是,,無序分類數(shù)據(jù)的問題,。它與應(yīng)變量之間根本不存在線性關(guān)系的可能。 例1: Hosmer和Lemeshow于1989年研究了低出生體重嬰兒的影響因素,,結(jié)果變量為是否娩出低出生體重兒,,考慮的自變量有產(chǎn)婦妊娠前體重、產(chǎn)婦年齡,、種族,、是否吸煙、早產(chǎn)次數(shù),、是否患高血壓等,。(數(shù)據(jù)文件見:logistic_step.sav。) 該數(shù)據(jù)庫中有一個變量為種族,,變量值為白人/黑人/其他人,,為無序多分類資料(賦值分別是1、2,、3),。如果該變量納入回歸模型,怎么解讀回歸系數(shù)b值呢,?那么就是自變量從1到2對y的影響和從2到3影響的平均值,。也就是白人到黑人,黑人到其他人種變化帶來的影響的平均值,。這個結(jié)果無法說明任何問題,,既不能說明黑人相對白人出生缺陷的嚴(yán)重性,也不能說其他人種的影響,。這個變量是無序分類變量,,各變量之間沒有等級關(guān)系。因此,,取平均值沒有任何實(shí)際意義,。 因此,無序多分類變量不能直接納入回歸開展分析,。 回歸分析的啞變量設(shè)置 對于種族的影響,,其實(shí)研究最想知道的是,(1)相對白人,,黑人出生缺陷風(fēng)險會提升多少? (2)相對白人,,其它人種出生缺陷風(fēng)險會提升多少? 因此,一個變量需要回答兩個問題,,最好的辦法是把這個變量分為兩個子變量,,分別計算b值和OR值,,這個子變量便是啞變量。 一般情況下,,啞變量個數(shù)是原變量分類數(shù)的n-1個,,比如種族變量是3分類變量,則一個種族變量產(chǎn)生了2個二分類(變量值為0,、1)啞變量,。這些啞變量是過程性變量,一般不體現(xiàn)在原始數(shù)據(jù)庫中,,但它們作為實(shí)體變量代替原變量進(jìn)入到回歸模型中,。 其中,b1反映的是相對于白人,,黑人對y的影響,,b2反映的是相對于白人,其他人種對y的影響,。從而解決了無序分類變量回歸系數(shù)b值無法進(jìn)行取平均值的尷尬局面,。 logistic回歸啞變量設(shè)置 logistic回歸啞變量設(shè)置的十分簡單,SPSS軟件通過簡單,、菜單式的操作既可以完成,。 logistic回歸分析SPSS操作過程 logistic回歸SPSS分析的界面,選擇“分類” 在'分類'界面,, ①選擇race(種族)到右選框,, ②選擇參照類別(第一個、還是最后一個),,這里的第一還是最后,,根據(jù)數(shù)據(jù)庫賦值來定義。本數(shù)據(jù)庫race賦值為1,、2、3,,若參考類別是第一個,,則1為對照(白人),若參考類別是最后一個,,則3為對照(其它人),。本例設(shè)定白人為對照。 ③最后需要點(diǎn)擊“變化量”,,確認(rèn)是以第一個作為對照,,此時選項(xiàng)框中race會顯 示first。 logistic回歸分析結(jié)果及其解讀 啞變量設(shè)置之后,,統(tǒng)計分析首先非常重要的是看“分類變量編碼”的表格,,以確定啞變量的分配設(shè)置,。 在該表中,列出了兩個啞變量(1),、(2),,(1)和(2)均已白人作為對照,(1)這一列數(shù)字1.000所在行是黑人,,因此表明(1)是是否黑人的變量,,實(shí)際將開展黑人vs白人的比較。,,(2)這一列數(shù)字1.000所在行是其它種族,,因此表明(1)是是否其他人的變量,實(shí)際將開展其它人vs白人的比較,。 然后我們就可以觀察SPSS logistic分析結(jié)果,。 上圖SPSS分析結(jié)果,更詳細(xì)的內(nèi)容可以學(xué)習(xí)logistic回歸的推文: Logistic 回歸簡明教程:原理,、SPSS操作,、結(jié)果解讀與報告撰寫 這里只介紹啞變量的分析結(jié)果。種族(1)和種族(2)在上表已經(jīng)說明,,分別代表黑人vs白人的比較,、其他人vs白人的比較。結(jié)果顯示,,相對白人,,黑人與低出生體重存在著關(guān)聯(lián)(OR=4.60,P=0.015),;相對白人,,其它種族與低出生體重存在著關(guān)聯(lián)(OR=2.75,P=0.042),。 Cox回歸啞變量的SPSS操作 Cox回歸啞變量設(shè)置的十分簡單,,且方式與logistic回歸完全一致,SPSS軟件通過簡單,、菜單式的操作既可以完成,。這里引用之前的案例開展分析。 分析案例 案例2:這是一項(xiàng)關(guān)于胰腺癌病人術(shù)后生存時間的隊(duì)列研究,。該研究的終點(diǎn)為死亡,,包括很多可能影響生存的因素。數(shù)據(jù)庫見pancer.sav SPSS操作界面 Cox回歸SPSS分析的界面,,選擇“分類” 分類界面與logistic回歸分析的操作手法完全一致,也分為①,、②,、③ Cox回歸SPSS結(jié)果及解讀 同樣,Cox回歸也給出“分類變量編碼”的表格,,以確定啞變量的分配設(shè)置,。 在該表中,列出了3個啞變量(1),、(2),,(3),三個變量中,,對照組都是CH0的等級,。(1)為是否CH1的變量,實(shí)際將開展CH1vsCH0的比較;(2)為是否CH2的變量,,實(shí)際將開展CH2vsCH0的比較;(3)為是否CH3的變量,,實(shí)際將開展CH3vsCH0的比較。 上圖SPSS分析結(jié)果,,更詳細(xì)的內(nèi)容可以學(xué)習(xí)Cox回歸的推文 這里只介紹啞變量的分析結(jié)果,。結(jié)果顯示,相對ch0,,CH1,、CH2、CH3不會增加胰腺癌的死亡風(fēng)險(P值分別是0.770,、0.539,、0.359)。 線性回歸啞變量的SPSS操作 線性回歸SPSS操作有兩種方法,,常規(guī)的線性回歸的啞變量設(shè)置十分復(fù)雜,,此外還可以采用廣義線性模型的模塊進(jìn)行啞變量的設(shè)置分析。 分析案例 例3:研究究高血壓患者血壓與性別,、年齡,、身高、體重,、戶籍等變量的關(guān)系,隨機(jī)測量了32名40歲以上的血壓y,、年齡X1,、體重指數(shù)X2、性別X3,,戶籍X4試建立多重線性回歸方程,。數(shù)據(jù)文件見mreg2.sav,。 本例中戶籍是無序多分類變量,其變量值1=農(nóng)村,,2=城鎮(zhèn),,3=城市,在這種情況下,,線性回歸方程也無法直接將它納入模型進(jìn)行分析,。需要對此進(jìn)行啞變量的設(shè)置。 常規(guī)的線性回歸分析方法 最后,,在回歸分析第2步基礎(chǔ)上,,得到兩個啞變量的結(jié)果,分別是城鎮(zhèn)VS農(nóng)村和城市VS農(nóng)村的回歸系數(shù)b值,。結(jié)果顯示,,與對農(nóng)村相比,城鎮(zhèn)居民血壓值無統(tǒng)計學(xué)意義(P=0.249),,城市血壓值具有統(tǒng)計學(xué)差異(P=0.021),。 利用廣義線性回歸模型開展分析 “預(yù)測變量”中,,選擇年齡X1,、BMI X2是定量數(shù)據(jù),進(jìn)入?yún)f(xié)變量,;性別X3和戶籍X4分類變量進(jìn)入因子,;因子下方“選項(xiàng)”①,一般選擇“降序”,。 “模型”將四個變量作為主效應(yīng)選入右框,; 其它設(shè)置默認(rèn)設(shè)置,當(dāng)然需要得到更多信息者,,需要更多的設(shè)置,。 (2)分析結(jié)果 廣義線性模型給出了關(guān)鍵的結(jié)果如下: 廣義線性模型基本上與最小二乘法得到線性回歸方法結(jié)果一致。上表結(jié)果顯示,,與對農(nóng)村相比,,城鎮(zhèn)居民血壓值無統(tǒng)計學(xué)意義(P=0.221),城市血壓值具有統(tǒng)計學(xué)差異(P=0.013),。 總的來說廣義線性模型相對于簡單的線性回歸來說,,過程雖復(fù)雜,但少了設(shè)置啞變量的過程,,而且結(jié)果成列更容易閱讀,,同時可以快速處理多個啞變量的場景,是推薦的處理方法,。 啞變量設(shè)置的注意事項(xiàng) 1.線性條件不成立是啞變量設(shè)置的第一原因 無論線性,、logistic還是Cox回歸,都要求自變量與y或者y轉(zhuǎn)換值存在著線性關(guān)系。如果線性條件不成立,,則一種研究方案是對自變量進(jìn)行啞變量化。其中,,無序多分類數(shù)據(jù)由于不存在著線性的可能性,,必須要設(shè)定啞變量、有序多分類變量若線性關(guān)系成立則可以不設(shè)啞變量,,若關(guān)系不成立,,則需要設(shè)置啞變量,而當(dāng)自變量是定量變量,,若線性關(guān)系不成立,,則可以先將自變量分類化處理,再考慮進(jìn)行啞變量設(shè)置分析,。關(guān)于自變量是定量變量的回歸分析方法,,本系列將在下一講著重進(jìn)行介紹。 如何判斷線性條件是否成立呢,?具體可以回顧本系列上一講的鏈接,。 一文匯總三大回歸的基本應(yīng)用條件、診斷與處理方法(線性,、logistic,、Cox) 這其中,針對有序分類變量,,判斷線性關(guān)系非常重要的一種方法是,,分別進(jìn)行啞變量設(shè)置和不進(jìn)行啞變量設(shè)置;比如有三分組變量,,首先進(jìn)行啞變量設(shè)置計算,。得到回歸系數(shù)b1和b2,接著進(jìn)行不設(shè)啞變量分析得到b值,,若b2-b1=b1或者b2-b1=b大致成立,,則說明線性條件成立。具體案例,,我將在下一講再進(jìn)行進(jìn)一步陳述,。 2. 啞變量設(shè)置對照組的考慮 啞變量設(shè)置需要考慮的問題包括,第一啞變量設(shè)置必須要選擇合適的對照,,可能是第一組,,也可能是最后一組,基本原則一般是,,對照組樣本量不能過少,,對照應(yīng)該是主流人群、具有特地意義的人群、或者臨床研究的正常水平,。 例如:我們在研究BMI指數(shù),,將BMI指數(shù)分為四組進(jìn)行分析時,一般情況下,,是以18.5-24這一組正常人群作為對照,。很多人統(tǒng)計分析偷懶,將<18.5或者>28的一組作為對照,,是非常不合適的,。 3. 有序分類變量要不要設(shè)置啞變量? 在本文的COX回歸中,,我針對胰膽管浸潤程度進(jìn)行了啞變量設(shè)置分析,,實(shí)際上,之前推文有對該案例進(jìn)行分析,,沒有進(jìn)行啞變量設(shè)置,。胰膽管浸潤程度是有序變量,允許兩種情況同時存在,。那么何時考慮何種方法呢,? 首先,我們需要考慮有序分類變變量與結(jié)局的線性關(guān)系是否成立,,若線性關(guān)系成立,,則可以不設(shè)啞變量,若線性關(guān)系不成立,,必須設(shè)置啞變量,。 其次,若線性關(guān)系成立,,則需要考慮有序自變量等級關(guān)系是否等距,,很多情況下,等級變量嚴(yán)重不等距,,也應(yīng)該考慮設(shè)置啞變量,。 再次,如果上述條件都成立,,則可以考慮兩種分析結(jié)果同時進(jìn)行分析,,或者選擇一種更有利于專業(yè)應(yīng)用的結(jié)果,或者選擇一種更有利于論文寫作結(jié)果解讀的的方式進(jìn)行分析,。 關(guān)于啞變量更多的細(xì)節(jié),,我在下一講再繼續(xù)介紹。 -本文結(jié)束- 系列撰寫者:鄭衛(wèi)軍,,浙江中醫(yī)藥大學(xué)醫(yī)學(xué)統(tǒng)計學(xué)教研室主任,。這里不妨廣而告之,,如果您有一個臨床試驗(yàn)項(xiàng)目,正處于設(shè)計階段,,并且將要過醫(yī)院倫理委員會審核的,,不妨聯(lián)系鄭老師統(tǒng)計團(tuán)隊(duì),我們可以幫助您更好的改善臨床試驗(yàn),。微信號ZZ566665,。 本篇是SPSS 教程之回歸建模策略第3篇,更多回歸教程請點(diǎn)擊下文閱讀 1. 一道饕餮大餐來了,!手把手教你如何科學(xué)地構(gòu)建回歸模型! 2. 一文匯總?cè)蠡貧w的基本應(yīng)用條件,、診斷與處理方法(線性,、logistic、Cox) |
|