一,、回歸控制混雜偏倚,如何開(kāi)展自變量篩選,? 回歸分析在醫(yī)學(xué)領(lǐng)域,,常見(jiàn)的三類目的:研究影響因素、控制偏倚,、預(yù)測(cè)與分類,。前面兩類目的,性質(zhì)極為相似,,研究因素往往在一個(gè)模型中探討多個(gè)影響因素的共同作用,;而控制偏倚,也是探討影響因素,,而它聚焦于一,、兩個(gè)目標(biāo)暴露因素或者處理因素,希望通過(guò)剔除其它干擾因素的影響從而實(shí)現(xiàn)科學(xué)評(píng)價(jià)目標(biāo)因素的對(duì)結(jié)局的影響或者效應(yīng),。 關(guān)于這兩個(gè)目的的區(qū)別,我在前文就案例有所陳述,,有興趣的朋友可以翻出來(lái)看看:為什么回歸分析可以控制混雜偏倚,? 對(duì)于研究影響因素的回歸分析,,我建議先基于有向無(wú)環(huán)圖(DAG)方法大致建立因果關(guān)系網(wǎng)絡(luò),再篩選合適的自變量進(jìn)入模型,;在自變量過(guò)多時(shí),,可考慮在DAG基礎(chǔ)上,采取先單因素后多因素的方法,;考慮多層次多模型的方法(上一講已經(jīng)介紹了)分析中介變量的影響,。我后面文章再進(jìn)行介紹。 那么如果研究目標(biāo)因素只有一個(gè)暴露因素或者處理因素,,是否還要先單因素或者多因素呢,?可能目前“先單后多”是大多數(shù)人所采取的方法了。該方法使用沒(méi)有問(wèn)題,,不過(guò)我本人更推薦的方法是DAG+效應(yīng)改變的方法進(jìn)行,。 效應(yīng)改變法是一種數(shù)據(jù)驅(qū)動(dòng)的自變量篩選方法,它是通過(guò)剔除多因素回歸模型中對(duì)重要的自變量效應(yīng)影響不大的變量從而減少自變量個(gè)數(shù)的方法,。這些目標(biāo)研究因素效應(yīng)改變較大的,,一般是混雜因素,需要留在多因素回歸模型中,。 二,、研究案例 這是一項(xiàng)關(guān)于胰腺癌病人生存時(shí)間的研究。該研究的終點(diǎn)為死亡,,此外結(jié)局指標(biāo)還包括生存時(shí)間,。本案例與上篇公眾號(hào)論文案例類似,跟結(jié)局有關(guān)的研究變量較多,,但與上篇公眾號(hào)文章有所區(qū)別的是,,本篇主要關(guān)心的是術(shù)中放療對(duì)生存結(jié)局的影響。 根據(jù)研究目的,,術(shù)中放療是目標(biāo)研究因素,,結(jié)局是帶有生存時(shí)間的結(jié)局,研究應(yīng)采用開(kāi)展COX多因素回歸分析,,探討術(shù)中放療對(duì)生存結(jié)局的影響,。 首先,我們把所有因素都放入回歸模型中,,獲得本研究的全因子模型,,具體結(jié)果如下圖。術(shù)中放療效應(yīng)指標(biāo)為HR=0.302,。效應(yīng)指標(biāo),,在回歸分析中,可以是b值,,可以是OR,、RR值,,也可以是HR值。 由于上述回歸模型是全因子模型,,很多自變量放在模型中沒(méi)有意義,。模型意義不大,放在模型往往徒增復(fù)雜,,對(duì)模型不利,,不符合我所說(shuō)的大道至簡(jiǎn)的理念?需要逐一進(jìn)行審查和剔除,! 三,、效應(yīng)改變法原理 Hsin-Yi Weng等人2007年發(fā)表的論文,把效應(yīng)改變法歸為兩類: 第一類,,剔除自變量后,,對(duì)最初模型目標(biāo)因素效應(yīng)值的影響不超過(guò)10%者,刪除變量,,否則則保留,。 第二類,剔除自變量后,,相對(duì)未剔除該自變量,,目標(biāo)因素效應(yīng)值影響不超過(guò)10%時(shí),則刪除變量,,否則則保留,。 論文最常見(jiàn)的是方法第一類,本文亦對(duì)第一類進(jìn)行詳細(xì)解釋,。 第一類效應(yīng)改變法原理 最初模型中包括性別,、占位處、胰膽管浸潤(rùn)程度,、有無(wú)腹膜轉(zhuǎn)移,、TNM分期,最初模型的目標(biāo)變量術(shù)中放療的HR值為0.302,。 現(xiàn)在根據(jù)以下公式計(jì)算,,效應(yīng)改變量 HRi為剔除某一個(gè)自變量后,術(shù)中放療的HR值,,當(dāng) ,, 或者說(shuō)HR值改變不超過(guò)10%時(shí),該自變量可以舍棄掉不要了,,因?yàn)樗鼘?duì)術(shù)中放療的HR值影響不大,。 比如,試著剔除年齡的變量,,得到HR=0.208,,則|0.302-0.208|/0.302=21.3%,,遠(yuǎn)遠(yuǎn)大于10%的界限,,因此,,年齡需要保留。 四,、效應(yīng)改變法的具體做法 首先,,我們將逐一剔除每一個(gè)變量,分別構(gòu)建回歸模型,,得到所有的術(shù)中放療的HR值,,挑選出一個(gè)對(duì)HR影響最小,且不超過(guò)10%的刪除出去,。 然后,,開(kāi)始第二輪,逐一剔除余下的每一個(gè)變量,,分別構(gòu)建回歸模型,,再挑選一個(gè)HR影響最小且不超過(guò)10%的自變量刪除出去,以此類推,,直到自變量再無(wú)法刪除為止,。 本案例,是否留在模型的HR值界限為0.272,,根據(jù)這個(gè)界限,,我們可以得到以下結(jié)果: 第一輪,bui被剔除,,第二輪,,stage被剔除,第三輪sex被剔除,,最后一輪,,沒(méi)有剔除者。 最終納入模型的變量是納入年齡,、胰膽管浸潤(rùn)程度,、有無(wú)腹膜轉(zhuǎn)移三個(gè)變量與目標(biāo)變量書中放療。最終多因素回歸的結(jié)果如下表,,得到HR為0.299,。 縱觀整個(gè)過(guò)程,這種方法其實(shí)和向后逐步回歸法(backward)非常相似,,只不過(guò)諸位學(xué)過(guò)的向后逐步回歸法是根據(jù)整個(gè)模型總體擬合度是否跟上一個(gè)模型是否存在著統(tǒng)計(jì)學(xué)差異進(jìn)行篩選,。因此效應(yīng)改變法也有向前逐步法(forward),或者雙向逐步回歸法的理念(stepwise),,但一般不采用向前法和雙向逐步法,,因?yàn)榛鶞?zhǔn)值難以設(shè)定,! 五、其它事項(xiàng) 效應(yīng)改變法一般用于控制混雜因素時(shí)采用,,而它不著重探討哪個(gè)因素是否獨(dú)立的影響因素,,關(guān)鍵看起對(duì)目標(biāo)變量的影響,因此倘若構(gòu)建一個(gè)多因素模型,,探討各個(gè)因素對(duì)結(jié)局的影響,,不建議使用該模型,但如果目標(biāo)是混雜因素,,則推薦使用該方法,。 效應(yīng)改變法在干擾因素?cái)?shù)量非常大的情況下,在操作上具有一定的困難,,需要借助自動(dòng)化的程序來(lái)進(jìn)行,,比如R語(yǔ)言;如果在干擾因素非常多的情況下,,可能推薦傾向得分的方法進(jìn)行處理,,效果會(huì)更好些。 效應(yīng)改變法,,特別需要與DAG方法聯(lián)合,。這是因?yàn)?,效?yīng)改變法難以應(yīng)付中介變量的影響,。若一個(gè)變量對(duì)目標(biāo)暴露因素的效應(yīng)值影響超過(guò)10%,不代表它是混雜因素,,它可能是中介變量,!中介變量當(dāng)然不能納入模型了,。必要的時(shí)候,也需要開(kāi)閘多層次建多模型的方法,。 混雜因素控制,,是否都需要采用效應(yīng)改變法或者“先單后多”?那大可不必,!我認(rèn)為,,在混雜因素不多的情況下,在已經(jīng)考慮了中介變量的情況下,,完全可以一口氣將所有變量連同目標(biāo)變量放入模型中,! --本文畢--- 系列撰寫者:鄭衛(wèi)軍,浙江中醫(yī)藥大學(xué)醫(yī)學(xué)統(tǒng)計(jì)學(xué)教研室主任,。這里不妨廣而告之,,如果您有一個(gè)臨床試驗(yàn)項(xiàng)目,正處于設(shè)計(jì)階段,并且已經(jīng)或者將要過(guò)醫(yī)院倫理委員會(huì)審核,,不妨聯(lián)系鄭老師統(tǒng)計(jì)團(tuán)隊(duì),,我們可以幫助您更好的改善臨床試驗(yàn)。 |
|
來(lái)自: 妙趣橫生統(tǒng)計(jì)學(xué) > 《待分類》