一、模型簡介 目前,,生存分析領(lǐng)域,,最常用的是Cox比例風(fēng)險回歸模型,該模型具有良好的特性,,不僅可以分析各種自變量對生存時間的影響,,而且對基準風(fēng)險分布不作任何要求(半?yún)?shù)模型)。Cox模型使用時要滿足一定的條件,,其中最為大家熟知的“PH比例風(fēng)險”假定,專業(yè)點講,,就是在時間t,協(xié)變量x作用下,,個性風(fēng)險率相對于基準風(fēng)險率之比與時間無關(guān),,不隨時間t的變化而變化;通俗點說,就是生存曲線要平行不能交叉,。如果違反“PH假定”Cox模型不再適用,,需要其他方法替代。本文介紹一種替代模型Buckley-James模型,。該模型是由Buckley 和 James于1979年提出,,該模型具有線性回歸模型的特點,其參數(shù)估計方法是最小二乘法的一種校正,,通用引用一個偽隨機變量,,使其滿足一般的正則條件下,能夠用于具有右刪失數(shù)據(jù)的分析,。而且,,在1993年,Hillis等人證明Buckly-James模型的參數(shù)估計要比其他模型的參數(shù)估計優(yōu)越。 二,、 模型適用條件 因BJ模型是線性回歸模型的改進,,故其需滿足線性回歸模型的適用條件(1)線性; (2)方差齊,。 檢驗是否滿足上述條件的方法: (1)修正殘差圖判定法; (2)樣條函數(shù)判定法,。 三,、模型原理 該模型假定生存時間T,,或者其簡單變換與協(xié)變量x之間呈線性關(guān)系。即: 由于生存時間存在右刪失,,所以數(shù)據(jù)中只能觀測到刪失時間,,因此上式不再適用,通常的最小二乘也無法估計出模型的參數(shù),,為此,,Buckly-James引入了一個偽隨機變量: 這里是指示變量。同時也證明了如下線性關(guān)系: 所以BJ模型實際是一種將因變量Y改進后(考慮刪失情況)的線性回歸模型,,該模型對生存時間分布不作任何要求,。線性回歸系數(shù)估計用到了高斯的最小二乘法,BJ模型系數(shù)估計用到的是校正后的最小二乘法,。 有研究顯示,,連續(xù)性自變量對BJ模型估計值的影響可以忽略,而當自變量為分類變量時,,BJ估計值的偏倚是比較大的,。提示在實際應(yīng)用時,尤其是單個自變量的情形下,,要謹慎考慮分類自變量估計值的準確性,,為此可以考慮用Bootstrap法估計參數(shù)值并得到可信區(qū)間。 四,、模型應(yīng)用案例基于R軟件這里以一份口咽癌數(shù)據(jù)為例:
數(shù)據(jù)包含195條觀測13個變量,,涉及研究對象性別,年齡,、分期等臨床指標和患者生存時間和生存狀態(tài),; (1)先讀入并打包數(shù)據(jù) (2)建立BJ模型:
BJ模型的建立和cox模型非常像,也會報告模型各指標系數(shù)及是否有意義的變量。 與線性回歸分析一樣,,對建立的模型做模型是否有意義的假設(shè)檢驗,,假設(shè)檢驗會給出ANOVA分析結(jié)果,從上述的結(jié)果可見模型中只有T分期有意義,,年齡和性別無意義,。 做模型的summary(f1),可以發(fā)現(xiàn)年齡AGE、T分期和生存時間成反比 利用BJ模型結(jié)果做出的Nomogram結(jié)果與Summary表型出一致的結(jié)果,。 五,、總結(jié)
BJ模型作為回歸模型的一種,自然也有回歸模型的基本功能,,如因素篩選,、預(yù)測等等。 在應(yīng)用時除了要求線性和方程齊(本篇未展示檢驗過程)要求外,,還需考慮一定的刪失比,。 與COX模型相比,,選擇方案如下: 當數(shù)據(jù)不滿足COX回歸的PH假定(生存曲線相交),BJ模型是Cox模型很好的補充,。
本公眾號部分精彩歷史文章:
04:如何在R軟件中求一致性指數(shù)(Harrell'concordance index:C-index),? 05:Nomogram 繪制原理及R&SAS實現(xiàn). 06 :Lasso方法簡要介紹及其在回歸分析中的應(yīng)用 07 : 最優(yōu)模型選擇中的交叉驗證(Cross validation)方法 08 : 用R語言進行分位數(shù)回歸(Quantile Regression) 09 : 樣本數(shù)據(jù)中異常值(Outliers)檢測方法及SPSS & R實現(xiàn) 10 : 原始數(shù)據(jù)中幾類缺失值(Missing Data)的SPSS及R處理方法 11 : [Survival analysis] Kaplan-Meier法之SPSS實現(xiàn) 12 : [Survival analysis] COX比例風(fēng)險回歸模型在SPSS中的實現(xiàn) 13 : 用R繪制地圖:以疾病流行趨勢為例 14 : 數(shù)據(jù)挖掘方法:聚類分析簡要介紹 及SPSS&R實現(xiàn) 15 : 醫(yī)學(xué)研究中的Logistic回歸分析及R實現(xiàn) 16 : 常用的非參數(shù)檢驗(Nonparametric Tests)總結(jié) 17 : 高中生都能看懂的最小二乘法原理 18 : R語言中可實現(xiàn)的常用統(tǒng)計假設(shè)檢驗總結(jié)(側(cè)重時間序列) 19 : 如何根據(jù)樣本例數(shù)、均數(shù),、標準差進行T-Test和ANOVA 20 : 統(tǒng)計學(xué)中自由度的理解和應(yīng)用 21 : ROC和AUC介紹以及如何計算AUC 22 : 支持向量機SVM介紹及R實現(xiàn) 23 : SPSS如何做主成分分析? 24 : Bootstrap再抽樣方法簡介 25 : 定量測量結(jié)果的一致性評價及 Bland-Altman 法的應(yīng)用 26 : 使用R繪制熱圖及網(wǎng)絡(luò)圖 27 : 幾種常用的雙坐標軸圖形繪制 28 : 遺失的藝術(shù)—諾謨圖(Nomogram) 29 : Nomogram 繪制原理及R&SAS實現(xiàn)(二) 30 : WOE:信用評分卡模型中的變量離散化方法 31 : 結(jié)構(gòu)方程模型(SEM)簡介及教程下載 32 : 重復(fù)測量的多因素方差分析SPSS實現(xiàn)操作過程
|