基于風(fēng)險(xiǎn)預(yù)測(cè)模型的預(yù)后研究一直以來都是研究者關(guān)注的熱點(diǎn),,各種各樣的預(yù)測(cè)模型質(zhì)量參差不齊,,常常讓人眼花繚亂,那么如何去評(píng)價(jià)一個(gè)模型的好壞,,或者說當(dāng)你構(gòu)建出一個(gè)疾病風(fēng)險(xiǎn)預(yù)測(cè)模型后,,它到底靠不靠譜,值不值得去推廣和使用呢?這是一個(gè)我們需要去好好考量的問題,。 一個(gè)好的疾病風(fēng)險(xiǎn)預(yù)測(cè)模型,,它不只是簡(jiǎn)單的因變量和自變量的數(shù)學(xué)組合,它背后的實(shí)際臨床意義才是我們所要把握的重點(diǎn),,這就要求預(yù)測(cè)模型不僅要有很好的區(qū)分度(Discrimination),,同時(shí)還要具備良好的校準(zhǔn)度(Calibration)。 Discrimination和Calibration是我們?cè)谠u(píng)價(jià)預(yù)測(cè)模型時(shí)最常用到的一對(duì)指標(biāo),,但是2015年Circ Cardiovasc Qual Outcomes雜志(影響因子:4.5)上發(fā)表的一項(xiàng)關(guān)注心血管疾病預(yù)測(cè)模型的系統(tǒng)綜述發(fā)現(xiàn),,63%的研究報(bào)告了預(yù)測(cè)模型的Discrimination信息,但僅36%的研究報(bào)告了Calibration信息,,使得預(yù)測(cè)模型的質(zhì)量成為研究泛濫的重災(zāi)區(qū),。 本期內(nèi)容我們就來向大家介紹一下這兩個(gè)重要的指標(biāo),尤其是常常被人忽略的Calibration,。 區(qū)分度(Discrimination) 介紹Calibration之前,,我們先簡(jiǎn)單介紹一下Discrimination。顧名思義,,一個(gè)好的疾病風(fēng)險(xiǎn)預(yù)測(cè)模型,,它能夠把未來發(fā)病風(fēng)險(xiǎn)高、低不同的人群正確地區(qū)分開來,,預(yù)測(cè)模型通過設(shè)置一定的風(fēng)險(xiǎn)界值,,高于界值判斷為發(fā)病,,低于界值則判斷為不發(fā)病,,從而正確區(qū)分個(gè)體是否會(huì)發(fā)生結(jié)局事件,這就是預(yù)測(cè)模型的區(qū)分度(Discrimination),。 評(píng)價(jià)預(yù)測(cè)模型區(qū)分能力的指標(biāo),,最常用的就是大家非常熟悉的ROC曲線下面積(AUC),也叫C統(tǒng)計(jì)量(C-statistics),。AUC越大,,說明預(yù)測(cè)模型的判別區(qū)分能力越好。一般AUC<0.6認(rèn)為區(qū)分度較差,,0.6-0.75認(rèn)為模型有一定的區(qū)分能力,,>0.75認(rèn)為區(qū)分能力較好。 校準(zhǔn)度(Calibration) 預(yù)測(cè)模型的校準(zhǔn)度(Calibration),,是評(píng)價(jià)一個(gè)疾病風(fēng)險(xiǎn)模型預(yù)測(cè)未來某個(gè)個(gè)體發(fā)生結(jié)局事件概率準(zhǔn)確性的重要指標(biāo),,它反映了模型預(yù)測(cè)風(fēng)險(xiǎn)與實(shí)際發(fā)生風(fēng)險(xiǎn)的一致程度,所以也可以稱作為一致性,。校準(zhǔn)度好,,提示預(yù)測(cè)模型的準(zhǔn)確性高,校準(zhǔn)度差,則模型有可能高估或低估疾病的發(fā)生風(fēng)險(xiǎn),。 在實(shí)際的應(yīng)用中,,通常用Hosmer-Lemeshow good of fit test(擬合優(yōu)度檢驗(yàn))來評(píng)價(jià)預(yù)測(cè)模型的校準(zhǔn)度。Hosmer-Lemeshow檢驗(yàn)的基本思路如下: 1. 首先根據(jù)預(yù)測(cè)模型來計(jì)算每個(gè)個(gè)體未來發(fā)生結(jié)局事件的預(yù)測(cè)概率,; 2. 根據(jù)預(yù)測(cè)概率從小到大進(jìn)行排序,,并按照十分位等分成10組; 3. 分別計(jì)算各組的實(shí)際觀測(cè)數(shù)和模型預(yù)測(cè)數(shù),,其中模型預(yù)測(cè)數(shù),,即每個(gè)人的預(yù)測(cè)概率*人數(shù),再求總和,,這里人數(shù)即為1,,最后總和就相當(dāng)于每個(gè)個(gè)體預(yù)測(cè)概率的直接加和; 4. 根據(jù)每組實(shí)際觀測(cè)數(shù)和模型預(yù)測(cè)數(shù)計(jì)算卡方值(自由度=8),,再根據(jù)卡方分布得到對(duì)應(yīng)的P值,。 若所得的統(tǒng)計(jì)量卡方值越小,對(duì)應(yīng)的P值越大,,則提示預(yù)測(cè)模型的校準(zhǔn)度越好,。若檢驗(yàn)結(jié)果顯示有統(tǒng)計(jì)學(xué)顯著性(P<0.05),則表明模型預(yù)測(cè)值和實(shí)際觀測(cè)值之間存在一定的差異,,模型校準(zhǔn)度差,。 區(qū)分度和校準(zhǔn)度的SPSS操作 一、建立數(shù)據(jù)庫 某研究人員擬建立一個(gè)關(guān)于冠心病患者支架介入術(shù)后再次發(fā)生MACE事件(Major Adverse Cardiovascular Events,,主要心血管不良事件)的風(fēng)險(xiǎn)預(yù)測(cè)模型,,并對(duì)該風(fēng)險(xiǎn)模型的預(yù)測(cè)能力進(jìn)行評(píng)價(jià)。數(shù)據(jù)庫格式如下圖所示,。 其中因變量(結(jié)局事件)為Event,,自變量(影響因素)為性別(Gender)、年齡(Age),、收縮壓(SBP),、吸煙(Smoking)、低密度脂蛋白膽固醇(LDL)及冠脈病變Syntax評(píng)分(SYNTAX),。 二,、構(gòu)建預(yù)測(cè)模型 本研究利用Logistic回歸構(gòu)建預(yù)測(cè)模型(若研究為含有時(shí)間變量的生存數(shù)據(jù),則可采用Cox回歸模型),。Logistic回歸的操作步驟對(duì)大家來說應(yīng)該早就是小case了,,操作方法如下: 1. Analyze → Regression → Binary Logistic Regression 2. 將因變量Event選入Dependent框中,將各個(gè)自變量選入Covariates框中 3. 點(diǎn)擊Save,,在Predicted Values下勾選Probabilities,,目的是為了在數(shù)據(jù)庫中新生成一個(gè)概率值,,用于繪制ROC曲線和校準(zhǔn)曲線圖。 4. 點(diǎn)擊Options,,勾選Hosmer-Lemeshow goodness-of-fit,,用于輸出Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)的結(jié)果。 三,、Logistic回歸結(jié)果 Variable in the Equation中輸出了每個(gè)影響因素的回歸系數(shù)(β),、OR值、95% CI以及P值等信息,?;貧w方程如下: logit (p)= -8.713 - 0.899*Gender + 0.05*Age + 0.021*SBP + 0.912*Smoking + 0.438*LDL + 0.07*SYNTAX 四、模型區(qū)分度(Discrimination) 通過繪制ROC曲線,,計(jì)算AUC,,即C統(tǒng)計(jì)量來評(píng)價(jià)模型的判別區(qū)分能力。具體操作步驟為: 1. Analyze → ROC Curve 2. 將新生成的預(yù)測(cè)概率值PRE_1作為檢驗(yàn)變量Test Variable ,,將Event作為狀態(tài)變量State Variable,,并設(shè)定Value of State Variable為1 3. 勾選ROC Curve用于繪制ROC曲線 勾選Standard error and confidence interval用于輸出AUC及其標(biāo)準(zhǔn)誤和95%可信區(qū)間。 預(yù)測(cè)模型ROC曲線如下圖所示,,曲線下面積AUC為0.782>0.75,,95% CI為0.726-0.838,提示該預(yù)測(cè)模型的區(qū)分能力較好,。 五,、模型校準(zhǔn)度(Calibration) 通過Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)來評(píng)價(jià)預(yù)測(cè)模型的校準(zhǔn)能力。結(jié)果顯示,,Hosmer-Lemeshow χ2 =4.864,,P=0.772>0.05,提示模型預(yù)測(cè)值與實(shí)際觀測(cè)值之間的差異沒有統(tǒng)計(jì)學(xué)顯著性,,預(yù)測(cè)模型有較好的校準(zhǔn)能力,。 同時(shí)SPSS還輸出了Hosmer-Lemeshow檢驗(yàn)列聯(lián)表,,表中將每個(gè)研究對(duì)象的預(yù)測(cè)概率從小到大進(jìn)行排序,,并按照十分位分成10組,分別列出了每一組實(shí)際觀測(cè)值(Observed)和模型預(yù)測(cè)值(Expected),,從而可以在每一個(gè)分組下進(jìn)行直觀的比較,,來幫助判斷模型的校準(zhǔn)能力。 六,、模型校準(zhǔn)圖形(Calibration Plot) 既然在評(píng)價(jià)預(yù)測(cè)模型區(qū)分度的時(shí)候,,結(jié)果可以通過繪制ROC曲線進(jìn)行可視化,那么對(duì)于預(yù)測(cè)模型的校準(zhǔn)度,,我們也同樣可以繪制校準(zhǔn)圖使結(jié)果可視化,。 我們?cè)谖墨I(xiàn)中常常可以看到,校準(zhǔn)圖的繪制一般有三種形式,,大家可以利用上面SPSS輸出的Hosmer-Lemeshow檢驗(yàn)列聯(lián)表的結(jié)果,,將其復(fù)制到Excel中(以下圖形均以Excel 2013版為例),跟著小咖一起來繪制校準(zhǔn)圖形,。 1. 散點(diǎn)圖 根據(jù)實(shí)際觀測(cè)值(Observed)和模型預(yù)測(cè)值(Expected)繪制散點(diǎn)圖,,并擬合線性趨勢(shì)線,即可得到校準(zhǔn)曲線,,如下圖所示的藍(lán)線,。而紅線為標(biāo)準(zhǔn)曲線(y=x),表示預(yù)測(cè)數(shù)和實(shí)際觀測(cè)數(shù)完全一樣,。若藍(lán)色的校準(zhǔn)曲線和紅色的標(biāo)準(zhǔn)曲線越接近,,則提示模型的校準(zhǔn)能力越好。 2. 條形圖 將每個(gè)研究對(duì)象的預(yù)測(cè)概率從小到大進(jìn)行排序,,并按照十分位分成10組,,以條圖的形式來表示每組實(shí)際觀測(cè)值和模型預(yù)測(cè)值的大小,這樣能夠更加直觀的展示在每一組內(nèi),,實(shí)際觀測(cè)值和模型預(yù)測(cè)值之間的差別,,以此來幫助判斷模型更為準(zhǔn)確的預(yù)測(cè)區(qū)間。 3. 線圖 線圖的表達(dá)方式和條形圖類似,,同樣也是按照預(yù)測(cè)概率的十分位分成10組,,以坐標(biāo)點(diǎn)的形式來表示每組實(shí)際觀測(cè)值和模型預(yù)測(cè)值的大小,并用平滑的線段依次連接起來,。它不僅可以直觀的展示每一組內(nèi)實(shí)際觀測(cè)值和模型預(yù)測(cè)值之間的差別,,同時(shí)也能從整體上來判斷模型的校準(zhǔn)能力。模型預(yù)測(cè)曲線與實(shí)際觀測(cè)曲線越接近,,則可提示模型的校準(zhǔn)能力越好,。 總結(jié) Discrimination和Calibration是評(píng)價(jià)預(yù)測(cè)模型效能的兩個(gè)重要指標(biāo),但比較容易混淆,,最后再和大家總結(jié)一下: 1.Discrimination區(qū)分度,,就是在模型的預(yù)測(cè)值中,看是否能夠找到一個(gè)截點(diǎn),,使得把患者和非患者正確區(qū)分開來,。如果區(qū)分的越開,且與實(shí)際情況越吻合,,則提示模型的區(qū)分度越好,。 2.Calibration校準(zhǔn)度,就是評(píng)價(jià)模型預(yù)測(cè)值的大小和結(jié)局事件發(fā)生概率的大小是否一致,。如果模型的預(yù)測(cè)值與結(jié)局實(shí)際發(fā)生概率越接近,,則提示模型的校準(zhǔn)度就越好,。 3.風(fēng)險(xiǎn)預(yù)測(cè)模型的Discrimination和Calibration并不一定都是同方向的。 如圖A,,模型的Discrimination很好,,能夠根據(jù)發(fā)病風(fēng)險(xiǎn)將不同的研究對(duì)象明顯的區(qū)分開來,但是Calibration較差,,預(yù)測(cè)值偏離校準(zhǔn)曲線很遠(yuǎn),,與實(shí)際情況不符。
圖B,,模型的Calibration很好,,預(yù)測(cè)值都集中在校準(zhǔn)曲線上,預(yù)測(cè)較為準(zhǔn)確,,但是Discrimination較差,,研究對(duì)象的患病風(fēng)險(xiǎn)都比較接近,無法將其明顯的區(qū)分開來,。 (圖B) 圖C,,模型的Discrimination和Calibration都很好,不僅能夠把不同風(fēng)險(xiǎn)的患者明顯的區(qū)分開來,,而且預(yù)測(cè)值都集中在校準(zhǔn)曲線上,,預(yù)測(cè)結(jié)果較為準(zhǔn)確。
圖D,,是最為理想的模型,,能夠準(zhǔn)確預(yù)測(cè)研究對(duì)象是否患者,發(fā)病風(fēng)險(xiǎn)為0或100%,。 (圖D) 4.對(duì)于一個(gè)疾病預(yù)測(cè)模型,,在利用Discrimination和Calibration進(jìn)行評(píng)價(jià)時(shí),我們首先需要考慮的是模型的區(qū)分能力Discrimination,,如果模型的區(qū)分度較差,,不能正確的將不同風(fēng)險(xiǎn)的人群區(qū)分開來,那么它就不是一個(gè)合格的預(yù)測(cè)模型,,失去了臨床的應(yīng)用價(jià)值,,再繼續(xù)評(píng)價(jià)Calibration也沒有太大的意義了。 所以,,如果你對(duì)自己建立的疾病風(fēng)險(xiǎn)預(yù)測(cè)模型有足夠的信心,,那么不妨也計(jì)算一下模型的Discrimination和Calibration,相信一定會(huì)得到更多同行的認(rèn)可,。 參考文獻(xiàn): [1] Circ Cardiovasc Qual Outcomes. 2015 Jul;8(4):368-75 [2] JAMA. 2017;318(14):1377-1384 |
|