預(yù)測(cè)模型教程：詳解區(qū)分度和校準(zhǔn)度的SPSS操作|擬合|觀測(cè)值|spss

starksqu 2024-10-07

展開全文

基于風(fēng)險(xiǎn)預(yù)測(cè)模型的預(yù)后研究一直以來都是研究者關(guān)注的熱點(diǎn),，各種各樣的預(yù)測(cè)模型質(zhì)量參差不齊,，常常讓人眼花繚亂，那么如何去評(píng)價(jià)一個(gè)模型的好壞,，或者說當(dāng)你構(gòu)建出一個(gè)疾病風(fēng)險(xiǎn)預(yù)測(cè)模型后,，它到底靠不靠譜，值不值得去推廣和使用呢？這是一個(gè)我們需要去好好考量的問題,。

一個(gè)好的疾病風(fēng)險(xiǎn)預(yù)測(cè)模型,，它不只是簡(jiǎn)單的因變量和自變量的數(shù)學(xué)組合，它背后的實(shí)際臨床意義才是我們所要把握的重點(diǎn),，這就要求預(yù)測(cè)模型不僅要有很好的區(qū)分度（Discrimination）,，同時(shí)還要具備良好的校準(zhǔn)度（Calibration）。

Discrimination和Calibration是我們?cè)谠u(píng)價(jià)預(yù)測(cè)模型時(shí)最常用到的一對(duì)指標(biāo),，但是2015年Circ Cardiovasc Qual Outcomes雜志（影響因子：4.5）上發(fā)表的一項(xiàng)關(guān)注心血管疾病預(yù)測(cè)模型的系統(tǒng)綜述發(fā)現(xiàn),，63%的研究報(bào)告了預(yù)測(cè)模型的Discrimination信息，但僅36%的研究報(bào)告了Calibration信息,，使得預(yù)測(cè)模型的質(zhì)量成為研究泛濫的重災(zāi)區(qū),。

本期內(nèi)容我們就來向大家介紹一下這兩個(gè)重要的指標(biāo)，尤其是常常被人忽略的Calibration,。

區(qū)分度(Discrimination)

介紹Calibration之前,，我們先簡(jiǎn)單介紹一下Discrimination。顧名思義,，一個(gè)好的疾病風(fēng)險(xiǎn)預(yù)測(cè)模型,，它能夠把未來發(fā)病風(fēng)險(xiǎn)高、低不同的人群正確地區(qū)分開來,，預(yù)測(cè)模型通過設(shè)置一定的風(fēng)險(xiǎn)界值,，高于界值判斷為發(fā)病,，低于界值則判斷為不發(fā)病,，從而正確區(qū)分個(gè)體是否會(huì)發(fā)生結(jié)局事件，這就是預(yù)測(cè)模型的區(qū)分度(Discrimination),。

評(píng)價(jià)預(yù)測(cè)模型區(qū)分能力的指標(biāo),，最常用的就是大家非常熟悉的ROC曲線下面積（AUC），也叫C統(tǒng)計(jì)量（C-statistics）,。AUC越大,，說明預(yù)測(cè)模型的判別區(qū)分能力越好。一般AUC<0.6認(rèn)為區(qū)分度較差,，0.6-0.75認(rèn)為模型有一定的區(qū)分能力,，>0.75認(rèn)為區(qū)分能力較好。

校準(zhǔn)度(Calibration)

預(yù)測(cè)模型的校準(zhǔn)度(Calibration),，是評(píng)價(jià)一個(gè)疾病風(fēng)險(xiǎn)模型預(yù)測(cè)未來某個(gè)個(gè)體發(fā)生結(jié)局事件概率準(zhǔn)確性的重要指標(biāo),，它反映了模型預(yù)測(cè)風(fēng)險(xiǎn)與實(shí)際發(fā)生風(fēng)險(xiǎn)的一致程度，所以也可以稱作為一致性,。校準(zhǔn)度好,，提示預(yù)測(cè)模型的準(zhǔn)確性高，校準(zhǔn)度差，則模型有可能高估或低估疾病的發(fā)生風(fēng)險(xiǎn),。

在實(shí)際的應(yīng)用中,，通常用Hosmer-Lemeshow good of fit test（擬合優(yōu)度檢驗(yàn)）來評(píng)價(jià)預(yù)測(cè)模型的校準(zhǔn)度。Hosmer-Lemeshow檢驗(yàn)的基本思路如下：

1. 首先根據(jù)預(yù)測(cè)模型來計(jì)算每個(gè)個(gè)體未來發(fā)生結(jié)局事件的預(yù)測(cè)概率,；

2. 根據(jù)預(yù)測(cè)概率從小到大進(jìn)行排序,，并按照十分位等分成10組；

3. 分別計(jì)算各組的實(shí)際觀測(cè)數(shù)和模型預(yù)測(cè)數(shù),，其中模型預(yù)測(cè)數(shù),，即每個(gè)人的預(yù)測(cè)概率*人數(shù)，再求總和,，這里人數(shù)即為1,，最后總和就相當(dāng)于每個(gè)個(gè)體預(yù)測(cè)概率的直接加和；

4. 根據(jù)每組實(shí)際觀測(cè)數(shù)和模型預(yù)測(cè)數(shù)計(jì)算卡方值（自由度=8）,，再根據(jù)卡方分布得到對(duì)應(yīng)的P值,。

若所得的統(tǒng)計(jì)量卡方值越小，對(duì)應(yīng)的P值越大,，則提示預(yù)測(cè)模型的校準(zhǔn)度越好,。若檢驗(yàn)結(jié)果顯示有統(tǒng)計(jì)學(xué)顯著性（P<0.05），則表明模型預(yù)測(cè)值和實(shí)際觀測(cè)值之間存在一定的差異,，模型校準(zhǔn)度差,。

區(qū)分度和校準(zhǔn)度的SPSS操作

一、建立數(shù)據(jù)庫

某研究人員擬建立一個(gè)關(guān)于冠心病患者支架介入術(shù)后再次發(fā)生MACE事件（Major Adverse Cardiovascular Events,，主要心血管不良事件）的風(fēng)險(xiǎn)預(yù)測(cè)模型,，并對(duì)該風(fēng)險(xiǎn)模型的預(yù)測(cè)能力進(jìn)行評(píng)價(jià)。數(shù)據(jù)庫格式如下圖所示,。

其中因變量（結(jié)局事件）為Event,，自變量（影響因素）為性別（Gender）、年齡（Age）,、收縮壓（SBP）,、吸煙（Smoking）、低密度脂蛋白膽固醇（LDL）及冠脈病變Syntax評(píng)分（SYNTAX）,。

二,、構(gòu)建預(yù)測(cè)模型

本研究利用Logistic回歸構(gòu)建預(yù)測(cè)模型（若研究為含有時(shí)間變量的生存數(shù)據(jù)，則可采用Cox回歸模型）,。Logistic回歸的操作步驟對(duì)大家來說應(yīng)該早就是小case了,，操作方法如下：

1. Analyze → Regression → Binary Logistic Regression

2. 將因變量Event選入Dependent框中，將各個(gè)自變量選入Covariates框中

3. 點(diǎn)擊Save,，在Predicted Values下勾選Probabilities,，目的是為了在數(shù)據(jù)庫中新生成一個(gè)概率值,，用于繪制ROC曲線和校準(zhǔn)曲線圖。

4. 點(diǎn)擊Options,，勾選Hosmer-Lemeshow goodness-of-fit,，用于輸出Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)的結(jié)果。

三,、Logistic回歸結(jié)果

Variable in the Equation中輸出了每個(gè)影響因素的回歸系數(shù)（β）,、OR值、95% CI以及P值等信息,?；貧w方程如下：

logit (p)= -8.713 - 0.899*Gender + 0.05*Age + 0.021*SBP + 0.912*Smoking + 0.438*LDL + 0.07*SYNTAX

四、模型區(qū)分度（Discrimination）

通過繪制ROC曲線,，計(jì)算AUC,，即C統(tǒng)計(jì)量來評(píng)價(jià)模型的判別區(qū)分能力。具體操作步驟為：

1. Analyze → ROC Curve

2. 將新生成的預(yù)測(cè)概率值PRE_1作為檢驗(yàn)變量Test Variable ,，將Event作為狀態(tài)變量State Variable,，并設(shè)定Value of State Variable為1

3. 勾選ROC Curve用于繪制ROC曲線

勾選Standard error and confidence interval用于輸出AUC及其標(biāo)準(zhǔn)誤和95%可信區(qū)間。

預(yù)測(cè)模型ROC曲線如下圖所示,，曲線下面積AUC為0.782>0.75,，95% CI為0.726-0.838，提示該預(yù)測(cè)模型的區(qū)分能力較好,。

五,、模型校準(zhǔn)度（Calibration）

通過Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)來評(píng)價(jià)預(yù)測(cè)模型的校準(zhǔn)能力。結(jié)果顯示,，Hosmer-Lemeshow χ2 =4.864,，P=0.772>0.05，提示模型預(yù)測(cè)值與實(shí)際觀測(cè)值之間的差異沒有統(tǒng)計(jì)學(xué)顯著性,，預(yù)測(cè)模型有較好的校準(zhǔn)能力,。

同時(shí)SPSS還輸出了Hosmer-Lemeshow檢驗(yàn)列聯(lián)表,，表中將每個(gè)研究對(duì)象的預(yù)測(cè)概率從小到大進(jìn)行排序,，并按照十分位分成10組，分別列出了每一組實(shí)際觀測(cè)值（Observed）和模型預(yù)測(cè)值（Expected）,，從而可以在每一個(gè)分組下進(jìn)行直觀的比較,，來幫助判斷模型的校準(zhǔn)能力。

六,、模型校準(zhǔn)圖形（Calibration Plot）

既然在評(píng)價(jià)預(yù)測(cè)模型區(qū)分度的時(shí)候,，結(jié)果可以通過繪制ROC曲線進(jìn)行可視化，那么對(duì)于預(yù)測(cè)模型的校準(zhǔn)度,，我們也同樣可以繪制校準(zhǔn)圖使結(jié)果可視化,。

我們?cè)谖墨I(xiàn)中常常可以看到，校準(zhǔn)圖的繪制一般有三種形式,，大家可以利用上面SPSS輸出的Hosmer-Lemeshow檢驗(yàn)列聯(lián)表的結(jié)果,，將其復(fù)制到Excel中（以下圖形均以Excel 2013版為例），跟著小咖一起來繪制校準(zhǔn)圖形,。

1. 散點(diǎn)圖

根據(jù)實(shí)際觀測(cè)值（Observed）和模型預(yù)測(cè)值（Expected）繪制散點(diǎn)圖,，并擬合線性趨勢(shì)線，即可得到校準(zhǔn)曲線,，如下圖所示的藍(lán)線,。而紅線為標(biāo)準(zhǔn)曲線（y=x），表示預(yù)測(cè)數(shù)和實(shí)際觀測(cè)數(shù)完全一樣,。若藍(lán)色的校準(zhǔn)曲線和紅色的標(biāo)準(zhǔn)曲線越接近,，則提示模型的校準(zhǔn)能力越好。

2. 條形圖

將每個(gè)研究對(duì)象的預(yù)測(cè)概率從小到大進(jìn)行排序,，并按照十分位分成10組,，以條圖的形式來表示每組實(shí)際觀測(cè)值和模型預(yù)測(cè)值的大小，這樣能夠更加直觀的展示在每一組內(nèi),，實(shí)際觀測(cè)值和模型預(yù)測(cè)值之間的差別,，以此來幫助判斷模型更為準(zhǔn)確的預(yù)測(cè)區(qū)間。

3. 線圖

線圖的表達(dá)方式和條形圖類似,，同樣也是按照預(yù)測(cè)概率的十分位分成10組,，以坐標(biāo)點(diǎn)的形式來表示每組實(shí)際觀測(cè)值和模型預(yù)測(cè)值的大小，并用平滑的線段依次連接起來,。它不僅可以直觀的展示每一組內(nèi)實(shí)際觀測(cè)值和模型預(yù)測(cè)值之間的差別,，同時(shí)也能從整體上來判斷模型的校準(zhǔn)能力。模型預(yù)測(cè)曲線與實(shí)際觀測(cè)曲線越接近,，則可提示模型的校準(zhǔn)能力越好,。

總結(jié)

Discrimination和Calibration是評(píng)價(jià)預(yù)測(cè)模型效能的兩個(gè)重要指標(biāo)，但比較容易混淆,，最后再和大家總結(jié)一下：

1.Discrimination區(qū)分度,，就是在模型的預(yù)測(cè)值中，看是否能夠找到一個(gè)截點(diǎn),，使得把患者和非患者正確區(qū)分開來,。如果區(qū)分的越開，且與實(shí)際情況越吻合,，則提示模型的區(qū)分度越好,。

2.Calibration校準(zhǔn)度，就是評(píng)價(jià)模型預(yù)測(cè)值的大小和結(jié)局事件發(fā)生概率的大小是否一致,。如果模型的預(yù)測(cè)值與結(jié)局實(shí)際發(fā)生概率越接近,，則提示模型的校準(zhǔn)度就越好,。

3.風(fēng)險(xiǎn)預(yù)測(cè)模型的Discrimination和Calibration并不一定都是同方向的。

如圖A,，模型的Discrimination很好,，能夠根據(jù)發(fā)病風(fēng)險(xiǎn)將不同的研究對(duì)象明顯的區(qū)分開來，但是Calibration較差,，預(yù)測(cè)值偏離校準(zhǔn)曲線很遠(yuǎn),，與實(shí)際情況不符。

(圖A)

圖B,，模型的Calibration很好,，預(yù)測(cè)值都集中在校準(zhǔn)曲線上，預(yù)測(cè)較為準(zhǔn)確,，但是Discrimination較差,，研究對(duì)象的患病風(fēng)險(xiǎn)都比較接近，無法將其明顯的區(qū)分開來,。

(圖B)

圖C,，模型的Discrimination和Calibration都很好，不僅能夠把不同風(fēng)險(xiǎn)的患者明顯的區(qū)分開來,，而且預(yù)測(cè)值都集中在校準(zhǔn)曲線上,，預(yù)測(cè)結(jié)果較為準(zhǔn)確。

(圖C)

圖D,，是最為理想的模型,，能夠準(zhǔn)確預(yù)測(cè)研究對(duì)象是否患者，發(fā)病風(fēng)險(xiǎn)為0或100%,。

(圖D)

4.對(duì)于一個(gè)疾病預(yù)測(cè)模型,，在利用Discrimination和Calibration進(jìn)行評(píng)價(jià)時(shí)，我們首先需要考慮的是模型的區(qū)分能力Discrimination,，如果模型的區(qū)分度較差,，不能正確的將不同風(fēng)險(xiǎn)的人群區(qū)分開來，那么它就不是一個(gè)合格的預(yù)測(cè)模型,，失去了臨床的應(yīng)用價(jià)值,，再繼續(xù)評(píng)價(jià)Calibration也沒有太大的意義了。

所以,，如果你對(duì)自己建立的疾病風(fēng)險(xiǎn)預(yù)測(cè)模型有足夠的信心,，那么不妨也計(jì)算一下模型的Discrimination和Calibration，相信一定會(huì)得到更多同行的認(rèn)可,。

參考文獻(xiàn)：

[1] Circ Cardiovasc Qual Outcomes. 2015 Jul;8(4):368-75

[2] JAMA. 2017;318(14):1377-1384

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： starksqu > 《待分類》

舉報(bào)/認(rèn)領(lǐng)