作者:麥子 轉(zhuǎn)載請注明:解螺旋·臨床醫(yī)生科研成長平臺 有一類研究看似簡單,,其實水挺深的。 比如你覺得前列腺特異性抗原(PSA)用來篩查前列腺癌不準(zhǔn)確,,你收集臨床樣本做了個癌和癌旁組織的lncRNA檢測,,篩選出差異表達(dá)的,建立回歸模型,,看它們對前列腺癌的預(yù)測作用,,再做個ROC曲線,哎喲,,AUC > 0.75,,太棒了3-5分在握! 但是轉(zhuǎn)眼看別人好像也差不多嘛,對某現(xiàn)有診斷或風(fēng)險預(yù)測方法不滿意,,根據(jù)既往零散報道的風(fēng)險因素收集一些臨床資料,,建立回歸模型然后ROC一下,為什么人家能沖上四大醫(yī)刊,,甚至被迫不及待寫進(jìn)指南呢,?僅僅因為人家有N個中心上萬個樣本量嗎?不,,你肯定沒在意另一些分析方法,。 人家的診斷(預(yù)測)模型好,你的可能也不賴,,但人家把它的好處說得很清楚,、很有技術(shù)范呀,編輯和審稿人就喜歡這樣,。 評價一個模型的好壞,,不僅關(guān)乎能發(fā)多少分的文章,也關(guān)乎臨床醫(yī)生的決策,。近期JAMA上的一篇文章專門討論了這個問題,,我們一起來琢磨一下。 模型的區(qū)分度和校準(zhǔn)度 一個好的預(yù)測模型應(yīng)該能針對某個結(jié)局,,把一群人的風(fēng)險高低區(qū)分開來,,這就是區(qū)分度(discrimination)。它跟患者在人群中的分布特征有關(guān),,模型中納入的自變量(如性別,、年齡、某些實驗室檢查等)如果有異質(zhì)性,,那么模型的區(qū)分度就好,,否則就差。 區(qū)分度一般以我們熟悉的ROC曲線下面積(AUC)來評價,,或稱C統(tǒng)計量(C-statistics),。AUC越高,模型對高低風(fēng)險人群的區(qū)分度越好,。一個廣泛接受的評判標(biāo)準(zhǔn)是,,AUC在0.6以下為低區(qū)分度,0.6 – 0.75 是中區(qū)分度,,0.75以上為高區(qū)分度,。 但一個區(qū)分度很好的模型,卻可能有著較差的校準(zhǔn)度(calibration),,或稱擬合優(yōu)度(Goodness of fit),。比如它能判斷一個人發(fā)生某疾病的風(fēng)險是另一個人的5倍,,它判斷這兩人的風(fēng)險分別為5%和1%,而實際上兩人的風(fēng)險是50%和10%,,那這個模型也挺離譜的,,這就是校準(zhǔn)度不好。 模型的校準(zhǔn)度可以用Hosmer-Lemeshow檢驗(H-L檢驗),,若結(jié)果得到顯著統(tǒng)計學(xué)意義,,則表明預(yù)測值與觀測值之間(即模型和真實之間)有差異。 但H-L檢驗有其不足,。有統(tǒng)計學(xué)差異只能提示這個模型整體上跟觀測值有差異,,卻無法展示更多細(xì)節(jié)。做出校準(zhǔn)曲線來有可能會看到這樣一種情況: 這是MAGGIC心衰風(fēng)險評分量表的校準(zhǔn)曲線,,其用于評價心衰1年死亡風(fēng)險,。黃色曲線為模型預(yù)測值,藍(lán)色帶有誤差線的點為觀測值,??梢娝鼈兦懊嬉欢蔚惋L(fēng)險時吻合得不錯,而有輕微高估,;但30%開始,,模型預(yù)測的風(fēng)險低于實際觀察值10%左右,自此拉開差距,。 這個模型在外部驗證集中檢測的時候,,AUC為0.77。像這種情況的模型是否毫無用處呢,? 如果有其他研究表明(或行業(yè)內(nèi)達(dá)成共識),,風(fēng)險高于20%的時候就一定要采取某種干預(yù),那么后面的差異其實影響不大,,這都是可以在討論中Argue一下的,,深入分析自己的模型的價值和適用范圍,也可圈可點,。 區(qū)分度和校準(zhǔn)度對一個模型來說都是很重要的評價,,許多新開發(fā)的模型沒有得到充分的評價,就只好流散于蒼茫文獻(xiàn)海,,泯然一滴水,,后人遇到了還要辛苦甄別。有一項關(guān)于心血管系統(tǒng)風(fēng)險預(yù)測模型研究的系統(tǒng)綜述發(fā)現(xiàn),,只有63%的模型匯報了區(qū)分度,,而匯報校準(zhǔn)度的更少,,才36%,。 你的模型要和別人的模型來一場PK 如果你開發(fā)的風(fēng)險預(yù)測模型是為了解決一個全新的問題,展示自己好也就夠了。但更多時候是希望能改進(jìn)現(xiàn)有的解決方案,,那么當(dāng)然還要表明它比現(xiàn)有的好(至少某一方面),,才能有發(fā)表的機(jī)會呀。 區(qū)分度比較兩者的AUC是可以的,,但沒什么細(xì)節(jié),。校準(zhǔn)度的比較則可用赤池信息準(zhǔn)則(Akaike Index Criterion, AIC)或貝葉斯信息準(zhǔn)則(Bayesian Index Criterion, BIC),其值越低,,校準(zhǔn)度越好,,但同樣沒什么細(xì)節(jié),可能相對較好的那個模型離真實情況還是挺遠(yuǎn)的,。但AIC和BIC見得更少了,。 這里再重點介紹一種近年來應(yīng)用愈發(fā)增多的指標(biāo),聽說有的小伙伴已經(jīng)遇到過審稿人要求返修做這個分析了,,就是凈重新分類指數(shù)(Net Reclassification Index, NRI),。 聽名字,這意思就是舊模型把一群人分為高風(fēng)險和低風(fēng)險,,新模型會把其中幾個人挪挪窩,,有的挪對了有的挪錯了,“挪對的 – 挪錯的”就是凈重分類,。指數(shù)嘛,,再除以總?cè)藬?shù)的百分比咯。 但還要分成兩撥來看,,即觀測發(fā)生結(jié)局事件的和未發(fā)生結(jié)局事件的,,因為它們分別代表假陰性和假陽性的概率。還是在一個情景中說明吧,。 相加NRI(additive NRI)的值可以從200 ~ -200,,即新模型完全分類正確(所有低風(fēng)險的人都未發(fā)生結(jié)局事件,且所有高風(fēng)險的人都發(fā)生了結(jié)局事件)為200,,反之完全分類錯誤為-200,。 它主要的局限性就是沒有考慮發(fā)生與不發(fā)生事件的兩撥人在總體中的分布情況。絕對NRI(absolute NRI)以總體為分母,,則回避了這個局限,。 相加NRI用得多一點,但其實它們各有意義,,應(yīng)該兼看,。再看兩個例子來理解它倆的差別吧。 例1: 樣本20000人,,觀察下來,,發(fā)生與未發(fā)生結(jié)局事件的兩撥人各有10000,。下圖綠色表示正確重新分類,粉色表示錯誤重新分類,,灰色表示沒有重新分類,。 計算下來,相加NRI為12,,是正值,;絕對NRI是6%,也是正值,,如圖下方的表格所示,。也就是說,雖然未發(fā)生結(jié)局事件的有300人被錯誤重新分類,,但總體上來說還是利大于弊的,。 例2:樣本是11000人,觀察下來,,發(fā)生與未發(fā)生結(jié)局事件的人比例不再是1:1了,,分別為1000人與10000人。 如表所示,,這回相加NRI和上邊一樣是12,,還是正值。如果光看相加NRI,,似乎新模型還是個好模型,。但看絕對NRI,原來是個負(fù)值,。 再看看細(xì)節(jié),,新模型對發(fā)生了結(jié)局事件的人做了更好的重分類,可遺憾的是,,這撥人所占比例更?。欢鴮τ谖窗l(fā)生結(jié)局事件的人,,其重分類效果并不好,,這部分人占的比例又比較大,最終絕對NRI是負(fù)的,,暴露了新模型的局限性,。 下面是一個研究中的真實案例,情況跟上邊的例2差不多,。評價術(shù)后發(fā)生心?;蛐脑葱运劳龅娘L(fēng)險,原來有一個評分量表(Revised Cardiac Risk Index, RCRI),,此為舊模型,。研究者想看看加上冠脈造影(CCTA)能不能更好地預(yù)測風(fēng)險,,即CCTA + RCRI為新模型。 觀察下來,,結(jié)局發(fā)生與不發(fā)生在總體中的分布為7.7% : 92.3%,統(tǒng)計重新分類的情況,,計算兩個NRI,,出現(xiàn)了相加NRI為正值、絕對NRI為負(fù)值的情況,。 發(fā)生這種情況,,又要拋棄新模型咯?粗看或許的是,,但其實還有另一個討論思路,,這個思路在許多研究中都適用,就是假陰性與假陽性哪個后果更嚴(yán)重,。 發(fā)生結(jié)局事件的人,,當(dāng)初被錯誤地分到低風(fēng)險組,就是假陰性,,讓病人和醫(yī)生都放松警惕,,可能錯過了及時干預(yù)的機(jī)會。未發(fā)生結(jié)局事件的人,,當(dāng)初被錯誤地分到高風(fēng)險組,,就是假陽性,讓人提心吊膽草木皆兵,,可能過度干預(yù)造成額外的負(fù)擔(dān),。 如果結(jié)局事件挺嚴(yán)重的,比如本例中的心?;蛐脑葱运劳?,就算風(fēng)險低我也想要極力避免,要干預(yù),,那么假陽性較多的模型也有其價值,。如果結(jié)局事件不那么嚴(yán)重,或者即使發(fā)生了還有較好的補(bǔ)救方案,,那么當(dāng)初測試時它低估了我的風(fēng)險我也不是太介意,,假陰性多一點的模型也能接受。 總之,,如果你的分析方法能看到更多細(xì)節(jié),,也就給了你更多更深入分析討論的機(jī)會,為自己的研究成果找到亮點,。 關(guān)于假陰性與假陽性的權(quán)衡,,還有其他指標(biāo),,比如凈受益率,可以做決策曲線來分析,。這個我們之前有過介紹,,這里就不多說了,自己來復(fù)習(xí)→_→《ROC曲線老了,,快來圍觀新晉小生DCA曲線,!》 參考文獻(xiàn):Alba, A. C. et al. Discrimination and Calibration of Clinical Prediction Models: Users’ Guides to the Medical Literature. JAMA 318, 1377–1384 (2017). |
|