久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

在Excel中作ROC曲線 - Stentor的天空 - 博客園

 涵靈韻清揚(yáng) 2010-04-28

分類模型嘗試將各個(gè)實(shí)例(instance)劃歸到某個(gè)特定的類,,而分類模型的結(jié)果一般是實(shí)數(shù)值,,如邏輯回歸,其結(jié)果是從0到1的實(shí)數(shù)值,。這里就涉及到如何確定閾值(threshold value),使得模型結(jié)果大于這個(gè)值,,劃為一類,小于這個(gè)值,,劃歸為另一類,。

考慮一個(gè)二分問題,即將實(shí)例分成正類(positive)或負(fù)類(negative),。對(duì)一個(gè)二分問題來說,,會(huì)出現(xiàn)四種情況。如果一個(gè)實(shí)例是正類并且也被預(yù)測(cè)成正類,,即為真正類(True positive),如果實(shí)例是負(fù)類被預(yù)測(cè)成正類,,稱之為假正類(False positive)。相應(yīng)地,,如果實(shí)例是負(fù)類被預(yù)測(cè)成負(fù)類,,稱之為真負(fù)類(True positive),正類被預(yù)測(cè)成負(fù)類則為假負(fù)類(false negative)。

列聯(lián)表如下表所示,,1代表正類,,0代表負(fù)類。

  

  

預(yù)測(cè)

  

  

  

1

0

合計(jì)

實(shí)際

1

True Positive(TP)

False Negative(FN)

Actual Positive(TP+FN)

0

False Positive(FP)

True Negative(TN)

Actual Negative(FP+TN)

合計(jì)

  

Predicted Positive(TP+FP)

Predicted Negative(FN+TN)

 TP+FP+FN+TN

從列聯(lián)表引入兩個(gè)新名詞。其一是真正類率(true positive rate ,TPR), 計(jì)算公式為TPR=TP / (TP + FN),,刻畫的是分類器所識(shí)別出的正實(shí)例占所有正實(shí)例的比例,。另外一個(gè)是負(fù)正類率(false positive rate, FPR),計(jì)算公式為FPR= FP / (FP + TN),計(jì)算的是分類器錯(cuò)認(rèn)為正類的負(fù)實(shí)例占所有負(fù)實(shí)例的比例,。還有一個(gè)真負(fù)類率(True Negative Rate,TNR),,也稱為specificity,計(jì)算公式為TNR=TN / (FP + TN) = 1 − FPR,。

在一個(gè)二分類模型中,對(duì)于所得到的連續(xù)結(jié)果,,假設(shè)已確定一個(gè)閥值,,比如說0.6,,大于這個(gè)值的實(shí)例劃歸為正類,小于這個(gè)值則劃到負(fù)類中,。如果減小閥值,,減到0.5,固然能識(shí)別出更多的正類,,也就是提高了識(shí)別出的正例占所有正例的比類,,即TPR,但同時(shí)也將更多的負(fù)實(shí)例當(dāng)作了正實(shí)例,即提高了FPR,。為了形象化這一變化,,在此引入ROC。

Receiver Operating Characteristic,翻譯為"接受者操作特性曲線",,夠拗口的,。曲線是由兩個(gè)變量的組合,1-specificity和Sensitivity. 由于1-specificity=FPR,,即負(fù)正類率,。Sensitivity即是真正類率,True positive rate,反映了正類覆蓋程度,。這個(gè)組合以1-specificity對(duì)sensitivity,即是以代價(jià)(costs)對(duì)收益(benefits),。

下表是一個(gè)邏輯回歸得到的結(jié)果。將得到的實(shí)數(shù)值按大到小劃分成10個(gè)個(gè)數(shù)相同的部分,。

Percentile

實(shí)例數(shù)

正例數(shù)

1-特異度(%)

敏感度(%)

10

6180

4879

2.73

34.64

20

6180

2804

9.80

54.55

30

6180

2165

18.22

69.92

40

6180

1506

28.01

80.62

50

6180

987

38.90

87.62

60

6180

529

50.74

91.38

70

6180

365

62.93

93.97

80

6180

294

75.26

96.06

90

6180

297

87.59

98.17

100

6177

258

100.00

100.00

其正例數(shù)為此部分里實(shí)際的正類數(shù),。也就是說,將邏輯回歸得到的結(jié)果按從大到小排列,,倘若以前10%的數(shù)值作為閥值,,即將前10%的實(shí)例都劃歸為正類,6180個(gè),。其中,,正確的個(gè)數(shù)為4879個(gè),占所有正類的4879/14084*100%=34.64%,,即敏感度,;另外,有6180-4879=1301個(gè)負(fù)實(shí)例被錯(cuò)劃為正類,,占所有負(fù)類的1301/47713*100%=2.73%,即1-特異度,。以這兩組值分別作為x值和y值,在excel中作散點(diǎn)圖,。得到ROC曲線如下

對(duì)角線反映的是隨機(jī)選擇的結(jié)果,,此對(duì)角線作為對(duì)照線。到底該怎樣選擇閥值呢,,這涉及到了AUC(Area Under the ROC Curve,,ROC曲線下的面積),。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多