介紹樸素貝葉斯分類器的文章已經(jīng)很多了,。本文的目的是通過基本概念和微小實(shí)例的復(fù)述,,鞏固對(duì)于樸素貝葉斯分類器的理解。 一 樸素貝葉斯分類器基礎(chǔ)回顧樸素貝葉斯分類器基于貝葉斯定義,,特別適用于輸入數(shù)據(jù)維數(shù)較高的情況,。雖然樸素貝葉斯分類器很簡(jiǎn)單,但是它確經(jīng)常比一些復(fù)雜的方法表現(xiàn)還好,。
為了簡(jiǎn)單闡述貝葉斯分類的基本原理,,我們使用上圖所示的例子來說明。作為先驗(yàn),,我們知道一個(gè)球要么是紅球要么是綠球,。我們的任務(wù)是當(dāng)有新的輸入(New Cases)時(shí),我們給出新輸入的物體的類別(紅或者綠),。這是貝葉斯分類器的典型應(yīng)用-Label,,即給出物體標(biāo)記。 從圖中我們 還看到,,綠球的數(shù)量明顯比紅球大,,那么我們有理由認(rèn)為:一個(gè)新輸入(New case)更有可能是綠球。假如綠球的數(shù)量是紅球的二倍,,那么對(duì)于一個(gè)新輸入,,它是綠球的概率是它是紅球的概率的二倍。 因此,,我們知道: 假設(shè)一共有60個(gè)球,,其中40個(gè)是綠球,20個(gè)是紅球,,那么類別的先驗(yàn)概率為:
有了先驗(yàn)概率之后,,我們就可以準(zhǔn)備對(duì)新來的物體(New Object),圖中白色圈所示,進(jìn)行分類,。如果要取得比較準(zhǔn)確的分類結(jié)果,,那么我們猜測(cè)它是綠球比較保險(xiǎn),也就是新物體與綠球的likelihood比與紅球的likelihood更大,。那么我們接下來衡量這種相似性-likelihood(似然),。
通過上面的公式,我們可以看出X是綠球的似然比X是紅球的似然小,,因?yàn)樵赬周圍鄰域內(nèi),,有3個(gè)紅球但是只有1個(gè)綠球。因此:
因此,,盡管對(duì)于先驗(yàn)概率來說,,X是綠球的可能性比其是紅球的可能性大,但是似然(Likelihood)表現(xiàn)的結(jié)果卻相反,。在貝葉斯分析中,,最后的類別是有上述兩個(gè)概率 (先驗(yàn)和似然),這就是貝葉斯準(zhǔn)則: 注:在實(shí)際使用時(shí),,概率要經(jīng)過歸一化(Normalized),。 二 技術(shù)推廣對(duì)于一組變量X={x1,x2,x3,,,,,,xd},我們希望構(gòu)造輸出C={c1,c2,c3,,,,,cd}的一個(gè)具體取值Cj(比如Cj是一個(gè)分類的情況)的先驗(yàn)概率,。利用貝葉斯定理可知: 此處p(Cj|x1,x2,,,,,xd)就是Cj的顯眼高鋁,,或者說是X屬于Cj這類的概率。樸素貝葉斯假設(shè)相互獨(dú)立變量的條件概率也相互獨(dú)立,。因此: 并且,,先驗(yàn)可以寫成如下的形式: 通過貝葉斯定義,我們可以在類別向量Cj的條件下估計(jì)X的類別標(biāo)簽,。 樸素貝葉斯模型可以通過多種形式建模:正態(tài)分布,,log正態(tài)分布,gamma分布和泊松分布(poisson) 注:此處的泊松分布被認(rèn)為連續(xù)分布,,當(dāng)變量是離散值的時(shí)候另作處理,。
三 例子假設(shè)我們已經(jīng)有如下數(shù)據(jù):
這些數(shù)據(jù)可以歸納如下:
那么,對(duì)于一組新數(shù)據(jù):
我們來計(jì)算兩類的似然: "yes" = 2/9 * 3/9 * 3/9 * 3/9 * 9/14 = 0.0053 那么,,結(jié)論是我們今天 Not play,。
四 代碼[python] view plaincopy
outlook: sunny
wind: strong temp: cool humidity: high {'yes': 0.0052910052910052907, 'no': 0.020571428571428574}
|
|