1) 最大似然估計(jì) MLE 給定一堆數(shù)據(jù),,假如我們知道它是從某一種分布中隨機(jī)取出來的,可是我們并不知道這個(gè)分布具體的參,,即“模型已定,,參數(shù)未知”。例如,我們知道這個(gè)分布是正態(tài)分布,但是不知道均值和方差;或者是二項(xiàng)分布,,但是不知道均值。 最大似然估計(jì)(MLE,,Maximum Likelihood Estimation)就可以用來估計(jì)模型的參數(shù),。MLE的目標(biāo)是找出一組參數(shù),使得模型產(chǎn)生出觀測數(shù)據(jù)的概率最大: 其中就是似然函數(shù),,表示在參數(shù)下出現(xiàn)觀測數(shù)據(jù)的概率,。我們假設(shè)每個(gè)觀測數(shù)據(jù)是獨(dú)立的,那么有 為了求導(dǎo)方便,,一般對(duì)目標(biāo)取log,。 所以最優(yōu)化對(duì)似然函數(shù)等同于最優(yōu)化對(duì)數(shù)似然函數(shù): 舉一個(gè)拋硬幣的簡單例子。 現(xiàn)在有一個(gè)正反面不是很勻稱的硬幣,,如果正面朝上記為H,,方面朝上記為T,拋10次的結(jié)果如下: 求這個(gè)硬幣正面朝上的概率有多大,? 很顯然這個(gè)概率是0.2?,F(xiàn)在我們用MLE的思想去求解它。我們知道每次拋硬幣都是一次二項(xiàng)分布,,設(shè)正面朝上的概率是,,那么似然函數(shù)為: x=1表示正面朝上,x=0表示方面朝上,。那么有: 求導(dǎo): 令導(dǎo)數(shù)為0,,很容易得到: 也就是0.2 。 2) 最大后驗(yàn)概率 MAP 以上MLE求的是找出一組能夠使似然函數(shù)最大的參數(shù),,即,。 現(xiàn)在問題稍微復(fù)雜一點(diǎn)點(diǎn),假如這個(gè)參數(shù)有一個(gè)先驗(yàn)概率呢,?比如說,,在上面拋硬幣的例子,假如我們的經(jīng)驗(yàn)告訴我們,,硬幣一般都是勻稱的,,也就是=0.5的可能性最大,=0.2的可能性比較小,,那么參數(shù)該怎么估計(jì)呢,?這就是MAP要考慮的問題,。 MAP優(yōu)化的是一個(gè)后驗(yàn)概率,,即給定了觀測值后使概率最大: 把上式根據(jù)貝葉斯公式展開: 我們可以看出第一項(xiàng)就是似然函數(shù),,第二項(xiàng)就是參數(shù)的先驗(yàn)知識(shí)。取log之后就是: 回到剛才的拋硬幣例子,,假設(shè)參數(shù)有一個(gè)先驗(yàn)估計(jì),,它服從Beta分布,即: 而每次拋硬幣任然服從二項(xiàng)分布: 那么,,目標(biāo)函數(shù)的導(dǎo)數(shù)為: 求導(dǎo)的第一項(xiàng)已經(jīng)在上面MLE中給出了,,第二項(xiàng)為: 令導(dǎo)數(shù)為0,求解為: 其中,,表示正面朝上的次數(shù),。這里看以看出,MLE與MAP的不同之處在于,,MAP的結(jié)果多了一些先驗(yàn)分布的參數(shù),。
補(bǔ)充知識(shí): Beta分布 Beat分布是一種常見的先驗(yàn)分布,它形狀由兩個(gè)參數(shù)控制,,定義域?yàn)閇0,1] Beta分布的最大值是x等于的時(shí)候:
所以在拋硬幣中,,如果先驗(yàn)知識(shí)是說硬幣是勻稱的,那么就讓,。 但是很顯然即使它們相等,,它兩的值也對(duì)最終結(jié)果很有影響。它兩的值越大,,表示偏離勻稱的可能性越?。?/span>
原創(chuàng)博客,轉(zhuǎn)載請(qǐng)注明出處 Leavingseason http://www.cnblogs.com/sylvanas2012/p/5058065.html
|
|