轉(zhuǎn)載于http://blog.sciencenet.cn/blog-520608-703219.html
極大似然估計和貝葉斯估計分別代表了頻率派和貝葉斯派的觀點(diǎn),。頻率派認(rèn)為,,參數(shù)是客觀存在的,只是未知而矣,。因此,,頻率派最關(guān)心極大似然函數(shù),只要參數(shù)求出來了,,給定自變量X,,Y也就固定了,極大似然估計如下所示:
D表示訓(xùn)練數(shù)據(jù)集,,是模型參數(shù) 相反的,,貝葉斯派認(rèn)為參數(shù)也是隨機(jī)的,和一般隨機(jī)變量沒有本質(zhì)區(qū)別,,正是因?yàn)閰?shù)不能固定,,當(dāng)給定一個輸入x后,我們不能用一個確定的y表示輸出結(jié)果,必須用一個概率的方式表達(dá)出來,,所以貝葉斯學(xué)派的預(yù)測值是一個期望值,,如下所示: 其中x表示輸入,y表示輸出,,D表示訓(xùn)練數(shù)據(jù)集,,是模型參數(shù) 該公式稱為全貝葉斯預(yù)測。現(xiàn)在的問題是如何求(后驗(yàn)概率),,根據(jù)貝葉斯公式我們有:
可惜的是,,上面的后驗(yàn)概率通常是很難計算的,因?yàn)橐獙λ械膮?shù)進(jìn)行積分,,不能找到一個典型的閉合解(解析解),。在這種情況下,我們采用了一種近似的方法求后驗(yàn)概率,,這就是最大后驗(yàn)概率,。
最大后驗(yàn)概率和極大似然估計很像,只是多了一項(xiàng)先驗(yàn)分布,,它體現(xiàn)了貝葉斯認(rèn)為參數(shù)也是隨機(jī)變量的觀點(diǎn),,在實(shí)際運(yùn)算中通常通過超參數(shù)給出先驗(yàn)分布。 從以上可以看出,,一方面,,極大似然估計和最大后驗(yàn)概率都是參數(shù)的點(diǎn)估計。在頻率學(xué)派中,,參數(shù)固定了,,預(yù)測值也就固定了。最大后驗(yàn)概率是貝葉斯學(xué)派的一種近似手段,,因?yàn)橥耆惾~斯估計不一定可行,。另一方面,最大后驗(yàn)概率可以看作是對先驗(yàn)和MLE的一種折衷,,如果數(shù)據(jù)量足夠大,,最大后驗(yàn)概率和最大似然估計趨向于一致,如果數(shù)據(jù)為0,最大后驗(yàn)僅由先驗(yàn)決定,。
參考資料: [1] Machine learning: a probabilistic perspective 第三章 [2]Andrew Ng講義,,Regularization and model selection |
|