作者 :stephenDC 本文題目中的三個(gè)概念,,都屬于概率統(tǒng)計(jì)領(lǐng)域,但機(jī)器學(xué)習(xí)相關(guān)的工作者們,,也應(yīng)該很好地理解并掌握,。 有些同學(xué)也許會反問,我不了解,,也沒用過這些東西,,工作也做的很好啊,? 那好,再來看看下面幾個(gè)問題,。 a. 機(jī)器學(xué)習(xí)中的有參建模,,會面臨參數(shù)估計(jì)的問題,最后一般都會變成一個(gè)目標(biāo)函數(shù)的優(yōu)化問題(可以帶或者不帶約束條件),, 那么,,請問這個(gè)目標(biāo)函數(shù)都是怎么來的? b. 具體點(diǎn),,交叉熵?fù)p失函數(shù),,大家都聽說過吧,怎么來的,? c. 再具體點(diǎn),,邏輯回歸總用過吧,它的目標(biāo)函數(shù)是怎么來的呢,? 本文不僅會回答以上問題,,而且會嘗試對這三種估計(jì)方法進(jìn)行梳理、對比和總結(jié),,一如既往地歡迎同行挑錯(cuò)或者拍磚,。 問題引出 頻率學(xué)派 vs 貝葉斯學(xué)派 極大似然估計(jì):MLE 極大后驗(yàn)估計(jì):MAP 貝葉斯估計(jì):BE 舉個(gè)栗子 總結(jié) 下面簡單對MLE,、MAP和BE三者進(jìn)行一個(gè)對比總結(jié): 各自的缺點(diǎn): 1)MLE的缺點(diǎn)非常明顯,,就是在數(shù)據(jù)量很小的時(shí)候,會得出很不可靠的估計(jì),。 比如,,拋硬幣2次全部是正面,MLE會得到正面的概率為1,。 還有就是,,MLE無法從理論層面說明機(jī)器學(xué)習(xí)目標(biāo)函數(shù)中正則項(xiàng)的來由,而MAP給出了理論解釋,。 事實(shí)上,,當(dāng)初統(tǒng)計(jì)學(xué)家在回歸問題中引入L2正則,只是出于防止矩陣病態(tài)造成不可求逆矩陣,,后來才發(fā)現(xiàn)結(jié)果居然更好了,。 2)MAP的缺點(diǎn)是可能帶來計(jì)算的困難,。 因?yàn)镸AP優(yōu)化的是先驗(yàn)和似然的乘積(即后驗(yàn)),,兩個(gè)概率分布的乘積形式通常會變的比較復(fù)雜。 正因?yàn)槿绱?,貝葉斯學(xué)派的學(xué)者們提出了很多形式的概率分布,,稱之為共軛分布,。 共軛分布的作用是,讓先驗(yàn)乘以似然之后,,仍然跟先驗(yàn)屬于同一種分布,,這樣就帶來了計(jì)算上的方便。 但這一點(diǎn)也正是頻率學(xué)派所一直詬病的地方,,你們貝葉斯學(xué)派選擇先驗(yàn)沒有任何科學(xué)依據(jù),,只是為了方便計(jì)算啊。 3)BE的缺點(diǎn)更明顯了,,就是計(jì)算量過大,,因?yàn)樗蟾鱾€(gè)估計(jì)的概率加權(quán)平均。 在機(jī)器學(xué)習(xí)領(lǐng)域,,貝葉斯方法基本等同于“計(jì)算量超級大”。不過,有很多近似求解的方法(比如,,采樣),,極大地減小了計(jì)算量,拓寬了貝葉斯方法的實(shí)際應(yīng)用范圍,。 三者之間的聯(lián)系: 最后,我們來回答導(dǎo)讀中的三個(gè)問題,, 1) 機(jī)器學(xué)習(xí)中的目標(biāo)函數(shù),,代表的是一個(gè)信息標(biāo)準(zhǔn)(比如,似然,、后驗(yàn),、交叉熵、經(jīng)驗(yàn)損失等),。 使用什么樣的信息標(biāo)準(zhǔn)作為優(yōu)化目標(biāo),,代表了我們不同的追求。 比如,,我們希望得到一個(gè)光滑的模型,,就會對導(dǎo)數(shù)加懲罰項(xiàng);我們希望得到簡單的模型,,就會對模型復(fù)雜度加懲罰項(xiàng),。 2) 交叉熵函數(shù)來自于訓(xùn)練數(shù)據(jù)集上的極大似然估計(jì)。 3) 邏輯回歸解決的是分類問題,,其目標(biāo)函數(shù)就是交叉熵,。 以上,歡迎留言討論交流哦,。 |
|