概率論和數(shù)理統(tǒng)計是機器學習重要的數(shù)學基礎(chǔ)。 概率論的核心是已知分布求概率,,數(shù)理統(tǒng)計則是已知樣本估整體,。 概率論和數(shù)理統(tǒng)計是互逆的過程。概率論可以看成是由因推果,,數(shù)理統(tǒng)計則是由果溯因,。 數(shù)理統(tǒng)計最常見的問題包括參數(shù)估計,假設(shè)檢驗和回歸分析,。 所謂參數(shù)估計,,就是已知隨機變量服從某個分布規(guī)律,但是概率分布函數(shù)的有些參數(shù)未知,,那么可以通過隨機變量的采樣樣本來估計相應參數(shù),。 參數(shù)估計最主要的方法包括矩估計法,極大似然估計法,,以及貝葉斯估計法,。 機器學習中常常使用的是極大似然估計法和貝葉斯估計法,。 公眾號后臺回復關(guān)鍵字:源碼, 獲取本文含有公式latex源碼的原始markdown文件,。 一,,矩估計法矩估計的基本思想是用樣本的k階矩作為總體的k階矩的估計量,從而解出未知參數(shù),。 例如服從正態(tài)分布,,但和參數(shù)未知。 對采樣N次,,得到 試估計參數(shù) 和 解:用樣本的一階距估計總體的一階距,,用樣本的二階中心距估計總體的二階中心距。 可以得到: 對的估計是有偏的,, 無偏估計是 二,,極大似然估計法極大似然估計法簡稱MLE(Maximum Likelihood Estimation). 極大似然估計法先代入?yún)?shù)值計算觀測樣本發(fā)生的概率,得到似然函數(shù),,然后對似然函數(shù)求極大值,,得到對應的參數(shù),即為極大似然估計參數(shù),。 對于離散隨機變量X,,N次采樣得到樣本結(jié)果為,則極大似然估計法的公式為: 對于連續(xù)隨機變量X,,如果其概率密度函數(shù)為 ,其中為待求參數(shù)向量,。 那么N次采樣得到樣本結(jié)果為的概率正比于如下似然函數(shù) 為了便于計算方便,,可以構(gòu)造對數(shù)似然函數(shù)為 對數(shù)似然函數(shù)取極大值時,有 求解該方程可以得到的極大似然估計,。 例如服從正態(tài)分布,,但和參數(shù)未知。 對采樣n次,,得到 試估計參數(shù) 和 解: 正態(tài)分布的概率密度函數(shù)為 對應的對數(shù)似然函數(shù)為 對數(shù)似然函數(shù)取極大值時,,有 解得 三,貝葉斯估計法貝葉斯估計也叫做最大后驗概率估計法, 簡稱MAP(Maximum A Posterior),。 可以認為極大似然估計是貝葉斯估計不考慮先驗概率的特例,。 在概率論中有兩大學派,頻率學派和貝葉斯學派,。 頻率學派認為隨機變量服從特定的統(tǒng)計分布規(guī)律,,分布函數(shù)的參數(shù)是確定的數(shù),可以通過抽樣來估計,。 和頻率學派不同,,貝葉斯學派認為一切皆為隨機變量,,隨機變量的分布函數(shù)的參數(shù)也是隨機變量,對其進行抽樣估計時還必須考慮參數(shù)的先驗分布,。 在貝葉斯學派中,,似然函數(shù)被理解為在已知時的條件概率: 而本身也為隨機變量,具有先驗概率分布函數(shù) 貝葉斯估計的想法是最大化的后驗概率, 應用貝葉斯公式得到 當不考慮先驗概率時,,最大化后驗概率回到極大似然估計,。 由于在實踐中,先驗概率往往并不可知,,所以極大似然估計法用的更多一些,。 在機器學習中,有一種和引入先驗概率等效的做法,,那就是在目標函數(shù)(相當于對數(shù)似然函數(shù))后面加入正則化項,。 如果加入的是L1正則化,相當于假設(shè)了參數(shù)的先驗分布符合雙指數(shù)分布,,而如果引入了L2正則化,,相當于假設(shè)了參數(shù)的先驗分布符合正態(tài)分布。 在機器學習中,,經(jīng)驗風險最小化和極大似然估計對應,,結(jié)構(gòu)風險最小化和貝葉斯估計對應。 |
|