轉載:https://www.cnblogs.com/heguanyou/p/7688344.html
Laplace(拉普拉斯)先驗與L1正則化在之前的一篇博客中L1正則化及其推導推導證明了L1正則化是如何使參數(shù)稀疏化人,,并且提到過L1正則化如果從貝葉斯的觀點看來是Laplace先驗,事實上如果從貝葉斯的觀點,,所有的正則化都是來自于對參數(shù)分布的先驗?,F(xiàn)在來看一下為什么Laplace先驗會導出L1正則化,也順便證明Gauss(高斯)先驗會導出L2正則化,。 最大似然估計很多人對最大似然估計不明白,,用最簡單的線性回歸的例子來說:如果有數(shù)據(jù)集(X,Y),并且Y是有白噪聲(就是與測量得到的Y與真實的Yreal有均值為零的高斯分布誤差),,目的是用新產(chǎn)生的X來得到Y,。如果用線性模型來測量,那么有: Laplace分布Laplace概率密度函數(shù)分布為: 分布的圖像如下所示: 圖1 Laplace分布 可以看到Laplace分布集中在μ附近,,而且b越小,,數(shù)據(jù)的分布就越集中,。 Laplace先驗導出L1正則化先驗的意思是對一種未知的東西的假設,,比如說我們看到一個正方體的骰子,那么我們會假設他的各個面朝上的概率都是1/6,,這個就是先驗,。但事實上骰子的材質可能是密度不均的,所以還要從數(shù)據(jù)集中學習到更接近現(xiàn)實情況的概率,。同樣,,在機器學習中,,我們會根據(jù)一些已知的知識對參數(shù)的分布進行一定的假設,這個就是先驗,。有先驗的好處就是可以在較小的數(shù)據(jù)集中有良好的泛化性能,,當然這是在先驗分布是接近真實分布的情況下得到的了,從信息論的角度看,,向系統(tǒng)加入了正確先驗這個信息,,肯定會提高系統(tǒng)的性能。我們假設參數(shù)θ是如下的Laplace分布的,,這就是Laplace先驗:
這就是由Laplace導出L1正則化,,我在之前的一篇博客中L1正則化及其推導分析過λ越大,那么參數(shù)的分布就越集中在0附近,,這個與Laplace先驗的分析是一致的,。 Gauss先驗導出L2正則化到這里,我們可以很輕易地導出L2正則化,,假設參數(shù)θ的分布是符合以下的高斯分布: |
|