Laplace（拉普拉斯）先驗與L1正則化,，Gauss先驗導出L2正則化

Clay*more 2022-07-13 發(fā)布于北京

展開全文

轉載：https://www.cnblogs.com/heguanyou/p/7688344.html

目錄
https://www.jianshu.com/p/b255a1068a18
最大似然估計
Laplace分布
Laplace先驗導出L1正則化
Gauss先驗導出L2正則化

Laplace（拉普拉斯）先驗與L1正則化

在之前的一篇博客中L1正則化及其推導推導證明了L1正則化是如何使參數(shù)稀疏化人,，并且提到過L1正則化如果從貝葉斯的觀點看來是Laplace先驗，事實上如果從貝葉斯的觀點,，所有的正則化都是來自于對參數(shù)分布的先驗?，F(xiàn)在來看一下為什么Laplace先驗會導出L1正則化，也順便證明Gauss（高斯）先驗會導出L2正則化,。

最大似然估計

很多人對最大似然估計不明白,，用最簡單的線性回歸的例子來說：如果有數(shù)據(jù)集(X,Y)，并且Y是有白噪聲（就是與測量得到的Y與真實的Yreal有均值為零的高斯分布誤差）,，目的是用新產(chǎn)生的X來得到Y,。如果用線性模型來測量，那么有：

Laplace分布

Laplace概率密度函數(shù)分布為：

分布的圖像如下所示：

圖1 Laplace分布

可以看到Laplace分布集中在μ附近,，而且b越小,，數(shù)據(jù)的分布就越集中,。

Laplace先驗導出L1正則化

先驗的意思是對一種未知的東西的假設,，比如說我們看到一個正方體的骰子，那么我們會假設他的各個面朝上的概率都是1/6,，這個就是先驗,。但事實上骰子的材質可能是密度不均的，所以還要從數(shù)據(jù)集中學習到更接近現(xiàn)實情況的概率,。同樣,，在機器學習中,，我們會根據(jù)一些已知的知識對參數(shù)的分布進行一定的假設，這個就是先驗,。有先驗的好處就是可以在較小的數(shù)據(jù)集中有良好的泛化性能,，當然這是在先驗分布是接近真實分布的情況下得到的了，從信息論的角度看,，向系統(tǒng)加入了正確先驗這個信息,，肯定會提高系統(tǒng)的性能。我們假設參數(shù)θ是如下的Laplace分布的,，這就是Laplace先驗：