久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

詳解機器學(xué)習(xí)中的熵,、條件熵,、相對熵和交叉熵

 dinghxoebpinvw 2018-04-06

目錄

信息熵

條件熵

相對熵

交叉熵

總結(jié)

1、信息

熵(entropy)這一詞最初來源于熱力學(xué),。1948年,,克勞德·愛爾伍德·香農(nóng)將熱力學(xué)中的熵引入信息論,所以也被稱為香農(nóng)熵,,信息熵,。本文只討論香農(nóng)熵。首先,,我們先來理解一下信息這個概念,。信息是一個很抽象的概念,百度百科將它定義為:指音訊,、消息,、通訊系統(tǒng)傳輸和處理的對象,泛指人類社會傳播的一切內(nèi)容,。那信息可以被量化么,?可以的!香農(nóng)提出的“信息熵”概念解決了這一問題,。

 

一條信息的信息量大小和它的不確定性有直接的關(guān)系,。我們需要搞清楚一件非常非常不確定的事,或者是我們一無所知的事,,就需要了解大量的信息,。相反,如果我們對某件事已經(jīng)有了較多的了解,,我們就不需要太多的信息就能把它搞清楚,。所以,從這個角度,我們可以認(rèn)為,,信息量的度量就等于不確定性的多少,。比如,有人說廣東下雪了,。對于這句話,,我們是十分不確定的。因為廣東幾十年來下雪的次數(shù)寥寥無幾,。為了搞清楚,,我們就要去看天氣預(yù)報,新聞,,詢問在廣東的朋友,,而這就需要大量的信息,信息熵很高,。再比如,,中國男足進軍2022年卡塔爾世界杯決賽圈。對于這句話,,因為確定性很高,,幾乎不需要引入信息,信息熵很低,。

 

考慮一個離散的隨機變量 xx,,由上面兩個例子可知,信息的量度應(yīng)該依賴于概率分布 p(x)p(x),,因此我們想要尋找一個函數(shù) h(x)h(x),,它是概率 p(x)p(x) 的單調(diào)函數(shù),表達(dá)了信息的內(nèi)容,。怎么尋找呢,?如果我們有兩個不相關(guān)的事件 xxyy,那么觀察兩個事件同時發(fā)生時獲得的信息量應(yīng)該等于觀察到事件各自發(fā)生時獲得的信息之和,,即:h(x,y)=h(x) h(y)h(x,y)=h(x) h(y),。

因為兩個事件是獨立不相關(guān)的,因此 p(x,y)=p(x)p(y)p(x,y)=p(x)p(y),。

根據(jù)這兩個關(guān)系,,很容易看出 h(x)h(x)一定與 p(x)p(x) 的對數(shù)有關(guān)

(因為對數(shù)的運算法則是 loga(mn)=logam loganloga(mn)=logam logan)。因此,,我們有

h(x)=?logp(x)h(x)=?logp(x)

其中負(fù)號是用來保證信息量是正數(shù)或者零,。而 loglog 函數(shù)基的選擇是任意的(信息論中基常常選擇為2,因此信息的單位為比特bits,;而機器學(xué)習(xí)中基常常選擇為自然常數(shù),,因此單位常常被稱為nats)。

 

最后,我們正式引出信息熵,。 現(xiàn)在假設(shè)一個發(fā)送者想傳送一個隨機變量的值給接收者,。那么在這個過程中,他們傳輸?shù)钠骄畔⒘靠梢酝ㄟ^求 h(x)=?logp(x)h(x)=?logp(x) 關(guān)于概率分布 p(x)p(x) 的期望得到,,即:

H(X)=?xp(x)logp(x)=?ni=1p(xi)logp(xi)H(X)=?xp(x)logp(x)=?i=1np(xi)logp(xi)

H(X)H(X) 就被稱為隨機變量 xx熵,它是表示隨機變量不確定的度量,,是對所有可能發(fā)生的事件產(chǎn)生的信息量的期望

從公式可得,,隨機變量的取值個數(shù)越多,,狀態(tài)數(shù)也就越多,信息熵就越大,,混亂程度就越大。當(dāng)隨機分布為均勻分布時,,熵最大,,且 0H(X)logn0H(X)logn。稍后證明,。將一維隨機變量分布推廣到多維隨機變量分布,,則其聯(lián)合熵為:

H(X,Y)=?x,yp(x,y)logp(x,y)=?ni=1mj=1p(xi,yi)logp(xi,yi)H(X,Y)=?x,yp(x,y)logp(x,y)=?i=1nj=1mp(xi,yi)logp(xi,yi)

注意點:1、熵只依賴于隨機變量的分布,與隨機變量取值無關(guān),,所以也可以將 XX 的熵記作 H(p)H(p),。2、令0log0=0(因為某個取值概率可能為0),。

 

那么這些定義有著什么樣的性質(zhì)呢,?考慮一個隨機變量 xx。這個隨機變量有4種可能的狀態(tài),,每個狀態(tài)都是等可能的,。為了把 xx 的值傳給接收者,我們需要傳輸2比特的消息,。H(X)=?4×14log214=2 bitsH(X)=?4×14log214=2 bits

現(xiàn)在考慮一個具有4種可能的狀態(tài) {a,b,c,d}{a,b,c,d} 的隨機變量,,每個狀態(tài)各自的概率為 (12,14,18,18)(12,14,18,18)

這種情形下的熵為:

H(X)=?12log212?14log214?18log218?18log218=1.75 bitsH(X)=?12log212?14log214?18log218?18log218=1.75 bits

我們可以看到,非均勻分布比均勻分布的熵要小?,F(xiàn)在讓我們考慮如何把變量狀態(tài)的類別傳遞給接收者,。與之前一樣,我們可以使用一個2比特的數(shù)字來完成這件事情,。然而,,我們可以利用非均勻分布這個特點,使用更短的編碼來描述更可能的事件,,使用更長的編碼來描述不太可能的事件,。我們希望這樣做能夠得到一個更短的平均編碼長度。我們可以使用下面的編碼串(哈夫曼編碼):0、10,、110,、111來表示狀態(tài) {a,b,c,d}{a,b,c,d}。傳輸?shù)木幋a的平均長度就是:

average code length = 12×1 14×2 2×18×3=1.75 bits12×1 14×2 2×18×3=1.75 bits

這個值與上方的隨機變量的熵相等,。熵和最短編碼長度的這種關(guān)系是一種普遍的情形,。Shannon編碼定理https://baike.baidu.com/item/Shannon%20%E7%BC%96%E7%A0%81%E5%AE%9A%E7%90%86/15585931?fr=aladdin 表明熵是傳輸一個隨機變量狀態(tài)值所需的比特位下界(最短平均編碼長度)。因此,,信息熵可以應(yīng)用在數(shù)據(jù)壓縮方面,。這里這篇文章http://www./blog/2014/09/information-entropy.html講的很詳細(xì)了,我就不贅述了,。

 

證明0H(X)logn0H(X)logn

利用拉格朗日乘子法證明:

因為 p(1) p(2) ? p(n)=1p(1) p(2) ? p(n)=1

所以有

目標(biāo)函數(shù):f(p(1),p(2),,p(n))=?(p(1)logp(1) p(2)logp(2) ? p(n)logp(n))f(p(1),p(2),,p(n))=?(p(1)logp(1) p(2)logp(2) ? p(n)logp(n))

約束條件:g(p(1),p(2),,p(n),λ)=p(1) p(2) ? p(n)?1=0g(p(1),p(2),,p(n),λ)=p(1) p(2) ? p(n)?1=0

 

  1,、定義拉格朗日函數(shù):

L(p(1),p(2),,p(n),λ)=?(p(1)logp(1) p(2)logp(2) ? p(n)logp(n)) λ(p(1) p(2) ? p(n)?1)L(p(1),p(2),,p(n),λ)=?(p(1)logp(1) p(2)logp(2) ? p(n)logp(n)) λ(p(1) p(2) ? p(n)?1)

  2、L(p(1),p(2),,p(n),λ)L(p(1),p(2),,p(n),λ)分別對 p(1),p(2),p(n),λp(1),p(2),p(n),λ 求偏導(dǎo)數(shù),,令偏導(dǎo)數(shù)為 00

λ?log(e?p(1))=0λ?log(e?p(1))=0

λ?log(e?p(2))=0λ?log(e?p(2))=0

λ?log(e?p(n))=0λ?log(e?p(n))=0

p(1) p(2) ? p(n)?1=0p(1) p(2) ? p(n)?1=0

  3,、求出 p(1),p(2),,p(n)p(1),p(2),,p(n) 的值:

解方程得,p(1)=p(2)=?=p(n)=1np(1)=p(2)=?=p(n)=1n

代入 f(p(1),p(2),,p(n))f(p(1),p(2),,p(n)) 中得到目標(biāo)函數(shù)的極值為 f(1n,1n,,1n)=?(1nlog1n 1nlog1n ? 1nlog1n)=?log(1n)=lognf(1n,1n,,1n)=?(1nlog1n 1nlog1n ? 1nlog1n)=?log(1n)=logn

由此可證 lognlogn 為最大值,。

 2,、條件熵

條件熵 H(Y|X)H(Y|X) 表示在已知隨機變量 XX 的條件下隨機變量 YY 的不確定性。條件熵 H(Y|X)H(Y|X) 定義為 XX 給定條件下 YY 的條件概率分布的熵對  XX 的數(shù)學(xué)期望:


條件熵 H(Y|X)H(Y|X) 相當(dāng)于聯(lián)合熵 H(X,Y)H(X,Y) 減去單獨的熵 H(X)H(X),,即

H(Y|X)=H(X,Y)?H(X)H(Y|X)=H(X,Y)?H(X),,證明如下:

 

舉個例子,比如環(huán)境溫度是低還是高,,和我穿短袖還是外套這兩個事件可以組成聯(lián)合概率分布 H(X,Y)H(X,Y),,因為兩個事件加起來的信息量肯定是大于單一事件的信息量的。假設(shè) H(X)H(X) 對應(yīng)著今天環(huán)境溫度的信息量,,由于今天環(huán)境溫度和今天我穿什么衣服這兩個事件并不是獨立分布的,,所以在已知今天環(huán)境溫度的情況下,我穿什么衣服的信息量或者說不確定性是被減少了,。當(dāng)已知 H(X)H(X) 這個信息量的時候,,H(X,Y)H(X,Y) 剩下的信息量就是條件熵:

H(Y|X)=H(X,Y)?H(X)H(Y|X)=H(X,Y)?H(X)

因此,可以這樣理解,,描述 XXYY 所需的信息是描述 XX 自己所需的信息,加上給定  XX 的條件下具體化  YY 所需的額外信息,。關(guān)于條件熵的例子可以看這篇文章,講得很詳細(xì),。https://zhuanlan.zhihu.com/p/26551798

 

3,、相對熵(KL散度)

設(shè) p(x)p(x)q(x)q(x) 是 離散隨機變量 XX 中取值的兩個概率分布,,則 ppqq 的相對熵是:

DKL(p||q)=xp(x)logp(x)q(x)=Ep(x)logp(x)q(x)DKL(p||q)=xp(x)logp(x)q(x)=Ep(x)logp(x)q(x)

性質(zhì):

1,、如果 p(x)p(x)q(x)q(x) 兩個分布相同,,那么相對熵等于0

2、DKL(p||q)DKL(q||p)DKL(p||q)DKL(q||p) ,,相對熵具有不對稱性,。大家可以舉個簡單例子算一下。

3,、DKL(p||q)0DKL(p||q)0 證明如下(利用Jensen不等式https://en./wiki/Jensen%27s_inequality):

 因為:

xp(x)=1xp(x)=1

所以:

DKL(p||q)0DKL(p||q)0

 總結(jié):相對熵可以用來衡量兩個概率分布之間的差異,,上面公式的意義就是求 ppqq 之間的對數(shù)差在 pp 上的期望值

4,、交叉熵

現(xiàn)在有關(guān)于樣本集的兩個概率分布 p(x)p(x)q(x)q(x),,其中  p(x)p(x) 為真實分布, q(x)q(x) 非真實分布,。如果用真實分布 p(x)p(x) 來衡量識別別一個樣本所需要編碼長度的期望(平均編碼長度)為:

H(p)=xp(x)log1p(x)H(p)=xp(x)log1p(x)

如果使用非真實分布 q(x)q(x) 來表示來自真實分布 p(x)p(x) 的平均編碼長度,,則是:

H(p,q)=xp(x)log1q(x)H(p,q)=xp(x)log1q(x)。(因為用 q(x) 來編碼的樣本來自于分布 q(x) ,,所以 H(p,q) 中的概率是 p(x)),。此時就將 H(p,q) 稱之為交叉熵。舉個例子,。考慮一個隨機變量 x,,真實分布p(x)=(12,14,18,18),,非真實分布 q(x)=(14,14,14,14) 則H(p)=1.75 bits(最短平均碼長),,交叉熵 H(p,q)=12log24 14log24 18log24 18log24=2 bits,。由此可以看出根據(jù)非真實分布 q(x) 得到的平均碼長大于根據(jù)真實分布 p(x) 得到的平均碼長。

 

我們再化簡一下相對熵的公式,。DKL(p||q)=xp(x)logp(x)q(x)=xp(x)logp(x)?p(x)logq(x)

有沒有發(fā)現(xiàn)什么,?

熵的公式 H(p)=?xp(x)logp(x)

交叉熵的公式 H(p,q)=xp(x)log1q(x)=?xp(x)logq(x)

所以有:

DKL(p||q)=H(p,q)?H(p)(當(dāng)用非真實分布 q(x) 得到的平均碼長比真實分布 p(x) 得到的平均碼長多出的比特數(shù)就是相對熵)

又因為 DKL(p||q)0

所以 H(p,q)H(p)(當(dāng) p(x)=q(x) 時取等號,此時交叉熵等于信息熵)

并且當(dāng) H(p) 為常量時(注:在機器學(xué)習(xí)中,,訓(xùn)練數(shù)據(jù)分布是固定的),,最小化相對熵 DKL(p||q) 等價于最小化交叉熵 H(p,q) 也等價于最大化似然估計(具體參考Deep Learning 5.5)

 

在機器學(xué)習(xí)中,,我們希望在訓(xùn)練數(shù)據(jù)上模型學(xué)到的分布 P(model) 和真實數(shù)據(jù)的分布  P(real) 越接近越好,,所以我們可以使其相對熵最小。但是我們沒有真實數(shù)據(jù)的分布,,所以只能希望模型學(xué)到的分布 P(model) 和訓(xùn)練數(shù)據(jù)的分布 P(train) 盡量相同,。假設(shè)訓(xùn)練數(shù)據(jù)是從總體中獨立同分布采樣的,那么我們可以通過最小化訓(xùn)練數(shù)據(jù)的經(jīng)驗誤差來降低模型的泛化誤差,。即:

  1. 希望學(xué)到的模型的分布和真實分布一致,,P(model)?P(real)
  2. 但是真實分布不可知,,假設(shè)訓(xùn)練數(shù)據(jù)是從真實數(shù)據(jù)中獨立同分布采樣的,P(train)?P(real)
  3. 因此,,我們希望學(xué)到的模型分布至少和訓(xùn)練數(shù)據(jù)的分布一致,,P(train)?P(model)

 根據(jù)之前的描述,最小化訓(xùn)練數(shù)據(jù)上的分布  P(train)最小化模型分布 P(model) 的差異等價于最小化相對熵,,即 DKL(P(train)||P(model)),。此時, P(train) 就是DKL(p||q) 中的 p,,即真實分布,,P(model) 就是 q。又因為訓(xùn)練數(shù)據(jù)的分布 p 是給定的,,所以求  DKL(p||q)  等價于求 H(p,q),。得證,交叉熵可以用來計算學(xué)習(xí)模型分布與訓(xùn)練分布之間的差異,。交叉熵廣泛用于邏輯回歸的Sigmoid和Softmax函數(shù)中作為損失函數(shù)使用,。這篇文章先不說了。

 

5,、總結(jié)

  1. 信息熵是衡量隨機變量分布的混亂程度,,是隨機分布各事件發(fā)生的信息量的期望值,隨機變量的取值個數(shù)越多,,狀態(tài)數(shù)也就越多,,信息熵就越大,混亂程度就越大,。當(dāng)隨機分布為均勻分布時,,熵最大;信息熵推廣到多維領(lǐng)域,,則可得到聯(lián)合信息熵,;條件熵表示的是在 X 給定條件下,Y 的條件概率分布的熵對 X的期望,。
  2. 相對熵可以用來衡量兩個概率分布之間的差異,。
  3. 交叉熵可以來衡量在給定的真實分布下,使用非真實分布所指定的策略消除系統(tǒng)的不確定性所需要付出的努力的大小,。

 

或者:

  1. 信息熵是傳輸一個隨機變量狀態(tài)值所需的比特位下界(最短平均編碼長度),。
  2. 相對熵是指用 q 來表示分布 p  額外需要的編碼長度。
  3. 交叉熵是指用分布 q 來表示本來表示分布 p 的平均編碼長度,。

6,、參考

1、吳軍《數(shù)學(xué)之美》

2,、李航《統(tǒng)計學(xué)習(xí)方法》

3,、馬春鵬《模式識別與機器學(xué)習(xí)》

3,、https://www.zhihu.com/question/41252833 如何通俗的解釋交叉熵與相對熵

4、https://www.zhihu.com/question/65288314/answer/244557337為什么交叉熵(cross-entropy)可以用于計算代價,?

5,、https://baike.baidu.com/item/%E4%BA%A4%E5%8F%89%E7%86%B5/8983241?fr=aladdin 交叉熵的百度百科解釋

6、https://blog.csdn.net/saltriver/article/details/53056816信息熵到底是什么

7,、后記

本人不是大神,,大牛。目前寫博客是為了讓我自己更深刻地記憶學(xué)過的知識和對知識進行梳理,。這篇博客是我的第一篇,,其中借鑒了不少其他博主的博客里的分享,都有標(biāo)注來源,,如有遺忘,,勞煩提醒,衷心感謝他們對自己所掌握的知識的分享,。這篇博客可能還存在著一些錯誤,,如有發(fā)現(xiàn),請求斧正,,謝謝,。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多