熵，相對熵和交叉熵

geoallan 2018-12-22

展開全文

熵,，相對熵和交叉熵

宇宙偏愛無序

今天我們將集中討論熵的理論,。理解熵的直覺，以及它與邏輯回歸的關(guān)系,。我們將從熵,，KL散度，到交叉熵,。

熵是從物理學(xué)的角度引入熱力學(xué)系統(tǒng)的,。它隨后被應(yīng)用于許多領(lǐng)域，包括統(tǒng)計力學(xué),、生物學(xué)和信息論,。在機(jī)器學(xué)習(xí)中，我們使用信息論中的熵,。那么,，什么是熵?這和機(jī)器學(xué)習(xí)有什么關(guān)系呢?

熵

首先，考慮一個隨機(jī)變量x,，我們想知道當(dāng)我們觀察到這個變量的特定值時獲得了多少信息,?？梢詫⑦@些信息量視為學(xué)習(xí)x值的驚奇程度。將I（x）表示為信息內(nèi)容,。假設(shè)x和y是獨(dú)立且相同分布的（iid）,，則觀察它們的信息增益應(yīng)該是從它們中分別獲得的信息的總和，即I(x,y) = I(x) + I(y),。將p（x）表示為x的概率分布,。我們知道p（x，y）= p（x）p（y）,，因為它們是iid,。從這兩個關(guān)系中，我們可以推導(dǎo)出h（x）是p（x）的對數(shù),，我們有

熵,，相對熵和交叉熵

信息內(nèi)容

其中負(fù)號確保信息是非負(fù)的。

對于隨機(jī)變量X,，信息內(nèi)容E [I（X）]的期望稱為熵,。將H（X）表示為X的熵，我們有

熵,，相對熵和交叉熵

熵的公式

注意

熵,，相對熵和交叉熵

因此，我們?nèi)(x)lnp(x)=0（當(dāng)x的值為p(x)=0時）,。

更直觀的是,，我們可以將熵視為無序程度。當(dāng)x的概率為1或0時,，它是最有序的,，換句話說，最一致,，因此它的熵是0.另一方面,，當(dāng)x的概率是0.5時，它是最無序的（不一致的）,。因此,，它的熵是1。

熵,，相對熵和交叉熵

熵（bits）與概率

這里我們使用2作為對數(shù)基數(shù),，稱為“bits”單位。由于熵首先涉及信息理論中的比特編碼（無噪聲編碼定理）,，因此將2作為對數(shù)基數(shù)使用是很自然的,。我們也可以使用自然對數(shù)來定義熵。在這種情況下,，熵以'nats'為單位而不是bits來測量,。

我們使用一個簡單的例子來顯示熵,。考慮兩個學(xué)生,，學(xué)生A總是考試失敗,，學(xué)生B總是通過考試。將概率p表示為通過測試的概率,。如果他們這次都通過了測試,，那么我們就有了

熵，相對熵和交叉熵

不出意料,，A這次考試有更多的信息,，因為A這次考試通過了，而他以前總是考試不及格,。另一方面,，學(xué)生B總是通過考試，對他來說通過考試是很平常的,，當(dāng)他再次通過考試時,，關(guān)于這次考試的信息就不多了。

我們現(xiàn)在來看看熵

熵,，相對熵和交叉熵

他們有相同的熵,。由于他們在這種情況下具有相同程度的無序。對于A,，它有10％通過,，90％不通過。對于學(xué)生B,，它有90％通過，10％不通過,。在這種情況下它是對稱的,。我們還可以從上圖中看出熵是對稱的。

相對熵（KL散度）

相對熵,，也稱為KL散度（Kallback-Leiber divergence）,，是對兩個概率分布距離的度量，其中p為真實分布,，q為我們所模擬的近似分布,。將KL散度定義為

熵，相對熵和交叉熵

顯然,，當(dāng)p = q時,，KL散度等于0.在該公式中，H_p(q)表示在p(x)分布中,，用q(x)分布表示x所需要的信息量,。H(p)表示p分布的熵,。因此，KL散度表示使用q(x)而不是真實分布p(x)來指定x值所需的額外信息量,。

交叉熵和Logistic回歸

將交叉熵定義為

熵,，相對熵和交叉熵

我們可以看到KL散度公式中的H_p（q）實際上是交叉熵。當(dāng)p已知時,，我們可以將H（p）視為常數(shù),，并且交叉熵等于KL散度，兩者都表示p（x）和q（x）的相似性,。由于p（x）是真實的分布,，而q（x）是我們模型的近似分布，我們的目標(biāo)是最小化這兩個分布之間的距離,。注意,，它相當(dāng)于最小化交叉熵并最小化KL散度。當(dāng)p = q時,，我們將獲得最小點(diǎn)（在這種情況下,，KL散度等于0）。它也被稱為最小交叉熵原理（MCE）,。

現(xiàn)在回到邏輯回歸,，我們有損失函數(shù)

熵，相對熵和交叉熵

在這種情況下考慮交叉熵

熵,，相對熵和交叉熵

它與我們使用最大似然估計具有相同的結(jié)果,！我們可以通過MLE或交叉熵推導(dǎo)出邏輯回歸的代價函數(shù)。

最后

當(dāng)我們想要在互斥類上使用概率模型時,，我們需要一種方法來測量預(yù)測概率?和ground truth概率y之間的差異,。我們的目標(biāo)是盡量減少它們之間的差異。我們可以看到交叉熵是這項任務(wù)的合理選擇,。此外,，最小化交叉熵等同于最小化負(fù)對數(shù)似然，這是我們從最大似然估計得出的,。交叉熵是概率模型中非常重要和基本的概念,。它也用于神經(jīng)網(wǎng)絡(luò)的softmax函數(shù)，這是目前最流行的機(jī)器學(xué)習(xí)技術(shù),。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點(diǎn)擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： geoallan > 《數(shù)據(jù)分析》

舉報/認(rèn)領(lǐng)