宇宙偏愛無序 今天我們將集中討論熵的理論,。理解熵的直覺,以及它與邏輯回歸的關(guān)系,。我們將從熵,,KL散度,到交叉熵,。 熵是從物理學(xué)的角度引入熱力學(xué)系統(tǒng)的,。它隨后被應(yīng)用于許多領(lǐng)域,包括統(tǒng)計力學(xué),、生物學(xué)和信息論,。在機(jī)器學(xué)習(xí)中,我們使用信息論中的熵,。那么,,什么是熵?這和機(jī)器學(xué)習(xí)有什么關(guān)系呢? 熵首先,考慮一個隨機(jī)變量x,,我們想知道當(dāng)我們觀察到這個變量的特定值時獲得了多少信息,??梢詫⑦@些信息量視為學(xué)習(xí)x值的驚奇程度。將I(x)表示為信息內(nèi)容,。假設(shè)x和y是獨(dú)立且相同分布的(iid),,則觀察它們的信息增益應(yīng)該是從它們中分別獲得的信息的總和,即I(x,y) = I(x) + I(y),。將p(x)表示為x的概率分布,。我們知道p(x,y)= p(x)p(y),,因為它們是iid,。從這兩個關(guān)系中,我們可以推導(dǎo)出h(x)是p(x)的對數(shù),,我們有 信息內(nèi)容 其中負(fù)號確保信息是非負(fù)的。 對于隨機(jī)變量X,,信息內(nèi)容E [I(X)]的期望稱為熵,。將H(X)表示為X的熵,我們有 熵的公式 注意 因此,我們?nèi)(x)lnp(x)=0(當(dāng)x的值為p(x)=0時),。 更直觀的是,,我們可以將熵視為無序程度。當(dāng)x的概率為1或0時,,它是最有序的,,換句話說,最一致,,因此它的熵是0.另一方面,,當(dāng)x的概率是0.5時,它是最無序的(不一致的),。因此,,它的熵是1。 熵(bits)與概率 這里我們使用2作為對數(shù)基數(shù),,稱為“bits”單位。由于熵首先涉及信息理論中的比特編碼(無噪聲編碼定理),,因此將2作為對數(shù)基數(shù)使用是很自然的,。我們也可以使用自然對數(shù)來定義熵。在這種情況下,,熵以'nats'為單位而不是bits來測量,。 我們使用一個簡單的例子來顯示熵,。考慮兩個學(xué)生,,學(xué)生A總是考試失敗,,學(xué)生B總是通過考試。將概率p表示為通過測試的概率,。如果他們這次都通過了測試,,那么我們就有了 不出意料,,A這次考試有更多的信息,,因為A這次考試通過了,而他以前總是考試不及格,。另一方面,,學(xué)生B總是通過考試,對他來說通過考試是很平常的,,當(dāng)他再次通過考試時,,關(guān)于這次考試的信息就不多了。 我們現(xiàn)在來看看熵 他們有相同的熵,。由于他們在這種情況下具有相同程度的無序。對于A,,它有10%通過,,90%不通過。對于學(xué)生B,,它有90%通過,10%不通過,。在這種情況下它是對稱的,。我們還可以從上圖中看出熵是對稱的。 相對熵(KL散度)相對熵,,也稱為KL散度(Kallback-Leiber divergence),,是對兩個概率分布距離的度量,其中p為真實分布,,q為我們所模擬的近似分布,。將KL散度定義為 顯然,,當(dāng)p = q時,,KL散度等于0.在該公式中,H_p(q)表示在p(x)分布中,,用q(x)分布表示x所需要的信息量,。H(p)表示p分布的熵,。因此,KL散度表示使用q(x)而不是真實分布p(x)來指定x值所需的額外信息量,。 交叉熵和Logistic回歸將交叉熵定義為 我們可以看到KL散度公式中的H_p(q)實際上是交叉熵。當(dāng)p已知時,,我們可以將H(p)視為常數(shù),,并且交叉熵等于KL散度,兩者都表示p(x)和q(x)的相似性,。由于p(x)是真實的分布,,而q(x)是我們模型的近似分布,我們的目標(biāo)是最小化這兩個分布之間的距離,。注意,,它相當(dāng)于最小化交叉熵并最小化KL散度。當(dāng)p = q時,,我們將獲得最小點(diǎn)(在這種情況下,,KL散度等于0)。它也被稱為最小交叉熵原理(MCE),。 現(xiàn)在回到邏輯回歸,,我們有損失函數(shù) 在這種情況下考慮交叉熵 它與我們使用最大似然估計具有相同的結(jié)果,!我們可以通過MLE或交叉熵推導(dǎo)出邏輯回歸的代價函數(shù)。 最后當(dāng)我們想要在互斥類上使用概率模型時,,我們需要一種方法來測量預(yù)測概率?和ground truth概率y之間的差異,。我們的目標(biāo)是盡量減少它們之間的差異。我們可以看到交叉熵是這項任務(wù)的合理選擇,。此外,,最小化交叉熵等同于最小化負(fù)對數(shù)似然,這是我們從最大似然估計得出的,。交叉熵是概率模型中非常重要和基本的概念,。它也用于神經(jīng)網(wǎng)絡(luò)的softmax函數(shù),這是目前最流行的機(jī)器學(xué)習(xí)技術(shù),。 |
|