久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

熵,相對熵和交叉熵

 geoallan 2018-12-22

熵,,相對熵和交叉熵

宇宙偏愛無序

今天我們將集中討論熵的理論,。理解熵的直覺,以及它與邏輯回歸的關(guān)系,。我們將從熵,,KL散度,到交叉熵,。

熵是從物理學(xué)的角度引入熱力學(xué)系統(tǒng)的,。它隨后被應(yīng)用于許多領(lǐng)域,包括統(tǒng)計力學(xué),、生物學(xué)和信息論,。在機(jī)器學(xué)習(xí)中,我們使用信息論中的熵,。那么,,什么是熵?這和機(jī)器學(xué)習(xí)有什么關(guān)系呢?

首先,考慮一個隨機(jī)變量x,,我們想知道當(dāng)我們觀察到這個變量的特定值時獲得了多少信息,??梢詫⑦@些信息量視為學(xué)習(xí)x值的驚奇程度。將I(x)表示為信息內(nèi)容,。假設(shè)x和y是獨(dú)立且相同分布的(iid),,則觀察它們的信息增益應(yīng)該是從它們中分別獲得的信息的總和,即I(x,y) = I(x) + I(y),。將p(x)表示為x的概率分布,。我們知道p(x,y)= p(x)p(y),,因為它們是iid,。從這兩個關(guān)系中,我們可以推導(dǎo)出h(x)是p(x)的對數(shù),,我們有

熵,,相對熵和交叉熵

信息內(nèi)容

其中負(fù)號確保信息是非負(fù)的。

對于隨機(jī)變量X,,信息內(nèi)容E [I(X)]的期望稱為熵,。將H(X)表示為X的熵,我們有

熵,,相對熵和交叉熵

熵的公式

注意

熵,,相對熵和交叉熵

因此,我們?nèi)(x)lnp(x)=0(當(dāng)x的值為p(x)=0時),。

更直觀的是,,我們可以將熵視為無序程度。當(dāng)x的概率為1或0時,,它是最有序的,,換句話說,最一致,,因此它的熵是0.另一方面,,當(dāng)x的概率是0.5時,它是最無序的(不一致的),。因此,,它的熵是1。

熵,,相對熵和交叉熵

熵(bits)與概率

這里我們使用2作為對數(shù)基數(shù),,稱為“bits”單位。由于熵首先涉及信息理論中的比特編碼(無噪聲編碼定理),,因此將2作為對數(shù)基數(shù)使用是很自然的,。我們也可以使用自然對數(shù)來定義熵。在這種情況下,,熵以'nats'為單位而不是bits來測量,。

我們使用一個簡單的例子來顯示熵,。考慮兩個學(xué)生,,學(xué)生A總是考試失敗,,學(xué)生B總是通過考試。將概率p表示為通過測試的概率,。如果他們這次都通過了測試,,那么我們就有了

熵,相對熵和交叉熵

不出意料,,A這次考試有更多的信息,,因為A這次考試通過了,而他以前總是考試不及格,。另一方面,,學(xué)生B總是通過考試,對他來說通過考試是很平常的,,當(dāng)他再次通過考試時,,關(guān)于這次考試的信息就不多了。

我們現(xiàn)在來看看熵

熵,,相對熵和交叉熵

他們有相同的熵,。由于他們在這種情況下具有相同程度的無序。對于A,,它有10%通過,,90%不通過。對于學(xué)生B,,它有90%通過,10%不通過,。在這種情況下它是對稱的,。我們還可以從上圖中看出熵是對稱的。

相對熵(KL散度)

相對熵,,也稱為KL散度(Kallback-Leiber divergence),,是對兩個概率分布距離的度量,其中p為真實分布,,q為我們所模擬的近似分布,。將KL散度定義為

熵,相對熵和交叉熵

顯然,,當(dāng)p = q時,,KL散度等于0.在該公式中,H_p(q)表示在p(x)分布中,,用q(x)分布表示x所需要的信息量,。H(p)表示p分布的熵,。因此,KL散度表示使用q(x)而不是真實分布p(x)來指定x值所需的額外信息量,。

交叉熵和Logistic回歸

將交叉熵定義為

熵,,相對熵和交叉熵

我們可以看到KL散度公式中的H_p(q)實際上是交叉熵。當(dāng)p已知時,,我們可以將H(p)視為常數(shù),,并且交叉熵等于KL散度,兩者都表示p(x)和q(x)的相似性,。由于p(x)是真實的分布,,而q(x)是我們模型的近似分布,我們的目標(biāo)是最小化這兩個分布之間的距離,。注意,,它相當(dāng)于最小化交叉熵并最小化KL散度。當(dāng)p = q時,,我們將獲得最小點(diǎn)(在這種情況下,,KL散度等于0)。它也被稱為最小交叉熵原理(MCE),。

現(xiàn)在回到邏輯回歸,,我們有損失函數(shù)

熵,相對熵和交叉熵

在這種情況下考慮交叉熵

熵,,相對熵和交叉熵

它與我們使用最大似然估計具有相同的結(jié)果,!我們可以通過MLE或交叉熵推導(dǎo)出邏輯回歸的代價函數(shù)。

最后

當(dāng)我們想要在互斥類上使用概率模型時,,我們需要一種方法來測量預(yù)測概率?和ground truth概率y之間的差異,。我們的目標(biāo)是盡量減少它們之間的差異。我們可以看到交叉熵是這項任務(wù)的合理選擇,。此外,,最小化交叉熵等同于最小化負(fù)對數(shù)似然,這是我們從最大似然估計得出的,。交叉熵是概率模型中非常重要和基本的概念,。它也用于神經(jīng)網(wǎng)絡(luò)的softmax函數(shù),這是目前最流行的機(jī)器學(xué)習(xí)技術(shù),。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點(diǎn)擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多