深度學(xué)習(xí)數(shù)學(xué)基礎(chǔ)概率與信息論

山峰云繞 2023-03-05 發(fā)布于貴州

展開全文

前言

概率論學(xué)科定義

概率論是用于表示不確定性聲明的數(shù)學(xué)框架,。它不僅提供了量化不確定性的方法，也提供了用于導(dǎo)出新的不確定性聲明（statement）的公理,。概率論的知識在機器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域都有廣泛應(yīng)用,，是學(xué)習(xí)這兩門學(xué)科的基礎(chǔ)。

概率與信息論在人工智能領(lǐng)域的應(yīng)用

在人工智能領(lǐng)域,，概率論主要有兩種用途,。

首先，概率定律告訴我們 AI 系統(tǒng)應(yīng)該如何推理,，基于此我們設(shè)計一些算法來計算或者估算由概率論導(dǎo)出的表達式,。
其次，我們可以用概率和統(tǒng)計從理論上分析我們提出的 AI 系統(tǒng)的行為,。

雖然概率論允許我們在存在不確定性的情況下做出不確定的陳述和推理,，但信息論允許我們量化概率分布中不確定性的數(shù)量。

3.1,，為什么要使用概率論

這是因為機器學(xué)習(xí)必須始終處理不確定的量，有時可能還需要處理隨機（非確定性）的量,，這里的不確定性和隨機性可能來自多個方面,。而使用使用概率論來量化不確定性的論據(jù)，是來源于 20 世紀 80 年代的 Pearl (1988) 的工作,。

不確定性有三種可能的來源:

被建模系統(tǒng)內(nèi)在的隨機性,。
不完全觀測。
不完全建模：使用了一些必須舍棄某些觀測信息的模型,。

3.2,，隨機變量

隨機變量（random variable）是可以隨機地取不同值的變量，它可以是離散或者連續(xù)的,。

離散隨機變量擁有有限或者可數(shù)無限多的狀態(tài),。注意這些狀態(tài)不一定非要是整數(shù); 它們也可能只是一些被命名的狀態(tài)而沒有數(shù)值。連續(xù)隨機變量伴隨著實數(shù)值,。注意,，隨機變量只是對可能狀態(tài)的描述；它必須與指定這些狀態(tài)中的每一個的可能性的概率分布相結(jié)合,。

我們通常用無格式字體 (plain typeface) 中的小寫字母來表示隨機變量本身,，而用手寫體中的小寫字母來表示隨機變量能夠取到的值。例如,， x_1x1 和 x_2x2? 都是隨機變量 \textrm{x}x 可能的取值,。對于向量值變量，我們會將隨機變量寫成 \mathbf{x}x,，它的一個可能取值為 \boldsymbol{x}x,。

中文維基百科用 XX 表示隨機變量,，用 f_{X}(x)fX?(x) 表示概率密度函數(shù)，本文筆記,，不同小節(jié)內(nèi)容兩者混用,。

3.3，概率分布

概率分布（probability distribution）是用來描述隨機變量或一簇隨機變量在每一個可能取到的狀態(tài)的可能性大小,。

如果狹義地講,，它是指隨機變量的概率分布函數(shù)。具有相同概率分布函數(shù)的隨機變量一定是相同分布的,。連續(xù)型和離散型隨機變量的概率分布描述方式是不同的,。

3.3.1，離散型變量和概率質(zhì)量函數(shù)

離散型變量的概率分布可以用概率質(zhì)量函數(shù)（probability mass function, PMF,，也稱概率密度函數(shù)）來描述,。我們通常用大寫字母 PP 來表示概率質(zhì)量函數(shù),，用 \textrm{x} \sim P(\textrm{x})x～P(x) 表示隨機變量 \textrm{x}x 遵循的分布。

雖然通常每一個隨機變量都會有一個不同的概率質(zhì)量函數(shù),，但是概率質(zhì)量函數(shù)也可以同時作用于多個隨機變量,，這種多個變量的概率分布被稱為聯(lián)合概率分布（joint probability distribution）。 P(\textrm{x} = x, \textrm{y} = y)P(x=x,y=y) 表示 \textrm{x} = xx=x 和 \textrm{y} = yy=y 同時發(fā)生的概率,，有時也可簡寫為 P(x,，y)P(x,，y),。

如果一個函數(shù) PP 是隨機變量 \textrm{x}x 的 PMF,，必須滿足以下條件：

PP 的定義域必須是 \textrm{x}x 所有可能狀態(tài)的集合。
\forall x \in \textrm{x}, 0 \leq P(x)\leq 1?x∈x,0≤P(x)≤1,。不可能發(fā)生的事件概率為 0,，能夠確保一定發(fā)生的事件概率為 1,。
\sum_{x \in \textrm{x}}P(x)=1∑x∈x?P(x)=1,，歸一化（normalized）。

常見的離散概率分布族有：

伯努利分布
二項分布：一般用二項分布來計算概率的前提是,，每次抽出樣品后再放回去,，并且只能有兩種試驗結(jié)果，比如黑球或紅球,，正品或次品等,。
幾何分布
Poisson 分布（泊松分布）：Poisson 近似是二項分布的一種極限形式。
離散均勻分布：即對于隨機變量 \textrm{x}x,，因為其是均勻分布(uniform distribution),，所以它的 PMF 為 P(\textrm{x}=x_{i}) = \frac{1}{k}P(x=xi?)=k1?，同時 \sum_{i}P(\textrm{x} = x_{i}) = \sum_{i}\frac{1}{k} = \frac{k}{k} = 1∑i?P(x=xi?)=∑i?k1?=kk?=1,。

3.3.2,，連續(xù)型變量和概率密度分布函數(shù)

連續(xù)型隨機變量的概率分布可以用概率密度函數(shù)（probability desity function, PDF）來描述。

通常用小寫字母 pp 來表示隨機變量 \textrm{x}x 的概率密度函數(shù) PDF,，其必須滿足以下條件：

pp 的定義域必須是 \textrm{x}x 所有可能狀態(tài)的集合,。
\forall x \in \textrm{x}, p(x)\geq 0?x∈x,p(x)≥0。注意,，并不要求 p(x)\leq 1p(x)≤1,。
\int p(x)dx=1∫p(x)dx=1。

概率密度函數(shù) p(x)p(x) 給出的是落在面積為 \delta xδx 的無限小的區(qū)域內(nèi)的概率為 p(x)\delta xp(x)δx,。

因此,，我們可以對概率密度函數(shù)求積分來獲得點集的真實概率質(zhì)量。特別地,，xx 落在集合 \mathbb{S}S 中的概率可以通過 p(x)p(x) 對這個集合求積分來得到,。在單變量的例子中，xx 落在區(qū)間 [a,b][a,b] 的概率是 \int_{[a,b]}p(x)dx∫[a,b]?p(x)dx,。

常見的連續(xù)概率分布族有：

均勻分布
正態(tài)分布：連續(xù)型隨機變量的概率密度函數(shù)如下所示,。其密度函數(shù)的曲線呈對稱鐘形，因此又被稱之為鐘形曲線,，其中\(zhòng)muμ 是平均值,，\sigmaσ 是標準差。正態(tài)分布是一種理想分布,。{f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{\left(-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}\right)}}f(x)=σ2π?1?e(?21?(σx?μ?)2)
伽瑪分布
指數(shù)分布

3.4,，邊緣概率

邊緣概率好像應(yīng)用并不多，所以這里理解定義和概念即可,。邊緣概率的通俗理解描述,，來源于數(shù)學(xué)篇 - 概率之聯(lián)合概率,、條件概率、邊緣概率和貝葉斯法則(筆記),。

有時候,，我們知道了一組變量的聯(lián)合概率分布，但想要了解其中一個子集的概率分布,。這種定義在子集上的概率分布被稱為邊緣概率分布(marginal probability distribution),。

對于離散型隨機變量 \textrm{x}x 和 \textrm{y}y，知道 P(\textrm{x}, \textrm{y})P(x,y),，可以依據(jù)下面的求和法則（sum rule）來計算邊緣概率 P(\textrm{x})P(x)：

\forall x \in \textrm{x},P(\textrm{x}=x)=\sum_{y}P(\textrm{x}=x, \textrm{y}=y)?x∈x,P(x=x)=∑y?P(x=x,y=y)

“邊緣概率”的名稱來源于手算邊緣概率的計算過程,。當 P(x,y)P(x,y) 的每個值被寫在由每行表示不同的 xx 值，每列表示不同的 yy 值形成的網(wǎng)格中時,，對網(wǎng)格中的每行求和是很自然的事情,，然后將求和的結(jié)果 P(x)P(x) 寫在每行右邊的紙的邊緣處。

連續(xù)性變量的邊緣概率則用積分代替求和：

p(x) = \int p(x,y)dyp(x)=∫p(x,y)dy

3.5,，條件概率

條件概率（conditional probability）就是事件 A 在事件 B 發(fā)生的條件下發(fā)生的概率,，表示為 P(A|B)P(A∣B)。

設(shè) AA 與 BB 為樣本空間 Ω 中的兩個事件,，其中 P(B)P(B) > 0,。那么在事件 BB 發(fā)生的條件下，事件 AA 發(fā)生的條件概率為：

P(A|B)={\frac {P(A\cap B)}{P(B)}}P(A∣B)=P(B)P(A∩B)?

花書中期望的條件概率定義（表達式不一樣,，但意義是一樣的,，維基百科的定義更容易理解名字意義，花書中的公式更多的是從數(shù)學(xué)中表達）:

將給定 \textrm{x} = xx=x 時,， \textrm{y} = yy=y 發(fā)生的條件概率記為 P(\textrm{y} = y|\textrm{x} = x)P(y=y∣x=x),，這個條件概率的計算公式如下： P(\textrm{y}=y|\textrm{x}=x)=\frac{P(\textrm{y}=y, \textrm{x}=x)}{P(\textrm{x}=x)}P(y=y∣x=x)=P(x=x)P(y=y,x=x)? 條件概率只在 P(\textrm{x}=x)\geq 0P(x=x)≥0 時有定義，即不能計算以從未發(fā)生的事件為條件的條件概率,。

3.5.1，條件概率的鏈式法則

任何多維隨機變量的聯(lián)合概率分布,，都可以分解成只有一個變量的條件概率相乘的形式,，這個規(guī)則被稱為概率的鏈式法則（chain rule）。條件概率的鏈式法則如下:

\begin{aligned} P(a,b,c) &= P(a|b,c)P(b,c) \\ P(b,c) &= P(b|c)P(c) \\ P(a,b,c) &= P(s|b,c)P(b|c)P(c) \\ \end{aligned}P(a,b,c)P(b,c)P(a,b,c)?=P(a∣b,c)P(b,c)=P(b∣c)P(c)=P(s∣b,c)P(b∣c)P(c)?

3.6,，獨立性和條件獨立性

兩個隨機變量 \textrm{x}x 和 \textrm{y}y,，如果它們的概率分布可以表示成兩個因子的乘積形式，并且一個因子只包含 \textrm{x}x 另一個因子只包含 \textrm{y}y,，我們就稱這兩個隨機變量是相互獨立的（independent）：

\forall x \in \textrm{x},y \in \textrm{y},p(\textrm{x}=x, \textrm{y}=y)=p(\textrm{x}=x)\cdot p(\textrm{y}=y)?x∈x,y∈y,p(x=x,y=y)=p(x=x)?p(y=y)

兩個相互獨立的隨機變量同時發(fā)生的概率可以通過各自發(fā)生的概率的乘積得到,。

如果關(guān)于 xx 和 yy 的條件概率分布對于 zz 的每一個值都可以寫成乘積的形式，那么這兩個隨機變量 xx 和 yy 在給定隨機變量 zz 時是條件獨立的(conditionally independent):

\forall x \in ,y \in \textrm{y},z \in \textrm{z}, p(\textrm{x}=x, \textrm{y}=y|z \in \textrm{z})= p(\textrm{x}=x|z \in \textrm{z})\cdot p(\textrm{y}=y|z \in \textrm{z})?x∈,y∈y,z∈z,p(x=x,y=y∣z∈z)=p(x=x∣z∈z)?p(y=y∣z∈z)

采用一種簡化形式來表示獨立性和條件獨立性: \textrm{x}\perp \textrm{y}x⊥y 表示 \textrm{x}x 和 \textrm{y}y 相互獨立,，\textrm{x}\perp \textrm{y}|\textrm{z}x⊥y∣z 表示 \textrm{x}x 和 \textrm{y}y 在給定 \textrm{z}z 時條件獨立,。

3.7,，條件概率、聯(lián)合概率和邊緣概率總結(jié)

條件概率（conditional probability）就是事件 A 在事件 B 發(fā)生的條件下發(fā)生的概率,。條件概率表示為 P(A|B)P(A∣B),，讀作“A 在 B 發(fā)生的條件下發(fā)生的概率”。
聯(lián)合概率表示兩個事件共同發(fā)生的概率,。A 與 B 的聯(lián)合概率表示為 P(A\cap B)P(A∩B) 或者 P(A,B)P(A,B) 或者 P(AB)P(AB),。
僅與單個隨機變量有關(guān)的概率稱為邊緣概率。

3.8,，期望,、方差和協(xié)方差

為了便于理解，本章中的期望和方差的數(shù)學(xué)定義主要采用中文維基百科中的定義,。

在概率分布中,，期望值和方差或標準差是一種分布的重要特征，期望,、數(shù)學(xué)期望,、均值都是一個意思。統(tǒng)計中的方差（樣本方差）是每個樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù),，其意義和概率分布中的方差是不一樣的,。

3.8.1，期望

在概率論和統(tǒng)計學(xué)中,，一個離散性隨機變量的期望值（或數(shù)學(xué)期望,，亦簡稱期望，物理學(xué)中稱為期待值）是試驗中每次可能的結(jié)果乘以其結(jié)果概率的總和,。換句話說,，期望值像是隨機試驗在同樣的機會下重復(fù)多次，所有那些可能狀態(tài)平均的結(jié)果,，也可理解為該變量輸出值的加權(quán)平均,。

期望數(shù)學(xué)定義

如果 XX 是在概率空間 (\Omega ,F,P)(Ω,F,P) 中的隨機變量，那么它的期望值 \operatorname{E}(X)E(X) 的定義是：

\operatorname {E}(X)=\int_{\Omega }X 3squ974rbPE(X)=∫Ω?XdP

并不是每一個隨機變量都有期望值的,，因為有的時候上述積分不存在,。如果兩個隨機變量的分布相同，則它們的期望值也相同,。

1,，如果 XX 是離散的隨機變量，輸出值為 x_{1},x_{2},\ldots x_{1},x_{2},\ldotsx1?,x2?,…x1?,x2?,…,，和輸出值相應(yīng)的概率為 {\displaystyle p_{1},p_{2},\ldots }p_{1},p_{2},\ldotsp1?,p2?,…p1?,p2?,…（概率和為 1）,。

若級數(shù) \sum_{i}p_{i}x_{i}∑i?pi?xi? 絕對收斂，那么期望值 \operatorname {E}(X)E(X) 是一個無限數(shù)列的和。

\operatorname {E}(X)=\sum_{i}p_{i}x_{i}E(X)=∑i?pi?xi?

2,，如果 XX 是連續(xù)的隨機變量,，且存在一個相應(yīng)的概率密度函數(shù) f(x)f(x)，若積分 \int _{-\infty }^{\infty }xf(x)\,\mathrm 3squ974rb x∫?∞∞?xf(x)dx 絕對收斂,，那么 XX 的期望值可以計算為：

\operatorname {E} (X)=\int _{-\infty }^{\infty }xf(x)\,\mathrm 3squ974rb xE(X)=∫?∞∞?xf(x)dx

雖然是針對于連續(xù)的隨機變量的,，但與離散隨機變量的期望值的計算算法卻同出一轍，由于輸出值是連續(xù)的,，所以只是把求和改成了積分,。

期望值 EE 是線性函數(shù):

\operatorname {E}(aX+bY)=a\operatorname {E}(X)+b\operatorname {E}(Y)E(aX+bY)=aE(X)+bE(Y)

XX 和 YY 為在同一概率空間的兩個隨機變量（可以獨立或者非獨立），aa 和 bb 為任意實數(shù),。

花書中期望的數(shù)學(xué)定義（表達式不一樣,，但意義是一樣的）:
1，某個函數(shù) f(x)f(x) 相對于概率分布 P(x)P(x) 的期望（期望值）是當從 PP 中抽取 xx 時 ff 所取的平均或平均值,。對于離散型隨機變量,，期望可以通過求和得到： \mathbb{E}_{\textrm{x}\sim P}[f(x)] = \sum_{x} P(x)f(x)Ex～P?[f(x)]=∑x?P(x)f(x)
2，對于連續(xù)型隨機變量可以通過求積分得到： \mathbb {E}_{\textrm{x}\sim p}[f(x)] = \int p(x)f(x)dxEx～p?[f(x)]=∫p(x)f(x)dx

期望應(yīng)用

在統(tǒng)計學(xué)中,，估算變量的期望值時,，經(jīng)常用到的方法是重復(fù)測量此變量的值，再用所得數(shù)據(jù)的平均值來估計此變量的期望值,。
在概率分布中,，期望值和方差或標準差是一種分布的重要特征。

總體均值數(shù)學(xué)定義

一般而言,，一個有限的容量為 NN,、元素的值為 x_{i}xi? 的總體的總體均值為：

\mu = \frac{\sum_i^N x_{i}}{N}μ=N∑iN?xi??

3.8.2，方差

在概率論和統(tǒng)計學(xué)中,，方差（英語：variance）又稱變異數(shù),、變方，描述的是一個隨機變量的離散程度,，即該變量離其期望值的距離,，是隨機變量與其總體均值或樣本均值的離差的平方的期望值。

方差差是標準差的平方,、分布的二階矩,，以及隨機變量與其自身的協(xié)方差，其常用的符號表示有 \sigma^2σ2,、s^2s2,、\operatorname {Var} (X)Var(X),、\displaystyle V(X)V(X),，以及 \displaystyle \mathbb {V} (X)V(X)。

方差作為離散度量的優(yōu)點是，它比其他離散度量（如平均差）更易于代數(shù)運算,，但缺點是它與隨機變量的單位不同,，而標準差則單位相同，這就是計算完成后通常采用標準差來衡量離散程度的原因,。

方差的正平方根稱為該隨機變量的標準差,。

有兩個不同的概念都被稱為“方差”。一種如上所述,，是理論概率分布的方差,。而另一種方差是一組觀測值的特征，分別是總體方差（所有可能的觀測）和樣本方差（總體的一個子集）,。

方差數(shù)學(xué)定義

設(shè) XX 為服從分布 FF 的隨機變量,，如果 \operatorname{E}[X]E[X] 是隨機變量 XX 的期望值（均值 \mu=\operatorname{E}[X]μ=E[X]），則隨機變量 XX 或者分布 FF 的方差為 XX 的離差平方的期望值:

\operatorname{E}(X) = \operatorname{E}[(X - \mu)]^2 = \operatorname{E}[X - \operatorname{E}(X)]^2E(X)=E[(X?μ)]2=E[X?E(X)]2

方差的表達式可展開如下：

\begin{aligned} \operatorname{Var}(X) &=\operatorname{E} \left[(X-\operatorname {E} [X])^{2}\right] \\ &=\operatorname{E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname{E}[X]^{2}\right] \\ &=\operatorname{E} \left[X^{2}\right]-2\operatorname{E}[X]\operatorname{E}[X]+\operatorname{E}[X]^{2} \\ &=\operatorname{E} \left[X^{2}\right]-\operatorname{E}[X]^{2} \\ \end{aligned}Var(X)?=E[(X?E[X])2]=E[X2?2XE[X]+E[X]2]=E[X2]?2E[X]E[X]+E[X]2=E[X2]?E[X]2?

也就是說,，XX 的方差等于 XX 平方的均值減去 XX 均值的平方,。

總體方差數(shù)學(xué)定義

一般而言，一個有限的容量為 NN,、元素的值為 x_{i}xi? 的總體的總體方差為：

\sigma^{2} = {\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}-\mu \right)^{2}σ2=N1?∑i=1N?(xi??μ)2

花書中方差的定義: 方差（variance）衡量的是當我們對 xx 依據(jù)它的概率分布進行采樣時,，隨機變量 \textrm{x}x 的函數(shù)值會呈現(xiàn)多大的差異，或者說一個隨機變量的方差描述的是它的離散程度,，也就是該變量離其期望值的距離,。方差定義如下： Var(f(x)) = \mathbb{E}[(f(x) - \mathbb{E}[f(x)])^2]Var(f(x))=E[(f(x)?E[f(x)])2]

3.8.3，期望與方差的運算性質(zhì)

期望與方差運算性質(zhì)如下:

來源: 知乎文章-【AP統(tǒng)計】期望E(X)與方差Var(X),。

3.8.4,，協(xié)方差

協(xié)方差也叫共變異數(shù)（英語：Covariance），在概率論與統(tǒng)計學(xué)中用于衡量兩個隨機變量的聯(lián)合變化程度,。

協(xié)方差數(shù)學(xué)定義

期望值分別為 \operatorname E(X)=\muE(X)=μ 與 \operatorname E(Y)=\nuE(Y)=ν 的兩個具有有限二階矩的實數(shù)隨機變量 XX 與 YY 之間的協(xié)方差定義為：

\operatorname {cov} (X,Y)=\operatorname {E} ((X-\mu )(Y-\nu ))=\operatorname {E} (X\cdot Y)-\mu \nucov(X,Y)=E((X?μ)(Y?ν))=E(X?Y)?μν

協(xié)方差表示的是兩個變量的總體的誤差,，這與只表示一個變量誤差的方差不同。

協(xié)方差的絕對值如果很大則意味著變量值變化很大并且它們同時距離各自的均值很遠,。如果協(xié)方差是正的,，那么兩個變量都傾向于同時取得相對較大的值。如果協(xié)方差是負的,，那么其中一個變量傾向于取得相對較大的值的同時,，另一個變量傾向于取得相對較小的值，反之亦然,。其他的衡量指標如相關(guān)系數(shù)(correlation)將每個變量的貢獻歸一化,，為了只衡量變量的相關(guān)性而不受各個變量尺度大小的影響。

3.9,，常用概率分布

下表列出了一些常用概率分布的方差,。

3.9.1,，伯努利分布

伯努利分布（英語：Bernoulli distribution），又名兩點分布或者 0-1 分布,，是一個離散型概率分布,，為紀念瑞士科學(xué)家雅各布·伯努利而命名。若伯努利試驗成功,，則伯努利隨機變量取值為 1,。若伯努利試驗失敗，則伯努利隨機變量取值為 0,。記其成功概率為 0\leq p\leq 10≤p≤1,，失敗概率為 q = 1-pq=1?p。其有如下性質(zhì):

其概率質(zhì)量函數(shù)為:

f_{X}(x) = p^{x}(1-p)^{1-x} = \left\lbrace\begin{matrix} p \quad if \;x = 1 \\ 1-p \quad if \; x = 0 \end{matrix}\right.fX?(x)=px(1?p)1?x={pifx=11?pifx=0?

其期望值為:

\operatorname {E} [X] = \sum_{i=0}^{1} x_{i}f_X(x) = 0 + p = pE[X]=i=0∑1?xi?fX?(x)=0+p=p

其方差為:

\begin{aligned} Var[X] &= \sum_{i=0}^{1} (x_{i}-\operatorname {E} [X])^2f_{X}(x) \\ &= (0-P)^2(1-P) + (1-P)^2P \\ &= p(1-p) \\ &= p\cdot q \\ \end{aligned}Var[X]?=i=0∑1?(xi??E[X])2fX?(x)=(0?P)2(1?P)+(1?P)2P=p(1?p)=p?q?

3.9.2,，Multinoulli 分布

Multinoulli 分布(多項式分布,，也叫范疇分布 categorical dis- tribution)是一種離散概率分布，它描述了隨機變量的可能結(jié)果,，該隨機變量可以采用 kk 個可能類別之一,，概率為每個類別分別指定，其中 kk 是一個有限值,。

3.9.3,，高斯分布

有幾種不同的方法用來說明一個隨機變量。最直觀的方法是概率密度函數(shù),，這種方法能夠表示隨機變量每個取值有多大的可能性,。

高斯分布 Gaussian distribution（也稱正態(tài)分布 Normal distribution）是一個非常常見的連續(xù)概率分布。高斯分布在統(tǒng)計學(xué)上十分重要,，經(jīng)常用在自然和社會科學(xué)來代表一個不確定的隨機變量,。

若隨機變量 XX 服從一個位置參數(shù)為 \muμ 、尺度參數(shù)為 \sigmaσ 的正態(tài)分布,，記為：

X \sim N(\mu,\sigma^2)X～N(μ,σ2)

則其概率密度函數(shù)為 f(x;\mu, \sigma) = \frac {1}{\sigma {\sqrt {2\pi }}}\;e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}f(x;μ,σ)=σ2π?1?e?2σ2(x?μ)2?,。

正態(tài)分布的數(shù)學(xué)期望值 \muμ 等于位置參數(shù)，決定了分布的位置,；其方差 \sigma^2σ2 的開平方或標準差 \sigmaσ 等于尺度參數(shù),，決定了分布的幅度。

正態(tài)分布概率密度函數(shù)曲線呈鐘形,，也稱之為鐘形曲線（類似于寺廟里的大鐘,，因此得名）。我們通常所說的標準常態(tài)分布是位置參數(shù) \mu = 0μ=0,，尺度參數(shù) \sigma ^{2} = 1σ2=1 的正態(tài)分布（見右圖中紅色曲線）,。

采用正態(tài)分布在很多應(yīng)用中都是一個明智的選擇。當我們由于缺乏關(guān)于某個實數(shù)上分布的先驗知識而不知道該選擇怎樣的形式時,，正態(tài)分布是默認的比較好的選擇,，其中有兩個原因,。

第一，我們想要建模的很多分布的真實情況是比較接近正態(tài)分布的,。
第二，在具有相同方差的所有可能的概率分布中,，正態(tài)分布在實數(shù)上具有最的不確定性,。因此，我們可以認為正態(tài)分布是對模型加入的先驗知識量最少的分布,。

3.9.4,，指數(shù)分布和 Laplace 分布

在概率論和統(tǒng)計學(xué)中，指數(shù)分布（Exponential distribution）是一種連續(xù)概率分布,，表示一個在 x = 0x=0 點處取得邊界點 (sharp point) 的分布,，其使用指示函數(shù)(indicator function) 1_{x\geq0}1x≥0? 來使得當 xx 取負值時的概率為零。指數(shù)分布可以等同于形狀母數(shù) \alphaα為 11的伽瑪分布,。

指數(shù)分布可以用來表示獨立隨機事件發(fā)生的時間間隔,，比如旅客進入機場的時間間隔、電話打進客服中心的時間間隔等,。

若隨機變量 XX 服從母數(shù)為 \lambdaλ 或 \betaβ 的指數(shù)分布,，則記作

X\sim {\text{Exp}}(\lambda )X～Exp(λ) 或 X\sim {\text{Exp}}(\beta )X～Exp(β)

兩者意義相同，只是 \lambdaλ 與 \betaβ 互為倒數(shù)關(guān)系,。指數(shù)分布的概率密度函數(shù)為：

f(x;{\color {Red}\lambda })=\left\lbrace{\begin{matrix}{\color {Red}\lambda }e^{-{\color {Red}\lambda }x}&x\geq 0,\\0&,\;x<0.\end{matrix}}\right.f(x;λ)={λe?λx0?x≥0,,x<0.?

指數(shù)分配概率密度函數(shù)曲線如下所示,。

3.10，常用函數(shù)的有用性質(zhì)

深度學(xué)習(xí)中的概率分布有一些經(jīng)常出現(xiàn)的函數(shù),，比如 logistic sigmoid 函數(shù):

\sigma(x) = \frac{1}{1+exp(-x)}σ(x)=1+exp(?x)1?

logistic sigmoid 函數(shù)通常用來產(chǎn)生伯努利分布的參數(shù) pp,，因為它的范圍是 (0, 1)(0,1)，位于 pp 參數(shù)值的有效范圍內(nèi),。下圖 3.3 給出了 sigmoid 函數(shù)的圖示,。從圖中可以明顯看出，sigmoid 函數(shù)在變量取絕對值非常大的正值或負值時會出現(xiàn)飽和(saturate)現(xiàn)象,，意味著函數(shù)會變得很平,，并且對輸入的微小改變會變得不敏感。

sigmoid 函數(shù)的一些性質(zhì)在后續(xù)學(xué)習(xí) BP 算法等內(nèi)容時會很有用,，我們需要牢記：

\begin{aligned} \sigma(x) &= \frac{exp(x)}{exp(x)+exp(0)} \\ \frac3squ974rb{dx}\sigma(x) &= \sigma(x)(1 - \sigma(x)) \\ 1 - \sigma(x) &= \sigma(-x) \\ \end{aligned}σ(x)dxd?σ(x)1?σ(x)?=exp(x)+exp(0)exp(x)?=σ(x)(1?σ(x))=σ(?x)?

3.11,，貝葉斯定理

本小節(jié)只是簡單介紹基本概念和公式，更全面和深入的理解建議看《機器學(xué)習(xí)》書籍,。

貝葉斯定理（英語：Bayes' theorem）是概率論中的一個定理,，描述在已知一些條件下，某事件的發(fā)生概率,。比如,，如果已知某種健康問題與壽命有關(guān),，使用貝葉斯定理則可以通過得知某人年齡，來更加準確地計算出某人有某種健康問題的概率,。

通常,，事件 A 在事件 B 已發(fā)生的條件下發(fā)生的概率，與事件 B 在事件 A 已發(fā)生的條件下發(fā)生的概率是不一樣的,。但是,，這兩者是有確定的關(guān)系的，貝葉斯定理就是這種關(guān)系的陳述,。貝葉斯公式的一個用途,，即透過已知的三個概率而推出第四個概率。貝葉斯定理跟隨機變量的條件概率以及邊際概率分布有關(guān),。

作為一個普遍的原理,，貝葉斯定理對于所有概率的解釋是有效的。這一定理的主要應(yīng)用為貝葉斯推斷,，是推論統(tǒng)計學(xué)中的一種推斷法,。這一定理名稱來自于托馬斯·貝葉斯。

來源中文維基百科-貝葉斯定理

3.11.1,，貝葉斯定理公式

貝葉斯定理是關(guān)于隨機事件 A 和 B 的條件概率的一則定理,。

P(A\mid B)={\frac {P(A)P(B\mid A)}{P(B)}}P(A∣B)=P(B)P(A)P(B∣A)?

其中 A 以及 B 為隨機事件，且 P(B)P(B) 不為零,。P(A\mid B)P(A∣B) 是指在事件 B 發(fā)生的情況下事件 A 發(fā)生的概率,。

在貝葉斯定理中，每個名詞都有約定俗成的名稱：

P(A\mid B)P(A∣B) 是已知 B 發(fā)生后,，A 的條件概率,。也稱作 A 的事后概率。
P(A)P(A) 是 A 的先驗概率（或邊緣概率）,。其不考慮任何 B 方面的因素,。
P(B\mid A)P(B∣A) 是已知 A 發(fā)生后，B 的條件概率,。也可稱為 B 的后驗概率,。某些文獻又稱其為在特定 B 時，A 的似然性,，因為 P(B\mid A)=L(A\mid B)P(B∣A)=L(A∣B),。
P(B)P(B)是 B 的先驗概率。

3.11.2,，貝葉斯理論與概率密度函數(shù)

貝葉斯理論亦可用于概率分布,，貝葉斯理論與概率密度的關(guān)系是由求極限的方式建立：

P(\textrm{x}|\textrm{y}) = \frac{P(\textrm{x})P(\textrm{y}|\textrm{x})}{P(\textrm{y})}P(x∣y)=P(y)P(x)P(y∣x)?

注意到 P(y)P(y) 出現(xiàn)在上面的公式中，它通常使用 P(\textrm{y}) = \sum_{x} P(\textrm{y}|x)P(x)P(y)=∑x?P(y∣x)P(x) 來計算所以我們并不需要事先知道 P(\textrm{y})P(y) 的信息,。

中文維基百科中貝葉斯理論與概率密度關(guān)系定義: f(x|y)={\frac {f(x,y)}{f(y)}}={\frac {f(y|x)\,f(x)}{f(y)}}f(x∣y)=f(y)f(x,y)?=f(y)f(y∣x)f(x)?

3.12,，連續(xù)型變量的技術(shù)細節(jié)

連續(xù)型隨機變量和概率密度函數(shù)的深入理解需要用到數(shù)學(xué)分支測度論(measure theory)的相關(guān)內(nèi)容來擴展概率論,，測度論超出了本書范疇。

原書中有測度論的簡要介紹,，本筆記不做記錄和摘抄,，感興趣的可以閱讀原書。

3.13,，信息論-相對熵和交叉熵

信息論是應(yīng)用數(shù)學(xué),、電子學(xué)和計算機科學(xué)的一個分支，早期備用在無線通信領(lǐng)域,。在深度學(xué)習(xí)中，主要是使用信息論的一些關(guān)鍵思想來表征(characterize)概率分布或者量化概率分布之間的相似性,。

信息論的基本想法是一個不太可能的事件居然發(fā)生了,，要比一個非常可能的事件發(fā)生,，能提供更多的信息,。

定義一個事件 \textrm{x} = xx=x 的自信息(self-information) 為

I(x) = -\text{log}P(x)I(x)=?logP(x)

在本文中，我們總是用 \text{log}log 來表示自然對數(shù),，其底數(shù)為 ee,。因此我們定義的 I(x)I(x) 單位是奈特(nats)。一奈特是以 \frac{1}{e}e1? 的概率觀測到一個事件時獲得的信息量,。其他的材料中可能使用底數(shù)為 2 的對數(shù),，單位是比特(bit)或者香農(nóng)(shannons); 通過比特度量的信息只是通過奈特度量信息的常數(shù)倍。

自信息只處理單個的輸出,。我們可以用香農(nóng)熵(Shannon entropy)來對整個概率分布中的不確定性總量進行量化:

H(P) = H(\textrm{x}) = E_{x～P}[I(x)] = ?E_{x～P}[log P(x)]H(P)=H(x)=Ex～P?[I(x)]=?Ex～P?[logP(x)]

換句話說,，一個概率分布的香農(nóng)熵是指遵循這個分布的事件所產(chǎn)生的期望信息總量。

如果我們對于同一個隨機變量 \textrm{x}x 有兩個單獨的概率分布 P(\textrm{x})P(x) 和 Q(\textrm{x})Q(x),，則可以用 KL 散度（ Kullback-Leibler (KL) divergence,，也叫相對熵）來衡量這兩個概率分布的差異：

D_{KL}(P\parallel Q) = \mathbb{E}_{\textrm{x}\sim p}\begin{bmatrix} log \frac{P(x)}{Q(x)} \end{bmatrix} = \mathbb{E}_{\textrm{x}\sim p}[log P(x) - log Q(x)]DKL?(P∥Q)=Ex～p?[logQ(x)P(x)??]=Ex～p?[logP(x)?logQ(x)]

KL 散度有很多有用的性質(zhì)，最重要的是它是非負的,。KL 散度為 0 當且僅當 PP 和 QQ 在離散型變量的情況下是相同的概率分布,，或者在連續(xù)型變量的情況下是 “幾乎處處” 相同的。

一個和 KL 散度密切聯(lián)系的量是交叉熵(cross-entropy)H(P, Q) = H(P) + D_{KL}(P||Q)H(P,Q)=H(P)+DKL?(P∣∣Q),，其計算公式如下:

H(P, Q) = -\mathbb{E}_{\textrm{x}\sim p}log Q(x)H(P,Q)=?Ex～p?logQ(x)

和 KL 散度相比,，少了左邊一項，即熵 H(P)H(P),?？梢钥闯觯钚』?KL 散度其實就是在最小化分布之間的交叉熵,。

上式的寫法是在前面所學(xué)內(nèi)容數(shù)學(xué)期望的基礎(chǔ)上給出的,，還有一個寫法是《機器學(xué)習(xí)-周志華》書中附錄 C 中給出的公式,，更為直觀理解： KL(P\parallel Q) = \int_{-\infty }^{+\infty} p(x)log \frac{p(x)}{q(x)} dxKL(P∥Q)=∫?∞+∞?p(x)logq(x)p(x)?dx 其中 p(x)p(x) 和 q(x)q(x) 分別為 PP 和 QQ 的概率密度函數(shù)。這里假設(shè)兩個分布均為連續(xù)型概率分布,，對于離散型概率分布,，只需要將積分替換為對所有離散值遍歷求和。

KL 散度滿足非負性和不滿足對稱性,。將上式展開可得： \text{KL 散度} KL(P\parallel Q) = \int_{-\infty }^{+\infty}p(x)logp(x)dx - \int_{-\infty }^{+\infty}p(x) logq(x)dx = -H(P) + H(P,Q)KL 散度KL(P∥Q)=∫?∞+∞?p(x)logp(x)dx?∫?∞+∞?p(x)logq(x)dx=?H(P)+H(P,Q) \text{交叉熵} H(P,Q) = \mathbb{E}_{\textrm{x}\sim p} log Q(x) = - \int_{-\infty }^{+\infty} p(x) logq(x)dx交叉熵H(P,Q)=Ex～p?logQ(x)=?∫?∞+∞?p(x)logq(x)dx

其中,，H(P)H(P) 為熵（entropy），H(P,Q)H(P,Q) 為交叉熵（cross entropy）,。

在信息論中,，熵 H(P)H(P) 表示對來自 PP 的隨機遍歷進行編碼所需的最小字節(jié)數(shù)，而交叉熵 H(P,Q)H(P,Q) 表示使用 QQ 的編碼對來自 PP 的變量進行編碼所需的字節(jié)數(shù),。因此 KL 散度可認為是使用基于 QQ 的編碼對來自 PP 的變量進行編碼所需的“額外字節(jié)數(shù)”,；顯然，額外字節(jié)數(shù)非負,，當且僅當 P=QP=Q 時額外字節(jié)數(shù)為 0,。