前言概率論學(xué)科定義概率論是用于表示不確定性聲明的數(shù)學(xué)框架,。它不僅提供了量化不確定性的方法,也提供了用于導(dǎo)出新的不確定性聲明(statement)的公理,。概率論的知識在機器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域都有廣泛應(yīng)用,,是學(xué)習(xí)這兩門學(xué)科的基礎(chǔ)。 概率與信息論在人工智能領(lǐng)域的應(yīng)用在人工智能領(lǐng)域,,概率論主要有兩種用途,。
雖然概率論允許我們在存在不確定性的情況下做出不確定的陳述和推理,,但信息論允許我們量化概率分布中不確定性的數(shù)量。 3.1,,為什么要使用概率論這是因為機器學(xué)習(xí)必須始終處理不確定的量,有時可能還需要處理隨機(非確定性)的量,,這里的不確定性和隨機性可能來自多個方面,。而使用使用概率論來量化不確定性的論據(jù),是來源于 20 世紀 80 年代的 Pearl (1988) 的工作,。 不確定性有三種可能的來源:
3.2,,隨機變量隨機變量(random variable)是可以隨機地取不同值的變量,它可以是離散或者連續(xù)的,。 離散隨機變量擁有有限或者可數(shù)無限多的狀態(tài),。注意這些狀態(tài)不一定非要是整數(shù); 它們也可能只是一些被命名的狀態(tài)而沒有數(shù)值。連續(xù)隨機變量伴隨著實數(shù)值,。注意,,隨機變量只是對可能狀態(tài)的描述;它必須與指定這些狀態(tài)中的每一個的可能性的概率分布相結(jié)合,。 我們通常用無格式字體 (plain typeface) 中的小寫字母來表示隨機變量本身,,而用手寫體中的小寫字母來表示隨機變量能夠取到的值。例如,, x_1x1 和 x_2x2? 都是隨機變量 \textrm{x}x 可能的取值,。對于向量值變量,我們會將隨機變量寫成 \mathbf{x}x,,它的一個可能取值為 \boldsymbol{x}x,。
3.3,概率分布概率分布(probability distribution)是用來描述隨機變量或一簇隨機變量在每一個可能取到的狀態(tài)的可能性大小,。 如果狹義地講,,它是指隨機變量的概率分布函數(shù)。具有相同概率分布函數(shù)的隨機變量一定是相同分布的,。連續(xù)型和離散型隨機變量的概率分布描述方式是不同的,。 3.3.1,離散型變量和概率質(zhì)量函數(shù)離散型變量的概率分布可以用概率質(zhì)量函數(shù)(probability mass function, PMF,,也稱概率密度函數(shù))來描述,。我們通常用大寫字母 PP 來表示概率質(zhì)量函數(shù),,用 \textrm{x} \sim P(\textrm{x})x~P(x) 表示隨機變量 \textrm{x}x 遵循的分布。 雖然通常每一個隨機變量都會有一個不同的概率質(zhì)量函數(shù),,但是概率質(zhì)量函數(shù)也可以同時作用于多個隨機變量,,這種多個變量的概率分布被稱為聯(lián)合概率分布(joint probability distribution)。 P(\textrm{x} = x, \textrm{y} = y)P(x=x,y=y) 表示 \textrm{x} = xx=x 和 \textrm{y} = yy=y 同時發(fā)生的概率,,有時也可簡寫為 P(x,,y)P(x,,y),。 如果一個函數(shù) PP 是隨機變量 \textrm{x}x 的 PMF,,必須滿足以下條件:
常見的離散概率分布族有:
3.3.2,,連續(xù)型變量和概率密度分布函數(shù)連續(xù)型隨機變量的概率分布可以用概率密度函數(shù)(probability desity function, PDF)來描述。 通常用小寫字母 pp 來表示隨機變量 \textrm{x}x 的概率密度函數(shù) PDF,,其必須滿足以下條件:
概率密度函數(shù) p(x)p(x) 給出的是落在面積為 \delta xδx 的無限小的區(qū)域內(nèi)的概率為 p(x)\delta xp(x)δx,。 因此,,我們可以對概率密度函數(shù)求積分來獲得點集的真實概率質(zhì)量。特別地,,xx 落在集合 \mathbb{S}S 中的概率可以通過 p(x)p(x) 對這個集合求積分來得到,。在單變量的例子中,xx 落在區(qū)間 [a,b][a,b] 的概率是 \int_{[a,b]}p(x)dx∫[a,b]?p(x)dx,。 常見的連續(xù)概率分布族有:
3.4,,邊緣概率
有時候,,我們知道了一組變量的聯(lián)合概率分布,但想要了解其中一個子集的概率分布,。這種定義在子集上的概率分布被稱為邊緣概率分布(marginal probability distribution),。 對于離散型隨機變量 \textrm{x}x 和 \textrm{y}y,知道 P(\textrm{x}, \textrm{y})P(x,y),,可以依據(jù)下面的求和法則(sum rule)來計算邊緣概率 P(\textrm{x})P(x): \forall x \in \textrm{x},P(\textrm{x}=x)=\sum_{y}P(\textrm{x}=x, \textrm{y}=y)?x∈x,P(x=x)=∑y?P(x=x,y=y) “邊緣概率”的名稱來源于手算邊緣概率的計算過程,。當 P(x,y)P(x,y) 的每個值被寫在由每行表示不同的 xx 值,每列表示不同的 yy 值形成的網(wǎng)格中時,,對網(wǎng)格中的每行求和是很自然的事情,,然后將求和的結(jié)果 P(x)P(x) 寫在每行右邊的紙的邊緣處。 連續(xù)性變量的邊緣概率則用積分代替求和: p(x) = \int p(x,y)dyp(x)=∫p(x,y)dy 3.5,,條件概率條件概率(conditional probability)就是事件 A 在事件 B 發(fā)生的條件下發(fā)生的概率,,表示為 P(A|B)P(A∣B)。 設(shè) AA 與 BB 為樣本空間 Ω 中的兩個事件,,其中 P(B)P(B) > 0,。那么在事件 BB 發(fā)生的條件下,事件 AA 發(fā)生的條件概率為: P(A|B)={\frac {P(A\cap B)}{P(B)}}P(A∣B)=P(B)P(A∩B)?
3.5.1,條件概率的鏈式法則任何多維隨機變量的聯(lián)合概率分布,,都可以分解成只有一個變量的條件概率相乘的形式,,這個規(guī)則被稱為概率的鏈式法則(chain rule)。條件概率的鏈式法則如下: \begin{aligned} P(a,b,c) &= P(a|b,c)P(b,c) \\ P(b,c) &= P(b|c)P(c) \\ P(a,b,c) &= P(s|b,c)P(b|c)P(c) \\ \end{aligned}P(a,b,c)P(b,c)P(a,b,c)?=P(a∣b,c)P(b,c)=P(b∣c)P(c)=P(s∣b,c)P(b∣c)P(c)? 3.6,,獨立性和條件獨立性兩個隨機變量 \textrm{x}x 和 \textrm{y}y,,如果它們的概率分布可以表示成兩個因子的乘積形式,并且一個因子只包含 \textrm{x}x 另一個因子只包含 \textrm{y}y,,我們就稱這兩個隨機變量是相互獨立的(independent): \forall x \in \textrm{x},y \in \textrm{y},p(\textrm{x}=x, \textrm{y}=y)=p(\textrm{x}=x)\cdot p(\textrm{y}=y)?x∈x,y∈y,p(x=x,y=y)=p(x=x)?p(y=y) 兩個相互獨立的隨機變量同時發(fā)生的概率可以通過各自發(fā)生的概率的乘積得到,。 如果關(guān)于 xx 和 yy 的條件概率分布對于 zz 的每一個值都可以寫成乘積的形式,那么這兩個隨機變量 xx 和 yy 在給定隨機變量 zz 時是條件獨立的(conditionally independent): \forall x \in ,y \in \textrm{y},z \in \textrm{z}, p(\textrm{x}=x, \textrm{y}=y|z \in \textrm{z})= p(\textrm{x}=x|z \in \textrm{z})\cdot p(\textrm{y}=y|z \in \textrm{z})?x∈,y∈y,z∈z,p(x=x,y=y∣z∈z)=p(x=x∣z∈z)?p(y=y∣z∈z) 采用一種簡化形式來表示獨立性和條件獨立性: \textrm{x}\perp \textrm{y}x⊥y 表示 \textrm{x}x 和 \textrm{y}y 相互獨立,,\textrm{x}\perp \textrm{y}|\textrm{z}x⊥y∣z 表示 \textrm{x}x 和 \textrm{y}y 在給定 \textrm{z}z 時條件獨立,。 3.7,,條件概率、聯(lián)合概率和邊緣概率總結(jié)
3.8,,期望,、方差和協(xié)方差
在概率分布中,,期望值和方差或標準差是一種分布的重要特征,期望,、數(shù)學(xué)期望,、均值都是一個意思。統(tǒng)計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù),,其意義和概率分布中的方差是不一樣的,。 3.8.1,期望在概率論和統(tǒng)計學(xué)中,,一個離散性隨機變量的期望值(或數(shù)學(xué)期望,,亦簡稱期望,物理學(xué)中稱為期待值)是試驗中每次可能的結(jié)果乘以其結(jié)果概率的總和,。換句話說,,期望值像是隨機試驗在同樣的機會下重復(fù)多次,所有那些可能狀態(tài)平均的結(jié)果,,也可理解為該變量輸出值的加權(quán)平均,。 期望數(shù)學(xué)定義如果 XX 是在概率空間 (\Omega ,F,P)(Ω,F,P) 中的隨機變量,那么它的期望值 \operatorname{E}(X)E(X) 的定義是: \operatorname {E}(X)=\int_{\Omega }X 3squ974rbPE(X)=∫Ω?XdP 并不是每一個隨機變量都有期望值的,,因為有的時候上述積分不存在,。如果兩個隨機變量的分布相同,則它們的期望值也相同,。 1,,如果 XX 是離散的隨機變量,輸出值為 x_{1},x_{2},\ldots x_{1},x_{2},\ldotsx1?,x2?,…x1?,x2?,…,,和輸出值相應(yīng)的概率為 {\displaystyle p_{1},p_{2},\ldots }p_{1},p_{2},\ldotsp1?,p2?,…p1?,p2?,…(概率和為 1),。 若級數(shù) \sum_{i}p_{i}x_{i}∑i?pi?xi? 絕對收斂,那么期望值 \operatorname {E}(X)E(X) 是一個無限數(shù)列的和。 \operatorname {E}(X)=\sum_{i}p_{i}x_{i}E(X)=∑i?pi?xi? 2,,如果 XX 是連續(xù)的隨機變量,,且存在一個相應(yīng)的概率密度函數(shù) f(x)f(x),若積分 \int _{-\infty }^{\infty }xf(x)\,\mathrm 3squ974rb x∫?∞∞?xf(x)dx 絕對收斂,,那么 XX 的期望值可以計算為: \operatorname {E} (X)=\int _{-\infty }^{\infty }xf(x)\,\mathrm 3squ974rb xE(X)=∫?∞∞?xf(x)dx 雖然是針對于連續(xù)的隨機變量的,,但與離散隨機變量的期望值的計算算法卻同出一轍,由于輸出值是連續(xù)的,,所以只是把求和改成了積分,。 期望值 EE 是線性函數(shù): \operatorname {E}(aX+bY)=a\operatorname {E}(X)+b\operatorname {E}(Y)E(aX+bY)=aE(X)+bE(Y) XX 和 YY 為在同一概率空間的兩個隨機變量(可以獨立或者非獨立),aa 和 bb 為任意實數(shù),。
期望應(yīng)用
總體均值數(shù)學(xué)定義一般而言,,一個有限的容量為 NN,、元素的值為 x_{i}xi? 的總體的總體均值為: \mu = \frac{\sum_i^N x_{i}}{N}μ=N∑iN?xi?? 3.8.2,方差在概率論和統(tǒng)計學(xué)中,,方差(英語:variance)又稱變異數(shù),、變方,描述的是一個隨機變量的離散程度,,即該變量離其期望值的距離,,是隨機變量與其總體均值或樣本均值的離差的平方的期望值。 方差差是標準差的平方,、分布的二階矩,,以及隨機變量與其自身的協(xié)方差,其常用的符號表示有 \sigma^2σ2,、s^2s2,、\operatorname {Var} (X)Var(X),、\displaystyle V(X)V(X),,以及 \displaystyle \mathbb {V} (X)V(X)。 方差作為離散度量的優(yōu)點是,它比其他離散度量(如平均差)更易于代數(shù)運算,,但缺點是它與隨機變量的單位不同,,而標準差則單位相同,這就是計算完成后通常采用標準差來衡量離散程度的原因,。
有兩個不同的概念都被稱為“方差”。一種如上所述,,是理論概率分布的方差,。而另一種方差是一組觀測值的特征,分別是總體方差(所有可能的觀測)和樣本方差(總體的一個子集),。 方差數(shù)學(xué)定義設(shè) XX 為服從分布 FF 的隨機變量,,如果 \operatorname{E}[X]E[X] 是隨機變量 XX 的期望值(均值 \mu=\operatorname{E}[X]μ=E[X]),則隨機變量 XX 或者分布 FF 的方差為 XX 的離差平方的期望值: \operatorname{E}(X) = \operatorname{E}[(X - \mu)]^2 = \operatorname{E}[X - \operatorname{E}(X)]^2E(X)=E[(X?μ)]2=E[X?E(X)]2 方差的表達式可展開如下: \begin{aligned} \operatorname{Var}(X) &=\operatorname{E} \left[(X-\operatorname {E} [X])^{2}\right] \\ &=\operatorname{E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname{E}[X]^{2}\right] \\ &=\operatorname{E} \left[X^{2}\right]-2\operatorname{E}[X]\operatorname{E}[X]+\operatorname{E}[X]^{2} \\ &=\operatorname{E} \left[X^{2}\right]-\operatorname{E}[X]^{2} \\ \end{aligned}Var(X)?=E[(X?E[X])2]=E[X2?2XE[X]+E[X]2]=E[X2]?2E[X]E[X]+E[X]2=E[X2]?E[X]2? 也就是說,,XX 的方差等于 XX 平方的均值減去 XX 均值的平方,。 總體方差數(shù)學(xué)定義一般而言,一個有限的容量為 NN,、元素的值為 x_{i}xi? 的總體的總體方差為: \sigma^{2} = {\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}-\mu \right)^{2}σ2=N1?∑i=1N?(xi??μ)2
3.8.3,期望與方差的運算性質(zhì)期望與方差運算性質(zhì)如下:
3.8.4,,協(xié)方差協(xié)方差也叫共變異數(shù)(英語:Covariance),在概率論與統(tǒng)計學(xué)中用于衡量兩個隨機變量的聯(lián)合變化程度,。 協(xié)方差數(shù)學(xué)定義期望值分別為 \operatorname E(X)=\muE(X)=μ 與 \operatorname E(Y)=\nuE(Y)=ν 的兩個具有有限二階矩的實數(shù)隨機變量 XX 與 YY 之間的協(xié)方差定義為: \operatorname {cov} (X,Y)=\operatorname {E} ((X-\mu )(Y-\nu ))=\operatorname {E} (X\cdot Y)-\mu \nucov(X,Y)=E((X?μ)(Y?ν))=E(X?Y)?μν 協(xié)方差表示的是兩個變量的總體的誤差,,這與只表示一個變量誤差的方差不同。 協(xié)方差的絕對值如果很大則意味著變量值變化很大并且它們同時距離各自的均值很 遠,。如果協(xié)方差是正的,,那么兩個變量都傾向于同時取得相對較大的值。如果協(xié)方 差是負的,,那么其中一個變量傾向于取得相對較大的值的同時,,另一個變量傾向于 取得相對較小的值,反之亦然,。其他的衡量指標如 相關(guān)系數(shù)(correlation)將每個變 量的貢獻歸一化,,為了只衡量變量的相關(guān)性而不受各個變量尺度大小的影響。 3.9,,常用概率分布下表列出了一些常用概率分布的方差,。 3.9.1,,伯努利分布伯努利分布(英語:Bernoulli distribution),又名兩點分布或者 0-1 分布,,是一個離散型概率分布,,為紀念瑞士科學(xué)家雅各布·伯努利而命名。若伯努利試驗成功,,則伯努利隨機變量取值為 1,。若伯努利試驗失敗,則伯努利隨機變量取值為 0,。記其成功概率為 0\leq p\leq 10≤p≤1,,失敗概率為 q = 1-pq=1?p。其有如下性質(zhì):
f_{X}(x) = p^{x}(1-p)^{1-x} = \left\lbrace\begin{matrix} p \quad if \;x = 1 \\ 1-p \quad if \; x = 0 \end{matrix}\right.fX?(x)=px(1?p)1?x={pifx=11?pifx=0?
\operatorname {E} [X] = \sum_{i=0}^{1} x_{i}f_X(x) = 0 + p = pE[X]=i=0∑1?xi?fX?(x)=0+p=p
\begin{aligned} Var[X] &= \sum_{i=0}^{1} (x_{i}-\operatorname {E} [X])^2f_{X}(x) \\ &= (0-P)^2(1-P) + (1-P)^2P \\ &= p(1-p) \\ &= p\cdot q \\ \end{aligned}Var[X]?=i=0∑1?(xi??E[X])2fX?(x)=(0?P)2(1?P)+(1?P)2P=p(1?p)=p?q? 3.9.2,,Multinoulli 分布Multinoulli 分布(多項式分布,,也叫范疇分布 categorical dis- tribution)是一種離散概率分布,它描述了隨機變量的可能結(jié)果,,該隨機變量可以采用 kk 個可能類別之一,,概率為每個類別分別指定,其中 kk 是一個有限值,。 3.9.3,,高斯分布
高斯分布 Gaussian distribution(也稱正態(tài)分布 Normal distribution)是一個非常常見的連續(xù)概率分布。高斯分布在統(tǒng)計學(xué)上十分重要,,經(jīng)常用在自然和社會科學(xué)來代表一個不確定的隨機變量,。 若隨機變量 XX 服從一個位置參數(shù)為 \muμ 、尺度參數(shù)為 \sigmaσ 的正態(tài)分布,,記為: X \sim N(\mu,\sigma^2)X~N(μ,σ2) 則其概率密度函數(shù)為 f(x;\mu, \sigma) = \frac {1}{\sigma {\sqrt {2\pi }}}\;e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}f(x;μ,σ)=σ2π?1?e?2σ2(x?μ)2?,。 正態(tài)分布的數(shù)學(xué)期望值 \muμ 等于位置參數(shù),決定了分布的位置,;其方差 \sigma^2σ2 的開平方或標準差 \sigmaσ 等于尺度參數(shù),,決定了分布的幅度。 正態(tài)分布概率密度函數(shù)曲線呈鐘形,,也稱之為鐘形曲線(類似于寺廟里的大鐘,,因此得名)。我們通常所說的標準常態(tài)分布是位置參數(shù) \mu = 0μ=0,,尺度參數(shù) \sigma ^{2} = 1σ2=1 的正態(tài)分布(見右圖中紅色曲線),。 采用正態(tài)分布在很多應(yīng)用中都是一個明智的選擇。當我們由于缺乏關(guān)于某個實 數(shù)上分布的先驗知識而不知道該選擇怎樣的形式時,,正態(tài)分布是默認的比較好的選擇,,其中有兩個原因,。
3.9.4,,指數(shù)分布和 Laplace 分布在概率論和統(tǒng)計學(xué)中,指數(shù)分布(Exponential distribution)是一種連續(xù)概率分布,,表示一個在 x = 0x=0 點處取得邊界點 (sharp point) 的分布,,其使用指示函數(shù)(indicator function) 1_{x\geq0}1x≥0? 來使得當 xx 取負值時的概率為零。指數(shù)分布可以等同于形狀母數(shù) \alphaα為 11的伽瑪分布,。 指數(shù)分布可以用來表示獨立隨機事件發(fā)生的時間間隔,,比如旅客進入機場的時間間隔、電話打進客服中心的時間間隔等,。 若隨機變量 XX 服從母數(shù)為 \lambdaλ 或 \betaβ 的指數(shù)分布,,則記作 X\sim {\text{Exp}}(\lambda )X~Exp(λ) 或 X\sim {\text{Exp}}(\beta )X~Exp(β) 兩者意義相同,只是 \lambdaλ 與 \betaβ 互為倒數(shù)關(guān)系,。指數(shù)分布的概率密度函數(shù)為: f(x;{\color {Red}\lambda })=\left\lbrace{\begin{matrix}{\color {Red}\lambda }e^{-{\color {Red}\lambda }x}&x\geq 0,\\0&,\;x<0.\end{matrix}}\right.f(x;λ)={λe?λx0?x≥0,,x<0.? 指數(shù)分配概率密度函數(shù)曲線如下所示,。 3.10,常用函數(shù)的有用性質(zhì)深度學(xué)習(xí)中的概率分布有一些經(jīng)常出現(xiàn)的函數(shù),,比如 logistic sigmoid 函數(shù): \sigma(x) = \frac{1}{1+exp(-x)}σ(x)=1+exp(?x)1? logistic sigmoid 函數(shù)通常用來產(chǎn)生伯努利分布的參數(shù) pp,,因為它的范圍是 (0, 1)(0,1),位于 pp 參數(shù)值的有效范圍內(nèi),。下圖 3.3 給出了 sigmoid 函數(shù)的圖示,。從圖中可以明顯看出,sigmoid 函數(shù)在變量取絕對值非常大的正值或負值時會出現(xiàn)飽和(saturate)現(xiàn)象,,意味著函數(shù)會變得很平,,并且對輸入的微小改變會變得不敏感。 sigmoid 函數(shù)的一些性質(zhì)在后續(xù)學(xué)習(xí) BP 算法等內(nèi)容時會很有用,,我們需要牢記: \begin{aligned} \sigma(x) &= \frac{exp(x)}{exp(x)+exp(0)} \\ \frac3squ974rb{dx}\sigma(x) &= \sigma(x)(1 - \sigma(x)) \\ 1 - \sigma(x) &= \sigma(-x) \\ \end{aligned}σ(x)dxd?σ(x)1?σ(x)?=exp(x)+exp(0)exp(x)?=σ(x)(1?σ(x))=σ(?x)? 3.11,,貝葉斯定理
貝葉斯定理(英語:Bayes' theorem)是概率論中的一個定理,,描述在已知一些條件下,某事件的發(fā)生概率,。比如,,如果已知某種健康問題與壽命有關(guān),,使用貝葉斯定理則可以通過得知某人年齡,來更加準確地計算出某人有某種健康問題的概率,。 通常,,事件 A 在事件 B 已發(fā)生的條件下發(fā)生的概率,與事件 B 在事件 A 已發(fā)生的條件下發(fā)生的概率是不一樣的,。但是,,這兩者是有確定的關(guān)系的,貝葉斯定理就是這種關(guān)系的陳述,。貝葉斯公式的一個用途,,即透過已知的三個概率而推出第四個概率。貝葉斯定理跟隨機變量的條件概率以及邊際概率分布有關(guān),。 作為一個普遍的原理,,貝葉斯定理對于所有概率的解釋是有效的。這一定理的主要應(yīng)用為貝葉斯推斷,,是推論統(tǒng)計學(xué)中的一種推斷法,。這一定理名稱來自于托馬斯·貝葉斯。
3.11.1,,貝葉斯定理公式貝葉斯定理是關(guān)于隨機事件 A 和 B 的條件概率的一則定理,。 P(A\mid B)={\frac {P(A)P(B\mid A)}{P(B)}}P(A∣B)=P(B)P(A)P(B∣A)? 其中 A 以及 B 為隨機事件,且 P(B)P(B) 不為零,。P(A\mid B)P(A∣B) 是指在事件 B 發(fā)生的情況下事件 A 發(fā)生的概率,。 在貝葉斯定理中,每個名詞都有約定俗成的名稱:
3.11.2,,貝葉斯理論與概率密度函數(shù)貝葉斯理論亦可用于概率分布,,貝葉斯理論與概率密度的關(guān)系是由求極限的方式建立: P(\textrm{x}|\textrm{y}) = \frac{P(\textrm{x})P(\textrm{y}|\textrm{x})}{P(\textrm{y})}P(x∣y)=P(y)P(x)P(y∣x)? 注意到 P(y)P(y) 出現(xiàn)在上面的公式中,它通常使用 P(\textrm{y}) = \sum_{x} P(\textrm{y}|x)P(x)P(y)=∑x?P(y∣x)P(x) 來計算所以我們并不需要事先知道 P(\textrm{y})P(y) 的信息,。
3.12,,連續(xù)型變量的技術(shù)細節(jié)連續(xù)型隨機變量和概率密度函數(shù)的深入理解需要用到數(shù)學(xué)分支測度論(measure theory)的相關(guān)內(nèi)容來擴展概率論,,測度論超出了本書范疇。 原書中有測度論的簡要介紹,,本筆記不做記錄和摘抄,,感興趣的可以閱讀原書。 3.13,,信息論-相對熵和交叉熵信息論是應(yīng)用數(shù)學(xué),、電子學(xué)和計算機科學(xué)的一個分支,早期備用在無線通信領(lǐng)域,。在深度學(xué)習(xí)中,主要是使用信息論的一些關(guān)鍵思想來表征(characterize)概率分布或者量化概率分布之間的相似性,。 信息論的基本想法是一個不太可能的事件居然發(fā)生了,,要比一個非常可能的事件發(fā)生,,能提供更多的信息,。 定義一個事件 \textrm{x} = xx=x 的自信息(self-information) 為 I(x) = -\text{log}P(x)I(x)=?logP(x) 在本文中,我們總是用 \text{log}log 來表示自然對數(shù),,其底數(shù)為 ee,。因此我們定義的 I(x)I(x) 單位是奈特(nats)。一奈特是以 \frac{1}{e}e1? 的概率觀測到一個事件時獲得的信息量,。其他的材料中可能使用底數(shù)為 2 的對數(shù),,單位是比特(bit)或者香農(nóng)(shannons); 通過比特度量的信息只是通過奈特度量信息的常數(shù)倍。 自信息只處理單個的輸出,。我們可以用香農(nóng)熵(Shannon entropy)來對整個概率分布中的不確定性總量進行量化: H(P) = H(\textrm{x}) = E_{x~P}[I(x)] = ?E_{x~P}[log P(x)]H(P)=H(x)=Ex~P?[I(x)]=?Ex~P?[logP(x)] 換句話說,,一個概率分布的香農(nóng)熵是指遵循這個分布的事件所產(chǎn)生的期望信息總量。 如果我們對于同一個隨機變量 \textrm{x}x 有兩個單獨的概率分布 P(\textrm{x})P(x) 和 Q(\textrm{x})Q(x),,則可以用 KL 散度( Kullback-Leibler (KL) divergence,,也叫相對熵)來衡量這兩個概率分布的差異: D_{KL}(P\parallel Q) = \mathbb{E}_{\textrm{x}\sim p}\begin{bmatrix} log \frac{P(x)}{Q(x)} \end{bmatrix} = \mathbb{E}_{\textrm{x}\sim p}[log P(x) - log Q(x)]DKL?(P∥Q)=Ex~p?[logQ(x)P(x)??]=Ex~p?[logP(x)?logQ(x)] KL 散度有很多有用的性質(zhì),最重要的是它是非負的,。KL 散度為 0 當且僅當 PP 和 QQ 在離散型變量的情況下是相同的概率分布,,或者在連續(xù)型變量的情況下是 “幾乎處處” 相同的。 一個和 KL 散度密切聯(lián)系的量是交叉熵(cross-entropy)H(P, Q) = H(P) + D_{KL}(P||Q)H(P,Q)=H(P)+DKL?(P∣∣Q),,其計算公式如下: H(P, Q) = -\mathbb{E}_{\textrm{x}\sim p}log Q(x)H(P,Q)=?Ex~p?logQ(x) 和 KL 散度相比,,少了左邊一項,即熵 H(P)H(P),??梢钥闯觯钚』?KL 散度其實就是在最小化分布之間的交叉熵,。
3.14,結(jié)構(gòu)化概率模型略 參考資料
|
|