本文討論的是信號(hào)處理中用到的概率模型(Probabilistic Models),,主要目的是為了了解概率模型相關(guān)的基礎(chǔ)概念,,以供后續(xù)文章展開更為深入的討論,。 符號(hào)定義首先規(guī)定概率模型所采用的符號(hào),。概率模型所設(shè)計(jì)的基礎(chǔ)符號(hào)分為三個(gè)部分: 1. Sample Space 樣本空間,,也就是一個(gè)概率模型的總空間,,用Ψ表示,,采樣空間內(nèi)包含了所有可能的outcome(輸出)ψ。每一次experiment(實(shí)驗(yàn))能產(chǎn)生一個(gè)輸出 2. Event Algebra 事件代數(shù),,通常簡稱為event(事件),,表示的是采樣空間內(nèi)某些輸出的集合。如果在實(shí)驗(yàn)中產(chǎn)生的一個(gè)輸出屬于某個(gè)事件,,我們可以理解為發(fā)生了該事件。按照這種說法,,Ψ是一個(gè)必然事件,,?是一個(gè)不可能事件。 3. Probability Measure 概率測(cè)度,。對(duì)于事件A,,其概率為P(A)。 (a) P(A)≥0 (b) P(Ψ)=1 (c) A∩B=??P(A∪B)=P(A)+P(B) 畫圖能使得概率模型更容易理解 貝葉斯規(guī)則Bayes'Rule貝葉斯公式有事件A與B,,兩者的概率分別為P(A)與P(B),,它們?cè)跇颖究臻g有如下表示 在事件B已發(fā)生的情況下,事件A出現(xiàn)的概率記為P(A|B),。對(duì)照上方的樣本空間,,可以發(fā)現(xiàn)事件P(A|B)就是事件A∩B占事件B的比率。 P(A|B)?P(A∩B)P(B),P(B)≠0 反過來有: P(A∩B)=P(A|B)P(B) 同理也能得到 P(A∩B)=P(B|A)P(A) 把上面兩個(gè)式子組合起來就能得到貝葉斯的一個(gè)公式 P(B|A)=P(A|B)P(B)P(A) 獨(dú)立事件如果事件A與B的概率滿足以下條件,,我們就認(rèn)為兩者相互獨(dú)立 P(A|B)=P(A)orP(A∩B)=P(A)P(B) 即事件A在整個(gè)樣本空間內(nèi)的概率為P(A),,事件A在樣本空間B內(nèi)的概率仍然是P(A)。 隨機(jī)變量Random Variables由于輸出ψ只是集合Ψ中的元素,,為了方便進(jìn)行數(shù)學(xué)上的分析,,我們需要把ψ映射到實(shí)數(shù)X(ψ),該實(shí)數(shù)被稱為隨機(jī)變量,,通常稱為隨機(jī)變量X,,請(qǐng)注意這是一個(gè)變量。 Outcome(輸出)有可能是離散的,,如拋一次硬幣只能是正面或者反面,;也有可能是連續(xù)的,如在記錄某時(shí)刻的溫度時(shí),,溫度可以是某個(gè)溫度區(qū)間內(nèi)的任何值,。因此有以下隨機(jī)變量 離散隨機(jī)變量(Discrete Random Variable) X={1,heads0,tails 連續(xù)隨機(jī)變量(Continuous Random Variable) X=the exact temprature detected at 12:00 am 上面分別是離散以及連續(xù)輸出到隨機(jī)變量X的映射,,X表示的是一個(gè)可能的取值,如上面的離散的情況取值可能為0或者1,,而連續(xù)的情況取值則可能為區(qū)間上的任意一個(gè)值,。 概率的相關(guān)函數(shù)累計(jì)分布函數(shù)Cumulative Distribution Functions累計(jì)分布函數(shù)(CDF)的輸出是從?∞到變量x的累計(jì)概率 FX(x)=P(X≤x) 因此有 P(a<X≤b)=FX(b)–FX(a) CDF在負(fù)無窮端的值為FX(?∞)=0,在正無窮端的值為FX(∞)=1,。 如上圖是CDF的一個(gè)例子,。在點(diǎn)x1處的概率為P(X=x1)=FX(x1)?FX(x1?),由此可見上圖中P(X=0)=1,。 結(jié)合貝葉斯公式,,有 FX|L(x|Li)=P(X≤x|L=Li)=P(X≤x,L=Li)P(L=Li) FX|L(x|Li)表示的是已知L=Li的情況下的CDF。 概率密度函數(shù)Probability Density Functions對(duì)CDF求導(dǎo)就可以得到概率密度函數(shù)PDF,。 fX(x)=dFX(x)dx PDF不可能輸出負(fù)值,,因?yàn)镃DF是一個(gè)非遞減的函數(shù)。如果CDF像上圖一樣非連續(xù),,那么PDF在非連續(xù)點(diǎn)處的值就是一個(gè)脈沖(Dirac impulse),。 按照PDF的定義,有 P(a<X≤b)=FX(x)|ba=∫bafX(x)dx 在x點(diǎn)處的的概率為 P(x)=∫xx?dxfX(x)dx≈fX(x)dx 概率質(zhì)量函數(shù)Probability Mass Function如果概率模型的隨機(jī)變量X是離散的,,該概率模型的PDF將會(huì)如上圖一樣,,只會(huì)在特定的值上出現(xiàn)脈沖,其余的值為0,。這種情況用PMF就能表示,,PMF是一個(gè)離散函數(shù),只需要記錄某點(diǎn)上的概率 pX(xj)=P(X=xj) 上面的例子用PMF來表示如下圖 聯(lián)合分布隨機(jī)變量Jointly Distributed Random Variables定義概率模型通常都有多個(gè)隨機(jī)變量,,如下是有兩個(gè)隨機(jī)變量X與Y的概率模型的CDF FX,Y(x,y)=P(X≤x,Y≤y) 對(duì)應(yīng)的PDF為 fX,Y(x,y)=?2FX,Y(x,y)?x?y 單邊PDF fX(x)的定義就是隨機(jī)變量X的PDF,,它跟聯(lián)合密度函數(shù)fX,Y(x,y)之間的關(guān)系是 fX(x)=∫∞?∞fX,Y(x,y)dy 同樣,fY(y)也有這種關(guān)系,。 概率表達(dá)在點(diǎn)(x,y)上的概率為 P(x,y)≈fX,Y(x,y)dxdy 貝葉斯規(guī)則在已知Y=y(事件B)的情況下,,發(fā)生X=x(事件A)的概率為 P(A|B)=P(X=x|Y=y)=FX|Y(X=x|Y=y) 同時(shí)又有 P(A|B)=P(A∩B)P(B)=P(X=x,Y=y)P(Y=y)=fX,Y(x,y)dxdyfY(y)dy 如果我們假設(shè)隨機(jī)變量Y已經(jīng)確定Y=y,那么P(X|Y=y)=FX|Y(X|Y=y)就是一個(gè)關(guān)于隨機(jī)變量X的函數(shù),,該函數(shù)對(duì)x求導(dǎo)得到的是:已知Y=y的情況下,,隨機(jī)變量X的概率密度函數(shù)fX|Y(X|Y=y),有下面的式子 fX|Y(x|y)=dFX|Y(X=x,Y=y)dx=fX,Y(x,y)dxdyfY(y)dydx=fX,Y(x,y)fY(y) 進(jìn)一步推導(dǎo)還能得到 P(B|A)=fX,Y(x,y)dxdyfX(x)dx=fX,Y(x,y)dyfX(x)=fX|Y(x|y)fY(y)dyfX(x)=fX|Y(x|y)P(Y=y)fX(x)=fX|Y(x|y)P(B)fX(x) 獨(dú)立事件如果包含隨機(jī)變量X與Y的聯(lián)合分布的CDF或者PDF滿足如下條件,,則X與Y所屬的事件相互獨(dú)立 f_{X,Y}(x,y) = f_X(x)f_Y(y) F_{X,Y}(x,y) = F_X(x)F_Y(y) 期望(Expectations),、矩(Moments)以及方差(Variance)期望The expectation — also termed the expected or mean or average value, or the first-moment — of the real-valued random variable X is denoted by E[X] or \overline{X} or \mu_X, and defined as E[X] = \overline{X} = \mu_X = \displaystyle{\int_{\infty}^{\infty}xf_X(x)dx} 期望具有線性性質(zhì) \begin{align*}E[X+Y] &=\int_{-\infty}^{\infty}xf_{X+Y}(x)dx\\ &=\int_{-\infty}^{\infty}x\Big(f_X(x)+f_Y(x)\Big)dx\\ &=\int_{-\infty}^{\infty}xf_X(x)dx+\int_{-\infty}^{\infty}xf_Y(x)dx\\ &=E[X]+E[Y] \end{align*} 方差The variance or centered second-moment of the random variable X is denoted by \sigma^2 and defined as \begin{align*}\sigma^2 &=E[(X-\mu_X)^2]\\ &= E[X^2-2X\mu_X+\mu_X^2]\\ &= E[X^2]-2\mu_XE[X]+\mu_X^2\\ &= E[X^2]-2\mu_X^2+\mu_X^2\\ &= E[X^2]-\mu_X^2 \end{align*} We refer to E[X2] as the second-moment of X. 貝葉斯規(guī)則我們這里主要是為了推導(dǎo)得到一條公式 \color{red}{E[X] = E_{Y}[E_{X|Y}[X|Y]]} 其中E_{X|Y}[X|Y],即E[X|Y]表示是已知隨機(jī)變量Y所代表的事件發(fā)生的情況下,,隨機(jī)變量X的期望值,。按照期望的定義有如下公式 \begin{align*} E[X|Y] &= \int_{-\infty}^{\infty}xf_{X|Y}(x|y)dx\\ &=\int_{-\infty}^{\infty}x\frac{f_{X,Y}(x,y)}{f_Y(y)}dx\\ &=g(y) \end{align*} 因此E[X|Y]是一個(gè)以y為變量的函數(shù),我們可以認(rèn)為是:在Y=y的前提下,,隨機(jī)變量X的期望值是與y有關(guān)的,。 證明: \begin{align*} E_{Y}[E_{X|Y}[X|Y]] &=\int_{-\infty}^{\infty}g(y)f_Y(y)dy\\ &= \int_{-\infty}^{\infty}\left\{\int_{-\infty}^{\infty}xf_{X|Y}(x|y)dx\right\}f_Y(y)dy\\ &=\int_{-\infty}^{\infty}\left\{\int_{-\infty}^{\infty}x\frac{f_{X,Y}(x,y)}{f_Y(y)}dx\right\}f_Y(y)dy\\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xf_{X,Y}(x,y)dxdy\\ &=\int_{-\infty}^{\infty}x\int_{-\infty}^{\infty}f_{X,Y}(x,y)dydx\\ &=\int_{-\infty}^{\infty}xf_X(x)dx\\ &=E[X] \end{align*} 這說明我們?cè)诓恢?span>f_X(x)的情況下,,通過f_Y(y)以及g(y)就能得到隨機(jī)變量X的期望值。 獨(dú)立事件有兩個(gè)隨機(jī)變量分別為Y,Z,,令X=h(Y,Z),,那么X也是一個(gè)隨機(jī)變量,其期望為E[X]?,F(xiàn)假設(shè)h(y,z) = g(y)\ell(z),,并且Y與Z相互獨(dú)立,因此有 \begin{align*} E[X]&= E[g(y)\ell(z)] \\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(y)\ell(z)f_{Y,Z}(y,z)dydz\\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(y)\ell(z)f_{Y}(y)f_{Z}(z)dydz\\ &=\int_{-\infty}^{\infty}g(y)f_Y(y)dy\int_{-\infty}^{\infty}\ell(z)f_Z(z)dz\\ &=E[g(y)]E[\ell(z)] \end{align*} 相關(guān)性與協(xié)方差 correlation and covariance在對(duì)隨機(jī)變量進(jìn)行處理時(shí),,很多情況下都無法知道該隨機(jī)變量的PDF,,此時(shí)我們只能通過expectation以及variance對(duì)隨機(jī)變量進(jìn)行描述,expectation代表的是隨機(jī)變量的location,,即隨機(jī)變量的中心點(diǎn),;variance代表的是隨機(jī)變量的spread,即隨機(jī)變量的擴(kuò)散程度,。這兩個(gè)值我們能通過對(duì)隨機(jī)變量的反復(fù)實(shí)驗(yàn)然后求得,。 而對(duì)于聯(lián)合分布的隨機(jī)變量(X,Y),我們能得到其location為(E[X],E[Y]),,不過spread就比較難表達(dá)了,,因?yàn)?span>\sigma_X以及\sigma_Y都只是單個(gè)隨機(jī)變量的方差,,而X與Y之間也有可能存在某種相關(guān)關(guān)系,,因此聯(lián)合分布的spread不應(yīng)該把隨機(jī)變量分開進(jìn)行單獨(dú)討論。 聯(lián)合隨機(jī)變量的location與spread為了表達(dá)聯(lián)合分布的spread,,下面我們假設(shè)有一個(gè)隨機(jī)變量Z,有 Z=\alpha X + \beta Y 其中\alpha與\beta分別為隨機(jī)變量X與Y的系數(shù),,可以選任意常數(shù),。上面關(guān)于隨機(jī)變量Z的式子也能看作是一條關(guān)于X與Y的直線,當(dāng)選取固定的Z后,,在X,Y平面上就能得到一條直線,,而通過改變Z就能覆蓋整個(gè)X,Y平面。 經(jīng)過該直線并垂直于XY平面的平面與聯(lián)合PDF曲面相交所得的曲線,,展示的就是當(dāng)Z取某個(gè)固定值時(shí),,隨機(jī)變量X與Y的取值的概率。對(duì)該曲線進(jìn)行積分能得到Z取該固定值的概率,。比如說 P_Z(z=0) = \displaystyle{\int_{\alpha x+\beta y=0}f_{X,Y}(x,y)dxdy} 不過這并不是我們要討論的重點(diǎn),。 對(duì)于隨機(jī)變量Z,有expectation為 E[Z] = E[\alpha X + \beta Y] = \alpha E[X] + \beta E[Y] 有variance為 \begin{align*} \sigma_Z^2 &= E[(Z-E[Z])^2]\\ &=E[Z^2-2E[Z]Z+(E[Z])^2]\\ &=E[Z^2]-2(E[Z])^2+(E[Z])^2\\ &=E[Z^2]-(E[Z])^2\\ &=E[(\alpha X+\beta Y)^2]-(\alpha E[X]+\beta E[Y])^2\\ &=E[\alpha^2X^2+2\alpha\beta XY+\beta^2Y^2]-\Big\{\alpha^2(E[X])^2+\beta^2(E[Y])^2+2\alpha\beta E[X]E[Y]\Big\}\\ &=\alpha^2 E[X^2]+2\alpha\beta E[XY]+\beta^2E[Y^2]-\alpha^2(E[X])^2-2\alpha\beta E[x]E[Y]-\beta^2(E[Y])^2\\ &=\alpha^2\Big\{E[X^2]-(E[X])^2\Big\}+\beta^2\Big\{E[Y^2]-(E[Y])^2\Big\}+2\alpha\beta\Big\{E[XY]-E[X]E[Y]\Big\}\\ &=\alpha^2\Big\{E[(X-E[X])^2]\Big\}+\beta^2\Big\{E[(Y-E[Y])^2]\Big\}+2\alpha\beta\Big\{E[(X-E[X])(Y-E[Y])]\Big\}\\ &=\alpha^2\sigma_X^2+\beta^2\sigma_Y^2+2\alpha\beta\sigma_{X,Y} \qquad letting\ \sigma_{X,Y}=E[(X-E[X])(Y-E[Y])] \end{align*} 其中\sigma_{X,Y}被稱為covariance,,記為C_{X,Y}或者cov(X,Y)有 \color{red}{\sigma_{X,Y} =C_{X,Y}= E[(X-E[X])(Y-E[Y])] = E[XY]-E[X]E[Y]} E[XY]被稱為correlation,,記為R_{X,Y},。 \color{red}{R_{X,Y} = E[XY]} 根據(jù)前面的推導(dǎo),只要我們知道\sigma_X^2,\sigma_Y^2,\sigma_{X,Y}的值,,就能得到聯(lián)合隨機(jī)變量的spread,。這其中只有\sigma_{X,Y}是新出現(xiàn)的概念。另外,,從前面的推導(dǎo)中我們又能得知\sigma_{X,Y}可以通過R_{X,Y}計(jì)算得到,。 相關(guān)系數(shù)correlation coefficient \rho\rho的定義前面已經(jīng)得到隨機(jī)變量Z的variance為 \sigma_Z^2 = \alpha^2\sigma_X^2+\beta^2\sigma_Y^2+2\alpha\beta\sigma_{X,Y} 我們這里把\sigma_Z^2作為縱軸,\alpha作為橫軸,,其余參數(shù)當(dāng)成常量,,得到一個(gè)一元二次方程。 由于variance必定大于0,,因此有 \frac{-(b^2-4ac)}{4a}=\frac{-[(2\beta\sigma_{X,Y})^2-4\sigma_X^2 \beta^2\sigma_Y^2]}{4\beta^2\sigma_X^2}=\frac{\beta^2\sigma_X^2\sigma_Y^2-\beta^2\sigma_{X,Y}^2}{\sigma_X^2}\geq 0 整理可得到 \color{red}{|\rho| = \left|\frac{\sigma_{X,Y}}{\sigma_X \sigma_Y}\right|\leq 1} \rho就是correlation coefficient,,雖然我們把它叫做correlation coefficient,不過從上面的式子看來,,\rho跟covariance的關(guān)系更密切,。 \rho其實(shí)就相當(dāng)于對(duì)covariance進(jìn)行了標(biāo)準(zhǔn)化。隨機(jī)變量標(biāo)準(zhǔn)化后的隨機(jī)變量的expectation為0,,variance為1,,即 V = \frac{X-\mu_X}{\sigma_X},\qquad W = \frac{Y=\mu_X}{\sigma_Y} expectation以及variance的變化如下 E[V] = E\left[\frac{X-\mu_X}{\sigma_X}\right] = \frac{E[X]-\mu_X}{\sigma_X}=0 \sigma_V^2=E[(V-E[V])^2]=E[V^2]=E\left[\frac{(X-\mu_X)^2}{\sigma_X^2}\right]=E\left[\frac{\sigma_X^2}{\sigma_X^2} \right ]=1 correlation coefficient的變化如下 \begin{align*}\sigma_{V,W}&=E[VW]-E[V]E[W]=E[VW]\\ &=E\left[\frac{X-\mu_X}{\sigma_X}\cdot\frac{Y-\mu_Y}{\sigma_Y}\right]\\ &=E\left[\frac{XY-X\mu_Y-Y\mu_X+\mu_X\mu_Y}{\sigma_X\sigma_Y}\right]\\ &=\frac{E[XY]-E[X]E[Y]}{\sigma_X\sigma_Y}\\ &=\frac{\sigma_{X,Y}}{\sigma_X\sigma_Y}\end{align*} 這也證明了即使隨機(jī)變量加上或者乘以一個(gè)常數(shù),這并不會(huì)改變其correlation coefficient,。 \rho的實(shí)際意義我們?nèi)菀字纁orrelation的值E[XY]如果大于0,,則表明X與Y傾向于有相同的符號(hào);如果correlation的值小于0,,則表明X與Y傾向于有相反的符號(hào),。那么對(duì)于\sigma_{X,Y} = E[(X-\mu_X)(Y-\mu_Y)],如果大于0,,則表明X-\mu_X與Y-\mu_Y傾向于有相同的符號(hào),,當(dāng)X=Y時(shí),\sigma_{X,X}=\sigma_X^2,,反之亦然,。 同理,\rho作為covariance的標(biāo)準(zhǔn)化的值
相關(guān)性的向量空間分析從隨機(jī)變量到向量空間的轉(zhuǎn)換規(guī)則我們可以把隨機(jī)變量看作向量,把correlation看作向量的內(nèi)積,,內(nèi)積用尖括號(hào)來表示,。因此有 <\textbf{X}, \textbf{Y}> = E[XY] = R_{X,Y} 內(nèi)積滿足交換律以及分配律 <\textbf{X},\textbf{Y}> = <\textbf{Y}, \textbf{X}> <\textbf{X},a_1 \textbf{Y}_1+a_2 \textbf{Y}_2>=a_1<\textbf{X},\textbf{Y}_1>+a_2<\textbf{X},\textbf{Y}_2> 如果兩個(gè)向量正交,那么他們的內(nèi)積為0 <\textbf{X},\textbf{Y}>=E[XY]=0 向量的長度,,也就是向量的模為 \left\|\textbf{X}\right\|=\sqrt{<\textbf{X},\textbf{X}>}=\sqrt{E[X^2]} 實(shí)用的向量空間下面我們令向量\widetilde{\textbf{X}}以及\widetilde{\textbf{Y}}分別為 \widetilde{\textbf{X}}=X-\mu_X ,\qquad \widetilde{\textbf{Y}}=Y-\mu_Y 這兩個(gè)向量的模分別為 ||\widetilde{\textbf{X}}||=\sqrt{E[(X-\mu_X)^2]}=\sigma_X,\qquad ||\widetilde{\textbf{Y}}||=\sqrt{E[(Y-\mu_Y)^2]}=\sigma_Y 那么這兩個(gè)向量的內(nèi)積就是 <\widetilde{\textbf{X}}, \widetilde{\textbf{Y}}>=E[(X-\mu_X)(Y-\mu_Y)]=\sigma_{X,Y} 按照向量的定義,,內(nèi)積與模之間有如下關(guān)系 <\widetilde{\textbf{X}},\widetilde{\textbf{Y}}>=||\widetilde{\textbf{X}}|| \cdot||\widetilde{\textbf{Y}}||\cdot cos(\theta) 即 \sigma_{X,Y}=\sigma_X \sigma_Y cos(\theta) 其中\theta為向量\widetilde{\textbf{X}}與向量\widetilde{\textbf{Y}}之間的夾角。根據(jù)前面已得到的結(jié)論,,我們得知\rho=cos(\theta),,而又由于\rho滿足-1\leq \rho \leq 1,因此把隨機(jī)變量推廣到向量空間的這種做法正好合適,。 在該這里假設(shè)的向量空間中,,\omega_{X,Y}=0表明\widetilde{\textbf{X}}與向量\widetilde{\textbf{Y}}正交。 Reference: Alan V. Oppenheim: Signals, Systems and Inference, Chapter 7: Probabilistic Models |
|