概率論要解決的問題 概率論是很古老的數(shù)學(xué)分支了——探討的是不確定的問題,,就是說,,一件事情可能發(fā)生,,也可能不發(fā)生,。然后,,我們要預(yù)計(jì)一下,它有多大機(jī)會(huì)會(huì)發(fā)生,,這是 概率論要解決的問題,。這里面要特別強(qiáng)調(diào)概率和統(tǒng)計(jì)的區(qū)別,事實(shí)上這個(gè)區(qū)別在很多文章里面被混淆了,。舉一個(gè)簡單的例子,,比如拋硬幣。那么我們可以做兩件事 情:
這篇文章只討論概率論的問題,。 經(jīng)典概率的困難 什么是概率呢,?長期以來,一個(gè)傳統(tǒng)而直到今天還被廣泛運(yùn)用的概念是:概率就是一個(gè)事情發(fā)生的機(jī)會(huì)——這就是經(jīng)典概率論的出發(fā)點(diǎn)和基礎(chǔ),。大部門的初等 概率論教科書,,給出一個(gè)貌似頗為嚴(yán)謹(jǐn)?shù)亩x:我們有一個(gè)樣本空間(sample space),然后這個(gè)樣本空間中任何一個(gè)子集叫做事件(event),,我們給每個(gè)事件A賦一個(gè)非負(fù)實(shí)數(shù)P(A),。如果P(A)滿足
那么我們就稱P為概率,。這個(gè)定義,,以及由此而演繹出來的整個(gè)經(jīng)典概率體系,廣為接受并被成功用在無數(shù)的地方,。 但是,,這樣的定義藏著一個(gè)隱蔽很深的漏洞——使得從這個(gè)定義出發(fā)能在數(shù)學(xué)上嚴(yán)格導(dǎo)出互相矛盾的結(jié)果。假設(shè)樣本空間是S=[0, 1],,里面的實(shí)數(shù)依循均勻分布,,我們構(gòu)造這樣一個(gè)集合。首先,,建立一個(gè)等價(jià)關(guān)系:相差值是有理數(shù)的實(shí)數(shù)是等價(jià)的,。依據(jù)這個(gè)等價(jià)關(guān)系,把0到1之間的實(shí)數(shù)劃 分為等價(jià)類,,這樣我們有無數(shù)個(gè)等價(jià)類,。從每個(gè)等價(jià)類中隨便抽出一個(gè)實(shí)數(shù)作為代表,,這些代表構(gòu)成一個(gè)集合,,記為H。(注意:我們有不可數(shù)無限個(gè)等價(jià)類,,因此 這個(gè)集合的存在依賴于選擇公理(Axiom of Choice)) 那么P(H) 是什么呢,?如果P(H)等于零,那么P(S) = 0,;如果P(H) > 0,,那么P(S) = 無窮大。無論如何,,都和P(S) = 1的要求矛盾,。這下麻煩大了,我們一直依賴的概率定義竟然是自相矛盾的,! 也許,,從數(shù)學(xué)家的眼光看來,這個(gè)問題很嚴(yán)重,。但是,,這對(duì)于我們有什么意義呢。我們一輩子都用不著這種只存在于數(shù)學(xué)思辨中的特殊構(gòu)造的集合,!不過,,即使我們從實(shí)用出發(fā)不顧及這類邏輯漏洞,傳統(tǒng)概率論還是會(huì)給我們帶來一定程度的麻煩,。 一個(gè)問題,,可能大家都有所感覺。那就是,我們在本科學(xué)習(xí)的概率論中有著兩套系統(tǒng):離散分布和連續(xù)分布,,基本什么定理都得提供這兩種形式,,但是它們的推導(dǎo)過程似乎沒什么太大差別,一個(gè)用求和一個(gè)用積分而已,。幾乎一樣的事情,,為什么要干兩遍呢。 還有,,那種離散和連續(xù)混合的分布又怎么處理呢,?這種“離散連續(xù)混合的分布”不僅僅是一種理論可能,在實(shí)際上它的應(yīng)用也在不斷增長,。一個(gè)重要的例子就 是狄里克萊過程(Dirichlet Process)——它是learning中的無限混合模型的核心——這種模型用于解決傳統(tǒng)有限混合模型中(比如GMM)子模型個(gè)數(shù)不確定的難題,。這種過 程,在開始時(shí)(t = 0)通常是連續(xù)分布,, 隨著時(shí)間演化,,在t > 0時(shí)變成連續(xù)和離散混合分布,而且離散部分比例不斷加重,,最后(幾乎必然)收斂到一個(gè)離散分布,。這種模型用傳統(tǒng)的連續(xù)和離散分離的處理方式就顯得很不方便 了。 事實(shí)上,,我們是可以把對(duì)連續(xù)模型,,離散模型,以及各種既不連續(xù)也不離散的模型,,使用一種統(tǒng)一的表達(dá),。這就是現(xiàn)代概率論采取的方式。 現(xiàn)代概率論——從測度開始 現(xiàn)代概率論是前蘇聯(lián)大數(shù)學(xué)家Kolmogorov在上世紀(jì)30年代基于測度理論(Measure theory)的基礎(chǔ)上重新建立的,,它是一個(gè)非常嚴(yán)密的公理化體系,。什么是測度呢?說白了,,就是一個(gè)東西的大小,。測度是非負(fù)的,而且符合可數(shù)可加性,,比如 幾塊不相交的區(qū)域的總面積,,等于各自面積之和。這個(gè)屬性和概率的屬性如出一轍,。測度理論自從勒貝格(Lebesgue)那個(gè)時(shí)候開始,,已經(jīng)建立了一套嚴(yán)格 的數(shù)學(xué)體系。因此,,現(xiàn)代概率論不需要把前輩的路子重新走一遍,?;跍y度論,概率的定義可以直接給出: 概率就是總測度(整個(gè)樣本空間的測度)為1的測度,。 測度理論和經(jīng)典概率論有個(gè)很大的不同,,不是什么集合都有一個(gè)測度的。比如前面構(gòu)造的那個(gè)奇怪的集合,,它就沒有測度,。所以,根據(jù)測度理論,,樣本空間中 的集合分成兩種:可測的(measurable)和不可測的,。我們只對(duì)可測集賦予測度或者概率。特別留意,,測度為零的集合也是可測的,,叫做零測集。所謂不 可測集,,就是那種測度既不是零,,也不是非零,就是什么都不能是的集合,。 因此,,根據(jù)測度理論,我們描述一個(gè)概率空間,,需要三個(gè)要素:一個(gè)樣本空間,,所有可測集(它們構(gòu)成sigma-代數(shù):可測集的交集,,并集和補(bǔ)集都是可測的),,還有就是一個(gè)概率函數(shù),給每個(gè)可測集賦一個(gè)概率,。 通過引入可測性的概念,,那種給我們帶來麻煩的集合被排除在外了。不過,,可測性的用處遠(yuǎn)不僅僅是用于對(duì)付那些“麻煩集合”,。它還表達(dá)了一個(gè)概率空間能 傳達(dá)什么樣的信息。這里暫時(shí)不深入這個(gè)問題,,以后要有機(jī)會(huì)寫到條件概率(conditional probability)和鞅論(Martingale theory)時(shí),,再去討論這個(gè)事情。這里只是強(qiáng)調(diào)一下(雖然有點(diǎn)空口說白話),,可測性是討論隨機(jī)過程和隨機(jī)分析的非常重要的概念,,在實(shí)際計(jì)算和推導(dǎo)中也 非常有用。 我們看到,,這套理論首先通過可測性解決了邏輯上的漏洞,。那怎么它又是怎么統(tǒng)一連續(xù)和離散的表達(dá)的呢,?這里面,測度理論提供了一個(gè)重要的工具——勒貝 格積分(Lebesgue Integral),。噢,,原來是積分,那不也是關(guān)于連續(xù)的么,。不過,,這里的勒貝格積分和在大學(xué)微積分課里面學(xué)的傳統(tǒng)的積分(也叫黎曼積分)不太一樣,它對(duì) 離散和連續(xù)通吃,,還能處理既不離散又不連續(xù),,或者處處有定義而又處處不連續(xù)的各種各樣的東西)。 舉一個(gè)簡單例子,,比如定義在[0, 1]的函數(shù),,它在[0, 0.5)取值為1,在[0.5, 1]取值為2,。這是一個(gè)簡單的階梯函數(shù),,期望是1.5。按照傳統(tǒng)的黎曼積分求期望,,就是把定義域[0, 1]分成很多小段,,然后把每小段加起來。勒貝格積分反其道而行之,,它不分定義域,,而是去分值域,然后看看每個(gè)值對(duì)應(yīng)的那塊的面積(測度)是多大,。這個(gè)函數(shù) 取值只有兩個(gè):1和2,。那么值為1那塊的面積為0.5, 值為2的那塊的面積也是0.5,,積分就是以這些值為系數(shù),,把對(duì)應(yīng)的面積加起來:0.5 x 1 + 0.5 x 2 = 1.5。 上面是連續(xù)的情況,,離散的呢,?假設(shè)我們在一個(gè)離散集[0, 1, 2]上定義一個(gè)概率,P(0) = 0.5, P(1) = P(2) = 0.25,。對(duì)一個(gè)函數(shù)f(x) = x,,求均值。那么,,我們看到,,值為0, 1, 2對(duì)應(yīng)的測度分別是0.5, 0.25, 0.25,那么我們按照“面積加權(quán)法”可以求出:0 x 0.5 + 1 x 0.25 + 2 x 0.25 = 0.75,。 對(duì)于取值范圍連續(xù)的情況,,它通過取值有限的階梯函數(shù)逼近,,求取上極限來獲得積分值。 總體來說,,勒貝格積分的idea很簡單:劃分值域,,面積加權(quán)。不過卻有效解決了連續(xù)離散的表達(dá)的統(tǒng)一問題,。大家如果去翻翻基于測度理論建立起來的現(xiàn) 代概率論的書,,就會(huì)看到:所謂“離散分布”和“連續(xù)分布”的劃分已經(jīng)退出歷史舞臺(tái),所有定理都只有一個(gè)版本——按照勒貝格積分形式給出的版本,。對(duì)于傳統(tǒng)的 離散和連續(xù)分布的區(qū)別,,就是歸結(jié)為它們的測度函數(shù)的具體定義不同的區(qū)別。 那我們原來學(xué)的關(guān)于離散分布的點(diǎn)概率函數(shù),,或者連續(xù)分布的概率密度函數(shù),,也被統(tǒng)一了——積分的反操作就是求導(dǎo),所以那兩個(gè)函數(shù)都叫成了測度積分的 “導(dǎo)數(shù)”,,有一個(gè)名字Radon-Nikodym Derivative,。它們的區(qū)別歸結(jié)為原測度的具體不同,點(diǎn)概率函數(shù)是概率測度相對(duì)于計(jì)數(shù)測度的導(dǎo)數(shù),,而概率密度函數(shù)則是概率測度相對(duì)于勒貝格測度的導(dǎo) 數(shù),。 我們看到,現(xiàn)代概率論建立了測度概念和概率概念的聯(lián)系:
誰是基礎(chǔ),?概率 vs. 期望 從上面的介紹看來,,似乎概率(測度)是一個(gè)更基本的概念,而期望(積分)是從那引申出來的概念,。實(shí)事上,,整個(gè)過程可以反過來,我們可以把期望作為基 本概念,,演繹出概率的概念,。整個(gè)概率論,,也由此基于期望而展開——其實(shí),,如果不是歷史慣性,整套理論叫做“期望論”也挺合適的,,呵呵,。關(guān)于這個(gè)事情,以后 有機(jī)會(huì),,再做一個(gè)更詳細(xì)的探討,。這里,由于篇幅原因,,只提出兩個(gè)關(guān)鍵點(diǎn):
有了這么三條,我們可以拋開概率,,先定義“期望”這個(gè)概念:定義在可測集合上的單調(diào)線性實(shí)函數(shù),。然后,再把指示函數(shù)的期望定義成概率,。那么,,期望就變成了一個(gè)更為基本的概念。 事實(shí)上,,某些新出來的現(xiàn)代概率論的教科書已經(jīng)處理得更為簡潔:直接把“期望”和“概率”看成同一個(gè)概念——同時(shí),,把幾個(gè)集合的指示函數(shù)和那個(gè)集合本 身看成一回事。相比于把期望和概率分成兩個(gè)不同的東西來處理,,很多事情的描述和演繹變得非常簡潔,,而又不損失任何嚴(yán)密性(預(yù)先給出期望和概率的一致性的一 個(gè)嚴(yán)格證明,大概思路是上面三點(diǎn),,不過數(shù)學(xué)上有一些處理),。由于,把期望視為線性函數(shù),,因此對(duì)于某個(gè)隨機(jī)變量的期望就變成了有點(diǎn)類似于隨機(jī)變量和測度的一 種類似于“內(nèi)積”的雙線性運(yùn)算結(jié)構(gòu),。很多本來復(fù)雜的概率推演就轉(zhuǎn)化為線性代數(shù)演算——不但使得演繹更為方便簡潔,而且有助于對(duì)于結(jié)果的代數(shù)特性的更深刻的 理解,。 總而言之,,從經(jīng)典概率論到現(xiàn)代概率論,發(fā)生了兩個(gè)非常重要的變化:
|
|