久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

概率漫談 轉(zhuǎn)自 林達(dá)華

 htxu91 2013-10-07

概率論要解決的問題

概率論是很古老的數(shù)學(xué)分支了——探討的是不確定的問題,,就是說,,一件事情可能發(fā)生,,也可能不發(fā)生,。然后,,我們要預(yù)計(jì)一下,它有多大機(jī)會(huì)會(huì)發(fā)生,,這是 概率論要解決的問題,。這里面要特別強(qiáng)調(diào)概率和統(tǒng)計(jì)的區(qū)別,事實(shí)上這個(gè)區(qū)別在很多文章里面被混淆了,。舉一個(gè)簡單的例子,,比如拋硬幣。那么我們可以做兩件事 情:

  1. 我們預(yù)先知道拋硬幣的過程是“平衡的”,,也就是說出現(xiàn)正面的機(jī)會(huì)和出現(xiàn)背面的機(jī)會(huì)都是50%,,那么,這就是我們的概率模型——這個(gè)簡單的模型有個(gè) 名字——伯努利試驗(yàn)(Bernoulli trial),。然后,,我們可以預(yù)測,如果我們拋10000次硬幣,,那么正面和背面出現(xiàn)的次數(shù)大概各在5000次左右,。這種執(zhí)因“測”果的問題是概率論要解 決的,它在事情發(fā)生之前進(jìn)行,。
  2. 我們預(yù)先不知道拋硬幣的過程遵循什么法則,。于是,我們先去做個(gè)實(shí)驗(yàn),,拋10000次硬幣,,數(shù)一下正面和反面各出現(xiàn)了多少次。如果各出現(xiàn)了5000 次,,那么我們可以有很高的信心去認(rèn)為,,這是一個(gè)“平衡的”硬幣。如果正面出現(xiàn)9000次,,反面出現(xiàn)1000次,,那么我們就可以基本認(rèn)為這個(gè)硬幣遵循一個(gè)嚴(yán) 重偏向正面的非平衡法則——正面出現(xiàn)的概率是10%。這種執(zhí)果溯因的事情是統(tǒng)計(jì)要解決的,,它在事情發(fā)生之后進(jìn)行,,根據(jù)觀察到的情況歸納背后的模型 (Model)或者法則(Law)。

這篇文章只討論概率論的問題,。

經(jīng)典概率的困難

什么是概率呢,?長期以來,一個(gè)傳統(tǒng)而直到今天還被廣泛運(yùn)用的概念是:概率就是一個(gè)事情發(fā)生的機(jī)會(huì)——這就是經(jīng)典概率論的出發(fā)點(diǎn)和基礎(chǔ),。大部門的初等 概率論教科書,,給出一個(gè)貌似頗為嚴(yán)謹(jǐn)?shù)亩x:我們有一個(gè)樣本空間(sample space),然后這個(gè)樣本空間中任何一個(gè)子集叫做事件(event),,我們給每個(gè)事件A賦一個(gè)非負(fù)實(shí)數(shù)P(A),。如果P(A)滿足

  • P(A) >= 0
  • 全集(整個(gè)樣本空間)的P值為1
  • 對(duì)于(有限個(gè)或者可數(shù)個(gè))互不相交的事件,它們的并集的P值等于各自P值的和。這個(gè)屬性叫可數(shù)可加性 (Countable Additivity)

那么我們就稱P為概率,。這個(gè)定義,,以及由此而演繹出來的整個(gè)經(jīng)典概率體系,廣為接受并被成功用在無數(shù)的地方,。

但是,,這樣的定義藏著一個(gè)隱蔽很深的漏洞——使得從這個(gè)定義出發(fā)能在數(shù)學(xué)上嚴(yán)格導(dǎo)出互相矛盾的結(jié)果。假設(shè)樣本空間是S=[0, 1],,里面的實(shí)數(shù)依循均勻分布,,我們構(gòu)造這樣一個(gè)集合。首先,,建立一個(gè)等價(jià)關(guān)系:相差值是有理數(shù)的實(shí)數(shù)是等價(jià)的,。依據(jù)這個(gè)等價(jià)關(guān)系,把0到1之間的實(shí)數(shù)劃 分為等價(jià)類,,這樣我們有無數(shù)個(gè)等價(jià)類,。從每個(gè)等價(jià)類中隨便抽出一個(gè)實(shí)數(shù)作為代表,,這些代表構(gòu)成一個(gè)集合,,記為H。(注意:我們有不可數(shù)無限個(gè)等價(jià)類,,因此 這個(gè)集合的存在依賴于選擇公理(Axiom of Choice))

那么P(H) 是什么呢,?如果P(H)等于零,那么P(S) = 0,;如果P(H) > 0,,那么P(S) = 無窮大。無論如何,,都和P(S) = 1的要求矛盾,。這下麻煩大了,我們一直依賴的概率定義竟然是自相矛盾的,!

也許,,從數(shù)學(xué)家的眼光看來,這個(gè)問題很嚴(yán)重,。但是,,這對(duì)于我們有什么意義呢。我們一輩子都用不著這種只存在于數(shù)學(xué)思辨中的特殊構(gòu)造的集合,!不過,,即使我們從實(shí)用出發(fā)不顧及這類邏輯漏洞,傳統(tǒng)概率論還是會(huì)給我們帶來一定程度的麻煩,。

一個(gè)問題,,可能大家都有所感覺。那就是,我們在本科學(xué)習(xí)的概率論中有著兩套系統(tǒng):離散分布和連續(xù)分布,,基本什么定理都得提供這兩種形式,,但是它們的推導(dǎo)過程似乎沒什么太大差別,一個(gè)用求和一個(gè)用積分而已,。幾乎一樣的事情,,為什么要干兩遍呢。

還有,,那種離散和連續(xù)混合的分布又怎么處理呢,?這種“離散連續(xù)混合的分布”不僅僅是一種理論可能,在實(shí)際上它的應(yīng)用也在不斷增長,。一個(gè)重要的例子就 是狄里克萊過程(Dirichlet Process)——它是learning中的無限混合模型的核心——這種模型用于解決傳統(tǒng)有限混合模型中(比如GMM)子模型個(gè)數(shù)不確定的難題,。這種過 程,在開始時(shí)(t = 0)通常是連續(xù)分布,, 隨著時(shí)間演化,,在t > 0時(shí)變成連續(xù)和離散混合分布,而且離散部分比例不斷加重,,最后(幾乎必然)收斂到一個(gè)離散分布,。這種模型用傳統(tǒng)的連續(xù)和離散分離的處理方式就顯得很不方便 了。

事實(shí)上,,我們是可以把對(duì)連續(xù)模型,,離散模型,以及各種既不連續(xù)也不離散的模型,,使用一種統(tǒng)一的表達(dá),。這就是現(xiàn)代概率論采取的方式。

現(xiàn)代概率論——從測度開始

現(xiàn)代概率論是前蘇聯(lián)大數(shù)學(xué)家Kolmogorov在上世紀(jì)30年代基于測度理論(Measure theory)的基礎(chǔ)上重新建立的,,它是一個(gè)非常嚴(yán)密的公理化體系,。什么是測度呢?說白了,,就是一個(gè)東西的大小,。測度是非負(fù)的,而且符合可數(shù)可加性,,比如 幾塊不相交的區(qū)域的總面積,,等于各自面積之和。這個(gè)屬性和概率的屬性如出一轍,。測度理論自從勒貝格(Lebesgue)那個(gè)時(shí)候開始,,已經(jīng)建立了一套嚴(yán)格 的數(shù)學(xué)體系。因此,,現(xiàn)代概率論不需要把前輩的路子重新走一遍,?;跍y度論,概率的定義可以直接給出:

概率就是總測度(整個(gè)樣本空間的測度)為1的測度,。

測度理論和經(jīng)典概率論有個(gè)很大的不同,,不是什么集合都有一個(gè)測度的。比如前面構(gòu)造的那個(gè)奇怪的集合,,它就沒有測度,。所以,根據(jù)測度理論,,樣本空間中 的集合分成兩種:可測的(measurable)和不可測的,。我們只對(duì)可測集賦予測度或者概率。特別留意,,測度為零的集合也是可測的,,叫做零測集。所謂不 可測集,,就是那種測度既不是零,,也不是非零,就是什么都不能是的集合,。

因此,,根據(jù)測度理論,我們描述一個(gè)概率空間,,需要三個(gè)要素:一個(gè)樣本空間,,所有可測集(它們構(gòu)成sigma-代數(shù):可測集的交集,,并集和補(bǔ)集都是可測的),,還有就是一個(gè)概率函數(shù),給每個(gè)可測集賦一個(gè)概率,。

通過引入可測性的概念,,那種給我們帶來麻煩的集合被排除在外了。不過,,可測性的用處遠(yuǎn)不僅僅是用于對(duì)付那些“麻煩集合”,。它還表達(dá)了一個(gè)概率空間能 傳達(dá)什么樣的信息。這里暫時(shí)不深入這個(gè)問題,,以后要有機(jī)會(huì)寫到條件概率(conditional probability)和鞅論(Martingale theory)時(shí),,再去討論這個(gè)事情。這里只是強(qiáng)調(diào)一下(雖然有點(diǎn)空口說白話),,可測性是討論隨機(jī)過程和隨機(jī)分析的非常重要的概念,,在實(shí)際計(jì)算和推導(dǎo)中也 非常有用。

我們看到,,這套理論首先通過可測性解決了邏輯上的漏洞,。那怎么它又是怎么統(tǒng)一連續(xù)和離散的表達(dá)的呢,?這里面,測度理論提供了一個(gè)重要的工具——勒貝 格積分(Lebesgue Integral),。噢,,原來是積分,那不也是關(guān)于連續(xù)的么,。不過,,這里的勒貝格積分和在大學(xué)微積分課里面學(xué)的傳統(tǒng)的積分(也叫黎曼積分)不太一樣,它對(duì) 離散和連續(xù)通吃,,還能處理既不離散又不連續(xù),,或者處處有定義而又處處不連續(xù)的各種各樣的東西)。

舉一個(gè)簡單例子,,比如定義在[0, 1]的函數(shù),,它在[0, 0.5)取值為1,在[0.5, 1]取值為2,。這是一個(gè)簡單的階梯函數(shù),,期望是1.5。按照傳統(tǒng)的黎曼積分求期望,,就是把定義域[0, 1]分成很多小段,,然后把每小段加起來。勒貝格積分反其道而行之,,它不分定義域,,而是去分值域,然后看看每個(gè)值對(duì)應(yīng)的那塊的面積(測度)是多大,。這個(gè)函數(shù) 取值只有兩個(gè):1和2,。那么值為1那塊的面積為0.5, 值為2的那塊的面積也是0.5,,積分就是以這些值為系數(shù),,把對(duì)應(yīng)的面積加起來:0.5 x 1 + 0.5 x 2 = 1.5。

上面是連續(xù)的情況,,離散的呢,?假設(shè)我們在一個(gè)離散集[0, 1, 2]上定義一個(gè)概率,P(0) = 0.5, P(1) = P(2) = 0.25,。對(duì)一個(gè)函數(shù)f(x) = x,,求均值。那么,,我們看到,,值為0, 1, 2對(duì)應(yīng)的測度分別是0.5, 0.25, 0.25,那么我們按照“面積加權(quán)法”可以求出:0 x 0.5 + 1 x 0.25 + 2 x 0.25 = 0.75,。

對(duì)于取值范圍連續(xù)的情況,,它通過取值有限的階梯函數(shù)逼近,,求取上極限來獲得積分值。

總體來說,,勒貝格積分的idea很簡單:劃分值域,,面積加權(quán)。不過卻有效解決了連續(xù)離散的表達(dá)的統(tǒng)一問題,。大家如果去翻翻基于測度理論建立起來的現(xiàn) 代概率論的書,,就會(huì)看到:所謂“離散分布”和“連續(xù)分布”的劃分已經(jīng)退出歷史舞臺(tái),所有定理都只有一個(gè)版本——按照勒貝格積分形式給出的版本,。對(duì)于傳統(tǒng)的 離散和連續(xù)分布的區(qū)別,,就是歸結(jié)為它們的測度函數(shù)的具體定義不同的區(qū)別。

那我們原來學(xué)的關(guān)于離散分布的點(diǎn)概率函數(shù),,或者連續(xù)分布的概率密度函數(shù),,也被統(tǒng)一了——積分的反操作就是求導(dǎo),所以那兩個(gè)函數(shù)都叫成了測度積分的 “導(dǎo)數(shù)”,,有一個(gè)名字Radon-Nikodym Derivative,。它們的區(qū)別歸結(jié)為原測度的具體不同,點(diǎn)概率函數(shù)是概率測度相對(duì)于計(jì)數(shù)測度的導(dǎo)數(shù),,而概率密度函數(shù)則是概率測度相對(duì)于勒貝格測度的導(dǎo) 數(shù),。

我們看到,現(xiàn)代概率論建立了測度概念和概率概念的聯(lián)系:

  • 測度 ———— 概率
  • 積分 ———— 期望

誰是基礎(chǔ),?概率 vs. 期望

從上面的介紹看來,,似乎概率(測度)是一個(gè)更基本的概念,而期望(積分)是從那引申出來的概念,。實(shí)事上,,整個(gè)過程可以反過來,我們可以把期望作為基 本概念,,演繹出概率的概念,。整個(gè)概率論,,也由此基于期望而展開——其實(shí),,如果不是歷史慣性,整套理論叫做“期望論”也挺合適的,,呵呵,。關(guān)于這個(gè)事情,以后 有機(jī)會(huì),,再做一個(gè)更詳細(xì)的探討,。這里,由于篇幅原因,,只提出兩個(gè)關(guān)鍵點(diǎn):

  1. 如果我們定義了一個(gè)期望函數(shù),,那么某個(gè)子集(事件)的概率就是對(duì)它的指示函數(shù)的期望,。比如一個(gè)事件A,它的指示函數(shù)IA定義為 IA(x) = 1 當(dāng)x 屬于A, 否則為0,。那么A是一個(gè)取值要么是0要么是1的隨機(jī)變量,,它的期望就是A的概率。從這個(gè)意義上說,,所謂概率就是期望的一個(gè)簡單特例(隨機(jī)變量是集合的指示 函數(shù)),。
  2. 我們觀察到,隨機(jī)變量的期望符合兩個(gè)重要性質(zhì):
    • 期望是單調(diào)的:如果總有 X1 <= X2,,那么E(X1) <= E(X2),;
    • 期望是線性的:E(a * X1 + b * X2) = a * E(X1) + b * E(X2);
  3. 所有定義在可測集合上的單調(diào)線性實(shí)函數(shù)E,,并且有E(1) = 1,,那么E就是一個(gè)期望,它施加于任何一個(gè)集合的指示函數(shù),,就產(chǎn)生那個(gè)集合的概率,。

有了這么三條,我們可以拋開概率,,先定義“期望”這個(gè)概念:定義在可測集合上的單調(diào)線性實(shí)函數(shù),。然后,再把指示函數(shù)的期望定義成概率,。那么,,期望就變成了一個(gè)更為基本的概念。

事實(shí)上,,某些新出來的現(xiàn)代概率論的教科書已經(jīng)處理得更為簡潔:直接把“期望”和“概率”看成同一個(gè)概念——同時(shí),,把幾個(gè)集合的指示函數(shù)和那個(gè)集合本 身看成一回事。相比于把期望和概率分成兩個(gè)不同的東西來處理,,很多事情的描述和演繹變得非常簡潔,,而又不損失任何嚴(yán)密性(預(yù)先給出期望和概率的一致性的一 個(gè)嚴(yán)格證明,大概思路是上面三點(diǎn),,不過數(shù)學(xué)上有一些處理),。由于,把期望視為線性函數(shù),,因此對(duì)于某個(gè)隨機(jī)變量的期望就變成了有點(diǎn)類似于隨機(jī)變量和測度的一 種類似于“內(nèi)積”的雙線性運(yùn)算結(jié)構(gòu),。很多本來復(fù)雜的概率推演就轉(zhuǎn)化為線性代數(shù)演算——不但使得演繹更為方便簡潔,而且有助于對(duì)于結(jié)果的代數(shù)特性的更深刻的 理解,。

總而言之,,從經(jīng)典概率論到現(xiàn)代概率論,發(fā)生了兩個(gè)非常重要的變化:

  1. 測度的引入——解決了基礎(chǔ)邏輯的難題,,統(tǒng)一了離散分布和連續(xù)分布,。
  2. 期望的基礎(chǔ)地位——一定程度上消弭了概率和期望的區(qū)別,,同時(shí)把很多概率問題“代數(shù)化”

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多