概率論一些知識

昵稱62013279 2019-02-03

展開全文

第一節(jié) 離散.連續(xù).多維隨機變量及其分布

1.1,、幾個基本概念點

1..2、隨機變量及其分布

第二節(jié),、從數(shù)學(xué)期望,、方差、協(xié)方差到中心極限定理

2.1,、數(shù)學(xué)期望,、方差、協(xié)方差

2.2、中心極限定理

第三節(jié),、從數(shù)理統(tǒng)計簡史中看正態(tài)分布的歷史由來

3.1,、正態(tài)分布的定義

3.2、早期概率論：從萌芽到推測術(shù)

3.3,、棣莫弗的二項概率逼近

3.4,、貝葉斯方法

3.5、最小二乘法,，數(shù)據(jù)分析的瑞士軍刀

3.6、誤差分布曲線的建立

第四節(jié),、論道正態(tài),，正態(tài)分布的4大數(shù)學(xué)推導(dǎo)

4.1、高斯的推導(dǎo)(1809)

4.2,、Herschel(1850)和麥克斯韋(1860)的推導(dǎo)

4.3,、Landon的推導(dǎo)(1941)

4.4、正態(tài)分布和最大熵

第一節(jié) 離散.連續(xù).多維隨機變量及其分布

1.1,、幾個基本概念點

(一)樣本空間

定義：隨機試驗E的所有結(jié)果構(gòu)成的集合稱為E的樣本空間,，記為S={e}，
稱S中的元素e為樣本點,，一個元素的單點集稱為基本事件．

(二)條件概率

條件概率就是事件A在另外一個事件B已經(jīng)發(fā)生條件下的發(fā)生概率,。條件概率表示為P（A|B），讀作“在B條件下A的概率”,。
聯(lián)合概率表示兩個事件共同發(fā)生的概率,。A與B的聯(lián)合概率表示為或者。
邊緣概率是某個事件發(fā)生的概率,。邊緣概率是這樣得到的：在聯(lián)合概率中,，把最終結(jié)果中不需要的那些事件合并成其事件的全概率而消失（對離散隨機變量用求和得全概率，對連續(xù)隨機變量用積分得全概率）,。這稱為邊緣化（marginalization）,。A的邊緣概率表示為P（A），B的邊緣概率表示為P（B）,。

在同一個樣本空間Ω中的事件或者子集A與B,，如果隨機從Ω中選出的一個元素屬于B，那么這個隨機選擇的元素還屬于A的概率就定義為在B的前提下A的條件概率,。從這個定義中,，我們可以得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|得到

有時候也稱為后驗概率,。

同時,，P（A|B）與P（B|A）的關(guān)系如下所示：

。

(三)全概率公式和貝葉斯公式

1、全概率公式

假設(shè){ Bn : n = 1, 2, 3, ... } 是一個概率空間的有限或者可數(shù)無限的分割,，且每個集合Bn是一個可測集合,，則對任意事件A有全概率公式：

又因為

所以，此處Pr(A | B)是B發(fā)生后A的條件概率,，所以全概率公式又可寫作：

在離散情況下,，上述公式等于下面這個公式：。但后者在連續(xù)情況下仍然成立：此處N是任意隨機變量,。這個公式還可以表達為：'A的先驗概率等于A的后驗概率的先驗期望值,。

2、貝葉斯公式

貝葉斯定理（Bayes' theorem）,，是概率論中的一個結(jié)果,，它跟隨機變量的條件概率以及邊緣概率分布有關(guān)。在有些關(guān)于概率的解說中,，貝葉斯定理（貝葉斯更新）能夠告知我們?nèi)绾卫眯伦C據(jù)修改已有的看法,。
通常，事件A在事件B（發(fā)生）的條件下的概率,，與事件B在事件A的條件下的概率是不一樣的,；然而，這兩者是有確定的關(guān)系,，貝葉斯定理就是這種關(guān)系的陳述,。

如此篇blog第二部分所述“據(jù)維基百科上的介紹，貝葉斯定理實際上是關(guān)于隨機事件A和B的條件概率和邊緣概率的一則定理,。

如上所示,，其中P(A|B)是在B發(fā)生的情況下A發(fā)生的可能性。在貝葉斯定理中,，每個名詞都有約定俗成的名稱：

P(A)是A的先驗概率或邊緣概率,。之所以稱為'先驗'是因為它不考慮任何B方面的因素。
P(A|B)是已知B發(fā)生后A的條件概率（直白來講,，就是先有B而后=>才有A）,，也由于得自B的取值而被稱作A的后驗概率。
P(B|A)是已知A發(fā)生后B的條件概率（直白來講,，就是先有A而后=>才有B）,，也由于得自A的取值而被稱作B的后驗概率。
P(B)是B的先驗概率或邊緣概率,，也作標準化常量（normalized constant）,。

按這些術(shù)語，Bayes定理可表述為：后驗概率 = (相似度*先驗概率)/標準化常量,，也就是說,，后驗概率與先驗概率和相似度的乘積成正比。另外，比例P(B|A)/P(B)也有時被稱作標準相似度（standardised likelihood）,，Bayes定理可表述為：后驗概率 = 標準相似度*先驗概率,。”綜上,，自此便有了一個問題,，如何從從條件概率推導(dǎo)貝葉斯定理呢？

根據(jù)條件概率的定義,，在事件B發(fā)生的條件下事件A發(fā)生的概率是

同樣地,，在事件A發(fā)生的條件下事件B發(fā)生的概率

整理與合并這兩個方程式，我們可以找到

這個引理有時稱作概率乘法規(guī)則,。上式兩邊同除以P(B),，若P(B)是非零的，我們可以得到貝葉斯定理：

1..2,、隨機變量及其分布

1.2.1、何謂隨機變量

何謂隨機變量,？即給定樣本空間,，其上的實值函數(shù)稱為(實值)隨機變量。

如果隨機變量的取值是有限的或者是可數(shù)無窮盡的值,則稱為離散隨機變量(用白話說,，此類隨機變量是間斷的),。

如果由全部實數(shù)或者由一部分區(qū)間組成，則稱為連續(xù)隨機變量,，連續(xù)隨機變量的值是不可數(shù)及無窮盡的(用白話說,，此類隨機變量是連續(xù)的，不間斷的)：

也就是說,，隨機變量分為離散型隨機變量,，和連續(xù)型隨機變量，當要求隨機變量的概率分布的時候,，要分別處理之,，如：

針對離散型隨機變量而言，一般以加法的形式處理其概率和,；
而針對連續(xù)型隨機變量而言,，一般以積分形式求其概率和。

再換言之,，對離散隨機變量用求和得全概率,，對連續(xù)隨機變量用積分得全概率。這點包括在第4節(jié)中相關(guān)期望.方差.協(xié)方差等概念會反復(fù)用到,，望讀者注意之,。

1.2.2、離散型隨機變量的定義

定義：取值至多可數(shù)的隨機變量為離散型的隨機變量。概率分布(分布律)為

且

(一)（0-1）分布

若X的分布律為：

同時,，p+q=1,p>0,q>0,，則則稱X服從參數(shù)為p的0-1分布，或兩點分布,。

此外,，（0-1）分布的分布律還可表示為：

或

我們常說的拋硬幣實驗便符合此（0-1）分布。

(二),、二項分布

二項分布是n個獨立的是/非試驗中成功的次數(shù)的離散概率分布,，其中每次試驗的成功概率為p。這樣的單次成功/失敗試驗又稱為伯努利試驗,。舉個例子就是,，獨立重復(fù)地拋n次硬幣，每次只有兩個可能的結(jié)果：正面,，反面,，概率各占1/2。

設(shè)A在n重貝努利試驗中發(fā)生X次,，則

并稱X服從參數(shù)為p的二項分布,，記為：

與此同時，

(三),、泊松分布(Poisson分布)

Poisson分布（法語：loi de Poisson,，英語：Poisson distribution），即泊松分布,，是一種統(tǒng)計與概率學(xué)里常見到的離散概率分布,，由法國數(shù)學(xué)家西莫恩·德尼·泊松（Siméon-Denis Poisson）在1838年時發(fā)表。

若隨機變量X的概率分布律為

稱X服從參數(shù)為λ的泊松分布,，記為：

有一點提前說一下,，泊松分布中，其數(shù)學(xué)期望與方差相等,，都為參數(shù)λ,。

泊松分布的來源

在二項分布的伯努力試驗中，如果試驗次數(shù)n很大,，二項分布的概率p很小,，且乘積λ= n p比較適中，則事件出現(xiàn)的次數(shù)的概率可以用泊松分布來逼近,。事實上,，二項分布可以看作泊松分布在離散時間上的對應(yīng)物。證明如下,。

首先,，回顧e的定義：

二項分布的定義：

如果令,，趨于無窮時的極限：

上述過程表明：Poisson(λ) 分布可以看成是二項分布 B(n,p) 在 np=λ,n→∞ 條件下的極限分布。

最大似然估計

給定n個樣本值ki,，希望得到從中推測出總體的泊松分布參數(shù)λ的估計,。為計算最大似然估計值, 列出對數(shù)似然函數(shù)：

對函數(shù)L取相對于λ的導(dǎo)數(shù)并令其等于零：

解得λ從而得到一個駐點（stationary point）：

檢查函數(shù)L的二階導(dǎo)數(shù)，發(fā)現(xiàn)對所有的λ 與ki大于零的情況二階導(dǎo)數(shù)都為負,。因此求得的駐點是對數(shù)似然函數(shù)L的極大值點：

證畢,。OK，上面內(nèi)容都是針對的離散型隨機變量,，那如何求連續(xù)型隨機變量的分布律呢,？請接著看以下內(nèi)容。

1.2.3,、隨機變量分布函數(shù)定義的引出

實際中,，如上2.2.2節(jié)所述，

對于離散型隨機變量而言,，其所有可能的取值可以一一列舉出來,，
可對于非離散型隨機變量，即連續(xù)型隨機變量X而言,，其所有可能的值則無法一一列舉出來,，

故連續(xù)型隨機變量也就不能像離散型隨機變量那般可以用分布律來描述它，那怎么辦呢(事實上,，只有因為連續(xù)，所以才可導(dǎo),，所以才可積分,，這些東西都是相通的。當然了,，連續(xù)不一定可導(dǎo),，但可導(dǎo)一定連續(xù))？

既然無法研究其全部,，那么我們可以轉(zhuǎn)而去研究連續(xù)型隨機變量所取的值在一個區(qū)間（x1,，x2] 的概率：P{x1 < X <=x2 }，同時注意P{x1 < X <=x2 } = P{X <=x2} - P{X <=x1},，故要求P{x1 < X <=x2 } ,，我們只需求出P{X <=x2} 和 P{X <=x1} 即可。

針對隨機變量X,，對應(yīng)變量x,，則P(X<=x) 應(yīng)為x的函數(shù)。如此,，便引出了分布函數(shù)的定義,。

定義：隨機變量X,，對任意實數(shù)x，稱函數(shù)F(x) = P(X <=x ) 為X 的概率分布函數(shù),，簡稱分布函數(shù),。

F(x)的幾何意義如下圖所示：

且對于任意實數(shù)x1，x2（x1<x2）,，有P{x1<X<=x2} = P{X <=x2} - P{X <= x1} = F(x2) - F(x1),。

同時，F(xiàn)(X)有以下幾點性質(zhì)：

1.2.4,、連續(xù)型隨機變量及其概率密度

定義：對于隨機變量X的分布函數(shù)F(x),，若存在非負的函數(shù)f(x)，使對于任意實數(shù)x,，有：

則稱X為連續(xù)型隨機變量,，其中f(x)稱為X的概率密度函數(shù)，簡稱概率密度,。連續(xù)型隨機變量的概率密度f(x)有如下性質(zhì)：

,；
；

（針對上述第3點性質(zhì),，我重點說明下：

在上文第1.4節(jié)中,，有此牛頓-萊布尼茨公式：如果函數(shù)F (x)是連續(xù)函數(shù)f(x)在區(qū)間[a, b]上的一個原函數(shù), 則；
在上文2.2.3節(jié),，連續(xù)隨機變量X 而言,，對于任意實數(shù)a，b（a<b）,，有P{a<X<=b} = P{X <=b} - P{X <= a} = F(b) - F(a),；

故結(jié)合上述兩點，便可得出上述性質(zhì)3）

且如果概率密度函數(shù)在一點上連續(xù),，那么累積分布函數(shù)可導(dǎo),，并且它的導(dǎo)數(shù)：。如下圖所示：

接下來,，介紹三種連續(xù)型隨機變量的分布,，由于均勻分布及指數(shù)分布比較簡單，所以,，一圖以概之,，下文會重點介紹正態(tài)分布。

(一),、均勻分布

若連續(xù)型隨機變量X具有概率密度

則稱X 在區(qū)間(a,，b)上服從均勻分布,，記為X~U（a,，b）。

易知,，f(x) >= 0，且其期望值為（a + b）/ 2,。

(二),、指數(shù)分布

若連續(xù)型隨機變量X 的概率密度為

其中λ>0為常數(shù)，則稱X服從參數(shù)為λ的指數(shù)分布,。記為

(三),、正態(tài)分布

在各種公式紛至沓來之前，我先說一句：正態(tài)分布沒有你想的那么神秘,，它無非是研究誤差分布的一個理論,，因為實踐過程中，測量值和真實值總是存在一定的差異,，這個不可避免的差異即誤差,，而誤差的出現(xiàn)或者分布是有規(guī)律的，而正態(tài)分布不過就是研究誤差的分布規(guī)律的一個理論,。

OK,，若隨機變量服從一個位置參數(shù)為、尺度參數(shù)為的概率分布,，記為：

則其概率密度函數(shù)為

我們便稱這樣的分布為正態(tài)分布或高斯分布,，記為：

正態(tài)分布的數(shù)學(xué)期望值或期望值等于位置參數(shù)，決定了分布的位置,；其方差的開平方,，即標準差等于尺度參數(shù)，決定了分布的幅度,。正態(tài)分布的概率密度函數(shù)曲線呈鐘形,，因此人們又經(jīng)常稱之為鐘形曲線。它有以下幾點性質(zhì),，如下圖所示：

正態(tài)分布的概率密度曲線則如下圖所示：

當固定尺度參數(shù)，改變位置參數(shù)的大小時,，f(x)圖形的形狀不變,，只是沿著x軸作平移變換，如下圖所示：

而當固定位置參數(shù),，改變尺度參數(shù)的大小時,，f(x)圖形的對稱軸不變，形狀在改變,，越小,，圖形越高越瘦，越大,，圖形越矮越胖,。如下圖所示：

故有咱們上面的結(jié)論,，在正態(tài)分布中，稱μ為位置參數(shù)(決定對稱軸位置),，而 σ為尺度參數(shù)(決定曲線分散性),。同時，在自然現(xiàn)象和社會現(xiàn)象中,，大量隨機變量服從或近似服從正態(tài)分布,。

而我們通常所說的標準正態(tài)分布是位置參數(shù), 尺度參數(shù)的正態(tài)分布，記為：

相關(guān)內(nèi)容如下兩圖總結(jié)所示(來源：大嘴巴漫談數(shù)據(jù)挖掘)：

1.2.5,、各種分布的比較

上文中,，從離散型隨機變量的分布：（0-1）分布、泊松分布,、二項分布,，講到了連續(xù)型隨機變量的分布：均勻分布、指數(shù)分布,、正態(tài)分布,，那這么多分布，其各自的期望.方差(期望方差的概念下文將予以介紹)都是多少呢,？雖說,，還有不少分布上文尚未介紹，不過在此,，提前總結(jié)下,，如下兩圖所示(摘自盛驟版的概率論與數(shù)理統(tǒng)計一書后的附錄中)：

本文中，二維.多維隨機變量及其分布不再論述,。

第二節(jié),、從數(shù)學(xué)期望、方差,、協(xié)方差到中心極限定理

2.1,、數(shù)學(xué)期望、方差,、協(xié)方差

2.1.1,、數(shù)學(xué)期望

如果X是在概率空間（Ω, P）中的一個隨機變量，那么它的期望值E[X]的定義是：

并不是每一個隨機變量都有期望值的,，因為有的時候這個積分不存在,。如果兩個隨機變量的分布相同，則它們的期望值也相同,。

在概率論和統(tǒng)計學(xué)中,，數(shù)學(xué)期望分兩種(依照上文第二節(jié)相關(guān)內(nèi)容也可以得出)，一種為離散型隨機變量的期望值,，一種為連續(xù)型隨機變量的期望值,。

一個離散性隨機變量的期望值（或數(shù)學(xué)期望,、或均值，亦簡稱期望）是試驗中每次可能結(jié)果的概率乘以其結(jié)果的總和,。換句話說,，期望值是隨機試驗在同樣的機會下重復(fù)多次的結(jié)果計算出的等同“期望”的平均值。

例如,，擲一枚六面骰子,，得到每一面的概率都為1/6，故其的期望值是3.5,，計算如下：

承上,，如果X 是一個離散的隨機變量，輸出值為x1, x2, ...,，和輸出值相應(yīng)的概率為p1, p2, ...（概率和為1）,，若級數(shù)絕對收斂，那么期望值E[X]是一個無限數(shù)列的和：

上面擲骰子的例子就是用這種方法求出期望值的,。

而對于一個連續(xù)型隨機變量來說,，如果X的概率分布存在一個相應(yīng)的概率密度函數(shù)f（x），若積分絕對收斂,，那么X 的期望值可以計算為：

實際上,，此連續(xù)隨機型變量的期望值的求法與離散隨機變量的期望值的算法同出一轍，由于輸出值是連續(xù)的,，只不過是把求和改成了積分,。

2.1.2、方差與標準差

方差

在概率論和統(tǒng)計學(xué)中,，一個隨機變量的方差（Variance）描述的是它的離散程度,，也就是該變量離其期望值的距離。一個實隨機變量的方差也稱為它的二階矩或二階中心動差,，恰巧也是它的二階累積量,。方差的算術(shù)平方根稱為該隨機變量的標準差。

其定義為：如果是隨機變量X的期望值（平均數(shù)）設(shè)為服從分布的隨機變量,，則稱為隨機變量或者分布的方差：

其中,，μ為平均數(shù)，N為樣本總數(shù),。

分別針對離散型隨機變量和連續(xù)型隨機變量而言,，方差的分布律和概率密度如下圖所示：

標準差

標準差（Standard Deviation）,，在概率統(tǒng)計中最常使用作為統(tǒng)計分布程度（statistical dispersion）上的測量,。標準差定義為方差的算術(shù)平方根，反映組內(nèi)個體間的離散程度,。

簡單來說,，標準差是一組數(shù)值自平均值分散開來的程度的一種測量觀念,。一個較大的標準差，代表大部分的數(shù)值和其平均值之間差異較大,；一個較小的標準差,，代表這些數(shù)值較接近平均值。例如,，兩組數(shù)的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,，但第二個集合具有較小的標準差。

前面說過,，方差的算術(shù)平方根稱為該隨機變量的標準差,，故一隨機變量的標準差定義為：

須注意并非所有隨機變量都具有標準差，因為有些隨機變量不存在期望值,。如果隨機變量為具有相同概率,，則可用上述公式計算標準差。

上述方差.標準差等相關(guān)內(nèi)容,，可用下圖總結(jié)之：

樣本標準差

在真實世界中,，除非在某些特殊情況下，找到一個總體的真實的標準差是不現(xiàn)實的,。大多數(shù)情況下,，總體標準差是通過隨機抽取一定量的樣本并計算樣本標準差估計的。說白了,，就是數(shù)據(jù)海量,，想計算總體海量數(shù)據(jù)的標準差無異于大海撈針，那咋辦呢,？抽取其中一些樣本作為抽樣代表唄,。

而從一大組數(shù)值當中取出一樣本數(shù)值組合，進而,，我們可以定義其樣本標準差為：

樣本方差是對總體方差的無偏估計,。中分母為 n-1 是因為的自由度為n-1(且慢，何謂自由度,？簡單說來,，即指樣本中的n個數(shù)都是相互獨立的，從其中抽出任何一個數(shù)都不影響其他數(shù)據(jù),，所以自由度就是估計總體參數(shù)時獨立數(shù)據(jù)的數(shù)目,，而平均數(shù)是根據(jù)n個獨立數(shù)據(jù)來估計的，因此自由度為n),，這是由于存在約束條件,。

2.1.3、協(xié)方差與相關(guān)系數(shù)

協(xié)方差

下圖即可說明何謂協(xié)方差，同時,，引出相關(guān)系數(shù)的定義：

相關(guān)系數(shù)

如上篇kd樹blog所述相關(guān)系數(shù) ( Correlation coefficient )的定義是：

(其中,，E為數(shù)學(xué)期望或均值，D為方差,，D開根號為標準差,，E{ [X-E(X)] [Y-E(Y)]}稱為隨機變量X與Y的協(xié)方差，記為Cov(X,Y),，即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]},，而兩個變量之間的協(xié)方差和標準差的商則稱為隨機變量X與Y的相關(guān)系數(shù)，記為)
相關(guān)系數(shù)衡量隨機變量X與Y相關(guān)程度的一種方法,，相關(guān)系數(shù)的取值范圍是[-1,1],。相關(guān)系數(shù)的絕對值越大，則表明X與Y相關(guān)度越高,。當X與Y線性相關(guān)時,，相關(guān)系數(shù)取值為1（正線性相關(guān)）或-1（負線性相關(guān)）。
具體的,，如果有兩個變量：X,、Y，最終計算出的相關(guān)系數(shù)的含義可以有如下理解：

當相關(guān)系數(shù)為0時,，X和Y兩變量無關(guān)系,。
當X的值增大（減小）,，Y值增大（減?。瑑蓚€變量為正相關(guān),，相關(guān)系數(shù)在0.00與1.00之間,。
當X的值增大（減小）,，Y值減?。ㄔ龃螅瑑蓚€變量為負相關(guān),，相關(guān)系數(shù)在-1.00與0.00之間,。

根據(jù)相關(guān)系數(shù)，相關(guān)距離可以定義為：

這里只對相關(guān)系數(shù)做個簡要介紹,，欲了解機器學(xué)習(xí)中更多相似性距離度量表示法,，可以參看上篇kd樹blog第一部分內(nèi)容。

自此,，已經(jīng)介紹完期望方差協(xié)方差等基本概念,，但一下子要讀者接受那么多概念,，怕是有難為讀者之嫌，不如再上幾幅圖鞏固下上述相關(guān)概念吧(來源：大嘴巴滿談數(shù)據(jù)挖掘)：

2.1.4,、協(xié)方差矩陣與主成成分分析

協(xié)方差矩陣

由上，我們已經(jīng)知道：協(xié)方差是衡量兩個隨機變量的相關(guān)程度,。且隨機變量之間的協(xié)方差可以表示為

故根據(jù)已知的樣本值可以得到協(xié)方差的估計值如下：

可以進一步地簡化為：

如此,，便引出了所謂的協(xié)方差矩陣：

主成成分分析

盡管從上面看來，協(xié)方差矩陣貌似很簡單,，可它卻是很多領(lǐng)域里的非常有力的工具,。它能導(dǎo)出一個變換矩陣，這個矩陣能使數(shù)據(jù)完全去相關(guān)(decorrelation),。從不同的角度看,，也就是說能夠找出一組最佳的基以緊湊的方式來表達數(shù)據(jù)。這個方法在統(tǒng)計學(xué)中被稱為主成分分析(principal components analysis,，簡稱PCA),，在圖像處理中稱為Karhunen-Loève 變換(KL-變換)。

根據(jù)wikipedia上的介紹,，主成分分析PCA由卡爾·皮爾遜于1901年發(fā)明,，用于分析數(shù)據(jù)及建立數(shù)理模型。其方法主要是通過對協(xié)方差矩陣進行特征分解,，以得出數(shù)據(jù)的主成分（即特征矢量）與它們的權(quán)值（即特征值）,。PCA是最簡單的以特征量分析多元統(tǒng)計分布的方法。其結(jié)果可以理解為對原數(shù)據(jù)中的方差做出解釋：哪一個方向上的數(shù)據(jù)值對方差的影響最大,。

然為何要使得變換后的數(shù)據(jù)有著最大的方差呢,？我們知道，方差的大小描述的是一個變量的信息量,，我們在講一個東西的穩(wěn)定性的時候,，往往說要減小方差，如果一個模型的方差很大,，那就說明模型不穩(wěn)定了,。但是對于我們用于機器學(xué)習(xí)的數(shù)據(jù)（主要是訓(xùn)練數(shù)據(jù)），方差大才有意義,，不然輸入的數(shù)據(jù)都是同一個點,，那方差就為0了，這樣輸入的多個數(shù)據(jù)就等同于一個數(shù)據(jù)了,。

簡而言之,，主成分分析PCA，留下主成分,，剔除噪音,，是一種降維方法，限高斯分布，n維眏射到k維,，

減均值,，
求特征協(xié)方差矩陣，
求協(xié)方差的特征值和特征向量,，
取最大的k個特征值所對應(yīng)的特征向量組成特征向量矩陣,，
投影數(shù)據(jù)=原始樣本矩陣x特征向量矩陣。其依據(jù)為最大方差,，最小平方誤差或坐標軸相關(guān)度理論,，及矩陣奇異值分解SVD（即SVD給PCA提供了另一種解釋）。

也就是說,，高斯是0均值,，其方差定義了信噪比，所以PCA是在對角化低維表示的協(xié)方差矩陣,，故某一個角度而言,，只需要理解方差、均值和協(xié)方差的物理意義,，PCA就很清晰了,。

再換言之，PCA提供了一種降低數(shù)據(jù)維度的有效辦法,；如果分析者在原數(shù)據(jù)中除掉最小的特征值所對應(yīng)的成分,，那么所得的低維度數(shù)據(jù)必定是最優(yōu)化的（也即，這樣降低維度必定是失去訊息最少的方法）,。主成分分析在分析復(fù)雜數(shù)據(jù)時尤為有用,，比如人臉識別。

2.2,、中心極限定理

本節(jié)先給出現(xiàn)在一般的概率論與數(shù)理統(tǒng)計教材上所介紹的2個定理,，然后簡要介紹下中心極限定理的相關(guān)歷史。

3.2.1,、獨立同分布的中心極限定理

獨立中心極限定理如下兩圖所示：

3.2.2,、棣莫弗-拉普拉斯中心極限定理

此外，據(jù)wikipedia上的介紹,，包括上面介紹的棣莫弗-拉普拉斯定理在內(nèi),，歷史上前后發(fā)展了三個相關(guān)的中心極限定理，它們得出的結(jié)論及內(nèi)容分別是：

棣莫弗－拉普拉斯（de Movire - Laplace）定理是中心極限定理的最初版本,，討論了服從二項分布的隨機變量序列,。

其內(nèi)容為：若是n次伯努利實驗中事件A出現(xiàn)的次數(shù)，,，則對任意有限區(qū)間：
(i)當及時,，一致地有

(ii)當時,，一致地有，
,，其中,。

它指出，參數(shù)為n, p的二項分布以np為均值,、np(1-p)為方差的正態(tài)分布為極限,。

林德伯格－列維（Lindeberg-Levy）定理，是棣莫佛－拉普拉斯定理的擴展,，討論獨立同分布隨機變量序列的中心極限定理。

其內(nèi)容為：設(shè)隨機變量獨立同分布,，且具有有限的數(shù)學(xué)期望和方差,，。
記,，,，則，其中是標準正態(tài)分布的分布函數(shù),。

它表明,，獨立同分布、且數(shù)學(xué)期望和方差有限的隨機變量序列的標準化和以標準正態(tài)分布為極限,。

林德伯格－費勒定理,，是中心極限定理的高級形式，是對林德伯格－列維定理的擴展,，討論獨立,，但不同分布的情況下的隨機變量和。

其內(nèi)容為：記隨機變量序列（獨立但不一定同分布,，且有有限方差）部分和為

記

,，

如果對每個，序列滿足

則稱它滿足林德伯格（Lindeberg）條件,。
滿足此條件的序列趨向于正態(tài)分布,，即

與之相關(guān)的是李雅普諾夫（Lyapunov）條件：

滿足李雅普諾夫條件的序列必滿足林德伯格條件。

它表明,，滿足一定條件時,，獨立，但不同分布的隨機變量序列的標準化和依然以標準正態(tài)分布為極限,。

2.2.3,、歷史

1776年，拉普拉斯開始考慮一個天文學(xué)中的彗星軌道的傾角的計算問題,，最終的問題涉及獨立隨機變量求和的概率計算,，也就是計算如下的概率值
令 Sn=X1+X2+?+Xn, 那么

在這個問題的處理上,，拉普拉斯充分展示了其深厚的數(shù)學(xué)分析功底和高超的概率計算技巧，他首次引入了特征函數(shù)(也就是對概率密度函數(shù)做傅立葉變換)來處理概率分布的神妙方法,，而這一方法經(jīng)過幾代概率學(xué)家的發(fā)展,，在現(xiàn)代概率論里面占有極其重要的位置?；谶@一分析方法,，拉普拉斯通過近似計算，在他的1812年的名著《概率分析理論》中給出了中心極限定理的一般描述：

[定理Laplace,，1812]設(shè) ei(i=1,?n)為獨立同分布的測量誤差,，具有均值μ和方差σ2。如果λ1,?,λn為常數(shù),，a>0,則有

這已經(jīng)是比棣莫弗-拉普拉斯中心極限定理更加深刻的一個結(jié)論了,，在現(xiàn)在大學(xué)本科的教材上，包括包括本文主要參考之一盛驟版的概率論與數(shù)理統(tǒng)計上,，通常給出的是中心極限定理的一般形式：

[Lindeberg-Levy中心極限定理] 設(shè)X1,?,Xn獨立同分布,，且具有有限的均值μ和方差σ2，則在n→∞時,有

多么奇妙的性質(zhì),，隨意的一個概率分布中生成的隨機變量,，在序列和(或者等價的求算術(shù)平均)的操作之下，表現(xiàn)出如此一致的行為,，統(tǒng)一的規(guī)約到正態(tài)分布,。

概率學(xué)家們進一步的研究結(jié)果更加令人驚訝，序列求和最終要導(dǎo)出正態(tài)分布的條件并不需要這么苛刻,，即便X1,?,Xn并不獨立,，也不具有相同的概率分布形式，很多時候他們求和的最終歸宿仍然是正態(tài)分布,。

在正態(tài)分布,、中心極限定理的確立之下，20世紀之后,，統(tǒng)計學(xué)三大分布χ2分布,、t分布、F分布也逐步登上歷史舞臺：

如上所述,，中心極限定理的歷史可大致概括為：

中心極限定理理的第一版被法國數(shù)學(xué)家棣莫弗發(fā)現(xiàn),，他在1733年發(fā)表的卓越論文中使用正態(tài)分布去估計大量拋擲硬幣出現(xiàn)正面次數(shù)的分布；
1812年,，法國數(shù)學(xué)家拉普拉斯在其巨著 Théorie Analytique des Probabilités中擴展了棣莫弗的理論,，指出二項分布可用正態(tài)分布逼近；
1901年,，俄國數(shù)學(xué)家李雅普諾夫用更普通的隨機變量定義中心極限定理并在數(shù)學(xué)上進行了精確的證明,。

如今,，中心極限定理被認為是(非正式地)概率論中的首席定理。

第三節(jié),、從數(shù)理統(tǒng)計簡史中看正態(tài)分布的歷史由來

本節(jié)將結(jié)合數(shù)理統(tǒng)計學(xué)簡史一書,，從早期概率論的發(fā)展、棣莫弗的二項概率逼近講到貝葉斯方法,、最小二乘法,、誤差與正態(tài)分布等問題，有詳有略,，其中,，重點闡述正態(tài)分布的歷史由來。

相信,，你我可以想象得到,，我們現(xiàn)在眼前所看到的正態(tài)分布曲線雖然看上去很美，但數(shù)學(xué)史上任何一個定理的發(fā)明幾乎都不可能一蹴而就,，很多往往經(jīng)歷了幾代人的持續(xù)努力,。因為在科研上諸多觀念的革新和突破是有著很多的不易的,，或許某個定理在某個時期由某個人點破了,，現(xiàn)在的我們看來一切都是理所當然，但在一切沒有發(fā)現(xiàn)之前,，可能許許多多的頂級學(xué)者畢其功于一役,，耗盡一生，努力了幾十年最終也是無功而返,。

如上文前三節(jié)所見,，現(xiàn)在概率論與數(shù)理統(tǒng)計的教材上，一上來介紹正態(tài)分布,，然后便給出其概率密度分布函數(shù),，卻從來沒有說明這個分布函數(shù)是通過什么原理推導(dǎo)出來的。如此,，可能會導(dǎo)致你我在內(nèi)的很多人一直搞不明白數(shù)學(xué)家當年是怎么找到這個概率分布曲線的,，又是怎么發(fā)現(xiàn)隨機誤差服從這個奇妙的分布的。我們在實踐中大量的使用正態(tài)分布,，卻對這個分布的來龍去脈知之甚少,。

本文接下來的第四節(jié)將結(jié)合陳希儒院士的《數(shù)理統(tǒng)計學(xué)簡史》及“正態(tài)分布的前世今生”為你揭開正態(tài)分布的神秘面紗。

3.1,、正態(tài)分布的定義

上文中已經(jīng)給出了正態(tài)分布的相關(guān)定義,，咱們先再來回顧下。如下兩圖所示（來源：大嘴巴漫談數(shù)據(jù)挖掘）：

相信,，經(jīng)過上文諸多繁雜公式的轟炸,，讀者或有些許不耐其煩,，咱們接下來講點有趣的內(nèi)容：歷史。下面,，咱們來結(jié)合數(shù)理統(tǒng)計簡史一書,，即正態(tài)分布的前世今生系列，從古至今論述正態(tài)分布的歷史由來,。

3.2,、早期概率論：從萌芽到推測術(shù)

3.2.1、惠更新的三個關(guān)于期望的定理

(一)惠更新的論賭博的計算

所謂概率,，即指一個事件發(fā)生,，一種情況出現(xiàn)的可能性大小的數(shù)量指標，介于0和1之間,，這個概念最初形成于16世紀,，說來可能令你意想不到，凡事無絕對,，早期很多概率論中的探討卻與擲骰子等當今看來是違法犯罪的賭博活動有著不可分割的聯(lián)系,，可以說，這些賭博活動反而推動了概率論的早期發(fā)展,。

歷史是紛繁多雜的,，咱們從惠更斯的機遇的規(guī)律一書入手，此人指導(dǎo)過微積分的奠基者之一的萊布尼茲學(xué)習(xí)數(shù)學(xué),，與牛頓等人也有交往,，終生未婚。如諸多歷史上有名的人物一般,，他們之所以被后世的人們記住,，是因為他們在某一個領(lǐng)域的杰出貢獻，這個貢獻可能是提出了某一個定理或者公式,，換句話來說,，就是現(xiàn)今人們口中所說的代表作，一個意思,。

而惠更新為當代人們所熟知的應(yīng)該是他在《擺式時鐘或用于時鐘上的擺的運動的幾何證明》,、《擺鐘》等論文中提出了物理學(xué)史上鐘擺擺動周期的公式：。

(二)創(chuàng)立數(shù)學(xué)期望

與此同時,，惠更斯1657年發(fā)表了《論賭博中的計算》,，被認為是概率論誕生的標志。同時對二次曲線,、復(fù)雜曲線,、懸鏈線、曳物線,、對數(shù)螺線等平面曲線都有所研究,。

《論賭博中的計算》中,，惠更斯先從關(guān)于公平賭博值的一條公理出發(fā)，推導(dǎo)出有關(guān)數(shù)學(xué)期望的三個基本定理,，如下述內(nèi)容所示：

公理：每個公平博弈的參與者愿意拿出經(jīng)過計算的公平賭注冒險而不愿拿出更多的數(shù)量,。即賭徒愿意押的賭注不大于其獲得賭金的數(shù)學(xué)期望數(shù)。

對這一公理至今仍有爭議,。所謂公平賭注的數(shù)額并不清楚,它受許多因素的影響,。但惠更斯由此所得關(guān)于數(shù)學(xué)期望的3 個命題具有重要意義。這是數(shù)學(xué)期望第一次被提出,由于當時概率的概念還不明確,后被拉普拉斯( Laplace ,1749 —1827) 用數(shù)學(xué)期望來定義古典概率,。在概率論的現(xiàn)代表述中,概率是基本概念,數(shù)學(xué)期望則是二級概念,但在歷史發(fā)展過程中卻順序相反,。
關(guān)于數(shù)學(xué)期望的三個命題為:

命題1 　若某人在賭博中以等概率1/2獲得賭金a元、b元,，則其數(shù)學(xué)期望值為：a*1/2+b*1/2,，即為( a + b)/2；
命題2 　若某人在賭博中以等概率1/3獲得賭金a ,、b 元和c元 ,，則其數(shù)學(xué)期望值為( a + b + c)/3元；
命題3 　若某人在賭博中以概率p 和q ( p ≥0 , q ≥0 , p + q = 1) 獲得賭金a元,、b元 ,，則獲得賭金的數(shù)學(xué)期望值為p*a + q*b 元。

這些今天看來都可作為數(shù)學(xué)期望定義,，不準確的說,，數(shù)學(xué)期望來源于取平均值,。同時,，根據(jù)上述惠更斯的3個命題不難證明：若某人在賭博中分別以概率p1...，pk（p1+..+pk=1）分別贏得a1,，..ak元,，那么其期望為p1*a1+...+pk*ak，這與本文第一節(jié)中關(guān)于離散型隨機變量的期望的定義完全一致(各值與各值概率乘積之和),。

但惠更新關(guān)于概率論的討論局限于賭博中,，而把概率論由局限于對賭博機遇的討論擴展出去的則得益于伯努利，他在惠更新的論賭博中的計算一書出版的56年,，即1733年出版了劃時代的著作：推測術(shù),。伯努利在此書中，不僅對惠更斯的關(guān)于擲骰子等賭博活動中出現(xiàn)的額各種情況的概率進行了計算,，而且還提出了著名的“大數(shù)定律”,，這個定律在歷史上甚至到今天，影響深遠,，后續(xù)諸多的統(tǒng)計方法和理論都是建立在大數(shù)定律的基礎(chǔ)上,。

(三) 伯努利的大數(shù)定律及其如何而來

同樣,，咱們在讀中學(xué)的時候，之所以記住了伯努利這個人,，恐怕是因為物理課上,，老師所講的伯努利方程C，(C為常量),。我當時的物理老師叫劉新見,，記得他在講伯努利方程的時候，曾開玩笑說,，“’伯努利‘好記好記,，‘白努力‘嘛”。

當然,，伯努利的貢獻不僅在此,，而在于他的大數(shù)定律。那何謂伯努利大數(shù)定律呢,？

設(shè)在n次獨立重復(fù)試驗中,，事件X發(fā)生的次數(shù)為。事件X在每次試驗中發(fā)生的概率為P,。則對任意正數(shù),，下式成立：

定理表明事件發(fā)生的頻率依概率收斂于事件的概率。定理以嚴格的數(shù)學(xué)形式表達了頻率的穩(wěn)定性,。就是說當n很大時,，事件發(fā)生的頻率于概率有較大偏差的可能性很小。

這個定理如何而來的呢,？

咱們來看一個簡單的袋中抽球的模型,，袋中有a個白球，b個黑球,，則從袋中取出白球的概率為p=a/(a+b),，有放回的充袋中抽球N次(每次抽取時保證袋中a+b個球的每一個都有同等機會被抽出)，記得抽到的白球的次數(shù)為X,，然后以X/N 這個值去估計p,，這個估計方法至今仍是數(shù)理統(tǒng)計學(xué)中最基本的方法之一。

伯努利試圖證明的是：用X/N 估計p 可以達到事實上的確定性,，即：任意給定兩個數(shù)ε>0和η>0,，取足夠大的抽取次數(shù)N，使得事件的概率不超過η,，這意思是,，表面估計誤差未達到制定的接近程度η。

換句話說，我們需要證明的是當N充分無限大時,，X/N 無限逼近于p,，用公式表達即為：

（N趨于無窮大）

盡管現(xiàn)在我們看來，上述這個結(jié)論毫無疑問是理所當然的,，但直到1909年才有波萊爾證明,。此外，此伯努利大數(shù)定律是我們今天所熟知的契比雪夫不等式的簡單推論,，但須注意的是在伯努利那個時代,，并無“方差”這個概念，更不用說從這個不等式而推論出伯努利大數(shù)定律了,。

此外,，常用的大數(shù)定律除了伯努利大數(shù)定律之外，還有辛欽大數(shù)定律,、柯爾莫哥洛夫強大數(shù)定律和重對數(shù)定律等定律,。這里稍微提下辛欽大數(shù)定律，如下圖所示,。

在1733年,，棣莫弗發(fā)展了用正態(tài)分布逼近二項分布的方法，這對于當時而言,，是一實質(zhì)性的深遠改進,。

3.3、棣莫弗的二項概率逼近

同上文中的惠更新,，伯努利一樣,，人們熟悉棣莫弗，想必是因為著名的棣莫弗公式,，如下：

據(jù)數(shù)理統(tǒng)計學(xué)簡史一書上的說明,，棣莫弗之所以投身到二項概率的研究，非因伯努利之故,，而又是賭博問題(賭博貢獻很大丫哈),。有一天一個哥們,，也許是個賭徒,，向棣莫弗提了一個和賭博相關(guān)的一個問題：A,B兩人在賭場里賭博，A,B各自的獲勝概率是p和q=1?p,，賭n局,，若A贏的局數(shù)X>np，則A付給賭場X?np元,，否則B付給賭場np?X元,。問賭場掙錢的期望值是多少？按定義可知，此期望值為：

上式的b(N,，平,，i)為二項概率，棣莫弗最終在Np為整數(shù)的條件下得到：

當m=N/2時,，N趨于無窮,，

也就是說上述問題的本質(zhì)上是上文第一節(jié)中所講的一個二項分布。雖然從上述公式可以集結(jié)此問題,，但在N很大時,，計算不易，故棣莫弗想找到一個更方便于計算的近似公式,。

棣莫弗后來雖然做了一些計算并得到了一些近似結(jié)果,，但是還不夠，隨后有人講棣莫弗的研究工作告訴給了斯特林,，于是,，便直接催生了在數(shù)學(xué)分析中必學(xué)的一個重要公式斯特林公式(斯特林公式最初發(fā)表于1730年，而后棣莫弗改進了斯特林公式)：

（其中,，m= N/2）

1733年,，棣莫弗有了一個決定性意義的舉動，他證明了當N趨于去窮時,，有下列式子成立：

不要小瞧了這個公式,。當它與上面給出的這個公式結(jié)合后，便有了：

根據(jù)上面式子,，近似地以定積分代替和,，得到下式：

不知道，當讀者讀到這里的時候,，是否從上式看出了些許端倪,，此式可隱藏了一個我們習(xí)以為常卻極其重要的概念。OK,，或許其形式不夠明朗,，借用rickjin的式子轉(zhuǎn)化下：

沒錯，正態(tài)分布的概率密度(函數(shù))在上述的積分公式中出現(xiàn)了,！于此,，我們得到了一個結(jié)論，原來二項分布的極限分布便是正態(tài)分布,。與此同時,，還引出了統(tǒng)計學(xué)史上占據(jù)重要地位的中心極限定理。

「棣莫弗-拉普拉斯定理」：設(shè)隨機變量Xn(n=1,2...)服從參數(shù)為p的二項分布,，則對任意的x,，恒有下式成立：

我們便稱此定理為中心極限定理,。而且還透露著一個極為重要的信息：1730年，棣莫弗用二項分布逼近竟然得到了正太密度函數(shù),，并首次提出了中心極限定理,。

還沒完，隨后,，在1744年,，拉普拉斯證明了：

最終，1780年,，拉普拉斯建立了中心極限定理的一般形式(也就是上文3.2節(jié)中所講的中心極限定理的一般形式)：

「Lindeberg-Levy中心極限定理」設(shè)X1,?,Xn獨立同分布,，且具有有限的均值μ和方差σ2,，則在n→∞時,有

棣莫弗的工作對數(shù)理統(tǒng)計學(xué)有著很大的影響,，棣莫弗40年之后，拉普拉斯建立中心極限定理的一般形式,，20世紀30年代最終完成獨立和中心極限定理最一般的形式,，在中心極限定理的基礎(chǔ)之上,，統(tǒng)計學(xué)家們發(fā)現(xiàn)當樣本量趨于無窮時，一系列重要統(tǒng)計量的極限分布如二項分布,，都有正態(tài)分布的形式,，也就是說，這也構(gòu)成了數(shù)理統(tǒng)計學(xué)中大樣本方法的基礎(chǔ),。

此外,，從上面的棣莫弗-拉普拉斯定理，你或許還沒有看出什么蹊蹺,。但我們可以這樣理解：若取c充分大,，則對足夠大的N，事件|的概率可任意接近于1,，由于,，故對于任意給定的ε>0，有下式成立：

而這就是上文中所講的伯努利大數(shù)定律(注：上面討論的是對稱情況,，即p=1/2的情況),。

我之所以不厭其煩的要論述這個棣莫弗的二項概率逼近的相關(guān)過程，是想說明一點：各個定理.公式彼此之前是有著緊密聯(lián)系的,，要善于發(fā)現(xiàn)其中的各種聯(lián)系,。

同時，還有一個問題,，相信讀者已經(jīng)意識到了,，如本文第一節(jié)內(nèi)容所述，咱們的概率論與數(shù)理統(tǒng)計教材講正態(tài)分布的時候,，一上來便給出正態(tài)分布的概率密度(函數(shù))，然后告訴我們說，符合這個概率密度(函數(shù))的稱為正態(tài)分布,，緊接著闡述和證明相關(guān)性質(zhì),，最后說了一句：”在自然現(xiàn)象和社會現(xiàn)象中，大量隨機變量都服從或近似服從正態(tài)分布,，如人的身高,，某零件長度的誤差，海洋波浪的高度“,，然后呢,？然后什么也沒說了。連正態(tài)分布中最基本的兩個參數(shù)為,、和的的意義都不告訴我們(位置參數(shù)即為數(shù)學(xué)期望,，尺度參數(shù)為即為方差，換句話說,，有了期望和方差,，即可確定正態(tài)分布)。

隨后,，教材上便開始講數(shù)學(xué)期望,，方差等概念，最后才講到中心極限定理,?；蛟S在讀者閱讀本文之后，這些定理的先后發(fā)明順序才得以知曉,。殊不知：正態(tài)分布的概率密度(函數(shù))形式首次發(fā)現(xiàn)于棣莫弗-拉普拉斯中心極限定理中,，即先有中心極限定理，而后才有正態(tài)分布(通過閱讀下文4.6節(jié)你將知道,，高斯引入正太誤差理論,，才成就了正態(tài)分布，反過來,，拉普拉斯在高斯的工作之上用中心極限定理論證了正態(tài)分布),。如rickjin所言：’‘學(xué)家研究數(shù)學(xué)問題的進程很少是按照我們數(shù)學(xué)課本的安排順序推進的，現(xiàn)代的數(shù)學(xué)課本都是按照數(shù)學(xué)內(nèi)在的邏輯進行組織編排的,，雖然邏輯結(jié)構(gòu)上嚴謹優(yōu)美,，卻把數(shù)學(xué)問題研究的歷史痕跡抹得一干二凈。DNA雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)者之一James Waston在他的名著《DNA雙螺旋》序言中說：‘科學(xué)的發(fā)現(xiàn)很少會像門外漢所想象的一樣,，按照直接了當合乎邏輯的方式進行的,。’ ’‘

3.4,、貝葉斯方法

前面,，介紹了惠更斯,、伯努利和棣莫弗等人的重大成果，無疑在這些重要發(fā)明中,，二項分布都占據(jù)著舉重輕重的地位,。這在早期的概率統(tǒng)計史當中，也是唯一一個研究程度很深的分布,。但除了伯努利的大數(shù)定律及棣莫弗的二項逼近的研究成果外,，在18世紀中葉，為了解決二項分布概率的估計問題,，出現(xiàn)了一個影響極為廣泛的貝葉斯方法,，貝葉斯方法經(jīng)過長足的發(fā)展，如今已經(jīng)成為數(shù)理統(tǒng)計學(xué)中的兩個主要學(xué)派之一：貝葉斯學(xué)派,，牢牢占據(jù)數(shù)理統(tǒng)計學(xué)領(lǐng)域的半壁江山,。

據(jù)數(shù)理統(tǒng)計學(xué)簡史一書，托馬斯.貝葉斯,，此人在18世紀上半葉的歐洲學(xué)術(shù)界,，并不算得上很知名，在提出貝葉斯定理之前,，也未發(fā)表過片紙只字的科學(xué)論著,，套用當今的話來說，他便是活生生一個民間學(xué)術(shù)屌絲,。

未發(fā)表過任何科學(xué)著作,，但一個人如果熱愛研究，喜好學(xué)術(shù)的話,，必找人交流,。于此，諸多重大發(fā)明定理都出現(xiàn)在學(xué)者之間的一些書信交流中,。奇怪的是,，貝葉斯這方面的書信材料也不多?；蛟S讀者讀到此處,，已知我意，會說這一切在他提出貝葉斯定理之后有了改變,，但讀者朋友只猜對了一半,。

貝葉斯的確發(fā)表了一篇題為An essay towards solving a problem in the doctrine of chances(機遇理論中一個問題的解)的遺作，此文在他發(fā)表后很長一段時間起,，在學(xué)術(shù)界沒有引起什么反響,，直到20世紀以來，突然受到人們的重視,，此文也因此成為貝葉斯學(xué)派最初的奠基石(又一個梵高式的人物),。

有人說貝葉斯發(fā)表此文的動機是為了解決伯努利和棣莫弗未能解決的二項分布概率P的“逆概率”問題,。所謂逆概率，顧名思義,，就是求概率問題的逆問題：已知時間的概率為P,，可由之計算某種觀察結(jié)果的概率如何,；反過來,，給定了觀察結(jié)果，問由之可以對概率P作何推斷,。也就是說,，正概率是由原因推結(jié)果，稱之為概率論,；而逆概率是結(jié)果推原因,，稱之為數(shù)理統(tǒng)計。

由于本文中,，重點不在貝葉斯定理,，而本文第一節(jié)之2.1小節(jié)已對其做簡要介紹，再者,，此文從決策樹學(xué)習(xí)談到貝葉斯分類算法,、EM、HMM第二部分也詳細介紹過了貝葉斯方法,，故為本文篇幅所限,，不再做過多描述。

3.5,、最小二乘法,，數(shù)據(jù)分析的瑞士軍刀

事實上，在成百上千的各式各樣的攻擊方法中,，取算術(shù)平均恐怕是最廣為人知使用也最為廣泛的方法,，因為可能一個小學(xué)生都知道使用算術(shù)平均來計算自己每天平均花了多少零花錢而以此作為向爸媽討要零花錢的依據(jù)。而我們大多數(shù)成年人也經(jīng)常把“平均說來”掛在嘴邊,。故此節(jié)要講的最小二乘法其實并不高深,，它的本質(zhì)思想即是來源于此算術(shù)平均的方法。

不太精確的說,，一部數(shù)理統(tǒng)計學(xué)的歷史,，就是從縱橫兩個方向?qū)λ阈g(shù)平均進行不斷深入研究的歷史，

縱的方面指平均值本身,，諸如伯努利及其后眾多的大數(shù)定律,，棣莫弗-拉普拉斯中心極限定理，高斯的正太誤差理論,，這些在很大程度上都可以視為對算術(shù)平均的研究成果,，甚至到方差,，標準差等概念也是由平均值發(fā)展而來；
橫的方面中最為典型的就是此最小二乘法,。

而算術(shù)平均也是解釋最小二乘法的最簡單的例子,。使誤差平方和達到最小以尋求估計值的方法，則稱為最小二乘估計(當然,，取平方和作為目標函數(shù)知識眾多可取的方法之一,，例如也可以取誤差4次方或絕對值和，取平方和是人類千百年實踐中被證實行之有效的方法,，因此被普遍采用),。

何謂最小二乘法？實踐中,，常需尋找兩變量之間的函數(shù)關(guān)系,，比如測定一個刀具的磨損速度，也就是說,，隨著使用刀具的次數(shù)越多,，刀具本身的厚度會逐漸減少，故刀具厚度與使用時間將成線性關(guān)系,，假設(shè)符合f（t）=at + b（t代表時間,，f(t)代表刀具本身厚度），a,，b是待確定的常數(shù),，那么a、b如何確定呢,？

最理想的情形就是選取這樣的a,、b，能使直線y = at + b 所得到的值與實際中測量到的刀具厚度完全符合,，但實際上這是不可能的,，因為誤差總是存在難以避免的。故因誤差的存在,，使得理論值與真實值存在偏差,，為使偏差最小通過偏差的平方和最小確定系數(shù)a、b,，從而確定兩變量之間的函數(shù)關(guān)系f（t）= at + b,。

這種通過偏差的平方和為最小的條件來確定常數(shù)a、b的方法,，即為最小二乘法,。最小二乘法的一般形式可表述為：

在此，說點后話，最小二乘法是與統(tǒng)計學(xué)有著密切聯(lián)系的,，因為觀測值有隨機誤差,，所以它同正態(tài)分布一樣與誤差論有著密切聯(lián)系(說實話，最小二乘法試圖解決的是誤差最小的問題,，而正態(tài)分布則是試圖尋找誤差分布規(guī)律的問題,，無論是最小二乘法，還是正態(tài)分布的研究工作,，至始至終都圍繞著誤差進行),。

那么，最小二乘法是如何發(fā)明的呢,？據(jù)史料記載,，最小二乘法最初是由法國數(shù)學(xué)家勒讓德于1805年發(fā)明的,。那勒讓德發(fā)明它的動機來源于哪呢,？

18世紀中葉，包括勒讓德,、歐拉,、拉普拉斯、高斯在內(nèi)的許多天文學(xué)家和數(shù)學(xué)家都對天文學(xué)上諸多問題的研究產(chǎn)生了濃厚的興趣,。比如以下問題：

土星和木星是太陽系中的大行星,，由于相互吸引對各自的運動軌道產(chǎn)生了影響，許多大數(shù)學(xué)家,，包括歐拉和拉普拉斯都在基于長期積累的天文觀測數(shù)據(jù)計算土星和木星的運行軌道,。
勒讓德承擔了一個政府給的重要任務(wù)，測量通過巴黎的子午線的長度,。
海上航行經(jīng)緯度的定位,。主要是通過對恒星和月面上的一些定點的觀測來確定經(jīng)緯度。

這些問題都可以用如下數(shù)學(xué)模型描述：我們想估計的量是β0,?,βp,，另有若干個可以測量的量x1,?,xp,y,，這些量之間有線性關(guān)系

如何通過多組觀測數(shù)據(jù)求解出參數(shù)β0,?,βp呢？歐拉和拉普拉斯采用的都是求解線性方程組的方法,。

但是面臨的一個問題是,，有n組觀測數(shù)據(jù)，p+1個變量,，如果n>p+1,，則得到的線性矛盾方程組，無法直接求解,。所以歐拉和拉普拉斯采用的方法都是通過一定的對數(shù)據(jù)的觀察,，把n個線性方程分為p+1組，然后把每個組內(nèi)的方程線性求和后歸并為一個方程,，從而就把n個方程的方程組化為p+1個方程的方程組,，進一步解方程求解參數(shù),。這些方法初看有一些道理，但是都過于經(jīng)驗化,，無法形成統(tǒng)一處理這一類問題的一個通用解決框架,。
以上求解線性矛盾方程的問題在現(xiàn)在的本科生看來都不困難，就是統(tǒng)計學(xué)中的線性回歸問題,，直接用最小二乘法就解決了,，可是即便如歐拉、拉普拉斯這些數(shù)學(xué)大牛,，當時也未能對這些問題提出有效的解決方案,。可見在科學(xué)研究中,，要想在觀念上有所突破并不容易,。有效的最小二乘法是勒讓德在1805年發(fā)表的，基本思想就是認為測量中有誤差,，所以所有方程的累積誤差為：

我們求解出導(dǎo)致累積誤差最小的參數(shù)即可,。

上面我們已經(jīng)看到，是勒讓德最初發(fā)明的最小二乘法,，那為何歷史上人們常常把最小二乘法的發(fā)明與高斯的名字聯(lián)系起來呢,？(注：勒讓德時期的最小二乘法還只是作為一個處理測量數(shù)據(jù)的代數(shù)方法來討論的，實際上與統(tǒng)計學(xué)并無多大關(guān)聯(lián),，只有建立在了測量誤差分布的概率理論之后,，這個方法才足以成為一個統(tǒng)計學(xué)方法。盡管拉普拉斯用他的中心極限定理定理也可以推導(dǎo)出最小二乘法,，但無論是之前的棣莫弗,，還是當時的勒讓德，還是拉普拉斯,，此時他們這些研究成果都還只是一個數(shù)學(xué)表達式而非概率分布),。

因為1829年，高斯提供了最小二乘法的優(yōu)化效果強于其他方法的證明,，即為高斯-馬爾可夫定理,。也就是說勒讓德最初提出了最小二乘法，而卻是高斯讓最小二乘法得以鞏固而影響至今,。且高斯對最小二乘法的最大貢獻在于他是建立在正太誤差分布的理論基礎(chǔ)之上的(后續(xù)更是導(dǎo)出了誤差服從正態(tài)分布的結(jié)論),，最后，1837年,，統(tǒng)計學(xué)家們正式確立誤差服從正態(tài)分布,，自此，人們方才真正確信：觀測值與理論值的誤差服從正態(tài)分布。

3.6,、誤差分布曲線的建立

十八世紀,，天文學(xué)的發(fā)展積累了大量的天文學(xué)數(shù)據(jù)需要分析計算，應(yīng)該如何來處理數(shù)據(jù)中的觀測誤差成為一個很棘手的問題,。我們在數(shù)據(jù)處理中經(jīng)常使用平均的常識性法則,，千百年來的數(shù)據(jù)使用經(jīng)驗說明算術(shù)平均能夠消除誤差，提高精度,。平均有如此的魅力,，道理何在，之前沒有人做過理論上的證明,。算術(shù)平均的合理性問題在天文學(xué)的數(shù)據(jù)分析工作中被提出來討論：測量中的隨機誤差應(yīng)該服從怎樣的概率分布,？算術(shù)平均的優(yōu)良性和誤差的分布有怎樣的密切聯(lián)系？

伽利略在他著名的《關(guān)于兩個主要世界系統(tǒng)的對話》中,，對誤差的分布做過一些定性的描述,，主要包括：

誤差是對稱分布的分布在0的兩側(cè)；
大的誤差出現(xiàn)頻率低,，小的誤差出現(xiàn)頻率高,。

用數(shù)學(xué)的語言描述，也就是說誤差分布函數(shù)f(x)關(guān)于0對稱分布,，概率密度隨|x|增加而減小，這兩個定性的描述都很符合常識,。

4.6.1,、辛普森的工作

許多天文學(xué)家和數(shù)學(xué)家開始了尋找誤差分布曲線的嘗試。托馬斯·辛普森(Thomas Simpson,1710-1761)先走出了有意義的一步,。

設(shè)真值為θ,，而為n次測量值，現(xiàn)在用測量值去估計真值,，那么每次測量的誤差為,，
但若用算術(shù)平均去估計θ呢，則其誤差為,。

Simpson證明了,，對于如下的一個概率分布，

Simpson的誤差態(tài)分布曲線

有這樣的估計：

也就是說,，相比于取小值的機會更大,。辛普森的這個工作很粗糙，但是這是第一次在一個特定情況下,，從概率論的角度嚴格證明了算術(shù)平均的優(yōu)良性,。

4.6.2、拉普拉斯的工作

在1772-1774年間，拉普拉斯也加入到了尋找誤差分布函數(shù)的隊伍中,。與辛普森不同,，拉普拉斯不是先假定一種誤差分后去設(shè)法證明平均值的優(yōu)良性，而是直接射向應(yīng)該去怎么的分布為誤差分布,，以及在確定了誤差分布之后,，如何根據(jù)觀測值去估計真值。

拉普拉斯假定誤差密度函數(shù)f(x)滿足如下性質(zhì)：

m>0,，且為常數(shù),，上述方程解出，C>0且為常數(shù),，由于,，得。故當x<0,，結(jié)合概率密度的性質(zhì)之一(參看上文2.2.4節(jié))：,，解得c=m/2。

由此,，最終1772年,，拉普拉斯求得的分布密度函數(shù)為：

這個概率密度函數(shù)現(xiàn)在被稱為拉普拉斯分布：

以這個函數(shù)作為誤差密度，拉普拉斯開始考慮如何基于測量的結(jié)果去估計未知參數(shù)的值,，即用什么方法通過觀測值去估計真值呢,？要知道咱們現(xiàn)今所熟知的所謂點估計方法、矩估計方法,，包括所謂的極大似然估計法之類的,，當時可是都還沒有發(fā)明。

拉普拉斯可以算是一個貝葉斯主義者,，他的參數(shù)估計的原則和現(xiàn)代貝葉斯方法非常相似：假設(shè)先驗分布是均勻的,，計算出參數(shù)的后驗分布后，取后驗分布的中值點,，即1/2分位點,，作為參數(shù)估計值?？墒腔谶@個誤差分布函數(shù)做了一些計算之后,，拉普拉斯發(fā)現(xiàn)計算過于復(fù)雜，最終沒能給出什么有用的結(jié)果,，故拉普拉斯最終還是沒能搞定誤差分布的問題,。

至此，整個18世紀,，可以說,，尋找誤差分布的問題,，依舊進展甚微，下面,，便將輪到高斯出場了,，歷史總是出人意料，高斯以及其簡單的手法,，給了這個誤差分布的問題一個圓滿的解決,，其結(jié)果也就成為了數(shù)理統(tǒng)計發(fā)展史上的一塊重要的里程碑。

4.6.3,、高斯導(dǎo)出誤差正態(tài)分布

事實上,，棣莫弗早在1730年~1733年間便已從二項分布逼近的途徑得到了正態(tài)密度函數(shù)的形式，到了1780年后,，拉普拉斯也推出了中心極限定理的一般形式,，但無論是棣莫弗，還是拉普拉斯,，此時他們這些研究成果都還只是一個數(shù)學(xué)表達式而非概率分布,，也就是壓根就還沒往誤差概率分布的角度上去思索，而只有到了1809年,，高斯提出“正太誤差”的理論之后,，它正太理論才得以“概率分布“的身份進入科學(xué)殿堂，從而引起人們的重視,。

追本溯源,，正態(tài)分布理論這條大河的源頭歸根結(jié)底是測量誤差理論。那高斯到底在正態(tài)分布的確立做了哪些貢獻呢,？請看下文,。

1801年1月，天文學(xué)家Giuseppe Piazzi發(fā)現(xiàn)了一顆從未見過的光度8等的星在移動,，這顆現(xiàn)在被稱作谷神星（Ceres）的小行星在夜空中出現(xiàn)6個星期，掃過八度角后在就在太陽的光芒下沒了蹤影,，無法觀測,。而留下的觀測數(shù)據(jù)有限，難以計算出他的軌道,，天文學(xué)家也因此無法確定這顆新星是彗星還是行星,，這個問題很快成了學(xué)術(shù)界關(guān)注的焦點。高斯當時已經(jīng)是很有名望的年輕數(shù)學(xué)家了,，這個問題也引起了他的興趣,。高斯一個小時之內(nèi)就計算出了行星的軌道，并預(yù)言了它在夜空中出現(xiàn)的時間和位置,。1801年12月31日夜,，德國天文愛好者奧伯斯(Heinrich Olbers)在高斯預(yù)言的時間里,，用望遠鏡對準了這片天空。果然不出所料,，谷神星出現(xiàn)了,！

高斯為此名聲大震，但是高斯當時拒絕透露計算軌道的方法直到1809年高斯系統(tǒng)地完善了相關(guān)的數(shù)學(xué)理論后,，才將他的方法公布于眾,，而其中使用的數(shù)據(jù)分析方法，就是以正態(tài)誤差分布為基礎(chǔ)的最小二乘法,。那高斯是如何推導(dǎo)出誤差分布為正態(tài)分布的呢,？請看下文。
跟上面一樣,，還是設(shè)真值為,，而為n次獨立測量值，每次測量的誤差為,，假設(shè)誤差ei的密度函數(shù)為f(e),，則測量值的聯(lián)合概率為n個誤差的聯(lián)合概率，記為

到此為止,，高斯的作法實際上與拉普拉斯相同,，但在繼續(xù)往下進行時，高斯提出了兩個創(chuàng)新的想法,。

第一個創(chuàng)新的想法便是：高斯并沒有像前面的拉普拉斯那樣采用貝葉斯的推理方式,，而是直接取L(θ)達到最小值的作為的估計值，這也恰恰是他解決此問題采用的創(chuàng)新方法,，即

現(xiàn)在我們把L(θ)稱為樣本的似然函數(shù),，而得到的估計值θ?稱為極大似然估計。高斯首次給出了極大似然的思想,，這個思想后來被統(tǒng)計學(xué)家R.A.Fisher系統(tǒng)地發(fā)展成為參數(shù)估計中的極大似然估計理論,。
高斯的第二點創(chuàng)新的想法是：他把整個問題的思考模式倒過來，既然千百年來大家都認為算術(shù)平均是一個好的估計,，那么就直接先承認算術(shù)平均就是極大似然估計(換言之,，極大似然估計導(dǎo)出的就應(yīng)該是算術(shù)平均)，所以高斯猜測：

然后高斯再去尋找相應(yīng)的誤差密度函數(shù)以迎合這一點,。即尋找這樣的概率分布函數(shù),使得極大似然估計正好是算術(shù)平均,。通過應(yīng)用數(shù)學(xué)技巧求解這個函數(shù)f,高斯證明了所有的概率密度函數(shù)中，唯一滿足這個性質(zhì)的就是（記為(11)式）：

而這恰巧是我們所熟知的正態(tài)分布的密度函數(shù),，就這樣,，誤差的正態(tài)分布就被高斯給推導(dǎo)出來了！

但,，高斯是如何證明的呢,？也就是說,，高斯是如何一下子就把上面(11)式所述的概率密度函數(shù)給找出來的呢？如下圖所示（摘自數(shù)理統(tǒng)計學(xué)簡史第127頁注2,，圖中開頭所說的高斯的第2原則就是上面所講的高斯的第二點創(chuàng)新的想法,，而下圖最后所說的(11)式就是上面推導(dǎo)出來的概率密度函數(shù)）：

進一步，高斯基于這個誤差分布函數(shù)對最小二乘法給出了一個很漂亮的解釋,。對于最小二乘公式中涉及的每個誤差ei,有,，則結(jié)合高斯的第一個創(chuàng)新方法：極大似然估計及上述的概率密度，(e1,?,en)的聯(lián)合概率分布為

要使得這個概率最大,，必須使得取最小值,，這正好就是最小二乘法的要求。

高斯的這項工作對后世的影響極大,，它使正態(tài)分布同時有了”高斯分布“的名稱,，不止如此，后世甚至也把最小二乘法的發(fā)明權(quán)也歸功于他,，由于他的這一系列突出貢獻,，人們采取了各種形式紀念他，如現(xiàn)今德國10馬克的鈔票上便印有這高斯頭像及正態(tài)分布的密度曲線,，借此表明在高斯的一切科學(xué)貢獻中,，尤以此”正太分布“的確立對人類文明的進程影響最大。

至此,，咱們來總結(jié)下：

如你所見,，相比于勒讓德1805給出的最小二乘法描述，高斯基于誤差正態(tài)分布的最小二乘理論顯然更高一籌,，高斯的工作中既提出了極大似然估計的思想,，又解決了誤差的概率密度分布的問題，由此我們可以對誤差大小的影響進行統(tǒng)計度量了,。
但事情就完了么,？沒有。高斯設(shè)定了準則“最大似然估計應(yīng)該導(dǎo)出優(yōu)良的算術(shù)平均”,，并導(dǎo)出了誤差服從正態(tài)分布,，推導(dǎo)的形式上非常簡潔優(yōu)美。但是高斯給的準則在邏輯上并不足以讓人完全信服,，因為算術(shù)平均的優(yōu)良性當時更多的是一個經(jīng)驗直覺，缺乏嚴格的理論支持,。高斯的推導(dǎo)存在循環(huán)論證的味道：因為算術(shù)平均是優(yōu)良的,，推出誤差必須服從正態(tài)分布；反過來,，又基于正態(tài)分布推導(dǎo)出最小二乘和算術(shù)平均,，來說明最小二乘法和算術(shù)平均的優(yōu)良性,，故其中無論正反論點都必須借助另一方論點作為其出發(fā)點，可是算術(shù)平均到并沒有自行成立的理由,。

也就是上面說到的高斯的第二點創(chuàng)新的想法“他把整個問題的思考模式倒過來：既然千百年來大家都認為算術(shù)平均是一個好的估計,，那么就直接先承認算術(shù)平均就是極大似然估計(換言之，極大似然估計導(dǎo)出的就應(yīng)該是算術(shù)平均)”存在著隱患,，而這一隱患的消除又還得靠咱們的老朋友拉普拉斯解決了,。

受高斯啟發(fā)，拉普拉斯將誤差的正態(tài)分布理論和中心極限定理聯(lián)系起來,，提出了元誤差解釋,。他指出如果誤差可以看成許多微小量的疊加，則根據(jù)他的中心極限定理,，隨機誤差理應(yīng)當有高斯分布(換言之,，按中心極限定理來說，正態(tài)分布是由大量的但每一個作用較小的因素的作用導(dǎo)致而成),。而20世紀中心極限定理的進一步發(fā)展,，也給這個解釋提供了更多的理論支持。

至此,，誤差分布曲線的尋找塵埃落定,，正態(tài)分布在誤差分析中確立了自己的地位。在整個正態(tài)分布被發(fā)現(xiàn)與應(yīng)用的歷史中,，棣莫弗,、拉普拉斯、高斯各有貢獻,，拉普拉斯從中心極限定理的角度解釋它,，高斯把它應(yīng)用在誤差分析中，殊途同歸,。不過因為高斯在數(shù)學(xué)家中的名氣實在是太大,，正態(tài)分布的桂冠還是更多的被戴在了高斯的腦門上，目前數(shù)學(xué)界通行的用語是正態(tài)分布,、高斯分布,，兩者并用。

4.6.4,、正態(tài)分布的時間簡史

至此,，正態(tài)分布從首次出現(xiàn)到最終確立，其時間簡史為：

1705年,，伯努力的著作推測術(shù)問世,，提出伯努利大數(shù)定律；
1730-1733年,，棣莫弗從二項分布逼近得到正態(tài)密度函數(shù),，首次提出中心極限定理,；
1780年，拉普拉斯建立中心極限定理的一般形成,；
1805年,，勒讓德發(fā)明最小二乘法；
1809年,，高斯引入正態(tài)誤差理論,，不但補充了最小二乘法，而且首次導(dǎo)出正態(tài)分布,；
1811年,，拉普拉斯利用中心極限定理論證正態(tài)分布；
1837年,，海根提出元誤差學(xué)說,，自此之后，逐步正式確立誤差服從正態(tài)分布,。

如上所見,，是先有的中心極限定理，而后才有的正態(tài)分布(當然,，最后拉普拉斯用中心極限定理論證了正態(tài)分布),，能了解這些歷史，想想,，都覺得是一件無比激動的事情,。所以，我們切勿以為概率論與數(shù)理統(tǒng)計的教材上是先講的正態(tài)分布,，而后才講的中心極限定理,，而顛倒原有歷史的發(fā)明演進過程。

第四節(jié),、論道正態(tài),，正態(tài)分布的4大數(shù)學(xué)推導(dǎo)

如本blog內(nèi)之前所說：凡是涉及到要證明的東西.理論，便一般不是怎么好惹的東西,。絕大部分時候,，看懂一個東西不難，但證明一個東西則需要點數(shù)學(xué)功底,，進一步,，證明一個東西也不是特別難，難的是從零開始發(fā)明創(chuàng)造這個東西的時候,，則更顯艱難(因為任何時代,，大部分人的研究所得都不過是基于前人的研究成果，前人所做的是開創(chuàng)性工作，而這往往是最艱難最有價值的,，他們被稱為真正的先驅(qū)。牛頓也曾說過,，他不過是站在巨人的肩上,。你，我則更是如此),。

上述第4節(jié)已經(jīng)介紹了正態(tài)分布的歷史由來,，但尚未涉及數(shù)學(xué)推導(dǎo)或證明，下面,，參考概率論沉思錄,，引用“正態(tài)分布的前世今生”等相關(guān)內(nèi)容，介紹推導(dǎo)正太分布的4種方法,，曲徑通幽,，4條小徑，殊途同歸,，進一步領(lǐng)略正態(tài)分布的美妙,。

「注：本節(jié)主要整編自rickjin寫的'正態(tài)分布的前后今生'系列」

4.1、高斯的推導(dǎo)(1809)

第一條小徑是高斯找到的,，高斯以如下準則作為小徑的出發(fā)點

誤差分布導(dǎo)出的極大似然估計 = 算術(shù)平均值

設(shè)真值為,，而為次獨立測量值，每次測量的誤差為,，假設(shè)誤差的密度函數(shù)為,，則測量值的聯(lián)合概率為n個誤差的聯(lián)合概率，記為

為求極大似然估計,，令

整理后可以得到

令,，由上式可以得到

由于高斯假設(shè)極大似然估計的解就是算術(shù)平均，把解帶入上式,，可以得到

在上式中取,，有

由于此時有，并且是任意的,，由此得到：.再在(6)式中取,，并且要求，且,，則有,，并且

所以得到而滿足上式的唯一的連續(xù)函數(shù)就是，從而進一步可以求解出

由于是概率分布函數(shù),，把正規(guī)化一下就得到正態(tài)分布密度函數(shù)

4.2,、Herschel(1850)和麥克斯韋(1860)的推導(dǎo)

第二條小徑是天文學(xué)家John Hershcel和物理學(xué)家麥克斯韋(Maxwell)發(fā)現(xiàn)的。1850年，天文學(xué)家Herschel在對星星的位置進行測量的時候,，需要考慮二維的誤差分布,，為了推導(dǎo)這個誤差的概率密度分布f(x,y)，Herschel設(shè)置了兩個準則：

x軸和y軸的誤差是相互獨立的,，即誤差的概率在正交的方向上相互獨立,；
誤差的概率分布在空間上具有旋轉(zhuǎn)對稱性，即誤差的概率分布和角度沒有關(guān)系,。

這兩個準則對于Herschel考慮的實際測量問題看起來都很合理,。由準則1，可以得到應(yīng)該具有如下形式

把這個函數(shù)轉(zhuǎn)換為極坐標,，在極坐標下的概率密度函數(shù)設(shè)為,，有

由準則2,具有旋轉(zhuǎn)對稱性，也就是應(yīng)該和無關(guān),，所以,，綜合以上，我們可以得到

取,得到,所以上式可以轉(zhuǎn)換為

令,則有

從這個函數(shù)方程中可以解出,從而可以得到的一般形式如下

而就是正態(tài)分布,，而就是標準二維正態(tài)分布函數(shù),。

1860年，我們偉大的物理學(xué)家麥克斯韋在考慮氣體分子的運動速度分布的時候,，在三維空間中基于類似的準則推導(dǎo)出了氣體分子運動的分布是正態(tài)分布,。這就是著名的麥克斯韋分子速率分布定律。大家還記得我們在普通物理中學(xué)過的麥克斯韋-波爾茲曼氣體速率分布定律嗎,？

所以這個分布其實是三個正態(tài)分布的乘積,。你的物理老師是否告訴過你其實這個分布就是三維正態(tài)分布？反正我是一直不知道,，直到今年才明白,。
Herschel-Maxwell推導(dǎo)的神妙之處在于，沒有利用任何概率論的知識,，只是基于空間幾何的不變性,，就推導(dǎo)出了正態(tài)分布。美國諾貝爾物理學(xué)獎得主費曼(Feymann)每次看到一個有的數(shù)學(xué)公式的時候,，就會問：圓在哪里,？這個推導(dǎo)中使用到了，也就是告訴我們正態(tài)分布密度公式中有個,，其根源來在于二維正態(tài)分布中的等高線恰好是個圓,。

4.3、Landon的推導(dǎo)(1941)

第三條道是一位電氣工程師,，Vernon D. Landon 給出的,。1941年，Landon 研究通信電路中的噪聲電壓，通過分析經(jīng)驗數(shù)據(jù)他發(fā)現(xiàn)噪聲電壓的分布模式很相似,，不同的是分布的層級,，而這個層級可以使用方差來刻畫。因此他推理認為噪聲電壓的分布函數(shù)形式是?，F(xiàn)在假設(shè)有一個相對于而言很微小的誤差擾動,，且的分布函數(shù)是,那么新的噪聲電壓是。Landon提出了如下的準則

隨機噪聲具有穩(wěn)定的分布模式
累加一個微小的隨機噪聲,，不改變其穩(wěn)定的分布模式，只改變分布的層級(用方差度量)

用數(shù)學(xué)的語言描述：如果

則有.現(xiàn)在我們來推導(dǎo)函數(shù)應(yīng)該長成啥樣,。按照兩個隨機變量和的分布的計算方式,，的分布函數(shù)將是的分布函數(shù)和的分布函數(shù)的卷積，即有

把在x′處做泰勒級數(shù)展開(為了方便,，展開后把自變量由x′替換為x),，上式可以展開為

記,則有

對于微小的隨機擾動,我們認為他取正值或者負值是對稱的，所以,。所以有

(8)

對于新的噪聲電壓是x′=x+e,，方差由增加為,所以按照Landon的分布函數(shù)模式不變的假設(shè)，新的噪聲電壓的分布函數(shù)應(yīng)該為,。把在處做泰勒級數(shù)展開,，得到

(9)

比較(8)和(9)這兩個式子，可以得到如下偏微分方程

而這個方程就是物理上著名的擴散方程(diffusion equation),，求解該方程就得到

又一次,，我們推導(dǎo)出了正態(tài)分布！
概率論沉思錄作者E.T.Jaynes對于這個推導(dǎo)的評價很高,，認為Landon的推導(dǎo)本質(zhì)上給出了自然界的噪音形成的過程,。他指出這個推導(dǎo)基本上就是中心極限定理的增量式版本，相比于中心極限定理來說,，是一次性累加所有的因素,，Landon的推導(dǎo)是每次在原有的分布上去累加一個微小的擾動。而在這個推導(dǎo)中,，我們看到,，正態(tài)分布具有相當好的穩(wěn)定性；只要數(shù)據(jù)中正態(tài)的模式已經(jīng)形成,，他就容易繼續(xù)保持正態(tài)分布,，無論外部累加的隨機噪聲是什么分布，正態(tài)分布就像一個黑洞一樣把這個累加噪聲吃掉,。

4.4,、正態(tài)分布和最大熵

還有一條小徑是基于最大熵原理的，物理學(xué)家E.T.Jaynes在最大熵原理上有非常重要的貢獻，他在《概率論沉思錄》里面對這個方法有描述和證明,，沒有提到發(fā)現(xiàn)者,，不過難以確認這條道的發(fā)現(xiàn)者是否是Jaynes本人。
熵在物理學(xué)中由來已久,，信息論的創(chuàng)始人香農(nóng)(Claude Elwood Shannon)把這個概念引入了信息論,，讀者中很多人可能都知道目前機器學(xué)習(xí)中有一個非常好用的分類算法叫最大熵分類器。要想把熵和最大熵的來龍去脈說清楚可不容易,，不過這條道的風(fēng)景是相當獨特的,，E.T.Jaynes對這條道也是偏愛有加。
對于一個概率分布,我們定義它的熵為

如果給定一個分布函數(shù)的均值和方差(給定均值和方差這個條件,，也可以描述為給定一階原點矩和二階原點矩,，這兩個條件是等價的)則在所有滿足這兩個限制的概率分布中，熵最大的概率分布就是正態(tài)分布,。
這個結(jié)論的推導(dǎo)數(shù)學(xué)上稍微有點復(fù)雜,，不過如果已經(jīng)猜到了給定限制條件下最大熵的分布是正態(tài)分布，要證明這個猜測卻是很簡單的,，證明的思路如下,。
考慮兩個概率分布和，使用不等式,得

于是

（讀者注意：經(jīng)好友白石指正,，上述等式,，右邊的第一項p(x)之后，1/p(x) 之前少畫了個log符號）

所以

熟悉信息論的讀者都知道,，這個式子是信息論中的很著名的結(jié)論：一個概率分布的熵總是小于相對熵,。上式要取等號只有取。
對于,，在給定的均值和方差下,，我們?nèi)?img alt="" src="http://image109.360doc.com/DownloadImg/2019/02/0311/153485402_293_2019020311094355.jpg">，則可以得到

由于的均值方差有如下限制:,于是

而當的時候,，上式可以取到等號,，這就證明了結(jié)論。

E.T.Jaynes顯然對正態(tài)分布具有這樣的性質(zhì)極為贊賞,，因為這從信息論的角度證明了正態(tài)分布的優(yōu)良性,。而我們可以看到，正態(tài)分布熵的大小,，取決于方差的大小,。這也容易理解，因為正態(tài)分布的均值和密度函數(shù)的形狀無關(guān),，正態(tài)分布的形狀是由其方差決定的,，而熵的大小反應(yīng)概率分布中的信息量,，顯然和密度函數(shù)的形狀相關(guān)。

所謂橫看成嶺側(cè)成峰,，遠近高低各不同,，正態(tài)分布給人們提供了多種欣賞角度和想象空間。法國菩薩級別的大數(shù)學(xué)家龐加萊對正態(tài)分布說過一段有意思的話,，引用來作為這個小節(jié)的結(jié)束：
Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.
—Henri Poincaré

OK,，雖然上文已經(jīng)花了如此多的篇幅講了那么多的概念，然事實上,，在概率論與數(shù)理統(tǒng)計中,，上文所講的概念尚不到1/3，限于篇幅,，還有諸多概念沒有闡述完畢(這些知識將放于數(shù)據(jù)挖掘中所需的概率論與數(shù)理統(tǒng)計知識,、下中介紹)，如下圖所示：