科學(xué)松鼠會(huì) ? 正態(tài)分布的前世今生（下）

曾子墨1089 2014-11-11

展開(kāi)全文

六,、開(kāi)疆?dāng)U土,，正態(tài)分布的進(jìn)一步發(fā)展

19世紀(jì)初,，隨著拉普拉斯中心極限定理的建立與高斯正態(tài)誤差理論的問(wèn)世，正態(tài)分布開(kāi)始嶄露頭角,，逐步在近代概率論和數(shù)理統(tǒng)計(jì)學(xué)中大放異彩,。在概率論中，由于拉普拉斯的推動(dòng),，中心極限定理發(fā)展成為現(xiàn)代概率論的一塊基石,。而在數(shù)理統(tǒng)計(jì)學(xué)中，在高斯的大力提倡之下,，正態(tài)分布開(kāi)始逐步暢行于天下,。

6.1 論劍中心極限定理

先來(lái)說(shuō)說(shuō)正態(tài)分布在概率論中的地位，這個(gè)主要是由于中心極限定理的影響,。1776年,，拉普拉斯開(kāi)始考慮一個(gè)天文學(xué)中的彗星軌道的傾角的計(jì)算問(wèn)題，最終的問(wèn)題涉及獨(dú)立隨機(jī)變量求和的概率計(jì)算,，也就是計(jì)算如下的概率值

令 Sn=X1+X2+?+Xn, 那么P(a<Sn<b)=?在這個(gè)問(wèn)題的處理上,，拉普拉斯充分展示了其深厚的數(shù)學(xué)分析功底和高超的概率計(jì)算技巧，他首次引入了特征函數(shù)(也就是對(duì)概率密度函數(shù)做傅立葉變換)來(lái)處理概率分布的神妙方法,，而這一方法經(jīng)過(guò)幾代概率學(xué)家的發(fā)展,，在現(xiàn)代概率論里面占有極其重要的位置?；谶@一分析方法,，拉普拉斯通過(guò)近似計(jì)算，在他的1812年的名著《概率分析理論》中給出了中心極限定理的一般描述：

[定理Laplace,，1812]設(shè) ei(i=1,?n)為獨(dú)立同分布的測(cè)量誤差,，具有均值μ和方差σ2。如果λ1,?,λn為常數(shù),，a>0,則有

P??|∑i=1nλi(ei?μ)|≤a∑i=1nλ2i?????√??≈22π??√σ∫a0exp(?x22σ2)dx這已經(jīng)是比棣莫弗-拉普拉斯中心極限定理更加深刻的一個(gè)結(jié)論了,，理科專(zhuān)業(yè)的本科生學(xué)習(xí)《概率論與數(shù)理統(tǒng)計(jì)》這門(mén)課程的時(shí)候，通常學(xué)習(xí)的是中心極限定理的一般形式：

[Lindeberg-Levy中心極限定理] 設(shè)X1,?,Xn獨(dú)立同分布,，且具有有限的均值μ和方差σ2,，則在n→∞時(shí),有

n?√(Xˉ?μ)σ→N(0,1).多么奇妙的性質(zhì)，隨意的一個(gè)概率分布中生成的隨機(jī)變量,，在序列和(或者等價(jià)的求算術(shù)平均)的操作之下,，表現(xiàn)出如此一致的行為，統(tǒng)一的規(guī)約到正態(tài)分布,。

概率學(xué)家們進(jìn)一步的研究結(jié)果更加令人驚訝,，序列求和最終要導(dǎo)出正態(tài)分布的條件并不需要這么苛刻，即便X1,?,Xn并不獨(dú)立，也不具有相同的概率分布形式,，很多時(shí)候他們求和的最終歸宿仍然是正態(tài)分布,。一切的紛繁蕪雜都在神秘的正態(tài)曲線(xiàn)下被消解，這不禁令人浮想聯(lián)翩,。中心極限定理恐怕是概率論中最具有宗教神秘色彩的定理,，如果有一位牧師拿著一本圣經(jīng)向我證明上帝的存在，我是絲毫不會(huì)買(mǎi)賬,；可是如果他向我展示中心極限定理并且聲稱(chēng)那是神跡,，我可能會(huì)有點(diǎn)猶豫，從而樂(lè)意傾聽(tīng)他的布道,。如果我能坐著時(shí)光機(jī)穿越到一個(gè)原始部落中,，我也一定會(huì)帶上中心極限定理，并勸說(shuō)部落的酋長(zhǎng)把正態(tài)分布作為他們的圖騰,。

中心極限定理雖然表述形式簡(jiǎn)潔,，但是嚴(yán)格證明它卻非常困難。中心極限定理就像一張大蜘蛛網(wǎng),，棣莫弗和拉普拉斯編織了它的雛形,，可是這張網(wǎng)上漏洞太多，一個(gè)多世紀(jì)來(lái),，數(shù)學(xué)家們就像蜘蛛一樣前赴后繼,，努力想把所有的漏洞都補(bǔ)上。在十九世紀(jì),，珀松(Poission),、狄利克萊(Dirichlet)、柯西(Cauchy),、貝塞爾(Bessel)這些大蜘蛛都曾經(jīng)試圖對(duì)把這張網(wǎng)上的漏洞補(bǔ)上。從現(xiàn)代概率論來(lái)看角度,，整個(gè)十九世紀(jì)的經(jīng)典概率理論并沒(méi)有能輸出一個(gè)一般意義下嚴(yán)格的證明,。而真正把漏洞補(bǔ)上的是來(lái)自俄羅斯的幾位蜘蛛俠：切比雪夫(Chebyshev)、馬爾可夫(Markov)和李雅普諾夫(Lyapunov),。俄羅斯是一個(gè)具有優(yōu)秀的數(shù)學(xué)傳統(tǒng)的民族,，產(chǎn)生過(guò)幾位頂尖的的數(shù)學(xué)家，在現(xiàn)代概率論的發(fā)展中,，俄羅斯的圣彼得堡學(xué)派可以算是頂了半邊天,。把漏洞補(bǔ)上的嚴(yán)格方案的雛形是從切比雪夫1887年的工作開(kāi)始的，不過(guò)切比雪夫的證明存在一些漏洞,。馬爾可夫和李雅普諾夫都是切比雪夫的學(xué)生,，馬爾科夫沿著老師的基于矩法的思路在蜘蛛網(wǎng)上辛勤編織，但洞還是補(bǔ)得不夠嚴(yán)實(shí)；李雅普諾夫不像馬爾可夫那樣深受老師的影響,，他沿著拉普拉斯當(dāng)年提出的基于特征函數(shù)的思路,，于1901年給出了一個(gè)補(bǔ)洞的方法，切比雪夫?qū)@個(gè)方法大加贊賞,，李雅普諾夫的證明被認(rèn)為是第一個(gè)在一般條件下的嚴(yán)格證明,；而馬爾科夫也不甘示弱，在1913年基于矩法也把洞給補(bǔ)嚴(yán)實(shí)了,。

【華山論劍】

20世紀(jì)初期到中期,，中心極限定理的研究幾乎吸引了所有的概率學(xué)家，這個(gè)定理儼然成為了概率論的明珠,，成為了各大概率論武林高手華山論劍的場(chǎng)所,。不知道大家對(duì)中心極限定理中的“中心”一詞如何理解，許多人都認(rèn)為"中心"這個(gè)詞描述的是這個(gè)定理的行為：以正態(tài)分布為中心,。這個(gè)解釋看起來(lái)確實(shí)合情合理,，不過(guò)并不符合該定理被冠名的歷史。事實(shí)上,，20世紀(jì)初概率學(xué)家大都稱(chēng)呼該定理為極限定理(Limit Theorem),，由于該定理在概率論中處于如此重要的中心位置，如此之多的概率學(xué)武林高手為它魂?duì)繅?mèng)繞,，于是數(shù)學(xué)家波利亞(G.Polya)于1920年在該定理前面冠以"中心"一詞,，由此后續(xù)人們都稱(chēng)之為中心極限定理。

數(shù)學(xué)家們總是極其嚴(yán)謹(jǐn)苛刻的,，在一個(gè)給定條件下嚴(yán)格證明了中心極限定理之后,，數(shù)學(xué)家就開(kāi)始探尋中心極限定理成立的各種條件，詢(xún)問(wèn)這個(gè)條件是否充分必要條件,，并且進(jìn)一步追問(wèn)序列和在該條件下以什么樣的速度收斂到正態(tài)分布,。從1922年Lindeberg基于一個(gè)比較寬泛容易滿(mǎn)足的條件，給中心極限定理提出了一個(gè)很容易理解的初等證明,。這個(gè)條件我們現(xiàn)在稱(chēng)之為L(zhǎng)indeberg條件,。然后概率學(xué)家費(fèi)勒和列維就開(kāi)始追問(wèn)Lindeberg條件是充分必要的嗎？基于Lindeberg的工作,，費(fèi)勒和列維都于1935年獨(dú)立的得到了中心極限定理成立的充分必要條件,，這個(gè)條件可以用直觀的非數(shù)學(xué)語(yǔ)言描述如下：

[中心極限定理充要條件] 假設(shè)獨(dú)立隨機(jī)變量序列Xi的中值為0。要使序列和S=∑i=1nXi的分布函數(shù)逼近正態(tài)分布,，以下條件是充分必要的:

1. 如果Xi相對(duì)于序列和S的散布(也就是標(biāo)準(zhǔn)差)是不可忽略的,，則Xi的分布必須接近正態(tài)分布
2. 對(duì)于所有可忽略的Xi,取絕對(duì)值最大的那一項(xiàng)，這個(gè)絕對(duì)值相對(duì)于序列和也是可忽略的

事實(shí)上這個(gè)充分必要條件發(fā)現(xiàn)的優(yōu)先權(quán),，費(fèi)勒和列維之間還著實(shí)出現(xiàn)了一些爭(zhēng)論,，當(dāng)然他們倆都是獨(dú)立的在幾乎同一時(shí)間解決了這一個(gè)問(wèn)題,。在列維證明這個(gè)充分必要條件的過(guò)程中，他發(fā)現(xiàn)了正態(tài)分布的一個(gè)有趣的性質(zhì)：我們?cè)跀?shù)理統(tǒng)計(jì)中都學(xué)過(guò),，如果兩個(gè)獨(dú)立隨機(jī)變量X,Y具有正態(tài)分布,，則S=X+Y也具有正態(tài)分布；奇妙的是這個(gè)定理的逆定理也成立：

[正態(tài)分布的血統(tǒng)] 如果X,Y是獨(dú)立的隨機(jī)變量,，且S=X+Y是正態(tài)分布,，那么X,Y也是正態(tài)分布。

正態(tài)分布真是很奇妙,，就像蚯蚓一樣具有再生的性質(zhì),，你把它一刀兩斷，它生成兩個(gè)正態(tài)分布,；或者說(shuō)正態(tài)分布具有極其高貴的優(yōu)良血統(tǒng),，正態(tài)分布的組成成分中只能包含正態(tài)分布，而不可能含有其它雜質(zhì),。一流的數(shù)學(xué)家都是接近上帝的人,，善于猜測(cè)上帝的意圖；1928年Levy就猜到了這個(gè)定理,，并在1935年使用這個(gè)定理對(duì)中心極限定理的充分必要條件作了證明,。有意思的是列維卻無(wú)法證明正態(tài)分布的這個(gè)看上去極其簡(jiǎn)單的再生性質(zhì)，所以他的證明多少讓人覺(jué)得有些瑕疵,。不過(guò)列維的救星很快就降臨了,，1936年Cramer證明他的猜想完全正確。

中心極限定理成為了現(xiàn)代概率論中首屈一指的定理,，事實(shí)上中心極限定理在現(xiàn)代概率論里面已經(jīng)不僅是指一個(gè)定理,，而是指一系列相關(guān)的定理。統(tǒng)計(jì)學(xué)家們也基于該定理不斷地完善拉普拉斯提出的元誤差理論,，并據(jù)此解釋為何世界上正態(tài)分布如此常見(jiàn),。而中心極限定理同時(shí)成為了現(xiàn)代統(tǒng)計(jì)學(xué)中大樣本理論的基礎(chǔ)。

6.2 進(jìn)軍近代統(tǒng)計(jì)學(xué)

花開(kāi)兩朵,，各表一枝,。上面說(shuō)了正態(tài)分布在概率論中的發(fā)展，現(xiàn)在來(lái)看看正態(tài)分布在數(shù)理統(tǒng)計(jì)學(xué)中發(fā)展的故事,。這個(gè)故事的領(lǐng)銜主演是凱特勒(Adolphe Quetelet)和高爾頓(Francis Galton)。

由于高斯的工作,，正態(tài)分布在誤差分析中迅速確定了自己的地位,。有了這么好的工具，我們可能拍腦袋就認(rèn)為,，正態(tài)分布很快就被人們用來(lái)分析其它的數(shù)據(jù),，然而事實(shí)卻出乎我們的意料，正態(tài)分布進(jìn)入社會(huì)領(lǐng)域和自然科學(xué)領(lǐng)域，可是經(jīng)過(guò)一番周折的,。

首先我要告訴大家一個(gè)事實(shí)：誤差分析和統(tǒng)計(jì)學(xué)是兩個(gè)風(fēng)馬牛不相及的兩個(gè)學(xué)科,；當(dāng)然這個(gè)事實(shí)存在的時(shí)間是19世紀(jì)初之前。統(tǒng)計(jì)學(xué)的產(chǎn)生最初與“編制國(guó)情報(bào)告”有關(guān),，主要服務(wù)于政府部門(mén),。統(tǒng)計(jì)學(xué)面對(duì)的是統(tǒng)計(jì)數(shù)據(jù)，是對(duì)多個(gè)不同對(duì)象的測(cè)量,；而誤差分析研究的是觀測(cè)數(shù)據(jù),，是對(duì)同一個(gè)對(duì)象的多次測(cè)量。因此觀測(cè)數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù)在當(dāng)時(shí)被認(rèn)為兩種不同行為獲取得到的數(shù)據(jù),，適用于觀測(cè)數(shù)據(jù)的規(guī)律未必適用于統(tǒng)計(jì)數(shù)據(jù),。19世紀(jì)的統(tǒng)計(jì)數(shù)據(jù)分析處于一個(gè)很落后的狀態(tài)，和概率論沒(méi)有多少結(jié)合,。而概率論的產(chǎn)生主要和賭博相關(guān),，發(fā)展過(guò)程中與誤差分析緊密聯(lián)系，而與當(dāng)時(shí)的統(tǒng)計(jì)學(xué)交集非常小,。將統(tǒng)計(jì)學(xué)與概率論真正結(jié)合起來(lái)推動(dòng)數(shù)理統(tǒng)計(jì)學(xué)發(fā)展的便是我們的統(tǒng)計(jì)學(xué)巨星凱特勒,。

凱特勒這名字或許不如其它數(shù)學(xué)家那么響亮，估計(jì)很多人不熟悉,，所以有必要介紹一下,。凱特勒是比利時(shí)人，數(shù)學(xué)博士畢業(yè),，年輕的時(shí)候曾追隨拉普拉斯學(xué)習(xí)過(guò)概率論,。此人學(xué)識(shí)淵博，涉獵廣泛,，腦門(mén)上的桂冠包括統(tǒng)計(jì)學(xué)家,、數(shù)學(xué)家、天文學(xué)家,、社會(huì)學(xué)家,、國(guó)際統(tǒng)計(jì)會(huì)議之父、近代統(tǒng)計(jì)學(xué)之父,、數(shù)理統(tǒng)計(jì)學(xué)派創(chuàng)始人,。凱特勒的最大的貢獻(xiàn)就是將法國(guó)的古典概率引入統(tǒng)計(jì)學(xué)，用純數(shù)學(xué)的方法對(duì)社會(huì)現(xiàn)象進(jìn)行研究,。

1831年,，凱特勒參與主持新建比利時(shí)統(tǒng)計(jì)總局的工作。他開(kāi)始從事有關(guān)人口問(wèn)題的統(tǒng)計(jì)學(xué)研究,。在這種研究中,，凱特勒發(fā)現(xiàn),以往被人們認(rèn)為雜亂無(wú)章的,、偶然性占統(tǒng)治地位的社會(huì)現(xiàn)象，如同自然現(xiàn)象一樣也具有一定的規(guī)律性,。凱特勒搜集了大量關(guān)于人體生理測(cè)量的數(shù)據(jù),，如體重、身高與胸圍等,，并使用概率統(tǒng)計(jì)方法來(lái)對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,。但是當(dāng)時(shí)的統(tǒng)計(jì)分析方法遭到了社會(huì)學(xué)家的質(zhì)疑，社會(huì)學(xué)家們的反對(duì)意見(jiàn)主要在于：社會(huì)問(wèn)題與科學(xué)實(shí)驗(yàn)不同,，其數(shù)據(jù)一般由觀察得到,，無(wú)法控制且經(jīng)常不了解其異質(zhì)因素，這樣數(shù)據(jù)的同質(zhì)性連帶其分析結(jié)果往往就有了問(wèn)題,，于是社會(huì)統(tǒng)計(jì)工作者就面臨一個(gè)如何判斷數(shù)據(jù)同質(zhì)性的問(wèn)題,。凱特勒大膽地提出：

【把一批數(shù)據(jù)是否能很好地?cái)M合正態(tài)分布，作為判斷該批數(shù)據(jù)同質(zhì)的標(biāo)準(zhǔn),?！?/p>

凱特勒提出了一個(gè)使用正態(tài)曲線(xiàn)擬合數(shù)據(jù)的方法，并廣泛的使用正態(tài)分布去擬合各種類(lèi)型的數(shù)據(jù),。由此,，凱特勒為正態(tài)分布的應(yīng)用拓展了廣闊的舞臺(tái)。正態(tài)分布如同一把屠龍刀,，在他的帶領(lǐng)下,，學(xué)者們揮舞著這把寶刀在各個(gè)領(lǐng)域披荊斬棘，攻陷了人口,、領(lǐng)土,、政治、農(nóng)業(yè),、工業(yè),、商業(yè)、道德等社會(huì)領(lǐng)域,，并進(jìn)一步攻占天文學(xué),、數(shù)學(xué)、物理學(xué),、生物學(xué),、社會(huì)統(tǒng)計(jì)學(xué)及氣象學(xué)等自然科學(xué)領(lǐng)域。

正態(tài)分布的下一個(gè)推動(dòng)力來(lái)自生物學(xué)家高爾頓,，當(dāng)正態(tài)分布與生物學(xué)聯(lián)姻時(shí),，近代統(tǒng)計(jì)學(xué)迎來(lái)了一次大發(fā)展。高爾頓是生物統(tǒng)計(jì)學(xué)派的奠基人,，他的表哥達(dá)爾文的巨著《物種起源》問(wèn)世以后,，觸動(dòng)他用統(tǒng)計(jì)方法研究遺傳進(jìn)化問(wèn)題。受凱特勒的啟發(fā),，他對(duì)正態(tài)分布懷有濃厚的興趣,，開(kāi)始使用正態(tài)分布去擬合人的身高、胸圍,、以至考試成績(jī)等各類(lèi)數(shù)據(jù),，發(fā)現(xiàn)正態(tài)分布擬合得非常好。他因此相信正態(tài)曲線(xiàn)是適用于無(wú)數(shù)情況的一般法則,。

然而,，對(duì)高爾頓而言，這個(gè)無(wú)處不在的正態(tài)性給他帶來(lái)一些困惑,。他考察了親子兩代的身高數(shù)據(jù),，發(fā)現(xiàn)遵從同一的正態(tài)分布，遺傳作為一個(gè)顯著因素是如何發(fā)揮作用的,？1877年,，高爾頓設(shè)計(jì)了一個(gè)叫高爾頓釘板(quincunx,或者Galton board)的裝置，模擬正態(tài)分布的性質(zhì)用于解釋遺傳現(xiàn)象,。

如下圖中每一點(diǎn)表示釘在板上的一顆釘子,，它們彼此的距離均相等。當(dāng)小圓球向下降落過(guò)程中,，碰到釘子后皆以1/2的概率向左或向右滾下,。如果有n排釘子，則各槽內(nèi)最終球的個(gè)數(shù)服從二項(xiàng)分布B(n,1/2),當(dāng)n較大的時(shí)候,，接近正態(tài)分布,。

【高爾頓釘板】

設(shè)想在此裝置的中間某個(gè)地方AB設(shè)一個(gè)擋板把小球截住，小球?qū)⒃贏B處聚成正態(tài)曲線(xiàn)形狀,，如果擋板上有許多閥門(mén),，打開(kāi)一些閥門(mén)，則在底部形成多個(gè)大小不一的正態(tài)分布,，而最終的大正態(tài)分布正式這些小正態(tài)分布的混合,。

【高爾頓釘板解釋遺傳現(xiàn)象】

高爾頓利用這個(gè)裝置創(chuàng)造性的把正態(tài)分布的性質(zhì)用于解釋遺傳現(xiàn)象。他解釋說(shuō)身高受到顯著因素和其它較小因素的影響,，每個(gè)因素的影響可以表達(dá)為一個(gè)正態(tài)分布,。遺傳作為一個(gè)顯著因素，類(lèi)似圖中底部大小不一的正態(tài)分布中的比較大的正態(tài)分布,，而多個(gè)大小不一正態(tài)分布累加之后其結(jié)果仍然得到一個(gè)正態(tài)分布,。

高爾頓在研究身高的遺傳效應(yīng)的時(shí)候，同時(shí)發(fā)現(xiàn)一個(gè)奇特的現(xiàn)象：高個(gè)子父母的子女,，其身高有低于其父母身高的趨勢(shì),，而矮個(gè)子父母的子女,，其身高有高于其父母的趨勢(shì)，即有“回歸”到普通人平均身高去的趨勢(shì),，這也是“回歸”一詞最早的含義,。高爾頓用二維正態(tài)分布去擬合父代和子代身高的數(shù)據(jù)，同時(shí)引進(jìn)了回歸直線(xiàn),、相關(guān)系數(shù)的概念,，從而開(kāi)創(chuàng)了回歸分析這門(mén)技術(shù)。

可以說(shuō),，高爾頓是用統(tǒng)計(jì)方法研究生物學(xué)的第一人,，他用實(shí)際行動(dòng)開(kāi)拓了凱特勒的思想；為數(shù)理統(tǒng)計(jì)學(xué)的產(chǎn)生奠定了基礎(chǔ),。無(wú)論是凱特勒還是高爾頓,，他們的統(tǒng)計(jì)分析工作都是以正態(tài)分布為中心的，在他們的影響下,，正態(tài)分布獲得了普遍認(rèn)可和廣泛應(yīng)用,，甚至是被濫用，以至有些學(xué)者認(rèn)為19世紀(jì)是正態(tài)分布在統(tǒng)計(jì)學(xué)中占統(tǒng)治地位的時(shí)代,。

6.3 數(shù)理統(tǒng)計(jì)三劍客

最后,，我們來(lái)到了20世紀(jì)，正態(tài)分布的命運(yùn)如何呢,？如果說(shuō)19世紀(jì)是正態(tài)分布在統(tǒng)計(jì)學(xué)中獨(dú)領(lǐng)風(fēng)騷的話(huà),，20世紀(jì)則是數(shù)理統(tǒng)計(jì)學(xué)蓬勃發(fā)展、百花齊放的時(shí)代,。1901年,，高爾頓和他的學(xué)生卡爾·皮爾遜(Karl Pearson)、韋爾登（W.F.R Weldon)創(chuàng)辦《生物計(jì)量》(Biometrika)雜志,，成為生物統(tǒng)計(jì)學(xué)派的一面旗幟,，引導(dǎo)了現(xiàn)代數(shù)理統(tǒng)計(jì)學(xué)的大發(fā)展。統(tǒng)計(jì)學(xué)的重心逐漸由歐洲大陸向英國(guó)轉(zhuǎn)移,，使英國(guó)在以后幾十年數(shù)理統(tǒng)計(jì)學(xué)發(fā)展的黃金時(shí)代充當(dāng)了領(lǐng)頭羊,。

在20世紀(jì)以前，統(tǒng)計(jì)學(xué)所處理的數(shù)據(jù)一般都是大量的,、自然采集的,，所用的方法以拉普拉斯中心極限定理為依據(jù)，總是歸結(jié)到正態(tài),。到了19世紀(jì)末期,，數(shù)據(jù)與正態(tài)擬合不好的情況也日漸為人們所注意：進(jìn)入20世紀(jì)之后，人工試驗(yàn)條件下所得數(shù)據(jù)的統(tǒng)計(jì)分析問(wèn)題，日漸被人們所重視,。由于試驗(yàn)數(shù)據(jù)量有限,，那種依賴(lài)于近似正態(tài)分布的傳統(tǒng)方法開(kāi)始招致質(zhì)疑，這促使人們研究這種情況下正確的統(tǒng)計(jì)方法問(wèn)題,。

在這個(gè)背景之下,，統(tǒng)計(jì)學(xué)三大分布χ2分布、t分布,、F分布逐步登上歷史舞臺(tái)。這三大分布現(xiàn)在的理科本科生都很熟悉,。在歷史上,，這三個(gè)分布和來(lái)自英國(guó)的現(xiàn)代數(shù)理統(tǒng)計(jì)學(xué)的三大劍客有著密切的關(guān)系。

【數(shù)理統(tǒng)計(jì)三劍客】

第一位劍客就是卡爾·皮爾遜(Karl Pearson),，手中的寶劍就是χ2分布,。χ2分布這把寶劍最早的鍛造者其實(shí)是物理學(xué)家麥克斯韋，他在推導(dǎo)空氣分子的運(yùn)動(dòng)速度的分布的時(shí)候,，發(fā)現(xiàn)分子速度在三個(gè)坐標(biāo)軸上的分量是正態(tài)分布,，而分子運(yùn)動(dòng)速度的平方v2符合自由度為3的χ2分布。麥克斯韋雖然造出了這把寶劍,，但是真正把它揮舞得得心應(yīng)手,、游刃有余的是皮爾遜。在分布曲線(xiàn)和數(shù)據(jù)的擬合優(yōu)度檢驗(yàn)中,，χ2分布可是一個(gè)利器,，而皮爾遜的這個(gè)工作被認(rèn)為是假設(shè)檢驗(yàn)的開(kāi)山之作。皮爾遜繼承了高爾頓的衣缽,，統(tǒng)計(jì)功力深厚,，在19世紀(jì)末20世紀(jì)初很長(zhǎng)的一段時(shí)間里，一直被數(shù)理統(tǒng)計(jì)武林人士尊為德高望重的第一大劍客,。

第二位劍客是戈塞特(W.S.Gosset),，筆名是大家都熟悉的學(xué)生氏(Student)，而他手中的寶劍是t分布,。戈塞特是化學(xué),、數(shù)學(xué)雙學(xué)位，依靠自己的化學(xué)知識(shí)進(jìn)釀酒廠工作,，工作期間考慮釀酒配方實(shí)驗(yàn)中的統(tǒng)計(jì)學(xué)問(wèn)題,，追隨卡爾·皮爾遜學(xué)習(xí)了一年的統(tǒng)計(jì)學(xué)，最終依靠自己的數(shù)學(xué)知識(shí)打造出了t分布這把利劍而青史留名,。1908年,，戈塞特提出了正態(tài)樣本中樣本均值和標(biāo)準(zhǔn)差的比值的分布，并給出了應(yīng)用上極其重要的第一個(gè)分布表,。戈塞特在t分布的工作是開(kāi)創(chuàng)了小樣本統(tǒng)計(jì)學(xué)的先河,。

第三位劍客是費(fèi)希爾(R.A.Fisher),，手持F分布這把寶劍，在一片荒蕪中開(kāi)拓出方差分析的肥沃土地,。F分布就是為了紀(jì)念費(fèi)希爾而用他的名字首字母命名的,。費(fèi)希爾劍法飄逸，在三位劍客中當(dāng)屬費(fèi)希爾的天賦最高,，各種兵器的使用都得心應(yīng)手,。費(fèi)希爾統(tǒng)計(jì)造詣極高，受高斯的啟發(fā),，系統(tǒng)地創(chuàng)立了極大似然估計(jì)劍法,，這套劍法現(xiàn)在被尊為統(tǒng)計(jì)學(xué)參數(shù)估計(jì)中的第一劍法。

費(fèi)希爾還未出道,，皮爾遜已經(jīng)是統(tǒng)計(jì)學(xué)的武林盟主了,，兩人歲數(shù)相差了33歲，而戈塞特介于他們中間,。三人在統(tǒng)計(jì)學(xué)擂臺(tái)上難免切磋劍術(shù),。費(fèi)希爾天賦極高，年少氣盛,；而皮爾遜為人強(qiáng)勢(shì),，占著自己武林盟主的地位，難免固執(zhí)己見(jiàn),，以大欺?。毁M(fèi)希爾著實(shí)受了皮爾遜不少氣,。而戈塞特性格溫和,，經(jīng)常在兩人之間調(diào)和。畢竟是長(zhǎng)江后浪推前浪,，一代新人換舊人,，在眾多擂臺(tái)比試中，費(fèi)希爾都技高一籌,，而最終取代了皮爾遜成為數(shù)理統(tǒng)計(jì)學(xué)第一大劍客,。

由于這三大劍客和統(tǒng)計(jì)三大分布的出現(xiàn)，正態(tài)分布在數(shù)理統(tǒng)計(jì)學(xué)中不再是一枝獨(dú)秀,，數(shù)理統(tǒng)計(jì)的領(lǐng)地基本上是被這三大分布搶走了半壁江山,。不過(guò)這對(duì)正態(tài)分布而言并非壞事，我們細(xì)看這三大分布的數(shù)學(xué)細(xì)節(jié)：假設(shè)獨(dú)立隨機(jī)變量Xi～N(0,1),Yj～N(0,1)(i=1?n,j=1?m),，則滿(mǎn)足三大分布的隨機(jī)變量可以如下構(gòu)造出來(lái)

x2(n)=X21+?+X2n
t=Y1X21+?+X2nn?????????√; F=X21+?+X2nnY21+?+Y2mm

你看這三大分布哪一個(gè)不是正態(tài)分布的嫡系血脈,，χ2、t、F這三大分布最初都是從正態(tài)分布切入進(jìn)行研究的,。所以正態(tài)分布在19世紀(jì)是武則天,，進(jìn)入20世紀(jì)就學(xué)了慈禧太后，垂簾聽(tīng)政了,?；蛘撸瑩Q個(gè)角度說(shuō),，一個(gè)好漢三個(gè)幫,，正態(tài)分布如果是孤家寡人恐怕也難以雄霸天下，有了統(tǒng)計(jì)學(xué)三大分布作為開(kāi)國(guó)先鋒為它開(kāi)疆拓土,，正態(tài)分布真正成為傲世群雄的君王,。

20世紀(jì)初，統(tǒng)計(jì)學(xué)這三大劍客成為了現(xiàn)代數(shù)理統(tǒng)計(jì)學(xué)的奠基人,。以哥塞特為先驅(qū)，費(fèi)歇爾為主將,，掀起了小樣本理論的革命,，事實(shí)上提升了正態(tài)分布在統(tǒng)計(jì)學(xué)中的地位。在數(shù)理統(tǒng)計(jì)學(xué)中,，除了以正態(tài)分布為基礎(chǔ)的小樣本理論獲得了空前的勝利,，其它分布上都沒(méi)有成功的案例，這不能不讓人對(duì)正態(tài)分布刮目相看,。在隨后的發(fā)展中,，相關(guān)回歸分析、多元分析,、方差分析,、因子分析、布朗運(yùn)動(dòng),、高斯過(guò)程等等諸多統(tǒng)計(jì)分析方法陸續(xù)登上了歷史舞臺(tái),，而這些和正態(tài)分布密切相關(guān)的方法，成為推動(dòng)現(xiàn)代統(tǒng)計(jì)學(xué)飛速發(fā)展的一個(gè)強(qiáng)大動(dòng)力,。

七,、正態(tài)魅影

每個(gè)人都相信它：實(shí)驗(yàn)工作者認(rèn)為它是一個(gè)數(shù)學(xué)定理，數(shù)學(xué)研究者認(rèn)為他是一個(gè)經(jīng)驗(yàn)公式,。

——亨利·龐加萊

如果說(shuō),，充斥著偶然性的世界是一個(gè)紛亂的世界，那么,，正態(tài)分布為這個(gè)紛亂的世界建立了一定的秩序,，使得偶然性現(xiàn)象在數(shù)量上被計(jì)算和預(yù)測(cè)成為可能。杰恩斯(E.T.Jaynes)在《Probability Theory: the Logic of Science》提出了兩個(gè)問(wèn)題

1.為什么正態(tài)分布被如此廣泛的使用？
2.為什么正態(tài)分布在實(shí)踐使用中非常的成功,？

Jaynes指出,，正態(tài)分布在實(shí)踐中被廣泛地成功應(yīng)用，主要是因?yàn)檎龖B(tài)分布具有在數(shù)學(xué)上的多種穩(wěn)定性質(zhì),，這些性質(zhì)包括：

兩個(gè)正態(tài)分布密度的乘積還是正態(tài)分布
兩個(gè)正態(tài)分布密度的卷積還是正態(tài)分布,，也就是兩個(gè)正態(tài)分布的和還是正態(tài)分布
正態(tài)分布N(0,σ2)的傅立葉變換還是正態(tài)分布
中心極限定理保證了多個(gè)隨機(jī)變量的求和效應(yīng)將導(dǎo)致正態(tài)分布
正態(tài)分布和其它具有相同方差的概率分布相比，具有最大熵

前三個(gè)性質(zhì)說(shuō)明了正態(tài)分布一旦形成,就容易保持該形態(tài)的穩(wěn)定,，Landon對(duì)于正態(tài)分布的推導(dǎo)也表明了,，正態(tài)分布可以吞噬較小的干擾而繼續(xù)保持形態(tài)穩(wěn)定。后兩個(gè)性質(zhì)則說(shuō)明,，其它的概率分布在各種的操作之下容易越來(lái)越靠近正態(tài)分布,。正態(tài)分布具有最大熵的性質(zhì)，所以任何一個(gè)對(duì)指定概率分布的操作,，如果該操作保持方差的大小,，卻減少已知的知識(shí)，則該操作不可避免地增加概率分布的信息熵,，這將導(dǎo)致概率分布向正態(tài)分布靠近,。

正由于正態(tài)分布的穩(wěn)定性質(zhì)，使得它像一個(gè)黑洞一樣處于一個(gè)中心的位置,，其它的概率分布形式在各種操作之下都逐漸向正態(tài)分布靠攏,，Jaynes把它描述為概率分布中重力現(xiàn)象(gravitating phenomenon)。

我們?cè)趯?shí)踐中為何總是選擇使用正態(tài)分布呢,，正態(tài)分布在自然界中的頻繁出現(xiàn)只是原因之一,。Jaynes認(rèn)為還有一個(gè)重要的原因是正態(tài)分布的最大熵性質(zhì)。在很多時(shí)候我們并不知道數(shù)據(jù)的真實(shí)分布是什么,，但是一個(gè)分布的均值和方差往往是相對(duì)穩(wěn)定的,。因此我們能從數(shù)據(jù)中獲取到的比較好的知識(shí)就是均值和方差，除此之外沒(méi)有其它更加有用的信息量,。因此按照最大熵原理,，我們應(yīng)該選擇在給定的知識(shí)的限制下，選擇熵最大的概率分布,，而這就恰好是正態(tài)分布,。因此按照最大熵的原理，即便數(shù)據(jù)的真實(shí)分布不是正態(tài)分布,，由于我們對(duì)真實(shí)分布一無(wú)所知,，如果數(shù)據(jù)不能有效提供除了均值和方差之外的更多的知識(shí)，那這時(shí)候正態(tài)分布就是最佳的選擇,。

當(dāng)然正態(tài)分布還有更多令人著迷的數(shù)學(xué)性質(zhì),，我們可以欣賞一下:

二項(xiàng)分布B(n,p)在n很大逼近正態(tài)分布N(np,np(1?p))
泊松分布Poisson(λ)在λ較大時(shí)逼近正態(tài)分布N(λ,λ)
χ2(n)在n很大的時(shí)候接近正態(tài)分布N(n,2n)
t分布在n很大時(shí)接近標(biāo)準(zhǔn)正態(tài)分布N(0,1)
正態(tài)分布的共軛分布還是正態(tài)分布
幾乎所有的極大似然估計(jì)在樣本量n增大的時(shí)候都趨近于正態(tài)分布
Cramer分解定理(之前介紹過(guò))：如果X,Y是獨(dú)立的隨機(jī)變量,，且S=X+Y是正態(tài)分布，那么X,Y也是正態(tài)分布
如果X,Y獨(dú)立且滿(mǎn)足正態(tài)分布N(μ,σ2),，那么X+Y,X?Y獨(dú)立且同分布,，而正態(tài)分布是唯一滿(mǎn)足這一性質(zhì)的概率分布
對(duì)于兩個(gè)正態(tài)分布X,Y,如果X,Y不相關(guān)則意味著X,Y獨(dú)立，而正態(tài)分布是唯一滿(mǎn)足這一性質(zhì)的概率分布

八,、大道至簡(jiǎn),，大美天成

To see a world in a grain of sand,

And a heaven in a wild flower,

Hold infinity in the palm of your hand,

And eternity in an hour.

算術(shù)平均Xˉ=X1+X2+?+Xnn，極其簡(jiǎn)單而樸素的一個(gè)式子,，被人們使用了千百年,，在其身后隱藏著一個(gè)美麗的世界，而正態(tài)分布正是掌管這個(gè)美麗世界的女神,。正態(tài)分布的發(fā)現(xiàn)與應(yīng)用的最初歷史,，就是數(shù)學(xué)家們孜孜不倦的從概率論和統(tǒng)計(jì)學(xué)角度對(duì)算術(shù)平均不斷深入研究的歷史。中心極限定理在1773年被棣莫弗偶然邂逅的時(shí)候,，它只是一粒普通的沙子,，兩百多年來(lái)吸引了眾多的數(shù)學(xué)家，這個(gè)渾金璞玉的定理不斷地被概率學(xué)家們精雕細(xì)琢,，逐漸發(fā)展成為現(xiàn)代概率論的璀璨明珠,。而在統(tǒng)計(jì)學(xué)的誤差分析之中，高斯窺視了造物主對(duì)算術(shù)平均的厚愛(ài),，也發(fā)現(xiàn)了正態(tài)分布的美麗身影,。殊途同歸,，那是偶然中的必然,。一沙一世界，一花一天國(guó),，算術(shù)平均或許只是一粒沙子,，正態(tài)分布或許只是一朵花，它們卻包含了一個(gè)廣闊而美麗的世界,，幾百年來(lái)以無(wú)窮的魅力吸引著科學(xué)家和數(shù)學(xué)家們,。

高爾頓對(duì)正態(tài)分布非常推崇，1886年在人類(lèi)學(xué)研究所的就職演講中他說(shuō)過(guò)一段著名的話(huà)：“我?guī)缀醪辉?jiàn)過(guò)像誤差呈正態(tài)分布這么美妙而激發(fā)人們無(wú)窮想象的宇宙秩序,。如果古希臘人知道這條曲線(xiàn),，想必會(huì)給予人格化乃至神格化。它以一種寧?kù)o無(wú)形的方式在最野性的混亂中實(shí)施嚴(yán)厲的統(tǒng)治,。暴民越多,，無(wú)政府狀態(tài)越顯現(xiàn)，它就統(tǒng)治得越完美,。它是無(wú)理性世界中的最高法律,。當(dāng)我們從混沌中抽取大量的樣本,，并按大小加以排列整理時(shí)，那么總是有一個(gè)始料不及的美妙規(guī)律潛伏在其中,?！?/p>

概率學(xué)家Kac在他的自述傳記《機(jī)遇之謎》中描述他與正態(tài)分布的淵源：“我接觸到正態(tài)分布之后馬上被它深深吸引，我感到難以相信,，這個(gè)來(lái)自經(jīng)驗(yàn)直方圖和賭博游戲的規(guī)律,，居然會(huì)成為我們?nèi)粘Ｉ畹囊徊糠帧,！绷硪晃桓怕蕦W(xué)家Loeve說(shuō)：“如果我們要抽取列維的概率中心思想,，那我們可以這樣說(shuō)，自從1919年以后,，列維研究的主題曲就是正態(tài)分布,，他一而再再而三地以它為出發(fā)點(diǎn)，并且堅(jiān)決的又回到它....他是帶著隨機(jī)時(shí)鐘沿著隨機(jī)過(guò)程的樣本路徑作旅行的人,?！泵绹?guó)國(guó)家標(biāo)準(zhǔn)局的顧問(wèn)W.J.Youden用如下一段排列為正態(tài)曲線(xiàn)形狀的文字來(lái)高度評(píng)價(jià)正態(tài)分布，意思是說(shuō)：誤差的正態(tài)分布規(guī)律在人類(lèi)的經(jīng)驗(yàn)中具有“鶴立雞群”的地位,，它在物理,、社會(huì)科學(xué)、醫(yī)學(xué),、農(nóng)業(yè),、工程等諸多領(lǐng)域都充當(dāng)了研究的指南，在實(shí)驗(yàn)和數(shù)據(jù)觀測(cè)的解讀中是不可或缺的工具,。

【正態(tài)誤差分布的贊美詞】

幾乎所有的人都或多或少地接觸數(shù)學(xué),，雖然各自的目的不同，對(duì)數(shù)學(xué)的感覺(jué)也不同,。工程師,、科學(xué)家們使用數(shù)學(xué)是因?yàn)樗?jiǎn)潔而實(shí)用，數(shù)學(xué)家們研究數(shù)學(xué)是因?yàn)樗拿利悇?dòng)人,。像正態(tài)分布這樣,，既吸引著無(wú)數(shù)的工程師、科學(xué)家在實(shí)踐廣泛應(yīng)用,，又令眾多的數(shù)學(xué)家為之魂?duì)繅?mèng)繞,，在數(shù)學(xué)的世界里也并不多見(jiàn)。我在讀研究生的時(shí)候,，經(jīng)常逛北大未名BBS的數(shù)學(xué)板,，有一個(gè)叫ukim的著名寫(xiě)手在精華區(qū)里面留下了一個(gè)介紹數(shù)學(xué)家八卦的系列《Heroes in My Heart》，寫(xiě)得非常的精彩,，這些故事在喜歡數(shù)學(xué)的人群中也流傳廣泛,。最后一個(gè)八卦是關(guān)于菲爾茲獎(jiǎng)得主法國(guó)數(shù)學(xué)家R.Thom的,，它曾經(jīng)令無(wú)數(shù)人感動(dòng)，我也借用來(lái)作為我對(duì)正態(tài)分布的八卦的結(jié)語(yǔ)：

在一次采訪(fǎng)當(dāng)中,，作為數(shù)學(xué)家的Thom同兩位古人類(lèi)學(xué)家討論問(wèn)題,。談到遠(yuǎn)古的人們?yōu)槭裁匆４婊鸱N時(shí)，一個(gè)人類(lèi)學(xué)家說(shuō),，因?yàn)楸４婊鸱N可以取暖御寒,；另外一個(gè)人類(lèi)學(xué)家說(shuō)，因?yàn)楸４婊鸱N可以燒出鮮美的肉食,。而托姆（Thom）說(shuō),，因?yàn)橐鼓粊?lái)臨之際，火光搖曳嫵媚,，燦爛多姿,，是最美最美的....

九、推薦閱讀

在終極的分析中,，一切知識(shí)都是歷史

在抽象的意義下,，一切科學(xué)都是數(shù)學(xué)

在理性的基礎(chǔ)上，所有的判斷都是統(tǒng)計(jì)學(xué)

—C.R.Rao

本人并非統(tǒng)計(jì)學(xué)專(zhuān)業(yè)人士,，只是憑一點(diǎn)興趣做一點(diǎn)知識(shí)的傳播,，對(duì)統(tǒng)計(jì)學(xué)歷史知識(shí)的介紹，專(zhuān)業(yè)性和系統(tǒng)性都不是我的目的,。我更在乎的是趣味性,，因?yàn)闆](méi)有趣味就不會(huì)有傳播。如果讀完這段歷史會(huì)讓你覺(jué)得正態(tài)分布更加親切,，不再那么遙不可及,，那我的目的達(dá)到了。如果正態(tài)分布是一滴水,，我愿大家都能看到它折射出的七彩虹,。

本文所使用的大多是二手資料,，有些歷史細(xì)節(jié)并沒(méi)有經(jīng)過(guò)嚴(yán)格的考證,，對(duì)于歷史資料一定程度上按照個(gè)人喜好做了取舍，本文主要基于如下的資料寫(xiě)成,，對(duì)于歷史細(xì)節(jié)感興趣的,，推薦閱讀。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶(hù)發(fā)布,，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：曾子墨1089 > 《LDA》

舉報(bào)/認(rèn)領(lǐng)