六,、開(kāi)疆?dāng)U土,,正態(tài)分布的進(jìn)一步發(fā)展19世紀(jì)初,,隨著拉普拉斯中心極限定理的建立與高斯正態(tài)誤差理論的問(wèn)世,正態(tài)分布開(kāi)始嶄露頭角,,逐步在近代概率論和數(shù)理統(tǒng)計(jì)學(xué)中大放異彩,。在概率論中,由于拉普拉斯的推動(dòng),,中心極限定理發(fā)展成為現(xiàn)代概率論的一塊基石,。而在數(shù)理統(tǒng)計(jì)學(xué)中,在高斯的大力提倡之下,,正態(tài)分布開(kāi)始逐步暢行于天下,。 6.1 論劍中心極限定理先來(lái)說(shuō)說(shuō)正態(tài)分布在概率論中的地位,這個(gè)主要是由于中心極限定理的影響,。1776年,,拉普拉斯開(kāi)始考慮一個(gè)天文學(xué)中的彗星軌道的傾角的計(jì)算問(wèn)題,最終的問(wèn)題涉及獨(dú)立隨機(jī)變量求和的概率計(jì)算,,也就是計(jì)算如下的概率值
[定理Laplace,,1812]設(shè)
[Lindeberg-Levy中心極限定理] 設(shè)
概率學(xué)家們進(jìn)一步的研究結(jié)果更加令人驚訝,,序列求和最終要導(dǎo)出正態(tài)分布的條件并不需要這么苛刻,即便 中心極限定理雖然表述形式簡(jiǎn)潔,,但是嚴(yán)格證明它卻非常困難。中心極限定理就像一張大蜘蛛網(wǎng),,棣莫弗和拉普拉斯編織了它的雛形,,可是這張網(wǎng)上漏洞太多,一個(gè)多世紀(jì)來(lái),,數(shù)學(xué)家們就像蜘蛛一樣前赴后繼,,努力想把所有的漏洞都補(bǔ)上。在十九世紀(jì),,珀松(Poission),、狄利克萊(Dirichlet)、柯西(Cauchy),、貝塞爾(Bessel)這些大蜘蛛都曾經(jīng)試圖對(duì)把這張網(wǎng)上的漏洞補(bǔ)上。從現(xiàn)代概率論來(lái)看角度,,整個(gè)十九世紀(jì)的經(jīng)典概率理論并沒(méi)有能輸出一個(gè)一般意義下嚴(yán)格的證明,。而真正把漏洞補(bǔ)上的是來(lái)自俄羅斯的幾位蜘蛛俠:切比雪夫(Chebyshev)、馬爾可夫(Markov)和李雅普諾夫(Lyapunov),。俄羅斯是一個(gè)具有優(yōu)秀的數(shù)學(xué)傳統(tǒng)的民族,,產(chǎn)生過(guò)幾位頂尖的的數(shù)學(xué)家,在現(xiàn)代概率論的發(fā)展中,,俄羅斯的圣彼得堡學(xué)派可以算是頂了半邊天,。把漏洞補(bǔ)上的嚴(yán)格方案的雛形是從切比雪夫1887年的工作開(kāi)始的,不過(guò)切比雪夫的證明存在一些漏洞,。馬爾可夫和李雅普諾夫都是切比雪夫的學(xué)生,,馬爾科夫沿著老師的基于矩法的思路在蜘蛛網(wǎng)上辛勤編織,但洞還是補(bǔ)得不夠嚴(yán)實(shí);李雅普諾夫不像馬爾可夫那樣深受老師的影響,,他沿著拉普拉斯當(dāng)年提出的基于特征函數(shù)的思路,,于1901年給出了一個(gè)補(bǔ)洞的方法,切比雪夫?qū)@個(gè)方法大加贊賞,,李雅普諾夫的證明被認(rèn)為是第一個(gè)在一般條件下的嚴(yán)格證明,;而馬爾科夫也不甘示弱,在1913年基于矩法也把洞給補(bǔ)嚴(yán)實(shí)了,。 20世紀(jì)初期到中期,,中心極限定理的研究幾乎吸引了所有的概率學(xué)家,這個(gè)定理儼然成為了概率論的明珠,,成為了各大概率論武林高手華山論劍的場(chǎng)所,。不知道大家對(duì)中心極限定理中的“中心”一詞如何理解,許多人都認(rèn)為"中心"這個(gè)詞描述的是這個(gè)定理的行為:以正態(tài)分布為中心,。這個(gè)解釋看起來(lái)確實(shí)合情合理,,不過(guò)并不符合該定理被冠名的歷史。事實(shí)上,,20世紀(jì)初概率學(xué)家大都稱(chēng)呼該定理為極限定理(Limit Theorem),,由于該定理在概率論中處于如此重要的中心位置,如此之多的概率學(xué)武林高手為它魂?duì)繅?mèng)繞,,于是數(shù)學(xué)家波利亞(G.Polya)于1920年在該定理前面冠以"中心"一詞,,由此后續(xù)人們都稱(chēng)之為中心極限定理。 數(shù)學(xué)家們總是極其嚴(yán)謹(jǐn)苛刻的,,在一個(gè)給定條件下嚴(yán)格證明了中心極限定理之后,,數(shù)學(xué)家就開(kāi)始探尋中心極限定理成立的各種條件,詢(xún)問(wèn)這個(gè)條件是否充分必要條件,,并且進(jìn)一步追問(wèn)序列和在該條件下以什么樣的速度收斂到正態(tài)分布,。從1922年Lindeberg基于一個(gè)比較寬泛容易滿(mǎn)足的條件,給中心極限定理提出了一個(gè)很容易理解的初等證明,。這個(gè)條件我們現(xiàn)在稱(chēng)之為L(zhǎng)indeberg條件,。然后概率學(xué)家費(fèi)勒和列維就開(kāi)始追問(wèn)Lindeberg條件是充分必要的嗎?基于Lindeberg的工作,,費(fèi)勒和列維都于1935年獨(dú)立的得到了中心極限定理成立的充分必要條件,,這個(gè)條件可以用直觀的非數(shù)學(xué)語(yǔ)言描述如下: [中心極限定理充要條件] 假設(shè)獨(dú)立隨機(jī)變量序列
事實(shí)上這個(gè)充分必要條件發(fā)現(xiàn)的優(yōu)先權(quán),,費(fèi)勒和列維之間還著實(shí)出現(xiàn)了一些爭(zhēng)論,,當(dāng)然他們倆都是獨(dú)立的在幾乎同一時(shí)間解決了這一個(gè)問(wèn)題,。在列維證明這個(gè)充分必要條件的過(guò)程中,他發(fā)現(xiàn)了正態(tài)分布的一個(gè)有趣的性質(zhì):我們?cè)跀?shù)理統(tǒng)計(jì)中都學(xué)過(guò),,如果兩個(gè)獨(dú)立隨機(jī)變量 [正態(tài)分布的血統(tǒng)] 如果 正態(tài)分布真是很奇妙,,就像蚯蚓一樣具有再生的性質(zhì),,你把它一刀兩斷,它生成兩個(gè)正態(tài)分布,;或者說(shuō)正態(tài)分布具有極其高貴的優(yōu)良血統(tǒng),,正態(tài)分布的組成成分中只能包含正態(tài)分布,而不可能含有其它雜質(zhì),。一流的數(shù)學(xué)家都是接近上帝的人,,善于猜測(cè)上帝的意圖;1928年Levy就猜到了這個(gè)定理,,并在1935年使用這個(gè)定理對(duì)中心極限定理的充分必要條件作了證明,。有意思的是列維卻無(wú)法證明正態(tài)分布的這個(gè)看上去極其簡(jiǎn)單的再生性質(zhì),所以他的證明多少讓人覺(jué)得有些瑕疵,。不過(guò)列維的救星很快就降臨了,,1936年Cramer證明他的猜想完全正確。 中心極限定理成為了現(xiàn)代概率論中首屈一指的定理,,事實(shí)上中心極限定理在現(xiàn)代概率論里面已經(jīng)不僅是指一個(gè)定理,,而是指一系列相關(guān)的定理。統(tǒng)計(jì)學(xué)家們也基于該定理不斷地完善拉普拉斯提出的元誤差理論,,并據(jù)此解釋為何世界上正態(tài)分布如此常見(jiàn),。而中心極限定理同時(shí)成為了現(xiàn)代統(tǒng)計(jì)學(xué)中大樣本理論的基礎(chǔ)。 6.2 進(jìn)軍近代統(tǒng)計(jì)學(xué)花開(kāi)兩朵,,各表一枝,。上面說(shuō)了正態(tài)分布在概率論中的發(fā)展,現(xiàn)在來(lái)看看正態(tài)分布在數(shù)理統(tǒng)計(jì)學(xué)中發(fā)展的故事,。這個(gè)故事的領(lǐng)銜主演是凱特勒(Adolphe Quetelet)和高爾頓(Francis Galton)。 由于高斯的工作,,正態(tài)分布在誤差分析中迅速確定了自己的地位,。有了這么好的工具,我們可能拍腦袋就認(rèn)為,,正態(tài)分布很快就被人們用來(lái)分析其它的數(shù)據(jù),,然而事實(shí)卻出乎我們的意料,正態(tài)分布進(jìn)入社會(huì)領(lǐng)域和自然科學(xué)領(lǐng)域,可是經(jīng)過(guò)一番周折的,。 首先我要告訴大家一個(gè)事實(shí):誤差分析和統(tǒng)計(jì)學(xué)是兩個(gè)風(fēng)馬牛不相及的兩個(gè)學(xué)科,;當(dāng)然這個(gè)事實(shí)存在的時(shí)間是19世紀(jì)初之前。統(tǒng)計(jì)學(xué)的產(chǎn)生最初與“編制國(guó)情報(bào)告”有關(guān),,主要服務(wù)于政府部門(mén),。統(tǒng)計(jì)學(xué)面對(duì)的是統(tǒng)計(jì)數(shù)據(jù),是對(duì)多個(gè)不同對(duì)象的測(cè)量,;而誤差分析研究的是觀測(cè)數(shù)據(jù),,是對(duì)同一個(gè)對(duì)象的多次測(cè)量。因此觀測(cè)數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù)在當(dāng)時(shí)被認(rèn)為兩種不同行為獲取得到的數(shù)據(jù),,適用于觀測(cè)數(shù)據(jù)的規(guī)律未必適用于統(tǒng)計(jì)數(shù)據(jù),。19世紀(jì)的統(tǒng)計(jì)數(shù)據(jù)分析處于一個(gè)很落后的狀態(tài),和概率論沒(méi)有多少結(jié)合,。而概率論的產(chǎn)生主要和賭博相關(guān),,發(fā)展過(guò)程中與誤差分析緊密聯(lián)系,而與當(dāng)時(shí)的統(tǒng)計(jì)學(xué)交集非常小,。將統(tǒng)計(jì)學(xué)與概率論真正結(jié)合起來(lái)推動(dòng)數(shù)理統(tǒng)計(jì)學(xué)發(fā)展的便是我們的統(tǒng)計(jì)學(xué)巨星凱特勒,。 凱特勒這名字或許不如其它數(shù)學(xué)家那么響亮,估計(jì)很多人不熟悉,,所以有必要介紹一下,。凱特勒是比利時(shí)人,數(shù)學(xué)博士畢業(yè),,年輕的時(shí)候曾追隨拉普拉斯學(xué)習(xí)過(guò)概率論,。此人學(xué)識(shí)淵博,涉獵廣泛,,腦門(mén)上的桂冠包括統(tǒng)計(jì)學(xué)家,、數(shù)學(xué)家、天文學(xué)家,、社會(huì)學(xué)家,、國(guó)際統(tǒng)計(jì)會(huì)議之父、近代統(tǒng)計(jì)學(xué)之父,、數(shù)理統(tǒng)計(jì)學(xué)派創(chuàng)始人,。凱特勒的最大的貢獻(xiàn)就是將法國(guó)的古典概率引入統(tǒng)計(jì)學(xué),用純數(shù)學(xué)的方法對(duì)社會(huì)現(xiàn)象進(jìn)行研究,。 1831年,,凱特勒參與主持新建比利時(shí)統(tǒng)計(jì)總局的工作。他開(kāi)始從事有關(guān)人口問(wèn)題的統(tǒng)計(jì)學(xué)研究,。在這種研究中,,凱特勒發(fā)現(xiàn),以往被人們認(rèn)為雜亂無(wú)章的,、偶然性占統(tǒng)治地位的社會(huì)現(xiàn)象,如同自然現(xiàn)象一樣也具有一定的規(guī)律性,。凱特勒搜集了大量關(guān)于人體生理測(cè)量的數(shù)據(jù),,如體重、身高與胸圍等,,并使用概率統(tǒng)計(jì)方法來(lái)對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,。但是當(dāng)時(shí)的統(tǒng)計(jì)分析方法遭到了社會(huì)學(xué)家的質(zhì)疑,社會(huì)學(xué)家們的反對(duì)意見(jiàn)主要在于:社會(huì)問(wèn)題與科學(xué)實(shí)驗(yàn)不同,,其數(shù)據(jù)一般由觀察得到,,無(wú)法控制且經(jīng)常不了解其異質(zhì)因素,這樣數(shù)據(jù)的同質(zhì)性連帶其分析結(jié)果往往就有了問(wèn)題,,于是社會(huì)統(tǒng)計(jì)工作者就面臨一個(gè)如何判斷數(shù)據(jù)同質(zhì)性的問(wèn)題,。凱特勒大膽地提出: 【把一批數(shù)據(jù)是否能很好地?cái)M合正態(tài)分布,作為判斷該批數(shù)據(jù)同質(zhì)的標(biāo)準(zhǔn),?!?/p> 凱特勒提出了一個(gè)使用正態(tài)曲線(xiàn)擬合數(shù)據(jù)的方法,并廣泛的使用正態(tài)分布去擬合各種類(lèi)型的數(shù)據(jù),。由此,,凱特勒為正態(tài)分布的應(yīng)用拓展了廣闊的舞臺(tái)。正態(tài)分布如同一把屠龍刀,,在他的帶領(lǐng)下,,學(xué)者們揮舞著這把寶刀在各個(gè)領(lǐng)域披荊斬棘,攻陷了人口,、領(lǐng)土,、政治、農(nóng)業(yè),、工業(yè),、商業(yè)、道德等社會(huì)領(lǐng)域,,并進(jìn)一步攻占天文學(xué),、數(shù)學(xué)、物理學(xué),、生物學(xué),、社會(huì)統(tǒng)計(jì)學(xué)及氣象學(xué)等自然科學(xué)領(lǐng)域。 正態(tài)分布的下一個(gè)推動(dòng)力來(lái)自生物學(xué)家高爾頓,,當(dāng)正態(tài)分布與生物學(xué)聯(lián)姻時(shí),,近代統(tǒng)計(jì)學(xué)迎來(lái)了一次大發(fā)展。高爾頓是生物統(tǒng)計(jì)學(xué)派的奠基人,,他的表哥達(dá)爾文的巨著《物種起源》問(wèn)世以后,,觸動(dòng)他用統(tǒng)計(jì)方法研究遺傳進(jìn)化問(wèn)題。受凱特勒的啟發(fā),,他對(duì)正態(tài)分布懷有濃厚的興趣,,開(kāi)始使用正態(tài)分布去擬合人的身高、胸圍,、以至考試成績(jī)等各類(lèi)數(shù)據(jù),,發(fā)現(xiàn)正態(tài)分布擬合得非常好。他因此相信正態(tài)曲線(xiàn)是適用于無(wú)數(shù)情況的一般法則,。 然而,,對(duì)高爾頓而言,這個(gè)無(wú)處不在的正態(tài)性給他帶來(lái)一些困惑,。他考察了親子兩代的身高數(shù)據(jù),,發(fā)現(xiàn)遵從同一的正態(tài)分布,遺傳作為一個(gè)顯著因素是如何發(fā)揮作用的,?1877年,,高爾頓設(shè)計(jì)了一個(gè)叫高爾頓釘板(quincunx,或者Galton board)的裝置,模擬正態(tài)分布的性質(zhì)用于解釋遺傳現(xiàn)象,。 如下圖中每一點(diǎn)表示釘在板上的一顆釘子,,它們彼此的距離均相等。當(dāng)小圓球向下降落過(guò)程中,,碰到釘子后皆以1/2的概率向左或向右滾下,。如果有n排釘子,則各槽內(nèi)最終球的個(gè)數(shù)服從二項(xiàng)分布 設(shè)想在此裝置的中間某個(gè)地方AB設(shè)一個(gè)擋板把小球截住,小球?qū)⒃贏B處聚成正態(tài)曲線(xiàn)形狀,,如果擋板上有許多閥門(mén),,打開(kāi)一些閥門(mén),則在底部形成多個(gè)大小不一的正態(tài)分布,,而最終的大正態(tài)分布正式這些小正態(tài)分布的混合,。 高爾頓利用這個(gè)裝置創(chuàng)造性的把正態(tài)分布的性質(zhì)用于解釋遺傳現(xiàn)象。他解釋說(shuō)身高受到顯著因素和其它較小因素的影響,,每個(gè)因素的影響可以表達(dá)為一個(gè)正態(tài)分布,。遺傳作為一個(gè)顯著因素,類(lèi)似圖中底部大小不一的正態(tài)分布中的比較大的正態(tài)分布,,而多個(gè)大小不一正態(tài)分布累加之后其結(jié)果仍然得到一個(gè)正態(tài)分布,。 高爾頓在研究身高的遺傳效應(yīng)的時(shí)候,同時(shí)發(fā)現(xiàn)一個(gè)奇特的現(xiàn)象:高個(gè)子父母的子女,,其身高有低于其父母身高的趨勢(shì),,而矮個(gè)子父母的子女,,其身高有高于其父母的趨勢(shì),即有“回歸”到普通人平均身高去的趨勢(shì),,這也是“回歸”一詞最早的含義,。高爾頓用二維正態(tài)分布去擬合父代和子代身高的數(shù)據(jù),同時(shí)引進(jìn)了回歸直線(xiàn),、相關(guān)系數(shù)的概念,,從而開(kāi)創(chuàng)了回歸分析這門(mén)技術(shù)。 可以說(shuō),,高爾頓是用統(tǒng)計(jì)方法研究生物學(xué)的第一人,,他用實(shí)際行動(dòng)開(kāi)拓了凱特勒的思想;為數(shù)理統(tǒng)計(jì)學(xué)的產(chǎn)生奠定了基礎(chǔ),。無(wú)論是凱特勒還是高爾頓,,他們的統(tǒng)計(jì)分析工作都是以正態(tài)分布為中心的,在他們的影響下,,正態(tài)分布獲得了普遍認(rèn)可和廣泛應(yīng)用,,甚至是被濫用,以至有些學(xué)者認(rèn)為19世紀(jì)是正態(tài)分布在統(tǒng)計(jì)學(xué)中占統(tǒng)治地位的時(shí)代,。 6.3 數(shù)理統(tǒng)計(jì)三劍客最后,,我們來(lái)到了20世紀(jì),正態(tài)分布的命運(yùn)如何呢,?如果說(shuō)19世紀(jì)是正態(tài)分布在統(tǒng)計(jì)學(xué)中獨(dú)領(lǐng)風(fēng)騷的話(huà),,20世紀(jì)則是數(shù)理統(tǒng)計(jì)學(xué)蓬勃發(fā)展、百花齊放的時(shí)代,。1901年,,高爾頓和他的學(xué)生卡爾·皮爾遜(Karl Pearson)、韋爾登(W.F.R Weldon)創(chuàng)辦《生物計(jì)量》(Biometrika)雜志,,成為生物統(tǒng)計(jì)學(xué)派的一面旗幟,,引導(dǎo)了現(xiàn)代數(shù)理統(tǒng)計(jì)學(xué)的大發(fā)展。統(tǒng)計(jì)學(xué)的重心逐漸由歐洲大陸向英國(guó)轉(zhuǎn)移,,使英國(guó)在以后幾十年數(shù)理統(tǒng)計(jì)學(xué)發(fā)展的黃金時(shí)代充當(dāng)了領(lǐng)頭羊,。 在20世紀(jì)以前,統(tǒng)計(jì)學(xué)所處理的數(shù)據(jù)一般都是大量的,、自然采集的,,所用的方法以拉普拉斯中心極限定理為依據(jù),總是歸結(jié)到正態(tài),。到了19世紀(jì)末期,,數(shù)據(jù)與正態(tài)擬合不好的情況也日漸為人們所注意:進(jìn)入20世紀(jì)之后,人工試驗(yàn)條件下所得數(shù)據(jù)的統(tǒng)計(jì)分析問(wèn)題,日漸被人們所重視,。由于試驗(yàn)數(shù)據(jù)量有限,,那種依賴(lài)于近似正態(tài)分布的傳統(tǒng)方法開(kāi)始招致質(zhì)疑,這促使人們研究這種情況下正確的統(tǒng)計(jì)方法問(wèn)題,。 在這個(gè)背景之下,,統(tǒng)計(jì)學(xué)三大分布 第一位劍客就是卡爾·皮爾遜(Karl Pearson),,手中的寶劍就是 第二位劍客是戈塞特(W.S.Gosset),,筆名是大家都熟悉的學(xué)生氏(Student),而他手中的寶劍是 第三位劍客是費(fèi)希爾(R.A.Fisher),,手持 費(fèi)希爾還未出道,,皮爾遜已經(jīng)是統(tǒng)計(jì)學(xué)的武林盟主了,,兩人歲數(shù)相差了33歲,而戈塞特介于他們中間,。三人在統(tǒng)計(jì)學(xué)擂臺(tái)上難免切磋劍術(shù),。費(fèi)希爾天賦極高,年少氣盛,;而皮爾遜為人強(qiáng)勢(shì),,占著自己武林盟主的地位,難免固執(zhí)己見(jiàn),,以大欺?。毁M(fèi)希爾著實(shí)受了皮爾遜不少氣,。而戈塞特性格溫和,,經(jīng)常在兩人之間調(diào)和。畢竟是長(zhǎng)江后浪推前浪,,一代新人換舊人,,在眾多擂臺(tái)比試中,費(fèi)希爾都技高一籌,,而最終取代了皮爾遜成為數(shù)理統(tǒng)計(jì)學(xué)第一大劍客,。 由于這三大劍客和統(tǒng)計(jì)三大分布的出現(xiàn),正態(tài)分布在數(shù)理統(tǒng)計(jì)學(xué)中不再是一枝獨(dú)秀,,數(shù)理統(tǒng)計(jì)的領(lǐng)地基本上是被這三大分布搶走了半壁江山,。不過(guò)這對(duì)正態(tài)分布而言并非壞事,我們細(xì)看這三大分布的數(shù)學(xué)細(xì)節(jié):假設(shè)獨(dú)立隨機(jī)變量
你看這三大分布哪一個(gè)不是正態(tài)分布的嫡系血脈,, 20世紀(jì)初,統(tǒng)計(jì)學(xué)這三大劍客成為了現(xiàn)代數(shù)理統(tǒng)計(jì)學(xué)的奠基人,。以哥塞特為先驅(qū),費(fèi)歇爾為主將,,掀起了小樣本理論的革命,,事實(shí)上提升了正態(tài)分布在統(tǒng)計(jì)學(xué)中的地位。在數(shù)理統(tǒng)計(jì)學(xué)中,,除了以正態(tài)分布為基礎(chǔ)的小樣本理論獲得了空前的勝利,,其它分布上都沒(méi)有成功的案例,這不能不讓人對(duì)正態(tài)分布刮目相看,。在隨后的發(fā)展中,,相關(guān)回歸分析、多元分析,、方差分析,、因子分析、布朗運(yùn)動(dòng),、高斯過(guò)程等等諸多統(tǒng)計(jì)分析方法陸續(xù)登上了歷史舞臺(tái),,而這些和正態(tài)分布密切相關(guān)的方法,成為推動(dòng)現(xiàn)代統(tǒng)計(jì)學(xué)飛速發(fā)展的一個(gè)強(qiáng)大動(dòng)力,。 七,、正態(tài)魅影每個(gè)人都相信它:實(shí)驗(yàn)工作者認(rèn)為它是一個(gè)數(shù)學(xué)定理,數(shù)學(xué)研究者認(rèn)為他是一個(gè)經(jīng)驗(yàn)公式,。 ——亨利·龐加萊 如果說(shuō),,充斥著偶然性的世界是一個(gè)紛亂的世界,那么,,正態(tài)分布為這個(gè)紛亂的世界建立了一定的秩序,,使得偶然性現(xiàn)象在數(shù)量上被計(jì)算和預(yù)測(cè)成為可能。杰恩斯(E.T.Jaynes)在《Probability Theory: the Logic of Science》提出了兩個(gè)問(wèn)題
Jaynes指出,,正態(tài)分布在實(shí)踐中被廣泛地成功應(yīng)用,主要是因?yàn)檎龖B(tài)分布具有在數(shù)學(xué)上的多種穩(wěn)定性質(zhì),,這些性質(zhì)包括:
前三個(gè)性質(zhì)說(shuō)明了正態(tài)分布一旦形成,就容易保持該形態(tài)的穩(wěn)定,,Landon對(duì)于正態(tài)分布的推導(dǎo)也表明了,,正態(tài)分布可以吞噬較小的干擾而繼續(xù)保持形態(tài)穩(wěn)定。后兩個(gè)性質(zhì)則說(shuō)明,,其它的概率分布在各種的操作之下容易越來(lái)越靠近正態(tài)分布,。正態(tài)分布具有最大熵的性質(zhì),所以任何一個(gè)對(duì)指定概率分布的操作,,如果該操作保持方差的大小,,卻減少已知的知識(shí),則該操作不可避免地增加概率分布的信息熵,,這將導(dǎo)致概率分布向正態(tài)分布靠近,。 正由于正態(tài)分布的穩(wěn)定性質(zhì),使得它像一個(gè)黑洞一樣處于一個(gè)中心的位置,,其它的概率分布形式在各種操作之下都逐漸向正態(tài)分布靠攏,,Jaynes把它描述為概率分布中重力現(xiàn)象(gravitating phenomenon)。 我們?cè)趯?shí)踐中為何總是選擇使用正態(tài)分布呢,,正態(tài)分布在自然界中的頻繁出現(xiàn)只是原因之一,。Jaynes認(rèn)為還有一個(gè)重要的原因是正態(tài)分布的最大熵性質(zhì)。在很多時(shí)候我們并不知道數(shù)據(jù)的真實(shí)分布是什么,,但是一個(gè)分布的均值和方差往往是相對(duì)穩(wěn)定的,。因此我們能從數(shù)據(jù)中獲取到的比較好的知識(shí)就是均值和方差,除此之外沒(méi)有其它更加有用的信息量,。因此按照最大熵原理,,我們應(yīng)該選擇在給定的知識(shí)的限制下,選擇熵最大的概率分布,,而這就恰好是正態(tài)分布,。因此按照最大熵的原理,即便數(shù)據(jù)的真實(shí)分布不是正態(tài)分布,,由于我們對(duì)真實(shí)分布一無(wú)所知,,如果數(shù)據(jù)不能有效提供除了均值和方差之外的更多的知識(shí),那這時(shí)候正態(tài)分布就是最佳的選擇,。 當(dāng)然正態(tài)分布還有更多令人著迷的數(shù)學(xué)性質(zhì),,我們可以欣賞一下:
八,、大道至簡(jiǎn),,大美天成To see a world in a grain of sand, And a heaven in a wild flower, Hold infinity in the palm of your hand, And eternity in an hour. 算術(shù)平均 高爾頓對(duì)正態(tài)分布非常推崇,1886年在人類(lèi)學(xué)研究所的就職演講中他說(shuō)過(guò)一段著名的話(huà):“我?guī)缀醪辉?jiàn)過(guò)像誤差呈正態(tài)分布這么美妙而激發(fā)人們無(wú)窮想象的宇宙秩序,。如果古希臘人知道這條曲線(xiàn),,想必會(huì)給予人格化乃至神格化。它以一種寧?kù)o無(wú)形的方式在最野性的混亂中實(shí)施嚴(yán)厲的統(tǒng)治,。暴民越多,,無(wú)政府狀態(tài)越顯現(xiàn),它就統(tǒng)治得越完美,。它是無(wú)理性世界中的最高法律,。當(dāng)我們從混沌中抽取大量的樣本,,并按大小加以排列整理時(shí),那么總是有一個(gè)始料不及的美妙規(guī)律潛伏在其中,?!?/p> 概率學(xué)家Kac在他的自述傳記《機(jī)遇之謎》中描述他與正態(tài)分布的淵源:“我接觸到正態(tài)分布之后馬上被它深深吸引,我感到難以相信,,這個(gè)來(lái)自經(jīng)驗(yàn)直方圖和賭博游戲的規(guī)律,,居然會(huì)成為我們?nèi)粘I畹囊徊糠帧,!绷硪晃桓怕蕦W(xué)家Loeve說(shuō):“如果我們要抽取列維的概率中心思想,,那我們可以這樣說(shuō),自從1919年以后,,列維研究的主題曲就是正態(tài)分布,,他一而再再而三地以它為出發(fā)點(diǎn),并且堅(jiān)決的又回到它....他是帶著隨機(jī)時(shí)鐘沿著隨機(jī)過(guò)程的樣本路徑作旅行的人,?!泵绹?guó)國(guó)家標(biāo)準(zhǔn)局的顧問(wèn)W.J.Youden用如下一段排列為正態(tài)曲線(xiàn)形狀的文字來(lái)高度評(píng)價(jià)正態(tài)分布,意思是說(shuō):誤差的正態(tài)分布規(guī)律在人類(lèi)的經(jīng)驗(yàn)中具有“鶴立雞群”的地位,,它在物理,、社會(huì)科學(xué)、醫(yī)學(xué),、農(nóng)業(yè),、工程等諸多領(lǐng)域都充當(dāng)了研究的指南,在實(shí)驗(yàn)和數(shù)據(jù)觀測(cè)的解讀中是不可或缺的工具,。 幾乎所有的人都或多或少地接觸數(shù)學(xué),,雖然各自的目的不同,對(duì)數(shù)學(xué)的感覺(jué)也不同,。工程師,、科學(xué)家們使用數(shù)學(xué)是因?yàn)樗?jiǎn)潔而實(shí)用,數(shù)學(xué)家們研究數(shù)學(xué)是因?yàn)樗拿利悇?dòng)人,。像正態(tài)分布這樣,,既吸引著無(wú)數(shù)的工程師、科學(xué)家在實(shí)踐廣泛應(yīng)用,,又令眾多的數(shù)學(xué)家為之魂?duì)繅?mèng)繞,,在數(shù)學(xué)的世界里也并不多見(jiàn)。我在讀研究生的時(shí)候,,經(jīng)常逛北大未名BBS的數(shù)學(xué)板,,有一個(gè)叫ukim的著名寫(xiě)手在精華區(qū)里面留下了一個(gè)介紹數(shù)學(xué)家八卦的系列《Heroes in My Heart》,寫(xiě)得非常的精彩,,這些故事在喜歡數(shù)學(xué)的人群中也流傳廣泛,。最后一個(gè)八卦是關(guān)于菲爾茲獎(jiǎng)得主法國(guó)數(shù)學(xué)家R.Thom的,,它曾經(jīng)令無(wú)數(shù)人感動(dòng),我也借用來(lái)作為我對(duì)正態(tài)分布的八卦的結(jié)語(yǔ): 在一次采訪(fǎng)當(dāng)中,,作為數(shù)學(xué)家的Thom同兩位古人類(lèi)學(xué)家討論問(wèn)題,。談到遠(yuǎn)古的人們?yōu)槭裁匆4婊鸱N時(shí),一個(gè)人類(lèi)學(xué)家說(shuō),,因?yàn)楸4婊鸱N可以取暖御寒,;另外一個(gè)人類(lèi)學(xué)家說(shuō),因?yàn)楸4婊鸱N可以燒出鮮美的肉食,。而托姆(Thom)說(shuō),,因?yàn)橐鼓粊?lái)臨之際,火光搖曳嫵媚,,燦爛多姿,,是最美最美的.... 九、推薦閱讀在終極的分析中,,一切知識(shí)都是歷史 在抽象的意義下,,一切科學(xué)都是數(shù)學(xué) 在理性的基礎(chǔ)上,所有的判斷都是統(tǒng)計(jì)學(xué) —C.R.Rao 本人并非統(tǒng)計(jì)學(xué)專(zhuān)業(yè)人士,,只是憑一點(diǎn)興趣做一點(diǎn)知識(shí)的傳播,,對(duì)統(tǒng)計(jì)學(xué)歷史知識(shí)的介紹,專(zhuān)業(yè)性和系統(tǒng)性都不是我的目的,。我更在乎的是趣味性,,因?yàn)闆](méi)有趣味就不會(huì)有傳播。如果讀完這段歷史會(huì)讓你覺(jué)得正態(tài)分布更加親切,,不再那么遙不可及,,那我的目的達(dá)到了。如果正態(tài)分布是一滴水,,我愿大家都能看到它折射出的七彩虹,。 本文所使用的大多是二手資料,,有些歷史細(xì)節(jié)并沒(méi)有經(jīng)過(guò)嚴(yán)格的考證,,對(duì)于歷史資料一定程度上按照個(gè)人喜好做了取舍,本文主要基于如下的資料寫(xiě)成,,對(duì)于歷史細(xì)節(jié)感興趣的,,推薦閱讀。 |
|