久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

科學(xué)松鼠會(huì) ? 正態(tài)分布的前世今生(下)

 曾子墨1089 2014-11-11

六,、開(kāi)疆?dāng)U土,,正態(tài)分布的進(jìn)一步發(fā)展

19世紀(jì)初,,隨著拉普拉斯中心極限定理的建立與高斯正態(tài)誤差理論的問(wèn)世,正態(tài)分布開(kāi)始嶄露頭角,,逐步在近代概率論和數(shù)理統(tǒng)計(jì)學(xué)中大放異彩,。在概率論中,由于拉普拉斯的推動(dòng),,中心極限定理發(fā)展成為現(xiàn)代概率論的一塊基石,。而在數(shù)理統(tǒng)計(jì)學(xué)中,在高斯的大力提倡之下,,正態(tài)分布開(kāi)始逐步暢行于天下,。

6.1 論劍中心極限定理

先來(lái)說(shuō)說(shuō)正態(tài)分布在概率論中的地位,這個(gè)主要是由于中心極限定理的影響,。1776年,,拉普拉斯開(kāi)始考慮一個(gè)天文學(xué)中的彗星軌道的傾角的計(jì)算問(wèn)題,最終的問(wèn)題涉及獨(dú)立隨機(jī)變量求和的概率計(jì)算,,也就是計(jì)算如下的概率值

Sn=X1+X2+?+Xn, 那么
P(a<Sn<b)=?
在這個(gè)問(wèn)題的處理上,,拉普拉斯充分展示了其深厚的數(shù)學(xué)分析功底和高超的概率計(jì)算技巧,他首次引入了特征函數(shù)(也就是對(duì)概率密度函數(shù)做傅立葉變換)來(lái)處理概率分布的神妙方法,,而這一方法經(jīng)過(guò)幾代概率學(xué)家的發(fā)展,,在現(xiàn)代概率論里面占有極其重要的位置?;谶@一分析方法,,拉普拉斯通過(guò)近似計(jì)算,在他的1812年的名著《概率分析理論》中給出了中心極限定理的一般描述:

[定理Laplace,,1812]設(shè) ei(i=1,?n)為獨(dú)立同分布的測(cè)量誤差,,具有均值μ和方差σ2。如果λ1,?,λn為常數(shù),,a>0,則有

P??|i=1nλi(ei?μ)|ai=1nλ2i???????22π??σa0exp(?x22σ2)dx
這已經(jīng)是比棣莫弗-拉普拉斯中心極限定理更加深刻的一個(gè)結(jié)論了,,理科專(zhuān)業(yè)的本科生學(xué)習(xí)《概率論與數(shù)理統(tǒng)計(jì)》這門(mén)課程的時(shí)候,通常學(xué)習(xí)的是中心極限定理的一般形式:

[Lindeberg-Levy中心極限定理] 設(shè)X1,?,Xn獨(dú)立同分布,,且具有有限的均值μ和方差σ2,,則在n時(shí),有

n?(Xˉ?μ)σN(0,1).
多么奇妙的性質(zhì),隨意的一個(gè)概率分布中生成的隨機(jī)變量,,在序列和(或者等價(jià)的求算術(shù)平均)的操作之下,,表現(xiàn)出如此一致的行為,統(tǒng)一的規(guī)約到正態(tài)分布,。

概率學(xué)家們進(jìn)一步的研究結(jié)果更加令人驚訝,,序列求和最終要導(dǎo)出正態(tài)分布的條件并不需要這么苛刻,即便X1,?,Xn并不獨(dú)立,也不具有相同的概率分布形式,,很多時(shí)候他們求和的最終歸宿仍然是正態(tài)分布,。一切的紛繁蕪雜都在神秘的正態(tài)曲線(xiàn)下被消解,這不禁令人浮想聯(lián)翩,。中心極限定理恐怕是概率論中最具有宗教神秘色彩的定理,,如果有一位牧師拿著一本圣經(jīng)向我證明上帝的存在,我是絲毫不會(huì)買(mǎi)賬,;可是如果他向我展示中心極限定理并且聲稱(chēng)那是神跡,,我可能會(huì)有點(diǎn)猶豫,從而樂(lè)意傾聽(tīng)他的布道,。如果我能坐著時(shí)光機(jī)穿越到一個(gè)原始部落中,,我也一定會(huì)帶上中心極限定理,并勸說(shuō)部落的酋長(zhǎng)把正態(tài)分布作為他們的圖騰,。

中心極限定理雖然表述形式簡(jiǎn)潔,,但是嚴(yán)格證明它卻非常困難。中心極限定理就像一張大蜘蛛網(wǎng),,棣莫弗和拉普拉斯編織了它的雛形,,可是這張網(wǎng)上漏洞太多,一個(gè)多世紀(jì)來(lái),,數(shù)學(xué)家們就像蜘蛛一樣前赴后繼,,努力想把所有的漏洞都補(bǔ)上。在十九世紀(jì),,珀松(Poission),、狄利克萊(Dirichlet)、柯西(Cauchy),、貝塞爾(Bessel)這些大蜘蛛都曾經(jīng)試圖對(duì)把這張網(wǎng)上的漏洞補(bǔ)上。從現(xiàn)代概率論來(lái)看角度,,整個(gè)十九世紀(jì)的經(jīng)典概率理論并沒(méi)有能輸出一個(gè)一般意義下嚴(yán)格的證明,。而真正把漏洞補(bǔ)上的是來(lái)自俄羅斯的幾位蜘蛛俠:切比雪夫(Chebyshev)、馬爾可夫(Markov)和李雅普諾夫(Lyapunov),。俄羅斯是一個(gè)具有優(yōu)秀的數(shù)學(xué)傳統(tǒng)的民族,,產(chǎn)生過(guò)幾位頂尖的的數(shù)學(xué)家,在現(xiàn)代概率論的發(fā)展中,,俄羅斯的圣彼得堡學(xué)派可以算是頂了半邊天,。把漏洞補(bǔ)上的嚴(yán)格方案的雛形是從切比雪夫1887年的工作開(kāi)始的,不過(guò)切比雪夫的證明存在一些漏洞,。馬爾可夫和李雅普諾夫都是切比雪夫的學(xué)生,,馬爾科夫沿著老師的基于矩法的思路在蜘蛛網(wǎng)上辛勤編織,但洞還是補(bǔ)得不夠嚴(yán)實(shí);李雅普諾夫不像馬爾可夫那樣深受老師的影響,,他沿著拉普拉斯當(dāng)年提出的基于特征函數(shù)的思路,,于1901年給出了一個(gè)補(bǔ)洞的方法,切比雪夫?qū)@個(gè)方法大加贊賞,,李雅普諾夫的證明被認(rèn)為是第一個(gè)在一般條件下的嚴(yán)格證明,;而馬爾科夫也不甘示弱,在1913年基于矩法也把洞給補(bǔ)嚴(yán)實(shí)了,。

【華山論劍】

20世紀(jì)初期到中期,,中心極限定理的研究幾乎吸引了所有的概率學(xué)家,這個(gè)定理儼然成為了概率論的明珠,,成為了各大概率論武林高手華山論劍的場(chǎng)所,。不知道大家對(duì)中心極限定理中的“中心”一詞如何理解,許多人都認(rèn)為"中心"這個(gè)詞描述的是這個(gè)定理的行為:以正態(tài)分布為中心,。這個(gè)解釋看起來(lái)確實(shí)合情合理,,不過(guò)并不符合該定理被冠名的歷史。事實(shí)上,,20世紀(jì)初概率學(xué)家大都稱(chēng)呼該定理為極限定理(Limit Theorem),,由于該定理在概率論中處于如此重要的中心位置,如此之多的概率學(xué)武林高手為它魂?duì)繅?mèng)繞,,于是數(shù)學(xué)家波利亞(G.Polya)于1920年在該定理前面冠以"中心"一詞,,由此后續(xù)人們都稱(chēng)之為中心極限定理。

數(shù)學(xué)家們總是極其嚴(yán)謹(jǐn)苛刻的,,在一個(gè)給定條件下嚴(yán)格證明了中心極限定理之后,,數(shù)學(xué)家就開(kāi)始探尋中心極限定理成立的各種條件,詢(xún)問(wèn)這個(gè)條件是否充分必要條件,,并且進(jìn)一步追問(wèn)序列和在該條件下以什么樣的速度收斂到正態(tài)分布,。從1922年Lindeberg基于一個(gè)比較寬泛容易滿(mǎn)足的條件,給中心極限定理提出了一個(gè)很容易理解的初等證明,。這個(gè)條件我們現(xiàn)在稱(chēng)之為L(zhǎng)indeberg條件,。然后概率學(xué)家費(fèi)勒和列維就開(kāi)始追問(wèn)Lindeberg條件是充分必要的嗎?基于Lindeberg的工作,,費(fèi)勒和列維都于1935年獨(dú)立的得到了中心極限定理成立的充分必要條件,,這個(gè)條件可以用直觀的非數(shù)學(xué)語(yǔ)言描述如下:

[中心極限定理充要條件] 假設(shè)獨(dú)立隨機(jī)變量序列Xi的中值為0。要使序列和S=i=1nXi的分布函數(shù)逼近正態(tài)分布,,以下條件是充分必要的:

  • 1. 如果Xi相對(duì)于序列和S的散布(也就是標(biāo)準(zhǔn)差)是不可忽略的,,則Xi的分布必須接近正態(tài)分布
  • 2. 對(duì)于所有可忽略的Xi,取絕對(duì)值最大的那一項(xiàng),這個(gè)絕對(duì)值相對(duì)于序列和也是可忽略的

事實(shí)上這個(gè)充分必要條件發(fā)現(xiàn)的優(yōu)先權(quán),,費(fèi)勒和列維之間還著實(shí)出現(xiàn)了一些爭(zhēng)論,,當(dāng)然他們倆都是獨(dú)立的在幾乎同一時(shí)間解決了這一個(gè)問(wèn)題,。在列維證明這個(gè)充分必要條件的過(guò)程中,他發(fā)現(xiàn)了正態(tài)分布的一個(gè)有趣的性質(zhì):我們?cè)跀?shù)理統(tǒng)計(jì)中都學(xué)過(guò),,如果兩個(gè)獨(dú)立隨機(jī)變量X,Y具有正態(tài)分布,,則S=X+Y也具有正態(tài)分布;奇妙的是這個(gè)定理的逆定理也成立:

[正態(tài)分布的血統(tǒng)] 如果X,Y是獨(dú)立的隨機(jī)變量,,且S=X+Y是正態(tài)分布,,那么X,Y也是正態(tài)分布。

正態(tài)分布真是很奇妙,,就像蚯蚓一樣具有再生的性質(zhì),,你把它一刀兩斷,它生成兩個(gè)正態(tài)分布,;或者說(shuō)正態(tài)分布具有極其高貴的優(yōu)良血統(tǒng),,正態(tài)分布的組成成分中只能包含正態(tài)分布,而不可能含有其它雜質(zhì),。一流的數(shù)學(xué)家都是接近上帝的人,,善于猜測(cè)上帝的意圖;1928年Levy就猜到了這個(gè)定理,,并在1935年使用這個(gè)定理對(duì)中心極限定理的充分必要條件作了證明,。有意思的是列維卻無(wú)法證明正態(tài)分布的這個(gè)看上去極其簡(jiǎn)單的再生性質(zhì),所以他的證明多少讓人覺(jué)得有些瑕疵,。不過(guò)列維的救星很快就降臨了,,1936年Cramer證明他的猜想完全正確。

中心極限定理成為了現(xiàn)代概率論中首屈一指的定理,,事實(shí)上中心極限定理在現(xiàn)代概率論里面已經(jīng)不僅是指一個(gè)定理,,而是指一系列相關(guān)的定理。統(tǒng)計(jì)學(xué)家們也基于該定理不斷地完善拉普拉斯提出的元誤差理論,,并據(jù)此解釋為何世界上正態(tài)分布如此常見(jiàn),。而中心極限定理同時(shí)成為了現(xiàn)代統(tǒng)計(jì)學(xué)中大樣本理論的基礎(chǔ)。

6.2 進(jìn)軍近代統(tǒng)計(jì)學(xué)

花開(kāi)兩朵,,各表一枝,。上面說(shuō)了正態(tài)分布在概率論中的發(fā)展,現(xiàn)在來(lái)看看正態(tài)分布在數(shù)理統(tǒng)計(jì)學(xué)中發(fā)展的故事,。這個(gè)故事的領(lǐng)銜主演是凱特勒(Adolphe Quetelet)和高爾頓(Francis Galton)。

由于高斯的工作,,正態(tài)分布在誤差分析中迅速確定了自己的地位,。有了這么好的工具,我們可能拍腦袋就認(rèn)為,,正態(tài)分布很快就被人們用來(lái)分析其它的數(shù)據(jù),,然而事實(shí)卻出乎我們的意料,正態(tài)分布進(jìn)入社會(huì)領(lǐng)域和自然科學(xué)領(lǐng)域,可是經(jīng)過(guò)一番周折的,。

首先我要告訴大家一個(gè)事實(shí):誤差分析和統(tǒng)計(jì)學(xué)是兩個(gè)風(fēng)馬牛不相及的兩個(gè)學(xué)科,;當(dāng)然這個(gè)事實(shí)存在的時(shí)間是19世紀(jì)初之前。統(tǒng)計(jì)學(xué)的產(chǎn)生最初與“編制國(guó)情報(bào)告”有關(guān),,主要服務(wù)于政府部門(mén),。統(tǒng)計(jì)學(xué)面對(duì)的是統(tǒng)計(jì)數(shù)據(jù),是對(duì)多個(gè)不同對(duì)象的測(cè)量,;而誤差分析研究的是觀測(cè)數(shù)據(jù),,是對(duì)同一個(gè)對(duì)象的多次測(cè)量。因此觀測(cè)數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù)在當(dāng)時(shí)被認(rèn)為兩種不同行為獲取得到的數(shù)據(jù),,適用于觀測(cè)數(shù)據(jù)的規(guī)律未必適用于統(tǒng)計(jì)數(shù)據(jù),。19世紀(jì)的統(tǒng)計(jì)數(shù)據(jù)分析處于一個(gè)很落后的狀態(tài),和概率論沒(méi)有多少結(jié)合,。而概率論的產(chǎn)生主要和賭博相關(guān),,發(fā)展過(guò)程中與誤差分析緊密聯(lián)系,而與當(dāng)時(shí)的統(tǒng)計(jì)學(xué)交集非常小,。將統(tǒng)計(jì)學(xué)與概率論真正結(jié)合起來(lái)推動(dòng)數(shù)理統(tǒng)計(jì)學(xué)發(fā)展的便是我們的統(tǒng)計(jì)學(xué)巨星凱特勒,。

凱特勒這名字或許不如其它數(shù)學(xué)家那么響亮,估計(jì)很多人不熟悉,,所以有必要介紹一下,。凱特勒是比利時(shí)人,數(shù)學(xué)博士畢業(yè),,年輕的時(shí)候曾追隨拉普拉斯學(xué)習(xí)過(guò)概率論,。此人學(xué)識(shí)淵博,涉獵廣泛,,腦門(mén)上的桂冠包括統(tǒng)計(jì)學(xué)家,、數(shù)學(xué)家、天文學(xué)家,、社會(huì)學(xué)家,、國(guó)際統(tǒng)計(jì)會(huì)議之父、近代統(tǒng)計(jì)學(xué)之父,、數(shù)理統(tǒng)計(jì)學(xué)派創(chuàng)始人,。凱特勒的最大的貢獻(xiàn)就是將法國(guó)的古典概率引入統(tǒng)計(jì)學(xué),用純數(shù)學(xué)的方法對(duì)社會(huì)現(xiàn)象進(jìn)行研究,。

1831年,,凱特勒參與主持新建比利時(shí)統(tǒng)計(jì)總局的工作。他開(kāi)始從事有關(guān)人口問(wèn)題的統(tǒng)計(jì)學(xué)研究,。在這種研究中,,凱特勒發(fā)現(xiàn),以往被人們認(rèn)為雜亂無(wú)章的,、偶然性占統(tǒng)治地位的社會(huì)現(xiàn)象,如同自然現(xiàn)象一樣也具有一定的規(guī)律性,。凱特勒搜集了大量關(guān)于人體生理測(cè)量的數(shù)據(jù),,如體重、身高與胸圍等,,并使用概率統(tǒng)計(jì)方法來(lái)對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,。但是當(dāng)時(shí)的統(tǒng)計(jì)分析方法遭到了社會(huì)學(xué)家的質(zhì)疑,社會(huì)學(xué)家們的反對(duì)意見(jiàn)主要在于:社會(huì)問(wèn)題與科學(xué)實(shí)驗(yàn)不同,,其數(shù)據(jù)一般由觀察得到,,無(wú)法控制且經(jīng)常不了解其異質(zhì)因素,這樣數(shù)據(jù)的同質(zhì)性連帶其分析結(jié)果往往就有了問(wèn)題,,于是社會(huì)統(tǒng)計(jì)工作者就面臨一個(gè)如何判斷數(shù)據(jù)同質(zhì)性的問(wèn)題,。凱特勒大膽地提出:

【把一批數(shù)據(jù)是否能很好地?cái)M合正態(tài)分布,作為判斷該批數(shù)據(jù)同質(zhì)的標(biāo)準(zhǔn),?!?/p>

凱特勒提出了一個(gè)使用正態(tài)曲線(xiàn)擬合數(shù)據(jù)的方法,并廣泛的使用正態(tài)分布去擬合各種類(lèi)型的數(shù)據(jù),。由此,,凱特勒為正態(tài)分布的應(yīng)用拓展了廣闊的舞臺(tái)。正態(tài)分布如同一把屠龍刀,,在他的帶領(lǐng)下,,學(xué)者們揮舞著這把寶刀在各個(gè)領(lǐng)域披荊斬棘,攻陷了人口,、領(lǐng)土,、政治、農(nóng)業(yè),、工業(yè),、商業(yè)、道德等社會(huì)領(lǐng)域,,并進(jìn)一步攻占天文學(xué),、數(shù)學(xué)、物理學(xué),、生物學(xué),、社會(huì)統(tǒng)計(jì)學(xué)及氣象學(xué)等自然科學(xué)領(lǐng)域。

正態(tài)分布的下一個(gè)推動(dòng)力來(lái)自生物學(xué)家高爾頓,,當(dāng)正態(tài)分布與生物學(xué)聯(lián)姻時(shí),,近代統(tǒng)計(jì)學(xué)迎來(lái)了一次大發(fā)展。高爾頓是生物統(tǒng)計(jì)學(xué)派的奠基人,,他的表哥達(dá)爾文的巨著《物種起源》問(wèn)世以后,,觸動(dòng)他用統(tǒng)計(jì)方法研究遺傳進(jìn)化問(wèn)題。受凱特勒的啟發(fā),,他對(duì)正態(tài)分布懷有濃厚的興趣,,開(kāi)始使用正態(tài)分布去擬合人的身高、胸圍,、以至考試成績(jī)等各類(lèi)數(shù)據(jù),,發(fā)現(xiàn)正態(tài)分布擬合得非常好。他因此相信正態(tài)曲線(xiàn)是適用于無(wú)數(shù)情況的一般法則,。

然而,,對(duì)高爾頓而言,這個(gè)無(wú)處不在的正態(tài)性給他帶來(lái)一些困惑,。他考察了親子兩代的身高數(shù)據(jù),,發(fā)現(xiàn)遵從同一的正態(tài)分布,遺傳作為一個(gè)顯著因素是如何發(fā)揮作用的,?1877年,,高爾頓設(shè)計(jì)了一個(gè)叫高爾頓釘板(quincunx,或者Galton board)的裝置,模擬正態(tài)分布的性質(zhì)用于解釋遺傳現(xiàn)象,。

如下圖中每一點(diǎn)表示釘在板上的一顆釘子,,它們彼此的距離均相等。當(dāng)小圓球向下降落過(guò)程中,,碰到釘子后皆以1/2的概率向左或向右滾下,。如果有n排釘子,則各槽內(nèi)最終球的個(gè)數(shù)服從二項(xiàng)分布B(n,1/2),當(dāng)n較大的時(shí)候,,接近正態(tài)分布,。

【高爾頓釘板】

設(shè)想在此裝置的中間某個(gè)地方AB設(shè)一個(gè)擋板把小球截住,小球?qū)⒃贏B處聚成正態(tài)曲線(xiàn)形狀,,如果擋板上有許多閥門(mén),,打開(kāi)一些閥門(mén),則在底部形成多個(gè)大小不一的正態(tài)分布,,而最終的大正態(tài)分布正式這些小正態(tài)分布的混合,。

【高爾頓釘板解釋遺傳現(xiàn)象】

高爾頓利用這個(gè)裝置創(chuàng)造性的把正態(tài)分布的性質(zhì)用于解釋遺傳現(xiàn)象。他解釋說(shuō)身高受到顯著因素和其它較小因素的影響,,每個(gè)因素的影響可以表達(dá)為一個(gè)正態(tài)分布,。遺傳作為一個(gè)顯著因素,類(lèi)似圖中底部大小不一的正態(tài)分布中的比較大的正態(tài)分布,,而多個(gè)大小不一正態(tài)分布累加之后其結(jié)果仍然得到一個(gè)正態(tài)分布,。

高爾頓在研究身高的遺傳效應(yīng)的時(shí)候,同時(shí)發(fā)現(xiàn)一個(gè)奇特的現(xiàn)象:高個(gè)子父母的子女,,其身高有低于其父母身高的趨勢(shì),,而矮個(gè)子父母的子女,,其身高有高于其父母的趨勢(shì),即有“回歸”到普通人平均身高去的趨勢(shì),,這也是“回歸”一詞最早的含義,。高爾頓用二維正態(tài)分布去擬合父代和子代身高的數(shù)據(jù),同時(shí)引進(jìn)了回歸直線(xiàn),、相關(guān)系數(shù)的概念,,從而開(kāi)創(chuàng)了回歸分析這門(mén)技術(shù)。

可以說(shuō),,高爾頓是用統(tǒng)計(jì)方法研究生物學(xué)的第一人,,他用實(shí)際行動(dòng)開(kāi)拓了凱特勒的思想;為數(shù)理統(tǒng)計(jì)學(xué)的產(chǎn)生奠定了基礎(chǔ),。無(wú)論是凱特勒還是高爾頓,,他們的統(tǒng)計(jì)分析工作都是以正態(tài)分布為中心的,在他們的影響下,,正態(tài)分布獲得了普遍認(rèn)可和廣泛應(yīng)用,,甚至是被濫用,以至有些學(xué)者認(rèn)為19世紀(jì)是正態(tài)分布在統(tǒng)計(jì)學(xué)中占統(tǒng)治地位的時(shí)代,。

6.3 數(shù)理統(tǒng)計(jì)三劍客

最后,,我們來(lái)到了20世紀(jì),正態(tài)分布的命運(yùn)如何呢,?如果說(shuō)19世紀(jì)是正態(tài)分布在統(tǒng)計(jì)學(xué)中獨(dú)領(lǐng)風(fēng)騷的話(huà),,20世紀(jì)則是數(shù)理統(tǒng)計(jì)學(xué)蓬勃發(fā)展、百花齊放的時(shí)代,。1901年,,高爾頓和他的學(xué)生卡爾·皮爾遜(Karl Pearson)、韋爾登(W.F.R Weldon)創(chuàng)辦《生物計(jì)量》(Biometrika)雜志,,成為生物統(tǒng)計(jì)學(xué)派的一面旗幟,,引導(dǎo)了現(xiàn)代數(shù)理統(tǒng)計(jì)學(xué)的大發(fā)展。統(tǒng)計(jì)學(xué)的重心逐漸由歐洲大陸向英國(guó)轉(zhuǎn)移,,使英國(guó)在以后幾十年數(shù)理統(tǒng)計(jì)學(xué)發(fā)展的黃金時(shí)代充當(dāng)了領(lǐng)頭羊,。

在20世紀(jì)以前,統(tǒng)計(jì)學(xué)所處理的數(shù)據(jù)一般都是大量的,、自然采集的,,所用的方法以拉普拉斯中心極限定理為依據(jù),總是歸結(jié)到正態(tài),。到了19世紀(jì)末期,,數(shù)據(jù)與正態(tài)擬合不好的情況也日漸為人們所注意:進(jìn)入20世紀(jì)之后,人工試驗(yàn)條件下所得數(shù)據(jù)的統(tǒng)計(jì)分析問(wèn)題,日漸被人們所重視,。由于試驗(yàn)數(shù)據(jù)量有限,,那種依賴(lài)于近似正態(tài)分布的傳統(tǒng)方法開(kāi)始招致質(zhì)疑,這促使人們研究這種情況下正確的統(tǒng)計(jì)方法問(wèn)題,。

在這個(gè)背景之下,,統(tǒng)計(jì)學(xué)三大分布χ2分布、t分布,、F分布逐步登上歷史舞臺(tái)。這三大分布現(xiàn)在的理科本科生都很熟悉,。在歷史上,,這三個(gè)分布和來(lái)自英國(guó)的現(xiàn)代數(shù)理統(tǒng)計(jì)學(xué)的三大劍客有著密切的關(guān)系。

【數(shù)理統(tǒng)計(jì)三劍客】

第一位劍客就是卡爾·皮爾遜(Karl Pearson),,手中的寶劍就是χ2分布,。χ2分布這把寶劍最早的鍛造者其實(shí)是物理學(xué)家麥克斯韋,他在推導(dǎo)空氣分子的運(yùn)動(dòng)速度的分布的時(shí)候,,發(fā)現(xiàn)分子速度在三個(gè)坐標(biāo)軸上的分量是正態(tài)分布,,而分子運(yùn)動(dòng)速度的平方v2符合自由度為3的χ2分布。麥克斯韋雖然造出了這把寶劍,,但是真正把它揮舞得得心應(yīng)手,、游刃有余的是皮爾遜。在分布曲線(xiàn)和數(shù)據(jù)的擬合優(yōu)度檢驗(yàn)中,,χ2分布可是一個(gè)利器,,而皮爾遜的這個(gè)工作被認(rèn)為是假設(shè)檢驗(yàn)的開(kāi)山之作。皮爾遜繼承了高爾頓的衣缽,,統(tǒng)計(jì)功力深厚,,在19世紀(jì)末20世紀(jì)初很長(zhǎng)的一段時(shí)間里,一直被數(shù)理統(tǒng)計(jì)武林人士尊為德高望重的第一大劍客,。

第二位劍客是戈塞特(W.S.Gosset),,筆名是大家都熟悉的學(xué)生氏(Student),而他手中的寶劍是t分布,。戈塞特是化學(xué),、數(shù)學(xué)雙學(xué)位,依靠自己的化學(xué)知識(shí)進(jìn)釀酒廠工作,,工作期間考慮釀酒配方實(shí)驗(yàn)中的統(tǒng)計(jì)學(xué)問(wèn)題,,追隨卡爾·皮爾遜學(xué)習(xí)了一年的統(tǒng)計(jì)學(xué),最終依靠自己的數(shù)學(xué)知識(shí)打造出了t分布這把利劍而青史留名,。1908年,,戈塞特提出了正態(tài)樣本中樣本均值和標(biāo)準(zhǔn)差的比值的分布,并給出了應(yīng)用上極其重要的第一個(gè)分布表,。戈塞特在t分布的工作是開(kāi)創(chuàng)了小樣本統(tǒng)計(jì)學(xué)的先河,。

第三位劍客是費(fèi)希爾(R.A.Fisher),,手持F分布這把寶劍,在一片荒蕪中開(kāi)拓出方差分析的肥沃土地,。F分布就是為了紀(jì)念費(fèi)希爾而用他的名字首字母命名的,。費(fèi)希爾劍法飄逸,在三位劍客中當(dāng)屬費(fèi)希爾的天賦最高,,各種兵器的使用都得心應(yīng)手,。費(fèi)希爾統(tǒng)計(jì)造詣極高,受高斯的啟發(fā),,系統(tǒng)地創(chuàng)立了極大似然估計(jì)劍法,,這套劍法現(xiàn)在被尊為統(tǒng)計(jì)學(xué)參數(shù)估計(jì)中的第一劍法。

費(fèi)希爾還未出道,,皮爾遜已經(jīng)是統(tǒng)計(jì)學(xué)的武林盟主了,,兩人歲數(shù)相差了33歲,而戈塞特介于他們中間,。三人在統(tǒng)計(jì)學(xué)擂臺(tái)上難免切磋劍術(shù),。費(fèi)希爾天賦極高,年少氣盛,;而皮爾遜為人強(qiáng)勢(shì),,占著自己武林盟主的地位,難免固執(zhí)己見(jiàn),,以大欺?。毁M(fèi)希爾著實(shí)受了皮爾遜不少氣,。而戈塞特性格溫和,,經(jīng)常在兩人之間調(diào)和。畢竟是長(zhǎng)江后浪推前浪,,一代新人換舊人,,在眾多擂臺(tái)比試中,費(fèi)希爾都技高一籌,,而最終取代了皮爾遜成為數(shù)理統(tǒng)計(jì)學(xué)第一大劍客,。

由于這三大劍客和統(tǒng)計(jì)三大分布的出現(xiàn),正態(tài)分布在數(shù)理統(tǒng)計(jì)學(xué)中不再是一枝獨(dú)秀,,數(shù)理統(tǒng)計(jì)的領(lǐng)地基本上是被這三大分布搶走了半壁江山,。不過(guò)這對(duì)正態(tài)分布而言并非壞事,我們細(xì)看這三大分布的數(shù)學(xué)細(xì)節(jié):假設(shè)獨(dú)立隨機(jī)變量XiN(0,1),YjN(0,1)(i=1?n,j=1?m),,則滿(mǎn)足三大分布的隨機(jī)變量可以如下構(gòu)造出來(lái)

  • x2(n)=X21+?+X2n
  • t=Y1X21+?+X2nn?????????;   F=X21+?+X2nnY21+?+Y2mm

你看這三大分布哪一個(gè)不是正態(tài)分布的嫡系血脈,,χ2tF這三大分布最初都是從正態(tài)分布切入進(jìn)行研究的,。所以正態(tài)分布在19世紀(jì)是武則天,,進(jìn)入20世紀(jì)就學(xué)了慈禧太后,垂簾聽(tīng)政了,?;蛘撸瑩Q個(gè)角度說(shuō),,一個(gè)好漢三個(gè)幫,,正態(tài)分布如果是孤家寡人恐怕也難以雄霸天下,有了統(tǒng)計(jì)學(xué)三大分布作為開(kāi)國(guó)先鋒為它開(kāi)疆拓土,,正態(tài)分布真正成為傲世群雄的君王,。

20世紀(jì)初,統(tǒng)計(jì)學(xué)這三大劍客成為了現(xiàn)代數(shù)理統(tǒng)計(jì)學(xué)的奠基人,。以哥塞特為先驅(qū),費(fèi)歇爾為主將,,掀起了小樣本理論的革命,,事實(shí)上提升了正態(tài)分布在統(tǒng)計(jì)學(xué)中的地位。在數(shù)理統(tǒng)計(jì)學(xué)中,,除了以正態(tài)分布為基礎(chǔ)的小樣本理論獲得了空前的勝利,,其它分布上都沒(méi)有成功的案例,這不能不讓人對(duì)正態(tài)分布刮目相看,。在隨后的發(fā)展中,,相關(guān)回歸分析、多元分析,、方差分析,、因子分析、布朗運(yùn)動(dòng),、高斯過(guò)程等等諸多統(tǒng)計(jì)分析方法陸續(xù)登上了歷史舞臺(tái),,而這些和正態(tài)分布密切相關(guān)的方法,成為推動(dòng)現(xiàn)代統(tǒng)計(jì)學(xué)飛速發(fā)展的一個(gè)強(qiáng)大動(dòng)力,。

七,、正態(tài)魅影

每個(gè)人都相信它:實(shí)驗(yàn)工作者認(rèn)為它是一個(gè)數(shù)學(xué)定理,數(shù)學(xué)研究者認(rèn)為他是一個(gè)經(jīng)驗(yàn)公式,。

——亨利·龐加萊

如果說(shuō),,充斥著偶然性的世界是一個(gè)紛亂的世界,那么,,正態(tài)分布為這個(gè)紛亂的世界建立了一定的秩序,,使得偶然性現(xiàn)象在數(shù)量上被計(jì)算和預(yù)測(cè)成為可能。杰恩斯(E.T.Jaynes)在《Probability Theory: the Logic of Science》提出了兩個(gè)問(wèn)題

  • 1.為什么正態(tài)分布被如此廣泛的使用?
  • 2.為什么正態(tài)分布在實(shí)踐使用中非常的成功,?

Jaynes指出,,正態(tài)分布在實(shí)踐中被廣泛地成功應(yīng)用,主要是因?yàn)檎龖B(tài)分布具有在數(shù)學(xué)上的多種穩(wěn)定性質(zhì),,這些性質(zhì)包括:

  • 兩個(gè)正態(tài)分布密度的乘積還是正態(tài)分布
  • 兩個(gè)正態(tài)分布密度的卷積還是正態(tài)分布,,也就是兩個(gè)正態(tài)分布的和還是正態(tài)分布
  • 正態(tài)分布N(0,σ2)的傅立葉變換還是正態(tài)分布
  • 中心極限定理保證了多個(gè)隨機(jī)變量的求和效應(yīng)將導(dǎo)致正態(tài)分布
  • 正態(tài)分布和其它具有相同方差的概率分布相比,具有最大熵

前三個(gè)性質(zhì)說(shuō)明了正態(tài)分布一旦形成,就容易保持該形態(tài)的穩(wěn)定,,Landon對(duì)于正態(tài)分布的推導(dǎo)也表明了,,正態(tài)分布可以吞噬較小的干擾而繼續(xù)保持形態(tài)穩(wěn)定。后兩個(gè)性質(zhì)則說(shuō)明,,其它的概率分布在各種的操作之下容易越來(lái)越靠近正態(tài)分布,。正態(tài)分布具有最大熵的性質(zhì),所以任何一個(gè)對(duì)指定概率分布的操作,,如果該操作保持方差的大小,,卻減少已知的知識(shí),則該操作不可避免地增加概率分布的信息熵,,這將導(dǎo)致概率分布向正態(tài)分布靠近,。

正由于正態(tài)分布的穩(wěn)定性質(zhì),使得它像一個(gè)黑洞一樣處于一個(gè)中心的位置,,其它的概率分布形式在各種操作之下都逐漸向正態(tài)分布靠攏,,Jaynes把它描述為概率分布中重力現(xiàn)象(gravitating phenomenon)。

我們?cè)趯?shí)踐中為何總是選擇使用正態(tài)分布呢,,正態(tài)分布在自然界中的頻繁出現(xiàn)只是原因之一,。Jaynes認(rèn)為還有一個(gè)重要的原因是正態(tài)分布的最大熵性質(zhì)。在很多時(shí)候我們并不知道數(shù)據(jù)的真實(shí)分布是什么,,但是一個(gè)分布的均值和方差往往是相對(duì)穩(wěn)定的,。因此我們能從數(shù)據(jù)中獲取到的比較好的知識(shí)就是均值和方差,除此之外沒(méi)有其它更加有用的信息量,。因此按照最大熵原理,,我們應(yīng)該選擇在給定的知識(shí)的限制下,選擇熵最大的概率分布,,而這就恰好是正態(tài)分布,。因此按照最大熵的原理,即便數(shù)據(jù)的真實(shí)分布不是正態(tài)分布,,由于我們對(duì)真實(shí)分布一無(wú)所知,,如果數(shù)據(jù)不能有效提供除了均值和方差之外的更多的知識(shí),那這時(shí)候正態(tài)分布就是最佳的選擇,。

當(dāng)然正態(tài)分布還有更多令人著迷的數(shù)學(xué)性質(zhì),,我們可以欣賞一下:

  • 二項(xiàng)分布B(n,p)n很大逼近正態(tài)分布N(np,np(1?p))
  • 泊松分布Poisson(λ)λ較大時(shí)逼近正態(tài)分布N(λ,λ)
  • χ2(n)n很大的時(shí)候接近正態(tài)分布N(n,2n)
  • t分布在n很大時(shí)接近標(biāo)準(zhǔn)正態(tài)分布N(0,1)
  • 正態(tài)分布的共軛分布還是正態(tài)分布
  • 幾乎所有的極大似然估計(jì)在樣本量n增大的時(shí)候都趨近于正態(tài)分布
  • Cramer分解定理(之前介紹過(guò)):如果X,Y是獨(dú)立的隨機(jī)變量,,且S=X+Y是正態(tài)分布,那么X,Y也是正態(tài)分布
  • 如果X,Y獨(dú)立且滿(mǎn)足正態(tài)分布N(μ,σ2),,那么X+Y,X?Y獨(dú)立且同分布,,而正態(tài)分布是唯一滿(mǎn)足這一性質(zhì)的概率分布
  • 對(duì)于兩個(gè)正態(tài)分布X,Y,如果X,Y不相關(guān)則意味著X,Y獨(dú)立,而正態(tài)分布是唯一滿(mǎn)足這一性質(zhì)的概率分布

八,、大道至簡(jiǎn),,大美天成

To see a world in a grain of sand,

And a heaven in a wild flower,

Hold infinity in the palm of your hand,

And eternity in an hour.

算術(shù)平均Xˉ=X1+X2+?+Xnn,極其簡(jiǎn)單而樸素的一個(gè)式子,,被人們使用了千百年,,在其身后隱藏著一個(gè)美麗的世界,而正態(tài)分布正是掌管這個(gè)美麗世界的女神,。正態(tài)分布的發(fā)現(xiàn)與應(yīng)用的最初歷史,,就是數(shù)學(xué)家們孜孜不倦的從概率論和統(tǒng)計(jì)學(xué)角度對(duì)算術(shù)平均不斷深入研究的歷史。中心極限定理在1773年被棣莫弗偶然邂逅的時(shí)候,,它只是一粒普通的沙子,,兩百多年來(lái)吸引了眾多的數(shù)學(xué)家,這個(gè)渾金璞玉的定理不斷地被概率學(xué)家們精雕細(xì)琢,,逐漸發(fā)展成為現(xiàn)代概率論的璀璨明珠,。而在統(tǒng)計(jì)學(xué)的誤差分析之中,高斯窺視了造物主對(duì)算術(shù)平均的厚愛(ài),,也發(fā)現(xiàn)了正態(tài)分布的美麗身影,。殊途同歸,,那是偶然中的必然,。一沙一世界,一花一天國(guó),,算術(shù)平均或許只是一粒沙子,,正態(tài)分布或許只是一朵花,它們卻包含了一個(gè)廣闊而美麗的世界,,幾百年來(lái)以無(wú)窮的魅力吸引著科學(xué)家和數(shù)學(xué)家們,。

高爾頓對(duì)正態(tài)分布非常推崇,1886年在人類(lèi)學(xué)研究所的就職演講中他說(shuō)過(guò)一段著名的話(huà):“我?guī)缀醪辉?jiàn)過(guò)像誤差呈正態(tài)分布這么美妙而激發(fā)人們無(wú)窮想象的宇宙秩序,。如果古希臘人知道這條曲線(xiàn),,想必會(huì)給予人格化乃至神格化。它以一種寧?kù)o無(wú)形的方式在最野性的混亂中實(shí)施嚴(yán)厲的統(tǒng)治,。暴民越多,,無(wú)政府狀態(tài)越顯現(xiàn),它就統(tǒng)治得越完美,。它是無(wú)理性世界中的最高法律,。當(dāng)我們從混沌中抽取大量的樣本,,并按大小加以排列整理時(shí),那么總是有一個(gè)始料不及的美妙規(guī)律潛伏在其中,?!?/p>

概率學(xué)家Kac在他的自述傳記《機(jī)遇之謎》中描述他與正態(tài)分布的淵源:“我接觸到正態(tài)分布之后馬上被它深深吸引,我感到難以相信,,這個(gè)來(lái)自經(jīng)驗(yàn)直方圖和賭博游戲的規(guī)律,,居然會(huì)成為我們?nèi)粘I畹囊徊糠帧,!绷硪晃桓怕蕦W(xué)家Loeve說(shuō):“如果我們要抽取列維的概率中心思想,,那我們可以這樣說(shuō),自從1919年以后,,列維研究的主題曲就是正態(tài)分布,,他一而再再而三地以它為出發(fā)點(diǎn),并且堅(jiān)決的又回到它....他是帶著隨機(jī)時(shí)鐘沿著隨機(jī)過(guò)程的樣本路徑作旅行的人,?!泵绹?guó)國(guó)家標(biāo)準(zhǔn)局的顧問(wèn)W.J.Youden用如下一段排列為正態(tài)曲線(xiàn)形狀的文字來(lái)高度評(píng)價(jià)正態(tài)分布,意思是說(shuō):誤差的正態(tài)分布規(guī)律在人類(lèi)的經(jīng)驗(yàn)中具有“鶴立雞群”的地位,,它在物理,、社會(huì)科學(xué)、醫(yī)學(xué),、農(nóng)業(yè),、工程等諸多領(lǐng)域都充當(dāng)了研究的指南,在實(shí)驗(yàn)和數(shù)據(jù)觀測(cè)的解讀中是不可或缺的工具,。

【正態(tài)誤差分布的贊美詞】

幾乎所有的人都或多或少地接觸數(shù)學(xué),,雖然各自的目的不同,對(duì)數(shù)學(xué)的感覺(jué)也不同,。工程師,、科學(xué)家們使用數(shù)學(xué)是因?yàn)樗?jiǎn)潔而實(shí)用,數(shù)學(xué)家們研究數(shù)學(xué)是因?yàn)樗拿利悇?dòng)人,。像正態(tài)分布這樣,,既吸引著無(wú)數(shù)的工程師、科學(xué)家在實(shí)踐廣泛應(yīng)用,,又令眾多的數(shù)學(xué)家為之魂?duì)繅?mèng)繞,,在數(shù)學(xué)的世界里也并不多見(jiàn)。我在讀研究生的時(shí)候,,經(jīng)常逛北大未名BBS的數(shù)學(xué)板,,有一個(gè)叫ukim的著名寫(xiě)手在精華區(qū)里面留下了一個(gè)介紹數(shù)學(xué)家八卦的系列《Heroes in My Heart》,寫(xiě)得非常的精彩,,這些故事在喜歡數(shù)學(xué)的人群中也流傳廣泛,。最后一個(gè)八卦是關(guān)于菲爾茲獎(jiǎng)得主法國(guó)數(shù)學(xué)家R.Thom的,,它曾經(jīng)令無(wú)數(shù)人感動(dòng),我也借用來(lái)作為我對(duì)正態(tài)分布的八卦的結(jié)語(yǔ):

在一次采訪(fǎng)當(dāng)中,,作為數(shù)學(xué)家的Thom同兩位古人類(lèi)學(xué)家討論問(wèn)題,。談到遠(yuǎn)古的人們?yōu)槭裁匆4婊鸱N時(shí),一個(gè)人類(lèi)學(xué)家說(shuō),,因?yàn)楸4婊鸱N可以取暖御寒,;另外一個(gè)人類(lèi)學(xué)家說(shuō),因?yàn)楸4婊鸱N可以燒出鮮美的肉食,。而托姆(Thom)說(shuō),,因?yàn)橐鼓粊?lái)臨之際,火光搖曳嫵媚,,燦爛多姿,,是最美最美的....

九、推薦閱讀

在終極的分析中,,一切知識(shí)都是歷史

在抽象的意義下,,一切科學(xué)都是數(shù)學(xué)

在理性的基礎(chǔ)上,所有的判斷都是統(tǒng)計(jì)學(xué)

—C.R.Rao

本人并非統(tǒng)計(jì)學(xué)專(zhuān)業(yè)人士,,只是憑一點(diǎn)興趣做一點(diǎn)知識(shí)的傳播,,對(duì)統(tǒng)計(jì)學(xué)歷史知識(shí)的介紹,專(zhuān)業(yè)性和系統(tǒng)性都不是我的目的,。我更在乎的是趣味性,,因?yàn)闆](méi)有趣味就不會(huì)有傳播。如果讀完這段歷史會(huì)讓你覺(jué)得正態(tài)分布更加親切,,不再那么遙不可及,,那我的目的達(dá)到了。如果正態(tài)分布是一滴水,,我愿大家都能看到它折射出的七彩虹,。

本文所使用的大多是二手資料,,有些歷史細(xì)節(jié)并沒(méi)有經(jīng)過(guò)嚴(yán)格的考證,,對(duì)于歷史資料一定程度上按照個(gè)人喜好做了取舍,本文主要基于如下的資料寫(xiě)成,,對(duì)于歷史細(xì)節(jié)感興趣的,,推薦閱讀。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶(hù)發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多