久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

正態(tài)分布的前世今生(壹)

 東方135 2018-10-13
更加的簡潔漂亮,,兩個最重要的數(shù)學(xué)常量 ,、 都出現(xiàn)在這公式之中。在我個人的審美之中,,它也屬于 top-N 的最美麗的數(shù)學(xué)公式之一,,如果有人問我數(shù)理統(tǒng)計領(lǐng)域哪個公式最能讓人感覺到上帝的存在,那我一定投正態(tài)分布的票,。因為這個分布戴著神秘的面紗,,在自然界中無處不在,讓你在紛繁蕪雜的數(shù)據(jù)背后看到隱隱的秩序,。

normal_curve正態(tài)分布曲線

正態(tài)分布又通常被稱為高斯分布,,在科學(xué)領(lǐng)域,冠名權(quán)那是一個很高的榮譽,。2002年以前去過德國的兄弟們還會發(fā)現(xiàn),,德國1991年至2001年間發(fā)行的的一款10馬克的紙幣上印著高斯(Carl Friedrich Gauss, 1777-1855)的頭像和正態(tài)密度曲線,而1977年東德發(fā)行的20馬克的可流通紀(jì)念鋼镚上,,也印著正態(tài)分布曲線和高斯的名字,。正態(tài)分布被冠名高斯分布,我們也容易認(rèn)為是高斯發(fā)現(xiàn)了正態(tài)分布,,其實不然,,不過高斯對于正態(tài)分布的歷史地位的確立是起到了決定性的作用。

10dm_with_gauss_curve10dm_with_gauss_curve_detail   20-mark-gauss
德國馬克和紀(jì)念幣上的高斯頭像和正態(tài)分布曲線

正態(tài)曲線雖然看上去很美,,卻不是一拍腦袋就能想到的,。我們在本科學(xué)習(xí)數(shù)理統(tǒng)計的時候,課本一上來介紹正態(tài)分布就給出分布密度函數(shù),,卻從來不說明這個密度函數(shù)是通過什么原理推導(dǎo)出來的,。所以我一直搞不明白數(shù)學(xué)家當(dāng)年是怎么找到這個概率分布曲線的,,又是怎么發(fā)現(xiàn)隨機誤差服從這個奇妙的分布的。我們在實踐中大量的使用正態(tài)分布,,卻對這個分布的來龍去脈知之甚少,,正態(tài)分布真是讓人感覺既熟悉又陌生。直到我讀研究生的時候,,我的導(dǎo)師給我介紹了陳希儒院士的《數(shù)理統(tǒng)計學(xué)簡史》這本書,,看了之后才了解了正態(tài)分布曲線從發(fā)現(xiàn)到被人們重視進(jìn)而廣泛應(yīng)用,也是經(jīng)過了幾百年的歷史,。

正態(tài)分布的這段歷史是很精彩的,,我們通過講一系列的故事來揭開她的神秘面紗。

2. 邂逅,,正態(tài)曲線的首次發(fā)現(xiàn)

第一個故事和概率論的發(fā)展密切相關(guān),,主角是棣莫弗(Abraham de Moivre, 1667-1754) 和拉普拉斯 (Pierre-Simon Laplace 1749-1827)。拉普拉斯是個大科學(xué)家,,被稱為法國的牛頓;棣莫弗名氣可能不算很大,,不過大家應(yīng)該都應(yīng)該很熟悉這個名字,,因為我們在高中數(shù)學(xué)學(xué)復(fù)數(shù)的時候都學(xué)過棣莫弗公式

而棣莫弗所寫的《機遇論》(The doctrine of chances)是概率論發(fā)展歷史中很重要的一本書。牛頓對棣莫弗十分欣賞,遇到學(xué)生向他請教概率方面的問題時,,他就說:“這樣的問題應(yīng)該去找棣莫弗,他對這些問題的研究比我深入得多?!?

abraham-de-moivrelaplace
棣莫弗和拉普拉斯

古典概率論發(fā)源于賭博,,惠更斯(Christiaan Huygens, 1629-1695)、帕斯卡(Blaise Pascal, 1623-1662)、費馬(Pierre de Fermat, 1601-1665)、雅可比·貝努利(Jacob Bernoulli, 1654-1705)都是古典概率的奠基人,,他們那會研究的概率問題大都來自賭桌上,,最早的概率論問題是賭徒梅累在1654年向帕斯卡提出的如何分賭金的問題,。統(tǒng)計學(xué)中的總體均值之所以被稱為期望 (Expectation), 就是源自惠更斯,、帕斯卡這些人研究平均情況下一個賭徒在賭桌上可以期望自己贏得多少錢,。

有一天一個哥們,,也許是個賭徒,,向棣莫弗提了一個和賭博相關(guān)的問題:A,、B 兩人在賭場里賭博,,A,、B各自的獲勝概率是, 賭  局,。兩人約定:若 A 贏的局?jǐn)?shù) , 則 A 付給賭場  元;若 ,則B 付給賭場  元,。 問賭場掙錢的期望值是多少,。

問題并不復(fù)雜, 本質(zhì)上是一個二項分布,,若  為整數(shù),,棣莫弗求出最后的理論結(jié)果是


其中 是常見的二項概率,。 但是對具體的 , 因為其中的二項公式中有組合數(shù),,要把這個理論結(jié)果實際計算出數(shù)值結(jié)果可不是件容易的事, 這就驅(qū)動棣莫弗尋找近似計算的方法,。

與此相關(guān)聯(lián)的另一個問題,是遵從二項分布的隨機變量 , 求X 落在二項分布中心點一定范圍的概率 。

對于  的情形,, 棣莫弗做了一些計算并得到了一些近似結(jié)果,,但是還不夠漂亮,,幸運的是棣莫弗和斯特林(James Stirling, 1692-1770)處在同一個時代, 而且二人之間有聯(lián)系,,斯特林公式是在數(shù)學(xué)分析中必學(xué)的一個重要公式

事實上斯特林公式的雛形是棣莫弗最先得到的,,但斯特林改進(jìn)了這個公式,改進(jìn)的結(jié)果為棣莫弗所用,。1733 年,,棣莫弗很快利用斯特林公式進(jìn)行計算并取得了重要的進(jìn)展??紤]  是偶數(shù)的情形,,二項概率為


以下把簡記為, 通過斯特林公式做一些簡單的計算容易得到,


于是有

使用上式的結(jié)果,,并在二項概率累加求和的過程中近似的使用定積分代替求和,,很容易就能得到

看,正態(tài)分布的密度函數(shù)的形式在積分公式中出現(xiàn)了,!這也就是我們在數(shù)理統(tǒng)計課本上學(xué)到的一個重要結(jié)論:二項分布的極限分布是正態(tài)分布,。

以上只是討論了  的情形,, 棣莫弗也對 做了一些計算,,后來拉普拉斯對  的情況做了更多的分析,,并把二項分布的正態(tài)近似推廣到了任意  的情況。 這是第一次正態(tài)密度函數(shù)被數(shù)學(xué)家刻畫出來,,而且是以二項分布的極限分布的形式被推導(dǎo)出來的,。 熟悉基礎(chǔ)概率統(tǒng)計的同學(xué)們都知道這個結(jié)果其實叫棣莫弗-拉普拉斯中心極限定理。

[棣莫弗-拉普拉斯中心極限定理]設(shè)隨機變量  服從參數(shù)為  的二項分布,,則對任意的 , 恒有

我們在大學(xué)學(xué)習(xí)數(shù)理統(tǒng)計的時候,,學(xué)習(xí)的過程都是先學(xué)習(xí)正態(tài)分布,然后才學(xué)習(xí)中心極限定理,。而學(xué)習(xí)到正態(tài)分布的時候,,直接就描述了其概率密度的數(shù)學(xué)形式,雖然數(shù)學(xué)上很漂亮,,但是容易困惑數(shù)學(xué)家們是如何憑空就找到這個分布的,。讀了陳希孺的《數(shù)理統(tǒng)計學(xué)簡史》之后,我才明白正態(tài)分布的密度形式首次發(fā)現(xiàn)是在棣莫弗-拉普拉斯的中心極限定理中,。數(shù)學(xué)家研究數(shù)學(xué)問題的進(jìn)程很少是按照我們數(shù)學(xué)課本編排的順序推進(jìn)的,,現(xiàn)代的數(shù)學(xué)課本都是按照數(shù)學(xué)內(nèi)在的邏輯進(jìn)行組織編排的,雖然邏輯結(jié)構(gòu)上嚴(yán)謹(jǐn)優(yōu)美,,卻把數(shù)學(xué)問題研究的歷史痕跡抹得一干二凈,。DNA 雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)者之一詹姆斯·沃森(James D. Watson, 1928-) 在他的名著《DNA 雙螺旋》序言中說:“ Science seldom proceeds in the straightforward logical manner imagined by outsiders. (科學(xué)的發(fā)現(xiàn)很少會像門外漢所想象的一樣,按照直接了當(dāng)合乎邏輯的方式進(jìn)行的,。)”
棣莫弗給出他的發(fā)現(xiàn)后40年(大約是1770年),, 拉普拉斯建立了中心極限定理較一般的形式,中心極限定理隨后又被其他數(shù)學(xué)家們推廣到了其它任意分布的情形,,而不限于二項分布,。后續(xù)的統(tǒng)計學(xué)家發(fā)現(xiàn),一系列的重要統(tǒng)計量,,在樣本量  趨于無窮的時候,, 其極限分布都有正態(tài)的形式, 這構(gòu)成了數(shù)理統(tǒng)計學(xué)中大樣本理論的基礎(chǔ),。

棣莫弗在二項分布的計算中瞥見了正態(tài)曲線的模樣,,不過他并沒有能展現(xiàn)這個曲線的美妙之處。棣莫弗的這個工作當(dāng)時并沒有引起人們足夠的重視,,原因在于棣莫弗 不是個統(tǒng)計學(xué)家,,從未從統(tǒng)計學(xué)的角度去考慮其工作的意義。 正態(tài)分布(當(dāng)時也沒有被命名為正態(tài)分布) 在當(dāng)時也只是以極限分布的形式出現(xiàn),,并沒有在統(tǒng)計學(xué),,尤其是誤差分析中發(fā)揮作用。這也就是正態(tài)分布最終沒有被冠名 棣莫弗分布的重要原因,。 那高斯做了啥工作導(dǎo)致統(tǒng)計學(xué)家把正態(tài)分布的這頂桂冠戴在了他的頭上呢,?這先得從最小二乘法的發(fā)展說起,。

3. 最小二乘法,數(shù)據(jù)分析的瑞士軍刀

第二個故事的主角是歐拉(Leonhard Euler, 1707-1783),、拉普拉斯,、勒讓德 (Adrien-Marie Legendre, 1752–1833) 和高斯, 故事發(fā)生的時間是18世紀(jì)中到19世紀(jì)初。17,、18 世紀(jì)是科學(xué)發(fā)展的黃金年代,,微積分的發(fā)展和牛頓萬有引力定律的建立,直接的推動了天文學(xué)和測地學(xué)的迅猛發(fā)展,。當(dāng)時的大科學(xué)家們都在考慮許多天文學(xué)上的問題,,幾個典型的問題如下:

  • 土星和木星是太陽系中的大行星,由于相互吸引對各自的運動軌道產(chǎn)生了影響,,許多大數(shù)學(xué)家,,包括歐拉和拉普拉斯都在基于長期積累的天文觀測數(shù)據(jù)計算土星和木星的運行軌道。
  • 勒讓德承擔(dān)了一個政府給的重要任務(wù),,測量通過巴黎的子午線的長度,。
  • 海上航行經(jīng)緯度的定位。主要是通過對恒星和月面上的一些定點的觀測來確定經(jīng)緯度,。

這些天文學(xué)和測地學(xué)的問題,,無不涉及到數(shù)據(jù)的多次測量、分析與計算,;17,、18世紀(jì)的天文觀測,也積累了大量的數(shù)據(jù)需要進(jìn)行分析和計算,。很多年以前,,學(xué)者們就已經(jīng)經(jīng)驗性的認(rèn)為,對于有誤差的測量數(shù)據(jù),,多次測量取算術(shù)平均是比較好的處理方法,。雖然缺乏理論上的論證,也不斷的受到一些人的質(zhì)疑,,取算術(shù)平均作為一種異常直觀的方式,,已經(jīng)被使用了千百年, 在多年積累的數(shù)據(jù)的處理經(jīng)驗中也得到相當(dāng)程度的驗證,被認(rèn)為是一種良好的數(shù)據(jù)處理方法,。

以上涉及的問題,,我們直接關(guān)心的目標(biāo)量往往無法直接觀測,但是一些相關(guān)的量是可以觀測到的,,而通過建立數(shù)學(xué)模型,,最終可以解出我們關(guān)心的量。這些問題都可以用如下數(shù)學(xué)模型描述:我們想估計的量是 , 另有若干個可以測量的量 , 這些量之間有線性關(guān)系


如何通過多組觀測數(shù)據(jù)求解出參數(shù)呢? 歐拉和拉普拉斯采用的的方法都是求解如下線性方程組

但是面臨的一個問題是,,有  組觀測數(shù)據(jù),, 個變量, 如果 , 則得到的線性矛盾方程組,,無法直接求解。 所以歐拉和拉普拉斯采用的方法都是通過對數(shù)據(jù)的一定的觀察,,把個線性方程分為 組,,然后把每個組內(nèi)的方程線性求和后歸并為一個方程,從而就把個方程的方程組化為個方程的方程組,,進(jìn)一步解方程求解參數(shù),。這些方法初看有一些道理,但是都過于經(jīng)驗化, 無法形成統(tǒng)一處理這一類問題的通用解決框架,。

以上求解線性矛盾方程的問題在現(xiàn)在的本科生看來都不困難,,這就是統(tǒng)計學(xué)中的線性回歸問題,直接用最小二乘法就解決了,??墒羌幢闳鐨W拉、拉普拉斯這些數(shù)學(xué)大牛,,當(dāng)時也未能對這些問題提出有效的解決方案,。可見在科學(xué)研究中,,要想在觀念上有所突破并不容易,。有效的最小二乘法是勒讓德在 1805 年發(fā)表的,基本思想就是認(rèn)為測量中有誤差,,所以所有方程的累積誤差為

累積誤差 =  觀測值 – 理論值 

我們求解出導(dǎo)致累積誤差最小的參數(shù)

legendre勒讓德

勒讓德在論文中對最小二乘法的優(yōu)良性做了幾點說明:

  1. 最小二乘法使得誤差平方和最小,,并在各個方程的誤差之間建立了一種平衡,從而防止某一個極端誤差取得支配地位,;
  2. 計算中只要求偏導(dǎo)后求解線性方程組,,計算過程明確便捷;
  3. 最小二乘法可以導(dǎo)出算術(shù)平均值作為估計值,。

對于最后一點,,推理如下:假設(shè)真值為 , 為次測量值, 每次測量的誤差為,按最小二乘法,,誤差累積為


求解 使得 達(dá)到最小,,正好是算術(shù)平均 。

由于算術(shù)平均是一個歷經(jīng)考驗的方法,,而以上的推理說明,,算術(shù)平均是最小二乘法的一個特例,所以從另一個角度說明了最小二乘法的優(yōu)良性,,使我們對最小二乘法更加有信心,。

最小二乘法發(fā)表之后很快得到了大家的認(rèn)可接受,,并迅速的在數(shù)據(jù)分析實踐中被廣泛使用。不過歷史上又有人把最小二乘法的發(fā)明歸功于高斯,,這又是怎么一回事呢,。高斯在1809 年也發(fā)表了最小二乘法,并且聲稱自己已經(jīng)使用這個方法多年,。高斯發(fā)明了小行星定位的數(shù)學(xué)方法,,并在數(shù)據(jù)分析中使用最小二乘法進(jìn)行計算,準(zhǔn)確的預(yù)測了谷神星的位置,。

扯了半天最小二乘法,,沒看出和正態(tài)分布有任何關(guān)系啊,,離題了吧,?單就最小二乘法本身,,雖然很實用,不過看上去更多的算是一個代數(shù)方法,,雖然可以推導(dǎo)出最優(yōu)解,,對于解的誤差有多大,無法給出有效的分析,,而這個就是正態(tài)分布粉墨登場發(fā)揮作用的地方,。勒讓德提出的最小二乘法,確實是一把在數(shù)據(jù)分析領(lǐng)域披荊斬棘的好刀,,但是刀刃還是不夠鋒利,;而這把刀的打造后來至少一半功勞被歸到高斯,是因為高斯不但獨自的給出了造刀的方法,,而且把最小二乘這把刀的刀刃磨得無比鋒利,,把最小二乘法打造成了一把瑞士軍刀。高斯拓展了最小二乘法,,把正態(tài)分布和最小二乘法聯(lián)系在一起,,并使得正態(tài)分布在統(tǒng)計誤差分析中確立了自己的地位,否則正態(tài)分布就不會被稱為高斯分布了,。 那高斯這位神人是如何把正態(tài)分布引入到誤差分析之中,,打造最小二乘法這把瑞士軍刀的呢?

4. 眾里尋她千百度,誤差分布曲線的確立

第三個故事有點長,,主角是高斯和拉普拉斯,,故事的主要內(nèi)容是尋找隨機誤差分布的規(guī)律。

天文學(xué)是第一個被測量誤差困擾的學(xué)科,,從古代至18世紀(jì)天文學(xué)一直是應(yīng)用數(shù)學(xué)最發(fā)達(dá)的領(lǐng)域,,到18世紀(jì),天文學(xué)的發(fā)展積累了大量的天文學(xué)數(shù)據(jù)需要分析計算,應(yīng)該如何來處理數(shù)據(jù)中的觀測誤差成為一個很棘手的問題,。我們在數(shù)據(jù)處理中經(jīng)常使用平均的常識性法則,,千百來來的數(shù)據(jù)使用經(jīng)驗說明算術(shù)平均能夠消除誤差,提高精度,。算術(shù)平均有如此的魅力,,道理何在,之前沒有人做過理論上的證明,。算術(shù)平均的合理性問題在天文學(xué)的數(shù)據(jù)分析工作中被提出來討論:測量中的隨機誤差應(yīng)該服從怎樣的概率分布,?算術(shù)平均的優(yōu)良性和誤差的分布有怎樣的密切聯(lián)系?

伽利略在他著名的《關(guān)于兩個主要世界系統(tǒng)的對話》中,,對誤差的分布做過一些定性的描述,主要包括:

  1. 觀測數(shù)據(jù)存在誤差
  2. 誤差是對稱分布的;
  3. 大的誤差出現(xiàn)頻率低,,小的誤差出現(xiàn)頻率高,。

用數(shù)學(xué)的語言描述,也就是說誤差分布的密度函數(shù)  關(guān)于0對稱分布,,概率密度隨  增加而減小,,這兩個定性的描述都很符合常識。

許多天文學(xué)家和數(shù)學(xué)家開始了尋找誤差分布曲線的嘗試,。 天文學(xué)家辛普森(Thomas Simpson, 1710-1761) 先走出了有意義的一步,。設(shè)真值為 ,  為n次測量值, 每次測量的誤差為,若用算術(shù)平均 去估計, 其誤差為 ,。 辛普森證明了, 對于如下的一個概率分布,,

simpson-error-curve辛普森的誤差分布曲線

有如下結(jié)論


也就是說, 相比于取小值的機會更大,。 辛普森的這個工作很粗糙,,但是這是第一次在一個特定情況下,從概率論的角度嚴(yán)格證明了算術(shù)平均的優(yōu)良性,。

從 1772-1774 年,, 拉普拉斯也加入到了尋找誤差分布密度函數(shù)的隊伍中。拉普拉斯假定誤差分布密度函數(shù)對稱且滿足


由此可求得分布密度函數(shù)為

這個概率密度函數(shù)現(xiàn)在被稱為拉普拉斯分布,。

laplace-error-curve

拉普拉斯的誤差分布曲線

以該函數(shù)作為誤差分布,,拉普拉斯開始考慮如何基于測量的結(jié)果去估計未知參數(shù)的值。拉普拉斯可以算是一個貝葉斯主義者,,他的參數(shù)估計的原則和現(xiàn)代貝葉斯方法非常相似:假設(shè)先驗分布是均勻的,,計算出參數(shù)的后驗分布后,取后驗分布的中值點,,即分位點,,作為參數(shù)估計值。可是基于這個誤差分布密度函數(shù)做了一些計算之后,,拉普拉斯發(fā)現(xiàn)計算過于復(fù)雜,,最終沒能給出什么有用的結(jié)果。

拉普拉斯可是概率論的大牛,,寫過在概率發(fā)展歷史中極有影響力的《分析概率論》,,不過以我的數(shù)學(xué)審美,實在無法理解拉普拉斯這樣的牛人怎么找了一個零點不可導(dǎo)的函數(shù)作為誤差的分布密度函數(shù),,拉普拉斯最終還是沒能搞定誤差分布的問題,。

現(xiàn)在輪到高斯登場了,高斯在數(shù)學(xué)史中的地位極高,,年輕的時候號稱數(shù)學(xué)王子,,后來被稱為數(shù)學(xué)家中的老狐貍,數(shù)學(xué)家阿貝爾 (Niels Henrik Abel, 1802-1829) 對他的評論是 :“高斯像一只狐貍,,用尾巴將沙地上的足跡抹去(He is like the fox, who effaces his tracks in the sand with his tail) ,。” 我們的數(shù)學(xué)大師陳省身把黎曼(Georg Friedrich Bernhard Riemann,1826-1866) 和龐加萊(Jules Henri Poincaré, 1854-1912)稱為數(shù)學(xué)家中的菩薩,,而稱自己為羅漢,;高斯是黎曼的導(dǎo)師,數(shù)學(xué)圈里有些教授把高斯稱為數(shù)學(xué)家中的佛,。 在數(shù)學(xué)家中既能仰望理論數(shù)學(xué)的星空,,又能腳踏應(yīng)用數(shù)學(xué)的實地的可不多見,高斯是數(shù)學(xué)家中少有的頂”天“立”地“的人物,,它既對純理論數(shù)學(xué)有深刻的洞察力,,又極其重視數(shù)學(xué)在實踐中的應(yīng)用。 在誤差分布的處理中,,高斯以極其簡單的手法確立了隨機誤差的概率分布,,其結(jié)果成為數(shù)理統(tǒng)計發(fā)展史上的一塊里程碑。

高斯的介入首先要從天文學(xué)界的一個事件說起,。1801年1月,,天文學(xué)家朱塞普·皮亞齊 (Giuseppe Piazzi, 1746-1826)發(fā)現(xiàn)了一顆從未見過的光度8等的星在移動,這顆現(xiàn)在被稱作谷神星(Ceres)的小行星在夜空中出現(xiàn)6個星期,,掃過八度角后就在太陽的光芒下沒了蹤影,,無法觀測。而留下的觀測數(shù)據(jù)有限,,難以計算出他的軌道,,天文學(xué)家也因此無法確定這顆新星是彗星還是行星,這個問題很快成了學(xué)術(shù)界關(guān)注的焦點,。高斯當(dāng)時已經(jīng)是很有名望的年輕數(shù)學(xué)家了,,這個問題引起了他的興趣,。高斯以其卓越的數(shù)學(xué)才能創(chuàng)立了一種嶄新的行星軌道的計算方法,一個小時之內(nèi)就計算出了谷神星的軌道,,并預(yù)言了他在夜空中出現(xiàn)的時間和位置,。 1801年12月31 日夜,德國天文愛好者奧伯斯(Heinrich Olbers, 1758-1840),,在高斯預(yù)言的時間里,,用望遠(yuǎn)鏡對準(zhǔn)了這片天空。果然不出所料,,谷神星出現(xiàn)了,!

高斯為此名聲大震,但是高斯當(dāng)時拒絕透露計算軌道的方法,,原因可能是高斯認(rèn)為自己的方法的理論基礎(chǔ)還不夠成熟,,而高斯一向治學(xué)嚴(yán)謹(jǐn)、精益求精,,不輕易發(fā)表沒有思考成熟的理論,。直到1809年高斯系統(tǒng)地完善了相關(guān)的數(shù)學(xué)理論后,才將他的方法公布于眾,,而其中使用的數(shù)據(jù)分析方法,,就是以正態(tài)誤差分布為基礎(chǔ)的最小二乘法,。那高斯是如何推導(dǎo)出誤差分布為正態(tài)分布的,?讓我們看看高斯是如何猜測上帝的意圖的。

設(shè)真值為 , 為次獨立測量值, 每次測量的誤差為,,假設(shè)誤差的密度函數(shù)為 , 則測量值的聯(lián)合概率為個誤差的聯(lián)合概率,,記為


但是高斯不采用貝葉斯的推理方式,而是直接取使達(dá)到最大值的  作為的估計值,,即

現(xiàn)在我們把 稱為樣本的似然函數(shù),,而得到的估計值 稱為極大似然估計。高斯首次給出了極大似然的思想,,這個思想后來被統(tǒng)計學(xué)家費希爾系統(tǒng)的發(fā)展成為參數(shù)估計中的極大似然估計理論,。

數(shù)學(xué)家波利亞(George Pólya, 1887-1985)說過:“要成為一個好的數(shù)學(xué)家,……,你必須首先是一個好的猜想家(To be a good mathematician,…, you must be a good guesser)?!睔v史上一流的數(shù)學(xué)家都是偉大的猜想家,。高斯接下來的想法特別牛,他開始揣度上帝的意圖,,而這充分體現(xiàn)了高斯的數(shù)學(xué)天才,。高斯把整個問題的思考模式倒過來:既然千百年來大家都認(rèn)為算術(shù)平均是一個好的估計,那我就認(rèn)為極大似然估計導(dǎo)出的就應(yīng)該是算術(shù)平均,!所以高斯猜測上帝在創(chuàng)世紀(jì)中的旨意就是:

誤差分布導(dǎo)出的極大似然估計 = 算術(shù)平均值

然后高斯去找誤差密度函數(shù)  以迎合這一點,。即尋找這樣的概率分布密度函數(shù) , 使得極大似然估計正好是算術(shù)平均 ,。而高斯應(yīng)用數(shù)學(xué)技巧求解這個函數(shù), 高斯證明(證明不難,后續(xù)給出),,所有的概率密度函數(shù)中,,唯一滿足這個性質(zhì)的就是


瞧,正態(tài)分布的密度函數(shù)  被高斯他老人家給解出來了,!

進(jìn)一步,,高斯基于這個誤差分布的密度函數(shù)對最小二乘法給出了一個很漂亮的解釋。對于最小二乘公式中涉及的每個誤差 , 由于誤差服從概率分布 , 則 的概率為

要使得這個概率最大,,必須使得 取最小值,,這正好就是最小二乘法的要求。

高斯所拓展的最小二乘法成為了19世紀(jì)統(tǒng)計學(xué)的最重要成就,,它在19世紀(jì)統(tǒng)計學(xué)的重要性就相當(dāng)于18世紀(jì)的微積分之于數(shù)學(xué),。而勒讓德和高斯的關(guān)于最小二乘法的發(fā)明權(quán)之爭,成了數(shù)學(xué)史上僅次于牛頓,、萊布尼茨微積分發(fā)明權(quán)的爭端,。相比于勒讓德1805年給出的最小二乘法描述,高斯基于誤差正態(tài)分布的最小二乘理論顯然更高一籌,,高斯的工作中既提出了極大似然估計的思想,,又解決了誤差的概率密度分布的問題,由此我們可以對誤差大小的影響進(jìn)行統(tǒng)計度量了,。高斯的這項工作對后世的影響極大,,而正態(tài)分布也因此被冠名高斯分布。估計高斯本人當(dāng)時是完全沒有意識到他的這個工作給現(xiàn)代數(shù)理統(tǒng)計學(xué)帶來的深刻影響,。高斯在數(shù)學(xué)上的貢獻(xiàn)特多,,去世前他是要求給自己的墓碑上雕刻上正十七邊形,以說明他在正十七邊形尺規(guī)作圖上的杰出工作,。而后世的德國鈔票和鋼镚上是以正態(tài)密度曲線來紀(jì)念高斯,,這足以說明高斯的這項工作在當(dāng)代科學(xué)發(fā)展中的分量。

17,、18世紀(jì)科學(xué)界流行的做法,,是盡可能從某種簡單明了的準(zhǔn)則(first principle)出發(fā)進(jìn)行邏輯推導(dǎo)。高斯設(shè)定了準(zhǔn)則“最大似然估計應(yīng)該導(dǎo)出優(yōu)良的算術(shù)平均”,,并導(dǎo)出了誤差服從正態(tài)分布,,推導(dǎo)的形式上非常簡潔優(yōu)美。但是高斯給的準(zhǔn)則在邏輯上并不足以讓人完全信服,,因為算術(shù)平均的優(yōu)良性當(dāng)時更多的是一個經(jīng)驗直覺,,缺乏嚴(yán)格的理論支持。高斯的推導(dǎo)存在循環(huán)論證的味道:因為算術(shù)平均是優(yōu)良的,,推出誤差必須服從正態(tài)分布,;反過來,,又基于正態(tài)分布推導(dǎo)出最小二乘法和算術(shù)平均,來說明最小二乘法和算術(shù)平均的優(yōu)良性,。這陷入了一個雞生蛋蛋生雞的怪圈,,邏輯上算術(shù)平均的優(yōu)良性到底有沒有自行成立的理由呢?

高斯的文章發(fā)表之后,,拉普拉斯很快得知了高斯的工作,。拉普拉斯看到,正態(tài)分布既可以從拋鋼镚產(chǎn)生的序列和中生成出來,,又可以被優(yōu)雅的作為誤差分布定律,,這難道是偶然現(xiàn)象?拉普拉斯不愧為概率論的大牛,,他馬上將誤差的正態(tài)分布理論和中心極限定理聯(lián)系起來,,提出了元誤差解釋。他指出如果誤差可以看成許多微小量的疊加,,則根據(jù)他的中心極限定理,,隨機誤差理所應(yīng)當(dāng)是高斯分布。而20世紀(jì)中心極限定理的進(jìn)一步發(fā)展,,也給這個解釋提供了更多的理論支持,。因此以這個解釋為出發(fā)點,高斯的循環(huán)論證的圈子就可以打破,。 估計拉普拉斯悟出這個結(jié)論之后一定想撞墻,,自己辛辛苦苦尋尋覓覓了這么久的誤差分布曲線就在自己的眼皮底下,自己卻長年視而不見,,被高斯占了先機,。

至此,,誤差分布曲線的尋找塵埃落定,,正態(tài)分布在誤差分析中確立了自己的地位,并在整個19世紀(jì)不斷的開疆?dāng)U土,,直至在統(tǒng)計學(xué)中鶴立雞群,,傲世其它一切概率分布;而高斯和拉普拉斯的工作,,為現(xiàn)代統(tǒng)計學(xué)的發(fā)展開啟了一扇大門,。

在整個正態(tài)分布被發(fā)現(xiàn)與應(yīng)用的歷史中,棣莫弗,、拉普拉斯,、高斯各有貢獻(xiàn),拉普拉斯從中心極限定理的角度解釋它,,高斯把它應(yīng)用在誤差分析中,,殊途同歸,。正態(tài)分布被人們發(fā)現(xiàn)有這么好的性質(zhì),各國人民都爭搶它的冠名權(quán),。因為拉普拉斯是法國人,所以當(dāng)時在法國被稱為拉普拉斯分布,;而高斯是德國人, 所以在德國叫做高斯分布;第三中立國的人民稱他為拉普拉斯-高斯分布,。后來法國的大數(shù)學(xué)家龐加萊建議改用正態(tài)分布這一中立名稱, 而隨后統(tǒng)計學(xué)家卡爾·皮爾森使得這個名稱被廣泛接受:

Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another “abnormal”.

 —Karl Pearson (1920) 

不過因為高斯在數(shù)學(xué)家中的名氣實在是太大, 正態(tài)分布的桂冠還是更多地被戴在了高斯的腦門上,,目前數(shù)學(xué)界通行的用語是正態(tài)分布、高斯分布, 兩者并用,。

正態(tài)分布在高斯的推動下,,迅速在測量誤差分析中被廣泛使用,然而早期也僅限于測量誤差的分析中,,其重要性遠(yuǎn)沒有被自然科學(xué)和社會科學(xué)領(lǐng)域中的學(xué)者們所認(rèn)識,,那正態(tài)分布是如何從測量誤差分析的小溪,沖向自然科學(xué)和社會科學(xué)的汪洋大海的呢,?

5. 曲徑通幽處,,禪房花木深

在介紹正態(tài)分布的后續(xù)發(fā)展之前,我們來多講一點數(shù)學(xué),,也許有些人會覺得枯燥,,不過高斯曾經(jīng)說過:“數(shù)學(xué)是上帝的語言”;所以要想更加深入的理解正態(tài)分布的美,,唯有借助于上帝的語言,。

造物主造物的準(zhǔn)則往往是簡單明了的,只是在紛繁蕪雜的萬物之中,,我們要發(fā)現(xiàn)并領(lǐng)會它并非易事,。之前提到過,17,、18世紀(jì)科學(xué)界流行的做法,,是盡可能從某種簡單明了的準(zhǔn)則出發(fā)作為科學(xué)探求的起點;而后來的數(shù)學(xué)家和物理學(xué)家們的研究發(fā)現(xiàn),,屢次從一些給定的簡單的準(zhǔn)則出發(fā), 我們總是被引領(lǐng)到了正態(tài)分布的家門口,,這讓人感覺到正態(tài)分布的美妙。

達(dá)爾文的表弟高爾頓是生物學(xué)家兼統(tǒng)計學(xué)家,,他對正態(tài)分布非常的推崇與贊美:”我?guī)缀醪辉娺^像誤差呈正態(tài)分布這么激發(fā)人們無窮想象的宇宙秩序“,。當(dāng)代兩位偉大的概率學(xué)家列維(Paul Pierre Lévy, 1886-1971) 和卡克(Mark Kac, 1914-1984) 都曾經(jīng)說過,正態(tài)分布是他們切入概率論的初戀情人,,具有無窮的魅力,。如果古希臘人知道正態(tài)分布,想必奧林匹斯山的神殿里會多出一個正態(tài)女神,,由她來掌管世間的混沌,。

要拉下正態(tài)分布的神秘面紗展現(xiàn)她的美麗,,需要高深的概率論知識,本人在數(shù)學(xué)方面知識淺薄,,不能勝任,。只能在極為有限的范圍內(nèi)嘗試掀開她的面紗的一角。棣莫弗和拉普拉斯以拋鋼镚的序列求和為出發(fā)點,,沿著一條小徑第一次把我們領(lǐng)到了正態(tài)分布的家門口,,這條路叫做中心極限定理。而這條路上風(fēng)景秀麗,,許多概率學(xué)家都為之傾倒,。這條路在二十世紀(jì)被概率學(xué)家們越拓越寬,成為了通往正態(tài)曲線的一條康莊大道,。而數(shù)學(xué)家和物理學(xué)家們發(fā)現(xiàn):條條小路通正態(tài),。著名的物理學(xué)家杰恩斯(Edwin Thompson Jaynes, 1922-1998) 在他的名著《概率論沉思錄(Probability Theory: the Logic of Science)》中,描繪了四條通往正態(tài)分布的小徑,;曲徑通幽處,,禪房花木深,讓我們一起來欣賞一下這四條小徑上的風(fēng)景吧,。

5.1 高斯(1809)的推導(dǎo)

第一條小徑是高斯找到的,,高斯以如下準(zhǔn)則作為小徑的出發(fā)點

誤差分布導(dǎo)出的極大似然估計 = 算術(shù)平均值

設(shè)真值為 , 為n次獨立測量值, 每次測量的誤差為,假設(shè)誤差的密度函數(shù)為 , 則測量值的聯(lián)合概率為個誤差的聯(lián)合概率,,記為


為求極大似然估計,,令

整理后可以得到

令 ,

由于高斯假設(shè)極大似然估計的解就是算術(shù)平均 ,把解代入上式,,可以得到

(1)式中取 , 有

由于此時有 , 并且  是任意的,,由此得到

(1)式中再取 , 并且要求 , 則有 , 并且

所以得到

而滿足上式的唯一的連續(xù)函數(shù)就是 , 從而進(jìn)一步可以求解出

由于是概率密度函數(shù),把 正規(guī)化一下就得到均值為的正態(tài)分布密度函數(shù)
,。

5.2 赫歇爾(1850)和麥克斯韋(1860) 的推導(dǎo)

第二條小徑是天文學(xué)家赫歇爾(John Frederick William Herschel, 1792-1871)和物理學(xué)家麥克斯韋(James Clerk Maxwell, 1831-1879) 發(fā)現(xiàn)的,。 1850年,天文學(xué)家赫歇爾在對星星的位置進(jìn)行測量的時候,,需要考慮二維的誤差分布,,為了推導(dǎo)這個誤差的概率密度分布
,赫歇爾設(shè)置了兩個準(zhǔn)則:

  1.  軸和  軸的誤差是相互獨立的,,即隨機誤差在正交的方向上相互獨立
  2. 誤差的概率分布在空間上具有旋轉(zhuǎn)對稱性,,即誤差的概率分布和角度沒有關(guān)系

這兩個準(zhǔn)則對于赫歇爾考慮的實際測量問題看起來都很合理。由第一條準(zhǔn)則,,可以得到  應(yīng)該具有如下形式


把這個函數(shù)轉(zhuǎn)換為極坐標(biāo),,在極坐標(biāo)下的概率密度函數(shù)設(shè)為 , 有

由第二條準(zhǔn)則,  具有旋轉(zhuǎn)對稱性,也就是應(yīng)該和  無關(guān), 所以 , 綜上所述,,我們可以得到

取 , 得到 , 所以上式可以轉(zhuǎn)換為

令 , 則有

從這個函數(shù)方程中可以解出 , 從而可以得到  的一般形式如下

而  就是正態(tài)分布 ,, 從而  就是標(biāo)準(zhǔn)二維正態(tài)
分布的密度函數(shù)

1860 年,,偉大的物理學(xué)家麥克斯韋在考慮氣體分子的運動速度分布的時候,在三維空間中基于類似的準(zhǔn)則推導(dǎo)出了氣體分子運動的分布是正態(tài)分布 ,。這就是著名的麥克斯韋分子速率分布定律,。大家還記得我們在普通物理中學(xué)過的麥克斯韋-波爾茲曼氣體速率分布定律嗎?


所以這個分布其實是三個正態(tài)分布的乘積, 你的物理老師是否告訴過你其實這個分布就是三維正態(tài)分布,?

赫歇爾-麥克斯韋推導(dǎo)的神妙之處在于,,沒有利用任何概率論的知識,只是基于空間幾何的不變性,,就推導(dǎo)出了正態(tài)分布,。美國諾貝爾獎物理學(xué)家費曼(Richard Feymann,1918-1988) 每次看到一個有 的數(shù)學(xué)公式的時候,就會問:圓在哪里,?這個推導(dǎo)中使用到了 , 也就是告訴我們正態(tài)分布密度公式中有個, 其根源在于二維正態(tài)分布中的等高線恰好是個圓,。

5.3 蘭登(1941)的推導(dǎo)

第三條道是一位電氣工程師蘭登(Vernon D. Landon)給出的。1941 年,, 蘭登研究通信電路中的噪聲電壓,,通過分析經(jīng)驗數(shù)據(jù)他發(fā)現(xiàn)噪聲電壓的分布模式很相似,不同的是分布的層級,,而這個層級可以使用方差  來刻畫,。因此他推理認(rèn)為噪聲電壓的分布密度函數(shù)形式是 。假設(shè)原來的電壓為X, 累加了一個相對其方差 而言很微小的誤差擾動 ,,  的概率密度是 , 那么新的噪聲電壓是 ,。 蘭登提出了如下的準(zhǔn)則

  1. 隨機噪聲具有穩(wěn)定的分布模式
  2. 累加一個微小的隨機噪聲,不改變其穩(wěn)定的分布模式,,只改變分布的層級(用方差度量)

用數(shù)學(xué)的語言描述: 如果

 則有

現(xiàn)在我們來推導(dǎo)函數(shù) 應(yīng)該長成啥樣,。按照兩個隨機變量和的分布的計算方式,  的分布密度函數(shù)將是  的分布密度函數(shù)和 的分布密度函數(shù)的卷積,,即有


把  在處做泰勒級數(shù)展開(為了方便,,展開后把自變量由  替換為 ), 上式可以展開為

將簡記為,則有

對于微小的隨機擾動 , 我們認(rèn)為他取正值或者負(fù)值是對稱的,,所以 ,。所以有

對于新的噪聲電壓 , 方差由 增加為 ,,所以按照蘭登的分布密度函數(shù)模式不變的假設(shè),, 新的噪聲電壓的分布密度函數(shù)應(yīng)該為 。把 在  處做泰勒級數(shù)展開,,得到


比較 (2) 和 (3) 這兩個式子,,可以得到如下偏微分方程

而這個方程就是物理上著名的擴散方程(diffusion equation),求解該方程就得到

又一次,我們推導(dǎo)出了正態(tài)分布!

杰恩斯對于這個推導(dǎo)的評價很高,,認(rèn)為蘭登 的推導(dǎo)本質(zhì)上給出了自然界的噪音形成過程,。他指出這個推導(dǎo)這基本上就是中心極限定理的增量式版本,相比于中心極限定理是一次性累加所有的因素,,蘭登 的推導(dǎo)是每次在原有的分布上去累加一個微小的擾動,。而在這個推導(dǎo)中,我們看到,,正態(tài)分布具有相當(dāng)好的穩(wěn)定性,;只要數(shù)據(jù)中正態(tài)的模式已經(jīng)形成,他就容易繼續(xù)保持正態(tài)分布,,無論外部累加的隨機噪聲  是什么分布,,正態(tài)分布就像一個黑洞一樣把這個累加噪聲吃掉。

5.4 基于最大熵的推導(dǎo)

還有一條小徑是基于最大熵原理的,, 物理學(xué)家杰恩斯在最大熵原理上有非常重要的貢獻(xiàn),,他在《概率論沉思錄》里面對這個方法有描述和證明,沒有提到發(fā)現(xiàn)者,,我不確認(rèn)這條道的發(fā)現(xiàn)者是否是杰恩斯本人,。

熵在物理學(xué)中由來已久,信息論的創(chuàng)始人香農(nóng)(Claude Elwood Shannon, 1916-2001)把這個概念引入了信息論,,學(xué)習(xí)機器學(xué)習(xí)的同學(xué)們都知道目前機器學(xué)習(xí)中有一個非常好用的分類算法叫最大熵分類器,。要想把熵和最大熵的來龍去脈說清楚可不容易,不過這條道的風(fēng)景是相當(dāng)獨特的,,杰恩斯對這條道也是偏愛有加,。

對于一個概率分布 , 我們定義他的熵為

如果給定一個分布密度函數(shù)  的均值  和方差 (給定均值和方差這個條件,也可以描述為給定一階原點矩和二階原點矩,,這兩個條件是等價的),, 則在所有滿足這兩個限制的概率分布中,熵最大的概率分布  就是正態(tài)分布 ,。

這個結(jié)論的推導(dǎo)數(shù)學(xué)上稍微有點復(fù)雜,,不過如果已經(jīng)猜到了給定限制條件下最大熵的分布是正態(tài)分布,要證明這個猜測卻是很簡單的,,證明的思路如下,。

考慮兩個概率分布 和,使用不等式 , 得


于是

所以

熟悉信息論的同學(xué)都知道,,這個式子是信息論中的很著名的結(jié)論:一個概率分布的熵總是小于相對熵,。上式要取等號當(dāng)且僅當(dāng)。

對于 , 在給定的均值  和方差 下, 我們?nèi)? 則可以得到


由于  的均值方差有如下限制

于是

而當(dāng)?shù)臅r候,,上式可以取到等號,,這就證明了結(jié)論。
杰恩斯顯然對正態(tài)分布具有這樣的性質(zhì)極為贊賞,,因為這從信息論的角度證明了正態(tài)分布的優(yōu)良性,。而我們可以看到,正態(tài)分布熵的大小,,取決于方差的大小,。 這也容易理解, 因為正態(tài)分布的均值和密度函數(shù)的形狀無關(guān),,正態(tài)分布的形狀是由其方差決定的,,而熵的大小反應(yīng)概率分布中的信息量,顯然和密度函數(shù)的形狀相關(guān),。

好的,,風(fēng)景欣賞暫時告一段落。所謂“橫看成嶺側(cè)成峰,,遠(yuǎn)近高低各不同”,,正態(tài)分布給人們提供了多種欣賞角度和想象空間。法國菩薩級別的大數(shù)學(xué)家龐加萊對正態(tài)分布說過一段有意思的話,,引用來作為這個小節(jié)的結(jié)束:

Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics. (物理學(xué)家認(rèn)為高斯分布已經(jīng)在數(shù)學(xué)上得到證明,,而數(shù)學(xué)家則認(rèn)為高斯分布在物理試驗中得到確認(rèn)。)

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多