文章來源:“小白學(xué)統(tǒng)計(jì)”公眾號(hào),,感謝作者授權(quán),。
好多學(xué)生或臨床醫(yī)生都問過我:樣本量大于30或50是不是就不用做正態(tài)性檢驗(yàn)了?而且一本正經(jīng)地說,,這是統(tǒng)計(jì)書上說的,有的則說,,這是老師說的,。有的說的更專業(yè)了:這是根據(jù)中心極限定理,當(dāng)樣本量大于30的時(shí)候,,就接近正態(tài)了,。凡此種種,我只能說,,回去好好看書去,,或者,哪個(gè)老師跟你這么說的,。
統(tǒng)計(jì)學(xué)中確實(shí)有一個(gè)中心極限定理這個(gè)詞,。但是這個(gè)定理不是教你說,樣本量大于30就認(rèn)為是正態(tài)分布了,。其實(shí)這個(gè)定理說的是統(tǒng)計(jì)量的分布,,而不是原始數(shù)據(jù)的分布。仔細(xì)體會(huì)一下上面這句話,,最少讀3遍,。
所謂統(tǒng)計(jì)量,那當(dāng)然就是根據(jù)一份抽樣數(shù)據(jù)計(jì)算出的一個(gè)指標(biāo),,可能你要說,,這怎么會(huì)有分布呢,?原始數(shù)據(jù)有分布我還可以理解,就是把原始數(shù)據(jù)列個(gè)頻數(shù)表,,細(xì)化了就成了分布了,。
可是統(tǒng)計(jì)量怎么有分布呢?一份數(shù)據(jù)不就只能計(jì)算一個(gè)統(tǒng)計(jì)量嗎(如均值,、標(biāo)準(zhǔn)差),?不錯(cuò),一份數(shù)據(jù)是只有一個(gè)統(tǒng)計(jì)量,,可是,,如果有多個(gè)樣本,那就可以有多個(gè)統(tǒng)計(jì)量,,那就有分布了,。
比方說,有下面這樣一份數(shù)據(jù),。一共1000個(gè)數(shù)值,,它的分布如下:
這個(gè)數(shù)據(jù)大家一看很清楚,這是一個(gè)明顯的偏態(tài)數(shù)據(jù),,左邊小的值更多一些,,右邊大的值沒有幾個(gè)。
對(duì)于這樣一份數(shù)據(jù),,我可以將它作為一個(gè)總體,,也就是說,總體數(shù)據(jù)本身就是偏態(tài)的,。對(duì)于這樣的總體,,我可以從中抽樣,而且可以抽好多次,。假定我抽了100次,,這樣就得到100個(gè)樣本(注意100個(gè)樣本不是指100個(gè)數(shù)據(jù),一個(gè)樣本是指一次抽樣,,每個(gè)樣本中的例數(shù)才是樣本量),。這100個(gè)樣本,每次抽樣可以抽取2個(gè)數(shù),,也可以抽取10個(gè)數(shù),,還可以抽取100個(gè)或幾百個(gè),都可以,。
假定我做100次抽樣,,每次抽樣只抽取2個(gè)數(shù),這樣每個(gè)樣本我可以計(jì)算一個(gè)均值(雖然只有2個(gè)數(shù),,仍然可以算這2個(gè)數(shù)的均值),,這樣就得到100個(gè)均值,,我把這100個(gè)均值畫個(gè)分布圖,它是這樣的:
看起來是不是跟原始數(shù)據(jù)的分布形狀差不多???
那我們?cè)俅沃匦鲁闃樱€是抽100次,,不過這次每次抽10個(gè)數(shù),,這樣就得到100個(gè)樣本,每個(gè)樣本有10個(gè)數(shù),。這時(shí)候再對(duì)每個(gè)樣本的10個(gè)數(shù)計(jì)算均值,,也得到100個(gè)均值,把這100個(gè)均值畫個(gè)分布圖,,它是這樣的:
是不是看起來好像跟原始數(shù)據(jù)的形狀長(zhǎng)得不一樣了,?
如果再次重新抽樣,還是抽100次,,這次每次抽50個(gè)數(shù),,再對(duì)每個(gè)樣本中的50個(gè)數(shù)計(jì)算均值,再次得到100個(gè)均值,,把這100個(gè)均值畫個(gè)分布圖,,它是這樣的:
有沒有覺得這個(gè)圖有點(diǎn)眼熟了?看起來像是個(gè)正態(tài)分布了,。
把上面3種情形總結(jié)一下:
對(duì)于一個(gè)非正態(tài)的總體進(jìn)行多次抽樣的話,,如果每次抽樣的例數(shù)很少(如2個(gè)數(shù)據(jù)),這時(shí)候抽取的多個(gè)樣本計(jì)算的均值,,其分布仍然是偏態(tài)的,。
隨著每次抽樣的例數(shù)增多(如10個(gè)數(shù)據(jù)),,將多個(gè)樣本計(jì)算的多個(gè)均值繪制分布圖的話,,就逐漸接近正態(tài)分布。
當(dāng)樣本量足夠大的時(shí)候,,基本就接近正態(tài)分布了,。那這個(gè)樣本量到底在多大的時(shí)候才算跟正態(tài)分布接近了呢?以前統(tǒng)計(jì)學(xué)家已經(jīng)驗(yàn)證過了,,大于30的時(shí)候,,差不多就很接近了;大于50的時(shí)候,,基本可以認(rèn)為是正態(tài)分布了,。
其實(shí)這個(gè)中心極限定理說的是:不管原始數(shù)據(jù)的分布是什么樣的(可能是正態(tài),也可能偏態(tài),,還可能超級(jí)變態(tài)),,如果從這個(gè)原始數(shù)據(jù)中多次抽樣的話,,對(duì)于每個(gè)樣本計(jì)算出統(tǒng)計(jì)量(如均值),如果每個(gè)樣本中的例數(shù)大于30,,這些統(tǒng)計(jì)量的分布接近正態(tài),。而不是說:一個(gè)樣本中的原始數(shù)據(jù)的個(gè)數(shù)大于30,這個(gè)原始數(shù)據(jù)的分布接近正態(tài),。
可惜,,統(tǒng)計(jì)學(xué)中(當(dāng)然生活中也是)總是充滿了各種以訛傳訛,到最后就變成了聽風(fēng)是雨,。如果課堂上老師講不清楚,,那到了學(xué)生的頭腦中,就變成了:只要數(shù)據(jù)大于30,,我就不用做正態(tài)性檢驗(yàn)了,,我就可以理直氣壯地用t檢驗(yàn)、方差分析了,。
說了一堆理論,,最后下個(gè)結(jié)論:哪怕你例數(shù)是1000、10000,,該不服從正態(tài)分布依然還是不服從正態(tài)分布,。不要錯(cuò)把馮京當(dāng)馬良,以后審稿人建議你檢查正態(tài)性的時(shí)候,,千萬別再說:我的數(shù)據(jù)大于100,,不用做正態(tài)性檢驗(yàn)。 |
|