久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

最常用的統(tǒng)計(jì)學(xué)分析方法--假設(shè)檢驗(yàn)

 醉清風(fēng)1126 2019-11-18

作者寫本文時(shí)的面部活動(dòng)

 大家好,,這篇的題目是早就列入計(jì)劃的,。本期不寫機(jī)器學(xué)習(xí),,而是寫統(tǒng)計(jì)學(xué)中一個(gè)最廣泛的應(yīng)用---假設(shè)檢驗(yàn),。作為數(shù)據(jù)科學(xué)一個(gè)硬幣的兩面(統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)),統(tǒng)計(jì)學(xué)往往在科研數(shù)據(jù)分析中應(yīng)用的次數(shù)更多,。

一,、假設(shè)檢驗(yàn)(Hypothesis Test)概述

一句話定義:用一些特定的數(shù)值來確定樣本是否來自某一個(gè)總體。假設(shè)檢驗(yàn)是一種常見的基于樣本的“統(tǒng)計(jì)證據(jù)”來對總體進(jìn)行推斷的方法,。

這么講很抽象,我們來舉個(gè)例子,假設(shè)有人說:“在馬薩諸塞州某一天(沒錯(cuò)我就直接搬Matlab中的例子了),,1加侖汽油的平均價(jià)格是1.15美元”,。我們想知道他說的對不對。怎么能確定這個(gè)說法的真實(shí)性呢?你可以在每個(gè)加油站詢問價(jià)格,。這種方法當(dāng)然是最準(zhǔn)確的,,但它耗時(shí)、昂貴,,實(shí)際操作是不可能的,。

一種更簡單的方法是在全州范圍內(nèi)隨機(jī)選擇少數(shù)幾個(gè)加油站詢問價(jià)格,然后計(jì)算樣本平均值,。由于選擇過程中的隨機(jī)性,,樣本的平均值會各不相同。假設(shè)我們的樣本均值是1.18美元,。那么這0.03美元的差價(jià)到底是隨機(jī)抽樣的結(jié)果(1加侖汽油的平均價(jià)格就是1.15美元),,還是1加侖汽油的平均價(jià)格實(shí)際上大于1.15美元的重要證據(jù)?此時(shí)就可以用假設(shè)檢驗(yàn)的方法,用于做出此類決策,。

假設(shè)檢驗(yàn)有很多不同種類,,不同的假設(shè)檢驗(yàn)對數(shù)據(jù)中被抽樣的隨機(jī)變量的分布做出不同的假設(shè)(都有哪些假設(shè)后面講)。而在選擇方法時(shí),,必須考慮這些假設(shè),。所有的假設(shè)檢驗(yàn)都有相同的基本術(shù)語和結(jié)構(gòu)。

1.零假設(shè):也稱為原假設(shè),,是關(guān)于你想檢驗(yàn)的總體的某一種判斷,。它在某種意義上是“無效”的,因?yàn)樗ǔ4碇环N“現(xiàn)狀”,。它通過 “斷言”一個(gè)總體參數(shù)或總體參數(shù)的組合具有一定的值來形式化,。在我們的例子中,零假設(shè)是“整個(gè)州的平均汽油價(jià)格就是1.15美元”,。零假設(shè)寫作H0,,那么H0:μ=1.15。

2.備擇假設(shè):是一種與原假設(shè)相反的關(guān)于總體的斷言,。在我們的例子中,,可能的備擇假設(shè)有:

H1:μ≠1.15 即州平均價(jià)格不是1.15美元(對應(yīng)雙尾檢驗(yàn))

H1:μ>1.15 -即州平均價(jià)格大于1.15美元(對應(yīng)右尾檢驗(yàn))

H1:μ<1.15 -即州平均價(jià)格小于1.15美元(對應(yīng)左尾檢驗(yàn))

從這里面選一個(gè),作為你的備擇假設(shè),。在選擇原假設(shè)和備擇假設(shè)時(shí),,我們通常根據(jù)是希望收集證據(jù)予以支持還是拒絕的判斷作為選擇依據(jù)。一般來說,,將希望收集證據(jù)予以拒絕的假設(shè)作為原假設(shè),,而將研究者希望通過搜集證據(jù)予以支持的假設(shè)作為備擇假設(shè),。

3.檢驗(yàn)統(tǒng)計(jì)量:為了進(jìn)行假設(shè)檢驗(yàn),從總體中隨機(jī)抽取樣本,,計(jì)算相關(guān)統(tǒng)計(jì)量,。這個(gè)統(tǒng)計(jì)量隨檢驗(yàn)類型的不同而不同,但是它在零假設(shè)下的分布必須是已知的(或假設(shè)的),。

(1)p:檢驗(yàn)的p值是零假設(shè)下,,得到檢驗(yàn)統(tǒng)計(jì)量或比樣本值更極端的值的概率。那么自然,,這個(gè)p越小,,就代表零假設(shè)成立的概率越小。因此實(shí)驗(yàn)中,,我們希望p越小越好,。

(2)α:顯著性水平α是檢驗(yàn)的一個(gè)閾值,α的數(shù)值必須在假設(shè)檢驗(yàn)前確定好,。一個(gè)典型的α的值是0.05,。此時(shí)比較p和α。

a.如果一個(gè)檢驗(yàn)的p值小于α,檢驗(yàn)拒絕零假設(shè),。

b.如果p值大于α,沒有足夠的證據(jù)拒絕零假設(shè),。注意,拒絕原假設(shè)的證據(jù)不足并不代表接受原假設(shè),。

顯著性水平α可以解釋為:拒絕零假設(shè)時(shí), 零假設(shè)實(shí)際上是正確的概率——第一類錯(cuò)誤,。即使零假設(shè)沒有被拒絕,它也可能是錯(cuò)誤的——第二類錯(cuò)誤,。第二類錯(cuò)誤通常是由于樣本量小造成的,。

4.置信區(qū)間:假設(shè)檢驗(yàn)的結(jié)果通常用置信區(qū)間表示。置信區(qū)間是一個(gè)估計(jì)值范圍,,其上界和下界是根據(jù)樣本的值和樣本已知(或假設(shè))的抽樣分布計(jì)算的,。較寬的置信區(qū)間對應(yīng)較差的估計(jì)(較小的樣本);較窄的區(qū)間對應(yīng)較好的估計(jì)(較大的樣本),。如果零假設(shè)斷言總體參數(shù)的值位于該置信區(qū)間之外時(shí),,將拒絕零假設(shè)。比如我們計(jì)算出,,置信區(qū)間為1.17-1.19美元,,那就可以拒絕零假設(shè),因?yàn)榱慵僭O(shè)認(rèn)為價(jià)格是1.15美元,。

二,、假設(shè)檢驗(yàn)步驟

1、提出H0和H1,。往往先建立備擇假設(shè),,備擇假設(shè)H1一旦建立,,再根據(jù)完備與互斥性,確定零假設(shè),。

2,、設(shè)定顯著性水平α。我們經(jīng)常取0.05,,也有時(shí)取0.01.但這不是絕對的,有的實(shí)驗(yàn)α必須取非常?。ㄈ?.0001以下),。

3、選定統(tǒng)計(jì)方法,,根據(jù)需求選擇方法,,比如最常用的Z檢驗(yàn),T檢驗(yàn)或卡方檢驗(yàn)等,,將樣本觀察值按公式計(jì)算出統(tǒng)計(jì)量的大小,。

4、根據(jù)統(tǒng)計(jì)量的大小及其分布確定檢驗(yàn)假設(shè)成立的可能性P的大小并判斷結(jié)果,。若P>α,,結(jié)論為(按所取顯著性水平α)不顯著,無充足理由拒絕H0,,如果P<α,,結(jié)論為(按所取顯著性水平α)顯著,拒絕H0,,接受H1,,即認(rèn)為此差別很可能是實(shí)驗(yàn)因素不同造成的。

三,、有哪些假設(shè)檢驗(yàn)

      那么假設(shè)檢驗(yàn)一共有多少種,?答案是有不少種,比你估計(jì)的可能還多一些,。

(1)單樣本z檢驗(yàn):檢驗(yàn)樣本是否來自具有已知方差和指定均值的正態(tài)分布,。 z檢驗(yàn)有時(shí)也稱U檢驗(yàn),一般用于大樣本(樣本容量大于30)平均值差異性檢驗(yàn)的方法,。它是用正態(tài)分布的理論來推斷差異發(fā)生的概率,,從而比較兩個(gè)平均數(shù)的差異是否顯著。注意這里的“單樣本”不是說就抽一個(gè)樣本,。,。。而是抽一組樣本,。

(2)單樣本t檢驗(yàn):檢驗(yàn)一個(gè)樣本是否來自一個(gè)均值已經(jīng),、方差未知的正態(tài)分布,。t檢驗(yàn)用于樣本量較小的樣本(往往小于30)。z檢驗(yàn)和t檢驗(yàn)的區(qū)別是是否提前知道總體的標(biāo)準(zhǔn)差σ,。z檢驗(yàn)中σ是已知的,,而t檢驗(yàn)則不然。z檢驗(yàn)和t檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量分別為:

 

在總體均值為μ的零假設(shè)條件下,z統(tǒng)計(jì)量服從標(biāo)準(zhǔn)正態(tài)分布,。在相同的零假設(shè)下,,t統(tǒng)計(jì)量服從自由度為n - 1的t分布。在樣本容量較小的情況下,,t分布較標(biāo)準(zhǔn)正態(tài)分布平坦且較寬,。但是隨著樣本容量的增加,學(xué)生的t分布趨于標(biāo)準(zhǔn)正態(tài)分布,,兩種檢驗(yàn)在本質(zhì)上是等價(jià)的,。

(3)雙樣本t檢驗(yàn):檢驗(yàn)兩個(gè)獨(dú)立樣本是否均來自方差相等(或不相等)且均值相同的正態(tài)分布。

(4)單樣本卡方方差檢驗(yàn):檢驗(yàn)樣本是否來自具有指定方差的正態(tài)分布,。χ2檢驗(yàn)方法能夠處理一個(gè)因素兩項(xiàng)或多項(xiàng)分類的實(shí)際觀察頻數(shù)與理論頻數(shù)分布是否相一致問題,。常用于計(jì)數(shù)數(shù)據(jù)的檢驗(yàn)、樣本方差與總體方差的差異檢驗(yàn)等情況,。χ2檢驗(yàn)在分析計(jì)數(shù)數(shù)據(jù)的時(shí)候,,對計(jì)數(shù)數(shù)據(jù)總體的分布形態(tài)不做任何假設(shè),是非參數(shù)檢驗(yàn)方法的一種,。

(5)等方差雙樣本F檢驗(yàn):檢驗(yàn)兩個(gè)獨(dú)立樣本是否來自方差相同的正態(tài)分布,。F檢驗(yàn)是通過比較兩組數(shù)據(jù)的方差,以確定它們是否有顯著性差異,,F(xiàn)檢驗(yàn)也叫方差齊性檢驗(yàn),,與方差分析關(guān)系密切,關(guān)于方差分析,,放在以后寫,。

(6)卡方擬合優(yōu)度檢驗(yàn):檢驗(yàn)樣本是否來自指定的分布。

(7)威爾考克斯秩和檢驗(yàn):檢驗(yàn)兩個(gè)獨(dú)立樣本是否來自具有相等中位數(shù)的相同連續(xù)分布,。

(8)克魯斯卡爾-沃利斯檢驗(yàn):檢驗(yàn)多個(gè)樣本是否都來自相同的總體,。

(9)Jarque-Bera檢驗(yàn):檢驗(yàn)樣本是否來自于均值和方差未知的正態(tài)分布。

(10)單樣本Kolmogorov-Smirnov(KS)檢驗(yàn):檢驗(yàn)樣本是否來自具有指定參數(shù)的連續(xù)分布,。

(11)雙樣本Kolmogorov-Smirnov(KS)檢驗(yàn):檢驗(yàn)兩個(gè)樣本是否來自相同的連續(xù)分布,。

(12)Lilliefors檢驗(yàn):檢驗(yàn)樣本是否來自于正態(tài)分布。

(13)運(yùn)行檢驗(yàn):檢驗(yàn)值序列是否以隨機(jī)順序出現(xiàn),。

還有一些,,也不一一列舉了,但平常實(shí)驗(yàn)中,,我們往往假設(shè)總體服從一元或多元的正態(tài)分布,,因此用的最多的還是(1)到(5),。以上的所有假設(shè)檢驗(yàn),以及沒提到的但大家需要的,,Mat物語都可以為大家提供服務(wù),。

四、假設(shè)檢驗(yàn)的分類

總體來說,,假設(shè)檢驗(yàn)分為三種:

(1)分布檢驗(yàn)(Distribution tests),,如Anderson-Darling和單樣本Kolmogorov-Smirnov,它們檢驗(yàn)樣本數(shù)據(jù)是否來自具有特定分布的總體,。

(2)定位檢驗(yàn)(Location tests),,如z檢驗(yàn)和單樣本t檢驗(yàn),它們檢驗(yàn)樣本數(shù)據(jù)是否來自具有特定均值或中值的總體,。

(3)離散度檢驗(yàn)(Dispersion tests),如卡方方差檢驗(yàn)等,,它們檢驗(yàn)樣本數(shù)據(jù)是否來自具有特定方差的總體,。

還有一種分法,分為參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn),。但我覺得上面這種更好,,所以這里只提一下。

這篇文章是不是長了一點(diǎn),?不是我的風(fēng)格啊,。雖然寫了這么多,實(shí)話說,,很多是搜集來的資料,,實(shí)際上我自己做過的并不是很多。一個(gè)好的假設(shè)檢驗(yàn),,不止是給你一個(gè)結(jié)論那么簡單,。假設(shè)檢驗(yàn)讓你看清你的實(shí)驗(yàn)數(shù)據(jù)到底更符合什么樣的參數(shù)和分布,讓你對自己的數(shù)據(jù)更有信心(或者喪失信心),。為你后續(xù)的更深入的分析,,先指明一個(gè)方向。如果還需要看方差分析什么的,,就在訂閱號界面給我留言吧,。

我,安迪.杜弗雷,,本來是這篇文章的封面人物,,只因作者覺得自己寫得有點(diǎn)累,于是最后一刻被一臉辛酸篡位,,只能屈居結(jié)尾

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多