假設(shè)檢驗是六西格瑪里最常用的統(tǒng)計工具之一,,也是廣大六西格瑪愛好者經(jīng)常探討的話題之一。對于很多六西格瑪黑帶和綠帶來說,,假設(shè)檢驗的確有一定的難度,。其中最難理解的知識點之一就是樣本量和p值的關(guān)系。 1,、問題提出:樣本量越大p值越小嗎,? 眾所周知,假設(shè)檢驗時p值是不穩(wěn)定的,,在總體相同,原假設(shè)備擇假設(shè)相同的條件下,,樣本量不一樣,,p值很可能不一樣,。那么樣本量具體是如何影響p值的呢?樣本量越大p值越小嗎,? 假設(shè)總體是確定的,,并且總體非常大;原假設(shè)和備擇假設(shè)也是確定的?,F(xiàn)完全隨機抽取一定數(shù)量的個體組成樣本來進行假設(shè)檢驗,。問題: (1).如果我第一次抽取樣本后假設(shè)檢驗的p值大于0.05(本文默認的顯著性水平為α=0.05),繼續(xù)抽取更多的個體加入原來的樣本組成新的樣本,進行同樣的假設(shè)檢驗,,是否會出現(xiàn)p小于0.05? (2).隨著樣本量的增加,,p值是否會單調(diào)遞減? (3).如果我第一次抽取樣本后假設(shè)檢驗的p值小于0.05,我繼續(xù)抽取更多的個體加入到原來的樣本里面組成新的樣本進行同樣的假設(shè)檢驗,,是否會出現(xiàn)p大于0.05? 很多人的答案是這樣的: (1)有可能,。 (2)是。 (3)不可能,。 你同意上面的說法嗎,?曾幾何時,我也是這么想的,,相信樣本量越大p值越小……有沒有人也同樣掉進這個坑里了? (2).實證研究:樣本量增大了,,p值到底怎么變化呢? 先不急著直接給出答案,。我先講講我實際工作中碰到的兩個案例,。 2.1. 樣本量增大后p值變小的案例(離散型數(shù)據(jù)) 案例一: 2019年9月份我們供應(yīng)商生產(chǎn)的一款振動馬達在我們生產(chǎn)線上使用時發(fā)現(xiàn)有功能不良,不良率超過了0.3%(根據(jù)和供應(yīng)商的約定,,這個料的不良率不能超過0.3%),。供應(yīng)商采取了改善對策,也提供了8D報告,,并且送樣100個給我測試,,結(jié)果都是合格的。供應(yīng)商說我的報告你也審核過,,改善樣品也驗證合格,,可以結(jié)案了吧。我第一反應(yīng)是,,100個樣本都測試合格就代表改善好了嗎,?你咋不就送一個樣品樣品測試合格了你就喊你的合格率達到100%了啊?就算你不做任何改善在原來的庫存里重新抽100個送給我驗證,100個都合格的概率也會達74%!你這是逗我玩啊?我假設(shè)檢驗了一下,,發(fā)現(xiàn)p大于0.05(原假設(shè):不良率大于或等于0.3%;備擇假設(shè):不良率小于0.3%),。 P值為0.740,這意味著如果拒絕原假設(shè)(即否認不良率大于或等于0.3%),,出錯的概率會達到74%,。傻子都不會冒這么大的風險做出這么糊涂的決定,。顯然,雖然樣本不良率為0,,但還是沒有足夠的證據(jù)證明改善后的不良率小于0.3%,,也就是說沒有足夠的證據(jù)證明改善是有效果的。供應(yīng)商非常有信心他們采取的措施是有效的,,于是再送了1000個樣品進行驗證(這1000pcs和前面的100pcs是同一批次生產(chǎn)的,,默認來源于同一個總體)。驗證結(jié)果還是沒有不良,。這次假設(shè)檢驗的結(jié)果是非常顯著的了,,p值等于0.037,小于0.05;冒3.7%這么點風險還是可以的(這意味著平均100次這樣的假設(shè)檢驗只有3.7次判定錯誤),,因此我們拒絕原假設(shè)相信備擇假設(shè),,即認為供應(yīng)商的改善后的不良率小于0.3%,因此我們認可供應(yīng)商的改善是有效的,。(注:實際工作中為降低風險先小批量驗證后放量驗證是非常常見的做法,,杠友們不要問我為什么不一開始就讓供應(yīng)商送樣1100個進行驗證)。 兩次假設(shè)檢驗結(jié)果匯總?cè)缦? 2.2 樣本量增大后p值變大的案例(離散型數(shù)據(jù)) 案例二: 2020年1月份的一天,,剛上班沒有多久,,QE妹子就急匆匆的打電話給我,說生產(chǎn)線發(fā)現(xiàn)了好多USB線材外觀不良,。我去生產(chǎn)線上確認了一下,,的確是明顯的外觀不良。250個里有6個不良(生產(chǎn)線對這個外觀100%進行檢驗),,不良率已經(jīng)超出1%了(我們的內(nèi)部規(guī)定是以每天的生產(chǎn)量為單位進行統(tǒng)計,,此料外觀不良不能超過1%。至于這么規(guī)定是否合理就不在本文討論了),。假設(shè)檢驗的結(jié)果也是顯著的(原假設(shè):不良率小于或等于1%;備擇假設(shè):不良率大于1%),。P值為0.041,如果認為原假設(shè)不成立(即認為供應(yīng)商的這批來料不良率高于1%)只有4.1%的概率會出錯,,顯然我愿意相信這個結(jié)論,。 QE妹子要求我采取改善措施。因為這個料只有一家供應(yīng)商在交貨,,而且倉庫里只有這一個批次的庫存,,供應(yīng)商在廣東又沒有辦法當天過來挑選;于是乎我讓生產(chǎn)線協(xié)助安排一個檢驗員在投入USB線材前100%進行檢驗,檢驗合格的再投入使用(檢驗標準不變),。當然,,供應(yīng)商內(nèi)心也希望我們多檢驗一些再看看,看看后面檢驗的結(jié)果能不能把這個不良率拉低,這樣他們就不用來返工了,。生產(chǎn)線后來共檢驗了1250個,,發(fā)現(xiàn)了4個不良,。兩次的數(shù)據(jù)合并后計算發(fā)現(xiàn)不良率小于1%,,假設(shè)檢驗的p值為0.931,也大于0.05,。這么大的p值要拒絕原假設(shè),,冒的風險太大了,所以呢,,沒有證據(jù)認為原假設(shè)不成立,,我們相信這批物料不良率小于或等于1%。(杠友們的第一反應(yīng)是這批原材料的不良品分布不均勻而主要集中在某一處,,剛好你們剛開始生產(chǎn)時就是用的這部分不良很集中的料,。實戰(zhàn)中這種情況也的確是會發(fā)生的。但在不良分布完全均勻抽樣完全隨機的條件下,,我這個案例里的狀況也是有可能出現(xiàn)的,,這里就不多抬杠了)。 兩次假設(shè)檢驗結(jié)果匯總?cè)缦? 案例一,,第一次假設(shè)檢驗p值為0.740,,增大樣本量后,把兩次的數(shù)據(jù)合并后進行假設(shè)檢驗,,p值為0.037,。從這個案例里可以看出,的確存在樣本量增大后p值變小的情況;并且p從大于0.05變得小于0.05; 案例二,,第一次假設(shè)檢驗p值為0.041,,增大樣本量后,把兩次的數(shù)據(jù)合并進行假設(shè)檢驗,,p值為0.931,。從這個案例里可以看出,的確存在樣本量增大后p值變大的情況,,并且從原來的p小于0.05變得大于0.05,。 2.3. 樣本量增大后p值有可能變小也有可能變大的案例(連續(xù)型數(shù)據(jù)) 至此,上面的幾個問題已經(jīng)有初步答案了,。當然,,有的朋友可能還會表示不服,說你這只是對離散型數(shù)據(jù)進行研究,,連續(xù)型數(shù)據(jù)呢,? 我也好奇,那連續(xù)型數(shù)據(jù)的假設(shè)檢驗的樣本量和p值的規(guī)律到底是什么樣的呢,?可惜實戰(zhàn)中沒有找到剛剛好能解釋清楚這個問題的案例,。于是乎我用minitab生成隨機數(shù)據(jù)進行實證研究,;同樣發(fā)現(xiàn)了樣本量增大后p值既有變小的現(xiàn)象也有變大的現(xiàn)象;并且的確有原來p小于0.05,加大樣本量后再次假設(shè)檢驗p值大于0.05的現(xiàn)象,。具體操作步驟和結(jié)果附在本文正文后面,。 2.4.結(jié)論 因此正確的結(jié)論是: (1).如果我第一次抽取樣本后假設(shè)檢驗的p值大于0.05,我繼續(xù)抽取更多的個體加入原來的樣本后組成新的樣本,進行同樣的假設(shè)檢驗,,是否會出現(xiàn)p小于0.05?有可能,。 (2).隨著樣本量的增加,p值是否會單調(diào)遞減,?不會,。 (3).如果我第一次抽取樣本后假設(shè)檢驗的p值小于0.05,我繼續(xù)抽取更多的個體加入到原來的樣本里面組成新的樣本進行同樣的假設(shè)檢驗,是否會出現(xiàn)p大于0.05?有可能,。顯然,,并不是樣本量越大p值越小。 3,、為什么不是樣本量越大p值越小呢,? 有些人可能還是無法理解,不是說樣本量越大,,功效越大嗎,?樣本量越大,也就是越能檢驗出差異來,,因此p值越小,,這不是順理成章的嗎?比方說某藥物臨床試驗沒有發(fā)現(xiàn)副作用,,但大量投入使用后被發(fā)現(xiàn)副作用非常明顯(原假設(shè):該藥物無副作用;備擇假設(shè):該藥物有副作用),,上面的案例一也是樣本量小的時候假設(shè)檢驗結(jié)果不顯著,但加大樣本量后就顯著了,。并且根據(jù)公式,, 樣本量n越大,|t|越大,,自然p越小,。(以雙側(cè)t檢驗為例,其它假設(shè)檢驗同理類推),。 上面說的這種情況的確是存在的,。樣本量加大后p值有可能變小,這個比較容易理解,,我們就不多討論了,。但是否必然是樣本量越大p值就越小呢?如果真的是這樣的話,只要樣本量足夠大p值就會小于0.05,,那假設(shè)檢驗結(jié)果著不顯著完全取決于樣本量,,這不成了樣本量的游戲了嗎?這顯然是不科學的,,也違背了我們進行假設(shè)檢驗的初衷,。那么這個觀念到底錯在哪里呢? 如果完全沒有抽樣誤差,,那么樣本均值恒定,,樣本標準差恒定,,樣本量越大,,顯然是p值越小。 但實際情況是任何抽樣都是有抽樣誤差存在的,。不同次抽樣,,樣本均值和總體均值一定會存在抽樣誤差,樣本標準差和總體標準差之間同樣也存在抽樣誤差,。樣本量增大后,,樣本均值和樣本方差通常會有變化,n一定會增大,。有一定概率出現(xiàn)下式的分子變小,,分母變大造成|t|變小,也有一定的概率分母變小,,但分子變小的幅度更大,,從而|t|變小。|t|變小從而p值變大,。 以表1的C2到C3的變化為例,,樣本量從20增加到30,平均值從99.839變?yōu)?9.745,,標準差從0.808變?yōu)?.783,,t值從1.87變?yōu)?.71;于是乎p值從0.076增加到0.097。 C2:t=1.87,p=0.076(單邊0.038) C3:t=1.71,p=0.097(單邊:0.049) 從下圖中可以看出,,t值從1.87變小到1.71后了,,p值變大了。(注:自由度為19的t分布曲線和自由度為29的t分布曲線差異非常小,,圖上看不出來,。) 當然,對于t分布來說,,樣本量增大后自由度增大了,,t分布發(fā)生改變了,對p值也會有改變。當|t|減少對p值增大的影響超過了自由度增加對p值減小的影響時,,p值仍然會增大,。這種情況還是有可能發(fā)生的,剛剛說的C2到C3的變化就是一例,。(此外樣本量達到一定程度后自由度再增加對t分布的改變是微乎其微的,。) 這種現(xiàn)象的根本原因是抽樣誤差的影響,這種現(xiàn)象不是必然會出現(xiàn)而是小概率事件,,但會有一定概率出現(xiàn),,多次重復(fù)類似的操作通常會出現(xiàn)上述現(xiàn)象。 上述“樣本量越大p值越小”的理論錯就錯在忽略抽樣誤差的影響,,默認樣本均值和樣本標準差是固定不變的,,而實際假設(shè)檢驗時二者通常會隨取樣的不同而不同。 上面是從定量分析的角度來進行解釋的,,可能有些讀者理解起來有點困難,。接下來我將從定性的角度來進行分析。 假設(shè)檢驗通常會存在兩種錯誤:棄真錯誤(α錯誤,,有的書上也稱第一類錯誤)和取偽錯誤(β錯誤,,有的書上稱第二類錯誤)。棄真錯誤是原假設(shè)為真假設(shè)檢驗結(jié)果為拒絕原假設(shè)的錯誤,,在這里的表現(xiàn)就是原假設(shè)為真,,p<0.05;取偽錯誤就是原假設(shè)為假假設(shè)檢驗結(jié)果為不拒絕原假設(shè)的錯誤,在這里的表現(xiàn)就是原假設(shè)為假,,p>0.05,。 兩次假設(shè)檢驗可能出現(xiàn)的各種狀況和解釋歸納如下表。 注:小概率事件不是完全不會發(fā)生的,,大量重復(fù)操作的情況下,,小概率事件時有發(fā)生。 總結(jié): 1.原假設(shè)為真的情況下,,樣本量增大p值通常會增大,,但不排除有受抽樣誤差影響有樣本量增大后p值反而減小的情況,因此p值不會樣本量增大而單調(diào)增大,。 2.原假設(shè)為假的情況下,,樣本量增大p值通常會減少,但不排除有受抽樣誤差影響樣本量增大后p值增大的情況,,因此p值不會隨樣本量的增大而單調(diào)減小; 3.第一次假設(shè)檢驗p小于0.05,,增大樣本量后假設(shè)檢驗p大于0.05,第一次假設(shè)檢驗p大于005,,第二次假設(shè)檢驗p小于0.05都是有可能發(fā)生的,。 4,、p>0.05能接受原假設(shè)嗎? 曾幾何時,,我也非常相信p<0.05時拒絕原假設(shè)才是有說服力的,,p>0.05接受原假設(shè)是沒有說服力的。于是乎假設(shè)檢驗時總是渴望得到p<0.05的結(jié)果;看到別人的報告里出現(xiàn)p>0.05接受原假設(shè)時情不自禁的去奚落人家一番,。后來多次實踐后,,感覺這觀念也不太對。 p>0.05其實有兩種情況:1.原假設(shè)為假,,發(fā)生取偽錯誤了,;2.原假設(shè)為真。 P<0.05同樣存在兩種情況:1.原假設(shè)為假,;2.原假設(shè)為真發(fā)生棄真錯誤了,。 根據(jù)p<0.05拒絕原假設(shè)同樣是有可能存在錯誤的,根據(jù)p>0.05接受原假設(shè)和根據(jù)p<0. 05拒絕原假設(shè)的性質(zhì)其實是一樣的,,只是出現(xiàn)錯誤的概率可能不一樣,,沒必要厚此薄彼,控制好兩類錯誤就好,。 實戰(zhàn)中的確有些假設(shè)檢驗的原假設(shè)是真的,你很難有機會去根據(jù)p<0.05來拒絕原假設(shè),。那怎么辦,?不假設(shè)檢驗了嗎? 比方說圓周率π在3.1415926和3.1415927之間,,在一千五百多年的實踐中還是沒有被證偽過,,難道我們還不能認可這個結(jié)論嗎?還要懷疑到什么時候呢,? 同樣的道理,,一批產(chǎn)品,你檢驗了1000個沒有發(fā)現(xiàn)不良,,檢驗了5000個還是沒有不良,,檢驗了10000個還是沒有不良。你還不能下結(jié)論說這批產(chǎn)品可以接受嗎,?還需要抱著“莫須有”的想法去認為“我沒有檢驗的那部分產(chǎn)品里可能會存在不良”嗎,? 因此,控制好取偽錯誤(β錯誤),,也就是控制好功效(1-β)(最小功效通常取0.9,,或0.95,0.99),,根據(jù)p>0.05來接受原假通常是可行的雖然會冒點取偽風險,,但假設(shè)檢驗?zāi)挠胁幻帮L險的呢,?)。當然功效不夠的情況下根據(jù)p>0.05決定接受原假設(shè)通常是不行的,。 原假設(shè)和備擇假設(shè)相同時,,樣本量越大,功效越大,。限于篇幅,,本篇暫不討論功效的計算和最小樣本量的計算了,有興趣的朋友可以查詢相關(guān)統(tǒng)計資料,。 5,、p<0.05拒絕原假設(shè)會有什么問題? 很多時候我們在假設(shè)檢驗時會根據(jù)p<0.05來拒絕原假設(shè)。這么做當然沒什么錯誤,,但需要明白的是這么做是存在一定的棄真錯誤的,。以臨界值p=0.05為例,平均20次這樣的假設(shè)檢驗會發(fā)生一次棄真錯誤,。運氣不好的時候,,你假設(shè)檢驗一次就碰到了棄真錯誤了;就像每年都有平時成績很好的考生在高考時發(fā)揮失常落榜一樣。比方說案例二中第一次假設(shè)檢驗就發(fā)生了這樣的錯誤,。 如果棄真錯誤造成的損失比較小,,檢驗成本比較高,這么一刀切是沒有問題的,。如果棄真錯誤損失很大或檢驗成本比較低,,p<0.05時不妨“再給一次機會,以觀后效”,,增大樣本量后再次進行假設(shè)檢驗,,以便降低棄真錯誤的損失。 當然,,如果需要長期降低棄真風險,,最好的辦法就是直接抽更大的樣本量或者取更嚴格的顯著性水平(比方說α=0.01)(顯著性水平要在假設(shè)檢驗之前確定好,老余堅決反對假設(shè)檢驗后根據(jù)計算出來的p值再調(diào)整顯著性水平,。想問為什么的,,我們可以另行討論)。 6,、實戰(zhàn)中該怎么做? 綜合上面的分析,,我們可以得出下列幾點啟示: 1. 假設(shè)檢驗時,并不是樣本量越大p值就一定越大; 2. P>0.05時如果功效足夠,,可以接受原假設(shè)(當然,,存在一定的取偽風險(β風險); 3. P<0.05時拒絕原假設(shè)也不是100%正確的,存在一定的棄真風險(α風險),。 基于上面的分析,,我們摸索出了一個在實戰(zhàn)中適當降低假設(shè)檢驗兩類風險的流程,,見如下流程圖;希望對大家能有些價值。(注:是否需要降低棄真風險根據(jù)實際應(yīng)用情況,,綜合權(quán)衡棄真造成的損失和再加大樣本量的檢驗成本等因素來決定),。 針對單邊假設(shè)檢驗,為了更有效的降低棄真風險,,我的老師歐立威老師的觀點是如果第一次檢驗的結(jié)果為p<0.05,為了減少棄真錯誤,,建議把原假設(shè)和備擇假設(shè)互換再進行假設(shè)檢驗。后續(xù)的操作見流程圖中相應(yīng)的步驟,。雙邊假設(shè)檢驗如果第一次的結(jié)果為p<0.05直接進入評估是否需要降低棄真風險步驟,,后續(xù)操作見流程圖中相應(yīng)步驟。 再次感謝歐立威老師對本文的耐心指導(dǎo),! |
|