久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

科學(xué)界爭(zhēng)鳴:使用最廣泛的統(tǒng)計(jì)指標(biāo) P值 < .05 還是 .005才顯著?

 YLWUGD 2017-09-14


?pexels-photo


撰文|胡傳鵬  呂小康

責(zé)編|趙亞杰



  

  

在科學(xué)實(shí)驗(yàn)中,,研究者們往往需要判斷某個(gè)結(jié)果在不同的實(shí)驗(yàn)條件下是否有差異,,并檢驗(yàn)這種差異是不是由于偶然因素造成的。

 

最偉大的統(tǒng)計(jì)學(xué)家之一,、英國(guó)人Ronald Fisher(1890~1962)上世紀(jì)20年代提出了一個(gè)假想的思路來(lái)確定實(shí)驗(yàn)效果是否只靠運(yùn)氣出現(xiàn):首先假定實(shí)驗(yàn)結(jié)果在不同實(shí)驗(yàn)條件下沒有差異,,即所得結(jié)果是全然隨機(jī)出現(xiàn)的;然后計(jì)算在完全隨機(jī)的假設(shè)下出現(xiàn)當(dāng)前數(shù)據(jù)結(jié)果或更極端的結(jié)果模式出現(xiàn)的概率,,這就是當(dāng)代統(tǒng)計(jì)學(xué)中所謂的P值,。假如出現(xiàn)當(dāng)前結(jié)果模式(及更極端模式)的概率很小,則可以認(rèn)為,,這么小的概率在一次試驗(yàn)中不太可能會(huì)出現(xiàn),。從而反推:我們所假設(shè)的前提(不同實(shí)驗(yàn)條件沒有差異)可能是錯(cuò)誤的,即不同實(shí)驗(yàn)條件應(yīng)能產(chǎn)生不同的實(shí)驗(yàn)效果,。這種思想被Fisher命名為顯著性檢驗(yàn)(test of significance),,“顯著”在他的原意中,并不表示其他意思,,只是表明這一結(jié)果不是隨機(jī)的,。在這一推理模式中,最重要的統(tǒng)計(jì)指標(biāo)就是P值,。

 

更年輕的波蘭裔統(tǒng)計(jì)學(xué)家Neyman和英國(guó)統(tǒng)計(jì)學(xué)家Pearson(此Pearson系提出線性相關(guān)系數(shù),、卡方檢驗(yàn)的老Pearson之子),在Fisher的思想框架的基礎(chǔ)之上,,提出了更具通用性,、數(shù)學(xué)氣息也更強(qiáng)的假設(shè)檢驗(yàn)?zāi)J健S幸馑嫉氖?,F(xiàn)isher本人對(duì)Neyman-Pearson的“改進(jìn)”并無(wú)好感,,甚至宣稱“我和我全世界的學(xué)生從未想過要使用他們的方法”,但在后來(lái)者的眼中,兩者之間在技術(shù)與思想上的分歧逐漸淡化,,他們的意見被整合成為了大部分研究者所熟悉的一種既不是純Fisher式,、也不是純Neyman-Pearson式的統(tǒng)計(jì)推斷方法——零假設(shè)顯著性檢驗(yàn)(Null hypothesis significant test, NHST,也翻譯為虛無(wú)假設(shè)顯著性檢驗(yàn)),。在NHST模式下,,建立原假設(shè)和備擇假設(shè),選擇檢驗(yàn)統(tǒng)計(jì)量并計(jì)算其值,,根據(jù)P值是否小于顯著性水平做出是否拒絕原假設(shè)的統(tǒng)計(jì)判斷,最后再將這種統(tǒng)計(jì)判斷轉(zhuǎn)化為現(xiàn)實(shí)情境下的行為判斷(如實(shí)驗(yàn)處理,、政策干預(yù)是否確實(shí)有效),,成為假設(shè)檢驗(yàn)的標(biāo)準(zhǔn)流程。NHST是目前科學(xué)界使用最廣泛的統(tǒng)計(jì)方法,, P值也因此成為使用最廣泛的統(tǒng)計(jì)指標(biāo),。

 

難以理解的P值


雖然P值被廣泛使用,但真正理解 P值所代表的意義的人卻很少,。2002年,,德國(guó)研究者對(duì)心理學(xué)的研究者和學(xué)生進(jìn)行一項(xiàng)調(diào)查,給他們呈現(xiàn)了6個(gè)關(guān)于 P值的陳述,。所有學(xué)生均無(wú)法正確理解P值的意義(Haller & Krauss, 2002),;即便是教授方法學(xué)的教師,也有80%無(wú)法正確理解P值,。說(shuō)明研究者極容易對(duì)P值產(chǎn)生誤解,。他們的這一結(jié)果與更早前的一項(xiàng)調(diào)查基本上一致(Oakes, 1986)

                                             

?圖1. Haller and Krauss (2002) 的調(diào)查結(jié)果,。

 

(目前,,《知識(shí)分子》等科學(xué)媒體與呂小康副教授(南開大學(xué))、胡傳鵬(清華大學(xué),、德國(guó)美因茨大學(xué))合作,,調(diào)查國(guó)內(nèi)各個(gè)學(xué)科的科研人員對(duì) P值的理解情況: https://semtsinghua.au1./jfe/form/SV_3Xa4SELbCVvQqwZ。該問卷結(jié)束后將提供對(duì)結(jié)果的詳細(xì)解讀,。)

 

 

P值與科學(xué)界的可重復(fù)危機(jī)


由于P < 0.05在科研界被推上神壇,,被研究者視“存在效應(yīng)”及論文可能發(fā)表的指標(biāo),在當(dāng)前“publish or perish(發(fā)表或是滅亡)”文化下,,就有研究者想盡一切辦法讓 P值達(dá)到可發(fā)表的標(biāo)準(zhǔn),。這種做法導(dǎo)致了一個(gè)奇怪的現(xiàn)象:如果我們把已發(fā)表研究中的 P值分布畫出來(lái),會(huì)發(fā)現(xiàn) P值分布在0.05附近出現(xiàn)了一個(gè)峰值,,表明在已發(fā)表的研究中,,P值在0.05附近是非常多(見圖2、圖3)

 

?圖2. 各個(gè)學(xué)科的P值分布,,由R語(yǔ)言的tidypvals工具所繪制,。(https://github.com/jtleek/tidypvals)


?圖3. 截圖來(lái)自于2012年發(fā)表在Science上的某篇文章,四個(gè)實(shí)驗(yàn)中,,樣本量不斷增加,,而P值卻非常穩(wěn)定地“恰好”小于0.05。

 

當(dāng)然,,對(duì)于這種P值 “恰好” 在0.05附近聚焦成峰的現(xiàn)象,,也有多種可能的原因。比如可能是因?yàn)檠芯空咴趯?shí)驗(yàn)之前對(duì)實(shí)驗(yàn)設(shè)計(jì)進(jìn)行優(yōu)化(例如合理地選擇樣本量),,從而讓 P值恰好位于0.05附近,;或者,是研究者使用了一些灰色手段,,讓 P值接近0.05從而達(dá)到可發(fā)表的標(biāo)準(zhǔn),。這些手段包括但不限于選擇性報(bào)告變量、選擇性刪除數(shù)據(jù),、選擇性增加樣本量直至最關(guān)鍵的 P值小于0.05,。

 

我們無(wú)法從發(fā)表的研究中判斷研究者到底進(jìn)行了何種操作導(dǎo)致大量研究的P值這樣穩(wěn)定在0.05附近,但是可以通過重復(fù)實(shí)驗(yàn)來(lái)驗(yàn)證這些結(jié)果是否可靠,。2015年,,Science上發(fā)表了200多個(gè)心理學(xué)研究者共同完成一項(xiàng)重復(fù)實(shí)驗(yàn),在這個(gè)文章,,他們報(bào)告了對(duì)100項(xiàng)研究結(jié)果的重復(fù),,發(fā)現(xiàn)大約39%的能夠成功重復(fù)出來(lái)。

 

這個(gè)大規(guī)模的重復(fù)實(shí)驗(yàn)以及其他許多失敗的重復(fù)研究,,引起了研究者們的反思,。研究者們發(fā)現(xiàn),導(dǎo)致“可重復(fù)性危機(jī)”的原因很多,,包括科研界的體制問題(如獎(jiǎng)勵(lì)發(fā)表論文,,獎(jiǎng)勵(lì)吸引眼球的科研報(bào)道)、研究倫理問題(挑選數(shù)據(jù),,甚至數(shù)據(jù)造假)等各種原因,。但是 P值 < 0.05對(duì)于產(chǎn)生不可重復(fù)的研究,“貢獻(xiàn)”也很大:對(duì)2015年大規(guī)模重復(fù)實(shí)驗(yàn)的分析表明,,P值與能夠成功重復(fù)之間的關(guān)系也比較有趣:P值在0.04以上和0.05以下的研究中,,被重復(fù)出來(lái)的最少。


 

P值在科研的“可重復(fù)性危機(jī)”中起到的推波助瀾的作用,,讓許多統(tǒng)計(jì)學(xué)家非常擔(dān)憂,。雖然他們?cè)缫阎?P值不應(yīng)該這樣使用,,但是卻沒有辦法去改變眾多學(xué)科中研究者們的實(shí)踐。盡管如此,,他們還是在2016年初專門發(fā)表聲明,,澄清關(guān)于 P值的真正意義以及應(yīng)該如何使用P值的問題(Wasserstein & Lazar, 2016)

 

但是這個(gè)聲明引起小范圍的關(guān)注后,,P值仍繼續(xù)著它一直被批判,,卻從未被取代的地位?!翱芍貜?fù)性危機(jī)”出現(xiàn)后,,雖然有一個(gè)雜志Basic and Applied Social Psychology要求徹底摒棄對(duì) P值的使用(Trafimow & Marks, 2015),但絕大部分的研究仍然繼續(xù)使用P值,。

 

在大部分研究者“盲目”使用P值大環(huán)境下,,對(duì)科學(xué)研究的可重復(fù)性憂心忡忡的研究者們來(lái)說(shuō),要對(duì)科研界的現(xiàn)狀進(jìn)行有效的改變,,改變P值的統(tǒng)計(jì)閾限也許是一個(gè)簡(jiǎn)單有效的辦法。

 

重新定義統(tǒng)計(jì)顯著性


正是在這樣的背景之下,,一篇名《重新定義統(tǒng)計(jì)顯著性Redefine Statistical Significance》橫空出世(Benjamin, Berger, Johannesson, Nosek, et al., 2017),。這篇由72名的研究方法專家共同署名的論文建議:

 

We propose to change the default P-value threshold for statistical significance for claims of new discoveries from 0.05 to 0.005.

“對(duì)于新發(fā)現(xiàn)的研究結(jié)論,我們建議將其統(tǒng)計(jì)顯著性的默認(rèn)P值閾限由0.05改為0.005”,。

 

更加具體一點(diǎn)來(lái)說(shuō),,這些研究者提出,對(duì)于新現(xiàn)象的探索研究,,如果P值在0.005到0.05之間,,則應(yīng)該使用“啟示性(suggestive)”這個(gè)詞;如果P值小于0.005,,才能使用統(tǒng)計(jì)顯著,。

 

這篇文章在Nature子刊Nature Human Behaviour上發(fā)表。文章的許多作者,,都是應(yīng)對(duì)“可重復(fù)危機(jī)”的主導(dǎo)者:其中包括弗吉尼亞大學(xué)心理學(xué)系教授Brian Nosek,,他組織了大規(guī)模心理學(xué)重復(fù)研究、發(fā)起成立了推動(dòng)科研界更開放和更透明的公益組織——開放科學(xué)中心(Center for Open Science),;斯坦福大學(xué)醫(yī)學(xué)院教授John P.A. Ioannidis,,這位最早關(guān)注生物醫(yī)藥領(lǐng)域文章假陽(yáng)性問題的大咖;認(rèn)為心理學(xué)家應(yīng)該拋棄P值使用貝葉斯統(tǒng)計(jì)的荷蘭阿姆斯特丹大學(xué)心理學(xué)系的教授E-J Wagenmakers,;普林斯頓大學(xué)社會(huì)學(xué)系教授,、美國(guó)科學(xué)院院士、《知識(shí)分子》主編之一謝宇教授,。

 

0.05代表的證據(jù)很弱,;0.005則相對(duì)更強(qiáng)

 

為什么這些方法學(xué)上的知名學(xué)者要將P值 < 0.05的地位從“統(tǒng)計(jì)上顯著”的神壇下降到“啟示性”呢,?文章中指出,因?yàn)?span>P值在0.05附近時(shí),,只有很弱的證據(jù)表明存在著效應(yīng),。實(shí)際上這一點(diǎn)在2015年美國(guó)統(tǒng)計(jì)學(xué)會(huì)關(guān)于P值的聲明中就已經(jīng)指出來(lái)過,但是卻未能引起人們的重視,。

 

為什么說(shuō)P值小于 0.05得到的證據(jù)很弱,?這一點(diǎn)Johnson (2013)PNAS上發(fā)表的一篇文章中進(jìn)行了說(shuō)明,而在最近這篇重復(fù)定義顯著性的文章,,也再次使用這個(gè)思路——使用貝葉斯因子(Bayes factor)進(jìn)行類比,。

 

貝葉斯因子的思路是這樣的:假如我們收集了一批數(shù)據(jù),并使用這批數(shù)據(jù)來(lái)檢驗(yàn)?zāi)硞€(gè)效應(yīng)是否存在 ,。那么,,分別計(jì)算出當(dāng)前數(shù)據(jù)支持存在效應(yīng)這個(gè)假設(shè)是真的概率和數(shù)據(jù)支持不存在效應(yīng)假設(shè)的概率,然后把這兩個(gè)概率相除,。如果遠(yuǎn)大于1,,表明更加傾向于支持備擇假設(shè);如果小于1,,則更加傾向于零假設(shè),。

 

雖然貝葉斯因子與P值屬于不同的統(tǒng)計(jì)流派,但可以采用兩種方法對(duì)同一批數(shù)據(jù)進(jìn)行分析,,大致得到一個(gè)對(duì)應(yīng)關(guān)系:研究者發(fā)現(xiàn)P值 = 0.05與貝葉斯因子3左右相當(dāng)),。也就是說(shuō),當(dāng)前數(shù)據(jù)支持有效應(yīng)假設(shè)的可能性,,與支持效應(yīng)假設(shè)的可能性之比為3:1,。從這個(gè)比例上來(lái)看,數(shù)據(jù)對(duì)有效應(yīng)這個(gè)假設(shè)的支持力度并沒有相對(duì)很強(qiáng),,而且從貝葉斯因子的直覺標(biāo)準(zhǔn)來(lái)看,,這個(gè)證據(jù)強(qiáng)度是非常弱的。


?圖3. P值與貝葉斯因子的大致對(duì)應(yīng)關(guān)系,。

 

相反,,如果P值為0.005,則證據(jù)更加強(qiáng),。與0.005對(duì)應(yīng)的貝葉斯因子是13.9,,25.7,也就是說(shuō),,有效應(yīng)與沒有效應(yīng)的比值為13.9:1或者25.7:1,,這種情況之下,數(shù)據(jù)對(duì)有效應(yīng)的假設(shè)的支持力度強(qiáng)得多(見圖3),。

 

統(tǒng)計(jì)顯著性的標(biāo)準(zhǔn)由0.05下降到0.005,,會(huì)使假陽(yáng)性出現(xiàn)的可能性下降到可接受的程度,。這個(gè)結(jié)論一方面可以通過數(shù)據(jù)模擬得到(見圖4),也得到了大規(guī)模重復(fù)實(shí)驗(yàn)結(jié)果的驗(yàn)證。最近兩次大規(guī)模重復(fù)實(shí)驗(yàn)(心理學(xué)(Open Science Collaboration, 2015)和經(jīng)濟(jì)學(xué)(Camerer et al., 2016)也表明,,如果以0.005作為標(biāo)準(zhǔn),,將原研究結(jié)果分為P值小于 0.005與P值在0.005與0.05之間的兩部分,則可以看到,,在重復(fù)成功的比例上,,前者大約是后者的兩倍:在心理學(xué)中是50% v 24%;在經(jīng)濟(jì)學(xué)中是85% v. 44%,。這也許是為什么許多研究者認(rèn)為,,將顯著性標(biāo)準(zhǔn)下降到0.005,會(huì)減少許多假陽(yáng)性的研究,。

 

此外,,在文章中,作者們也指出,,有兩個(gè)研究領(lǐng)域采用非常嚴(yán)格的標(biāo)準(zhǔn),,而這樣的標(biāo)準(zhǔn)對(duì)該領(lǐng)域來(lái)說(shuō)是有好處的。在高能物理領(lǐng)域,,采用的是5個(gè)sigma的標(biāo)準(zhǔn),,換作P值是大約是3×10^(-7);而基因研究中,,基因組學(xué)研究的顯著性標(biāo)準(zhǔn)被下降到5×10^(-8)后,,整個(gè)領(lǐng)域變得更加穩(wěn)健,。

 

?圖4. P值閾限為0.05和0.005時(shí)假陽(yáng)性率隨統(tǒng)計(jì)功效變化的曲線圖,。其中x軸為統(tǒng)計(jì)功效,y軸為假陽(yáng)性率,。


P值小于0.005適用的范圍


盡管作者們認(rèn)為,,當(dāng)P值 < 0.005時(shí)比 P值在0.005與 0.05之間時(shí)提供了更強(qiáng)的證據(jù),但作者們也謹(jǐn)慎地說(shuō)明,,這一標(biāo)準(zhǔn)僅適用于探索新現(xiàn)象,,而不適用于驗(yàn)證性研究或者是重復(fù)研究之中。對(duì)于原本采用更加嚴(yán)格標(biāo)準(zhǔn)的領(lǐng)域,,如基因研究或者高能物理領(lǐng)域,,也不適用。

 

在隨后一篇博客文章中(Benjamin, Berger, Johannesson, Johnson, et al., 2017),,幾位作者進(jìn)一步表明,,0.005的標(biāo)準(zhǔn)適合于對(duì)證據(jù)的進(jìn)行推斷,而不是作為出版的標(biāo)準(zhǔn),。對(duì)于一個(gè)非常有原創(chuàng)性的效應(yīng),,即使其結(jié)果在0.005與0.05之間,,只要明確表示這是啟示性的證據(jù),也應(yīng)該發(fā)表,。

 

知名學(xué)者的支持


這篇文章的72名作者來(lái)自社會(huì)學(xué),、心理學(xué)、經(jīng)濟(jì)學(xué),、人類學(xué),、醫(yī)學(xué)、生態(tài)學(xué)和哲學(xué),。而這個(gè)文章的署名,,更像是一種簽名,目的是為了獲得各個(gè)領(lǐng)域研究者的廣泛支持,。


從某種程度上,,這是研究者們?yōu)榱藬U(kuò)大影響的一個(gè)舉措。2016年,,美國(guó)統(tǒng)計(jì)學(xué)會(huì)以權(quán)威姿態(tài)發(fā)表了P值的聲明之后,,總體上就像其他方法學(xué)的論文一樣,最后變得寂寂無(wú)聞,。這一次,,作者們?yōu)榱嗽诟蠓秶鷥?nèi)引起重視,作者們采用讓更多領(lǐng)域的同行加入,,擴(kuò)大影響的做法,。但是對(duì)于這一做法本身是否符合科學(xué)的規(guī)范,研究者們也有不同的意見,。

 

降低P值帶來(lái)的紛爭(zhēng)


這篇文章一經(jīng)刊出,,立刻在科學(xué)圈引起了一陣熱潮。雖然作者們?cè)谖恼轮幸呀?jīng)想到了可能的反對(duì)的聲音,,但批評(píng)的聲音仍舊不絕于耳,。在社交媒體上的調(diào)查也顯示,支持和反對(duì)這篇文章觀點(diǎn)的人數(shù)基本持平,。荷蘭研究者Daniel Lakens在社交媒體上將反對(duì)者組織起來(lái),,準(zhǔn)備寫一篇關(guān)于這篇文章的評(píng)論,截止到現(xiàn)在已經(jīng)得到超過72個(gè)研究人員的支持,。

 

在講反駁之前,,需要先重述一下這篇文章的核心觀點(diǎn):對(duì)于新發(fā)現(xiàn)的研究結(jié)論,將其統(tǒng)計(jì)顯著性的默認(rèn)P值閾限由0.05改為0.005,。其主要的目的是為了在以最廣泛接受的方法來(lái)降低發(fā)表論文中結(jié)果的假陽(yáng)性,。同時(shí)0.005的標(biāo)準(zhǔn)主要是用于推斷證據(jù)的強(qiáng)度,而非作為發(fā)表論文的標(biāo)準(zhǔn),。在此基礎(chǔ)之上,,我們?cè)倏雌渌芯空邆兊呐u(píng)意見,。

 

第一個(gè)反對(duì)的聲音來(lái)自于對(duì)假陰性的擔(dān)心:即實(shí)際上有效應(yīng),但是我們的高標(biāo)準(zhǔn)導(dǎo)致在一個(gè)實(shí)驗(yàn)中無(wú)法發(fā)現(xiàn)該現(xiàn)象,。作者們的反駁(包括博客)是:如果說(shuō)將科研當(dāng)作一次性的試驗(yàn),,這個(gè)將會(huì)是一個(gè)問題,但是如果把科研當(dāng)作不斷累積的過程,,則這個(gè)不會(huì)再是問題,。因?yàn)楫?dāng)P值未達(dá)到顯著水平時(shí),我們無(wú)法拒絕零假設(shè),,不代表我們要接受零假設(shè),,而是需要進(jìn)一步的證據(jù)。這種情況下,,如果我們繼續(xù)累積數(shù)據(jù),,并綜合所有的數(shù)據(jù)進(jìn)行判斷,對(duì)于真正存在的效應(yīng),,我們?nèi)匀豢梢园l(fā)現(xiàn),。

 

同時(shí),只要統(tǒng)計(jì)功效(Statistical power)保持一定,,0.005的標(biāo)準(zhǔn)并不會(huì)增加假陰性,。這時(shí),也有研究者反對(duì)說(shuō),,在0.005的標(biāo)準(zhǔn)下保持較高的統(tǒng)計(jì)功率,,其帶來(lái)的樣本量增加(及其金錢成本的增加),是小實(shí)驗(yàn)室所不能承受的,。對(duì)于這個(gè)問題,,研究者們的反駁是:a)樣本量的增加并沒有人們所想象的那么可怕,要保持80%的統(tǒng)計(jì)功效,,從0.05到0.005標(biāo)準(zhǔn)的變化,,需要增加70%的樣本量,。也就是說(shuō),,原來(lái)是需要50人,現(xiàn)在大約要增加到85人(當(dāng)然這一點(diǎn)與效應(yīng)量<effect size>的關(guān)系非常大,,效應(yīng)量小的研究原本就需要更多的樣本量),;b)多個(gè)小的實(shí)驗(yàn)可以通過元分析的方法聯(lián)合起來(lái),提供更有說(shuō)服力的證據(jù),;c)0.005并不是作為論文發(fā)表的標(biāo)準(zhǔn),,如果研究的方法嚴(yán)格,問題有意義,,P值在0.005和0.05之間,,并且作者明確說(shuō)明證據(jù)是提示性的,,那么就不應(yīng)該拒絕發(fā)表這樣的研究。

 

在這兩個(gè)問題上,,阿姆斯特丹大學(xué)的Wagenmakers教授在其博客上指出了P值顯著性標(biāo)準(zhǔn)的變化,,其實(shí)是在表明科研界對(duì)待證據(jù)態(tài)度:我們是否要繼續(xù)保持 0.05,假裝0.05這個(gè)標(biāo)準(zhǔn)得到的證據(jù)就足夠強(qiáng)了(Wagenmakers, 2017),?

 

另一個(gè)比較有趣的批評(píng)是:可重復(fù)性的問題是由許多原因?qū)е碌?,為什么不去解決其他的問題而是要拿P值來(lái)說(shuō)事兒呢?這個(gè)批評(píng)有點(diǎn)類似于:為什么我們要做A呢,,B也很重要啊,。對(duì)于這個(gè)分散注意的問題,作者們承認(rèn)可重復(fù)性問題是由許多原因?qū)е碌?,而他們中的許多人都在致力于讓研究變得更可重復(fù),,包括一直在呼吁的Innondias,創(chuàng)辦了Center for Open Science的Brian Nosek,。但是改變統(tǒng)計(jì)顯著性的閾值,,最主要是因?yàn)檫@標(biāo)準(zhǔn)使用范圍最廣泛,改變后產(chǎn)生的性價(jià)比也許是最高的,。

 

還有研究者認(rèn)為,,應(yīng)該完全拋棄P值及其背后的零假設(shè)檢驗(yàn),而不是這樣小修小補(bǔ),。例如,,《美國(guó)公共健康雜志》AJPH從1983年起就要求投稿者刪除所有P值,否則就請(qǐng)轉(zhuǎn)投其他雜志,?!读餍胁W(xué)》Epidemiology在1990創(chuàng)刊之初也公開聲明:“作者在投稿本刊時(shí),若忽略顯著性檢驗(yàn),,將有助于提高稿件被錄用的可能性……我們根本就不采用這一方法,。”Basic and Applied Social Psychology雜志最近也宣布禁止使用P值(Trafimow & Marks, 2015),。許多統(tǒng)計(jì)學(xué)家也同意這一觀點(diǎn)的,,比如Wagenmakers和Rouder,他們一直呼吁讓大家使用貝葉斯因子,。但令研究者無(wú)奈的時(shí),,推廣貝葉斯統(tǒng)計(jì)或者其他統(tǒng)計(jì)方法的阻力,也許比改變P值的標(biāo)準(zhǔn)更困難,,更難以讓研究者們廣泛接受,。

 

還有一個(gè)批評(píng)的聲音是:對(duì)于不同的問題,應(yīng)該采用不同的顯著性標(biāo)準(zhǔn)。作者們完全同意這一點(diǎn),。比如基因研究和高能物理,,確實(shí)使用了不同的標(biāo)準(zhǔn)。只是0.05這個(gè)標(biāo)準(zhǔn)已經(jīng)在許多領(lǐng)域得到廣泛應(yīng)用(如圖1所示),,而0.005這個(gè)標(biāo)準(zhǔn),,也以許多領(lǐng)域來(lái)說(shuō)是可以減少假陽(yáng)性的,所以作者覺得有這個(gè)必要,,將0.05這個(gè)標(biāo)準(zhǔn)向更嚴(yán)格的方向前移一下,。

 

控制假陽(yáng)性的鐘擺,是否真會(huì)擺向更加嚴(yán)格的方向,?


研究者們?cè)谑欠褚爸匦露x顯著性”這個(gè)問題上的爭(zhēng)議,,本質(zhì)上也是一種權(quán)衡:要嚴(yán)格地控制假陽(yáng)性,集中資源來(lái)做一些更有可能被重復(fù)出來(lái)的研究,?還是分散資源,,同時(shí)在多個(gè)問題上進(jìn)行嘗試?過去幾年中關(guān)于可重復(fù)性危機(jī)的反思中,,不少研究者似乎傾向于更加嚴(yán)格地控制假陽(yáng)性,,而另一些研究則認(rèn)為這種做法得不償失。

 

當(dāng)然,,隨著類似于“眾包”研究等新研究形式的出現(xiàn),,更加嚴(yán)格控制假陽(yáng)性時(shí)要增加研究成本的問題,也許可能會(huì)緩解,。

 

最終顯著性是否會(huì)被“重新定義”,,要看科研界的整體政策走向,尤其是科研雜志的審稿政策,。也許在這個(gè)“publish or perish”的環(huán)境中,,學(xué)術(shù)雜志的標(biāo)準(zhǔn),才是真正的“黃金標(biāo)準(zhǔn)”吧,。但無(wú)論如何,,參考一下顯著性檢驗(yàn)的兩位“始作俑者”的原話(譯文引自呂小康.(2014)),仍是有益的:

 

假設(shè)檢驗(yàn)不止是個(gè)數(shù)學(xué)問題,,它還非常依賴高度哲學(xué)化的思考,。只要給定足以作為出發(fā)點(diǎn)的原理,數(shù)學(xué)就能推導(dǎo)出檢驗(yàn)假設(shè)所需要的公式,。但這些原理并不源自數(shù)學(xué)本身,,而是對(duì)各種條件進(jìn)行分析的結(jié)果,,而正這些條件決定了普通人是否愿意相信所提出的假設(shè),。即便沒有一個(gè)明了證明過程的數(shù)學(xué)家會(huì)拒絕一個(gè)得到準(zhǔn)確證明的定理,人們也可因?yàn)檎J(rèn)定建立假設(shè)的原理本身有誤,從而拒絕接受這些原理,。

 

——Neyman

 

在我看來(lái),,不涉及實(shí)際經(jīng)驗(yàn)正是其(指Neyman-Pearson)工作的嚴(yán)重缺陷所在。他們的方法能在引入數(shù)學(xué)假定的前提下得到確定結(jié)果,,但是否相信這些數(shù)學(xué)假定卻必須基于廣博的經(jīng)驗(yàn),。可惜的是,,他們并未探討支持這些假定的證據(jù)為何,。若顧及這一點(diǎn),他們就會(huì)發(fā)現(xiàn),,實(shí)際中只有憑借經(jīng)驗(yàn)才能確定顯著性檢驗(yàn)在頻率意義上的結(jié)果是否顯著,。總之,,我們得到的結(jié)論,,既依賴于對(duì)類似事物的直接實(shí)驗(yàn),也依賴于我們對(duì)觀測(cè)效應(yīng)如何產(chǎn)生的一般性理解,。潛在假定的引入,,只會(huì)掩蓋這一事實(shí):真實(shí)知識(shí)的產(chǎn)生過程其實(shí)是試探性的。

 

——Fisher


參考文獻(xiàn)

Benjamin, D. J., Berger, J. O., Johannesson, M., Johnson, V., Nosek, B., & Wagenmakers, E. J. (2017). We Should Redefine Statistical Significance.  Retrieved from https:///blog/we-should-redefine-statistical-significance/

Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E.-J., Berk, R., . . . Johnson, V. E. (2017). Redefine Statistical Significance. Nature Human Behaviour. doi:10.1038/s41562-017-0189-z

Bennett, J. H. (ed.). 1990. Statistical Inference and Analysis: Selected Correspondence of R. A. Fisher. Oxford: Clarendon Press.

Camerer, C. F., Dreber, A., Forsell, E., Ho, T.-H., Huber, J., Johannesson, M., . . . Wu, H. (2016). Evaluating replicability of laboratory experiments in economics. Science. doi:10.1126/science.aaf0918

Haller, H., & Krauss, S. (2002). Misinterpretations of significance: a problem students share with their teachers. Methods of Psychological Research Online, 7(1), 1–20. Retrieved from https://www.metheval./lehre/0405-ws/evaluationuebung/haller.pdf

Johnson, V. E. (2013). Revised standards for statistical evidence. Proceedings of the National Academy of Sciences, 110(48), 19313-19317. doi:10.1073/pnas.1313476110

Oakes, M. W. (1986). Statistical inference: a commentary for the social and behavioral sciences. Chichester: Wiley.

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), 943. doi:10.1126/science.aac4716

Reid, C. 1982. Neyman-From Life. New York: Springer-Verlag.

Trafimow, D., & Marks, M. (2015). Editorial. Basic and Applied Social Psychology, 37(1), 1–2. doi:10.1080/01973533.2015.1012991

Wagenmakers, E.-J. (2017). Redefine Statistical Significance Part I: Sleep Trolls & Red Herrings.  Retrieved from https://www./redefine-statistical-significance-part-i-sleep-trolls-red-herrings/

Wasserstein, R. L., & Lazar, N. A. (2016). The ASA's statement on p-values: context, process, and purpose. The American Statistician, 70(2), 129–133. doi:10.1080/00031305.2016.1154108

胡傳鵬, 王非, 過繼成思, 宋夢(mèng)迪, 隋潔, & 彭凱平. (2016). 心理學(xué)研究的可重復(fù)性問題:從危機(jī)到契機(jī). 心理科學(xué)進(jìn)展, 24(9), 1504–1518 Doi:10.3724/SP.J.1042.2016.01504

呂小康. (2014). 從工具到范式: 假設(shè)檢驗(yàn)爭(zhēng)議的知識(shí)社會(huì)學(xué)反思. 社會(huì), 34 (6), 216–236.




    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多