我們可以在多大程度相信一項(xiàng)科學(xué)發(fā)現(xiàn),?這個(gè)問題的答案至關(guān)重要,,因?yàn)樵谠S多領(lǐng)域中,偶有出現(xiàn)已發(fā)表的研究結(jié)果的可重復(fù)性受到質(zhì)疑的情況,。在一項(xiàng)名為社會(huì)科學(xué)復(fù)現(xiàn)項(xiàng)目(the Social Science Replication Project)的新研究中,,再一次將研究結(jié)果的可重復(fù)性問題置于科學(xué)辯論的風(fēng)口浪尖。因?yàn)榭茖W(xué)家發(fā)現(xiàn),,在21個(gè)具有影響力的社會(huì)實(shí)驗(yàn)研究中,,只有13個(gè)可以被復(fù)現(xiàn)。 研究結(jié)果的不可重復(fù)性 社會(huì)科學(xué)復(fù)現(xiàn)項(xiàng)目的研究人員調(diào)查了在2010-2015年間,,發(fā)表在頂級(jí)期刊《自然》和《科學(xué)》上的21項(xiàng)社會(huì)科學(xué)實(shí)驗(yàn)的可重復(fù)性,。8月27日,他們將研究結(jié)果發(fā)表于《自然·人類行為》期刊上,。 ○ 研究人員重復(fù)了在2010到2015年發(fā)表在《自然》和《科學(xué)》上的21個(gè)社會(huì)科學(xué)實(shí)驗(yàn),。《自然》和《科學(xué)》都是非常有聲望的科學(xué)期刊,發(fā)表在上面的文章通常被認(rèn)為是重要的,,并且具有創(chuàng)新性和影響力,。| 圖片來源:Nature 為了測(cè)試那些初始論文的結(jié)果,研究人員在進(jìn)行的重復(fù)測(cè)試中采用了更多的受試人數(shù),,并采取了多種統(tǒng)計(jì)方法進(jìn)行分析,。并且這些研究的初始作者對(duì)新研究的實(shí)驗(yàn)擬定進(jìn)行了反饋,還提供了他們使用過的數(shù)據(jù),、軟件和代碼,。研究人員耗費(fèi)了很大的心血才完成了對(duì)這些研究的檢測(cè)。 在21個(gè)重復(fù)實(shí)驗(yàn)中,,研究人員發(fā)現(xiàn)只有13個(gè)實(shí)驗(yàn)?zāi)芘c初始研究有著相同方向上的顯著效應(yīng),;而且觀察到的效應(yīng)量級(jí)大約只有初始研究中的一半。心理學(xué)和實(shí)驗(yàn)經(jīng)濟(jì)學(xué)中具有前瞻性的復(fù)現(xiàn)項(xiàng)目已經(jīng)揭示了這些領(lǐng)域的問題,,但是它們并沒有重點(diǎn)關(guān)注過發(fā)表在具有高影響力期刊上的文章,,因?yàn)楦哂绊懥ζ诳赡芨⒅匦路f性,而且可能會(huì)有更多的編輯審查,。 在未通過可重復(fù)性測(cè)試的8項(xiàng)實(shí)驗(yàn)中,,有一項(xiàng)是來自于現(xiàn)為肯塔基大學(xué)副教授的Will Gervais,在2012年,,當(dāng)他還是英屬哥倫比亞大學(xué)的一位心理學(xué)博士生時(shí),,進(jìn)行了這項(xiàng)研究善于分析的人是否更不可能持有宗教信仰的實(shí)驗(yàn)。在一個(gè)測(cè)試中,,接受測(cè)試的本科生被要求觀看雕塑的照片:一半的參與者觀看的是羅丹的雕塑“沉思者”,,另一半屬于控制組的參與者觀看的則是“擲鐵餅者”。Gervais在發(fā)表在《科學(xué)》上的文章中報(bào)告稱,,觀看了“沉思者”的人對(duì)宗教信仰表達(dá)了更多的懷疑,。 如今,,他承認(rèn)這個(gè)實(shí)驗(yàn)非常薄弱:“事后看來,這項(xiàng)研究簡(jiǎn)直是徹頭徹尾的愚蠢,。我們過分兜售了一個(gè)甚至都不具有統(tǒng)計(jì)顯著性的研究,。我想換作今天這樣的研究都不太可能能被發(fā)表?!?/span> 科學(xué)研究的一個(gè)基本特征是自我糾正,,那么為什么還需要正式地通過實(shí)驗(yàn)來復(fù)現(xiàn)呢?如果科學(xué)按照預(yù)想的那樣運(yùn)作,,這難道不應(yīng)該是自然就會(huì)發(fā)生的嗎,?所有的科學(xué)結(jié)果都應(yīng)該是堅(jiān)實(shí)可靠的,這一點(diǎn)非常重要,,因?yàn)橐豁?xiàng)研究的發(fā)現(xiàn)常常會(huì)被用來作為未來工作的起點(diǎn),。因此,如果這些最初的結(jié)果是錯(cuò)誤的,,或者只在某些特定條件下有效,,那么就會(huì)牽連到未來的研究工作。 發(fā)表在《科學(xué)》和《自然》這樣的核心期刊上的文章,,不僅會(huì)推動(dòng)科學(xué)進(jìn)展,,還會(huì)通過媒體傳播給大眾??犰庞腥さ难芯可踔?xí)⑷肓餍形幕?span>盡管這些研究的可重復(fù)性可能是個(gè)問號(hào),。 在實(shí)驗(yàn)經(jīng)濟(jì)學(xué)復(fù)現(xiàn)項(xiàng)目(EERP)中,18個(gè)復(fù)現(xiàn)研究中的11個(gè)具有與初始研究相同方向的顯著效應(yīng),,復(fù)現(xiàn)結(jié)果的效應(yīng)的平均值是初試結(jié)果的66%,。在可重復(fù)性項(xiàng)目:心理學(xué)(RPP)中,97個(gè)復(fù)現(xiàn)研究中的35個(gè)具有與初始研究相同方向的顯著效應(yīng),,復(fù)現(xiàn)結(jié)果的平均效應(yīng)值是初始結(jié)果的49%,。仍在進(jìn)行中的可重復(fù)性項(xiàng)目:癌癥生物學(xué)(RPCB)中,10個(gè)復(fù)現(xiàn)研究中的4個(gè)成功復(fù)制了初始研究中的重要部分,,另有2項(xiàng)取得部分成功,。 不可重復(fù)意味著錯(cuò)誤嗎? 這是否意味著,,那些無法被復(fù)現(xiàn)的研究結(jié)果就是錯(cuò)誤的,?并不是。其實(shí),,實(shí)驗(yàn)無法復(fù)現(xiàn)的原因多種多樣,。 曾經(jīng)參與過可重復(fù)性研究的普林斯頓大學(xué)的計(jì)算社會(huì)科學(xué)家Matt Salganik說:“社會(huì)生活的異質(zhì)性和人們?cè)诳臻g與時(shí)間上的多變性使得我們難以對(duì)同樣事情得到相同的結(jié)果。但是這并不意味著初始的結(jié)果沒有出現(xiàn)過,,也不代表后續(xù)復(fù)現(xiàn)的結(jié)果沒有出現(xiàn)過,?!?/span> 現(xiàn)在,數(shù)以千計(jì)的研究人員會(huì)在發(fā)表研究成果之前,,預(yù)先注冊(cè)他們的方法論和假說,,以此來阻止外界認(rèn)為他們會(huì)在事后篡改數(shù)據(jù)的擔(dān)憂。一般來說期刊都會(huì)要求研究人員提交他們的整個(gè)數(shù)據(jù)集和分析代碼,。 心理學(xué)家Brian Nosek說:“潛在的動(dòng)機(jī)是真實(shí)誠(chéng)懇的??茖W(xué)家試圖做的是發(fā)現(xiàn)真實(shí)的結(jié)果,,而不是讓結(jié)果正確,即便整個(gè)文化驅(qū)使人們追逐刺激的發(fā)現(xiàn),。而與之抗衡的一些價(jià)值觀——透明度,、嚴(yán)謹(jǐn)性、展示完整的工作,,在科學(xué)群體中仍然根植于心,。“ 目前的研究也開始從復(fù)現(xiàn)研究中更清楚地確定可能的結(jié)果,。有些研究復(fù)現(xiàn)了研究結(jié)果的方向以及有效性的量級(jí),;有些研究復(fù)現(xiàn)了方向但是有效量級(jí)更低一些;還有一些復(fù)現(xiàn)研究似乎沒能出現(xiàn)任何結(jié)果,。 出現(xiàn)復(fù)現(xiàn)了方向卻沒能復(fù)現(xiàn)出同等有效量級(jí)的情況,,可能是因?yàn)橹T如研究設(shè)計(jì)或報(bào)告中的任何方面等因素導(dǎo)致結(jié)果的有效性在初始研究中被夸大。對(duì)研究的設(shè)計(jì),、實(shí)施和報(bào)告投入更多的精力,,將會(huì)在某種程度上解決這一問題。 更有趣的是那些在復(fù)現(xiàn)研究中沒有出現(xiàn)任何結(jié)果的研究,。這有可能是因?yàn)橐恍撛诘莫?dú)立變量只出現(xiàn)在一個(gè)實(shí)驗(yàn)中,,而沒有出現(xiàn)在另一個(gè)實(shí)驗(yàn)中。重要的是,,識(shí)別這些潛在的變量并了解其影響,,能提供更好的機(jī)會(huì)以理解當(dāng)下正在調(diào)查的現(xiàn)象。 例如,,在一項(xiàng)試圖復(fù)現(xiàn)某種藥物具有延長(zhǎng)蠕蟲生命的效應(yīng)失敗之初,,人們收獲到的是絕望;但在多年以后,,它卻啟發(fā)了由多中心的國(guó)家衰老研究所資助的隱桿線蟲干預(yù)測(cè)試計(jì)劃(CITP),。經(jīng)過大量努力之后,作者最終證明,,存在無法被任何已知的生物學(xué)知識(shí)來解釋的雙峰生存模式,,以及藥效的差異性——有些具有廣泛的療效,,還有一些對(duì)不同的菌種和菌株則有不同的效果。這為那些或許能加深我們對(duì)衰老生物學(xué)理解的實(shí)驗(yàn)提供了起點(diǎn),。 危機(jī)還是機(jī)遇,? 眼下正進(jìn)行的這項(xiàng)研究是非常重要的,因?yàn)樗砻髁?strong>即使是發(fā)表在高影響力期刊上的研究結(jié)果,,同樣可能無法被成功復(fù)現(xiàn),;因此,期刊的影響因子并不能確保研究結(jié)果的正確性,。 此外,,當(dāng)這些作者讓一個(gè)大約由400名科學(xué)家組成的群體來預(yù)測(cè)某項(xiàng)研究結(jié)果能否被復(fù)現(xiàn)時(shí),在該項(xiàng)結(jié)果能否被復(fù)現(xiàn)與觀察到的復(fù)現(xiàn)結(jié)果的效應(yīng)值這兩方面,,有著良好的相關(guān)性,,也就是說,群體預(yù)測(cè)正確的時(shí)候遠(yuǎn)多于錯(cuò)誤的時(shí)候,。 重要的問題依然存在,。雖然這些正式的復(fù)現(xiàn)項(xiàng)目是預(yù)先注冊(cè)有著詳細(xì)實(shí)驗(yàn)擬定的前瞻性研究,但用來復(fù)現(xiàn)的結(jié)果的選擇卻并不是隨機(jī)的,。在另一項(xiàng)研究中,,Peder Mortvedt Isager鑒定了85個(gè)獨(dú)立的復(fù)現(xiàn)工作,并發(fā)現(xiàn)可以基于理論影響,、個(gè)人興趣,、學(xué)術(shù)、公眾或社會(huì)影響,、方法問題等方面來考慮選擇的策略,。 目前的這項(xiàng)研究選擇的是發(fā)表在《科學(xué)》和《自然》上的論文,而它們都不太可能是社會(huì)科學(xué)研究中的典型例子,。正如作者指出的那樣,,現(xiàn)有的可重復(fù)性研究有著“相對(duì)小的研究樣本,并包含獨(dú)特的入選標(biāo)準(zhǔn)和未知的普遍性,?!?/span> 然而,在不同學(xué)科都觀察到的這種不可重復(fù)性,,意味著引用這些研究成果的人并不能可靠地?cái)喽▓?bào)告的結(jié)果是真實(shí)的,。要么我們必須嘗試復(fù)現(xiàn)所有我們想要使用的研究結(jié)果,要么我們需要找到能預(yù)測(cè)哪些研究特征與可復(fù)現(xiàn)的研究結(jié)果是相關(guān)聯(lián)的方法,,以使得報(bào)告的結(jié)果更加可信,。 我們從可重復(fù)性計(jì)劃了解到,如果初始研究具有較大的效應(yīng)值和較小的P值(詳見《“可重復(fù)性危機(jī)”引發(fā)的一場(chǎng)科學(xué)辯論》),那么更可能成功復(fù)現(xiàn),。我們可以認(rèn)為具有低誤差風(fēng)險(xiǎn)的活體研究更有可能被成功復(fù)現(xiàn),,但是目前并沒有直接證據(jù)支持這一觀點(diǎn)。令人沮喪的是,,目前沒有任何一個(gè)可重復(fù)性研究沒考慮到了在初始研究的設(shè)計(jì)中,,作者是否在某種程度上處理了可能存在的誤差風(fēng)險(xiǎn),這或許能預(yù)測(cè)成功復(fù)現(xiàn)的可能性,。 此外,,如果用于復(fù)現(xiàn)研究的資源有限,那么,,最好通過大幅度增加(或降低)我們對(duì)大量表現(xiàn)出某些共同特征的研究結(jié)果的信心,,將目標(biāo)集中在能夠做得最好的地方。 要做到這一點(diǎn),,需要這樣一個(gè)可重復(fù)性研究——對(duì)初始研究的選擇,是通過對(duì)那些有或沒有感興趣特征的研究進(jìn)行的隨機(jī)取樣,。鑒于一項(xiàng)復(fù)現(xiàn)研究將能對(duì)初始文獻(xiàn)進(jìn)行30–65%的“修正”,,那么對(duì)于研究的資助者來說,這仍然代表著高回報(bào)率的研究,。 當(dāng)研究人員發(fā)表的作品挑戰(zhàn)了公認(rèn)的智慧時(shí)會(huì)遇到很多困難,,在這樣的背景下,這種工作的重要性在職業(yè)發(fā)展中很少得到認(rèn)可,。各種可重復(fù)性項(xiàng)目,,作者們理應(yīng)接受的喝彩,以及為這類研究開發(fā)專門的資金流,,在某種程度上都是解決這種不平衡現(xiàn)象的方法,。 以科學(xué)地方法看待復(fù)現(xiàn)的“失敗”,實(shí)則能提供巨大的研究機(jī)會(huì),。要對(duì)這些機(jī)會(huì)加以利用通常需要各方協(xié)作,,這樣,這些機(jī)會(huì)或許就能轉(zhuǎn)變?yōu)楦又艿?、更加完善的研究?jì)劃,。基于這些原因,,我們不該將目前關(guān)于研究的可重復(fù)性問題視為一場(chǎng)危機(jī),,或許更應(yīng)視其為一個(gè)機(jī)會(huì)。 編譯:烏鴉少年 參考鏈接: https://www./articles/s41562-018-0399-z https://www./articles/s41562-018-0398-0 https://www./story/social-science-reproducibility/ https://www./blog/science-public/replication-crisis-psychology-science-studies-statistics
|
|