一個(gè)令人不安的數(shù)字
最近,《自然》雜志發(fā)表了一組重磅論文,揭示了一個(gè)科學(xué)界不愿面對(duì)卻不得不正視的事實(shí):在對(duì)3900篇社會(huì)科學(xué)論文進(jìn)行重復(fù)驗(yàn)證后,只有大約一半的研究結(jié)果能夠被成功復(fù)制。
![]()
這項(xiàng)名為SCORE的大型項(xiàng)目由美國(guó)國(guó)防部高級(jí)研究計(jì)劃局資助,歷時(shí)整整7年。865名研究人員對(duì)發(fā)表在62種期刊上的論文進(jìn)行了系統(tǒng)性檢驗(yàn),涵蓋經(jīng)濟(jì)學(xué)、教育學(xué)、心理學(xué)和社會(huì)學(xué)等多個(gè)領(lǐng)域。
這個(gè)數(shù)字聽起來刺眼,卻并非首次出現(xiàn)。斯坦福大學(xué)知名學(xué)者John Ioannidis表示,結(jié)果"并不令人意外"——此前的小規(guī)模研究早已發(fā)出過類似警告。
那么,問題究竟出在哪里?
三重檢驗(yàn):科學(xué)研究的"體檢報(bào)告"
SCORE團(tuán)隊(duì)設(shè)計(jì)了三道關(guān)卡來檢驗(yàn)論文的可靠性,就像給科學(xué)研究做了一次全面體檢。
第一關(guān):可復(fù)現(xiàn)性
研究人員嘗試用原始數(shù)據(jù)和相同方法重新分析結(jié)果。在600篇論文中,僅有145篇提供了足夠詳細(xì)的操作說明,而在這145篇中,只有53%能夠完全復(fù)現(xiàn)原始發(fā)現(xiàn)。
![]()
開放科學(xué)中心的研究負(fù)責(zé)人Tim Errington指出,許多失敗并非源于學(xué)術(shù)造假,而是因?yàn)樽髡邲]有充分公開數(shù)據(jù)細(xì)節(jié),或者外部研究者不得不"猜測(cè)"原始的操作步驟。
第二關(guān):穩(wěn)健性
如果換一種合理的統(tǒng)計(jì)方法分析同一批數(shù)據(jù),結(jié)論是否依然成立?在對(duì)100篇論文的測(cè)試中,約四分之三通過了這一關(guān)。但有2%的論文在新分析下得出了完全相反的結(jié)論——這個(gè)比例雖小,卻足以讓人警醒。
![]()
第三關(guān):可復(fù)制性
這是最嚴(yán)格的一關(guān):從頭開始,重新做一次實(shí)驗(yàn)。在164項(xiàng)研究中,僅有49%在統(tǒng)計(jì)學(xué)意義上實(shí)現(xiàn)了成功復(fù)制。
![]()
透明度是解藥
面對(duì)這一困境,Errington給出了一個(gè)關(guān)鍵詞:透明。
許多研究之所以無法被驗(yàn)證,不是因?yàn)榻Y(jié)論本身錯(cuò)誤,而是因?yàn)榘l(fā)表時(shí)省略了關(guān)鍵細(xì)節(jié)。數(shù)據(jù)共享不充分、方法描述不完整、代碼不公開——這些看似技術(shù)層面的疏漏,實(shí)際上構(gòu)成了科學(xué)交流的巨大障礙。
更令人欣慰的是,技術(shù)正在提供新的解決方案。"多元宇宙分析"等自動(dòng)化工具允許研究者用多種合理方法檢驗(yàn)同一數(shù)據(jù),在論文發(fā)表前就能發(fā)現(xiàn)潛在的方法敏感性。
人工智能能預(yù)測(cè)可靠的研究嗎?
SCORE項(xiàng)目的另一個(gè)雄心是開發(fā)自動(dòng)化評(píng)估工具,為每篇論文打一個(gè)"可信度分?jǐn)?shù)"。
為此,他們先測(cè)試了人類的判斷能力。通過在線市場(chǎng)和結(jié)構(gòu)化群聊兩種方式,研究者預(yù)測(cè)論文可復(fù)制性的最高準(zhǔn)確率達(dá)到76%至78%。
這為AI工具設(shè)立了基準(zhǔn)線。在去年10月的首輪競(jìng)賽中,10支使用大語言模型的隊(duì)伍表現(xiàn)甚至不如隨機(jī)猜測(cè)。但在剛剛結(jié)束的第二輪競(jìng)賽中,最佳模型的準(zhǔn)確率已提升至68.5%。
Errington對(duì)此保持審慎樂觀:AI輔助科學(xué)評(píng)估的愿景值得期待,但距離實(shí)用化仍有相當(dāng)長(zhǎng)的路要走。
危機(jī)還是轉(zhuǎn)機(jī)?
"這并不意味著科學(xué)研究的質(zhì)量低下。"Errington的這句話值得深思。
可重復(fù)性危機(jī)暴露的不僅是問題,更是改進(jìn)的契機(jī)。當(dāng)一半發(fā)現(xiàn)無法被驗(yàn)證時(shí),另一半經(jīng)受住考驗(yàn)的研究反而更加值得信賴。這種篩選機(jī)制,長(zhǎng)期來看有利于科學(xué)知識(shí)的提純。
對(duì)于普通讀者而言,這項(xiàng)研究也是一個(gè)提醒:面對(duì)各種"研究表明",保持適度的懷疑精神并非否定科學(xué),而是尊重科學(xué)的體現(xiàn)。真正的科學(xué)精神,恰恰包含了對(duì)自身局限的清醒認(rèn)知。
對(duì)于研究者來說,開放數(shù)據(jù)、透明方法、預(yù)注冊(cè)研究設(shè)計(jì)——這些正在興起的實(shí)踐,或許將成為未來學(xué)術(shù)發(fā)表的新常態(tài)。
7年、3900篇論文、865名研究者——SCORE項(xiàng)目的規(guī)模本身就說明了科學(xué)界直面問題的決心。
科學(xué)的自我糾錯(cuò)能力,或許正是它最可靠的特征。當(dāng)一個(gè)問題被清晰地界定,解決的路徑往往也隨之浮現(xiàn)。
在這個(gè)信息爆炸的時(shí)代,我們比任何時(shí)候都更需要可靠的知識(shí)。而可靠性的建立,始于承認(rèn)脆弱性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.