網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Nature 耗時(shí) 7 年研究 3900 篇論文，竟發(fā)現(xiàn)半數(shù)社科研究無法復(fù)制

2026-04-07 17:39:19　來源: 研學(xué)世家

北京舉報(bào)

分享至

一個(gè)令人不安的數(shù)字

最近，《自然》雜志發(fā)表了一組重磅論文，揭示了一個(gè)科學(xué)界不愿面對(duì)卻不得不正視的事實(shí)：在對(duì)3900篇社會(huì)科學(xué)論文進(jìn)行重復(fù)驗(yàn)證后，只有大約一半的研究結(jié)果能夠被成功復(fù)制。

這項(xiàng)名為SCORE的大型項(xiàng)目由美國(guó)國(guó)防部高級(jí)研究計(jì)劃局資助，歷時(shí)整整7年。865名研究人員對(duì)發(fā)表在62種期刊上的論文進(jìn)行了系統(tǒng)性檢驗(yàn)，涵蓋經(jīng)濟(jì)學(xué)、教育學(xué)、心理學(xué)和社會(huì)學(xué)等多個(gè)領(lǐng)域。

這個(gè)數(shù)字聽起來刺眼，卻并非首次出現(xiàn)。斯坦福大學(xué)知名學(xué)者John Ioannidis表示，結(jié)果"并不令人意外"——此前的小規(guī)模研究早已發(fā)出過類似警告。

那么，問題究竟出在哪里？

三重檢驗(yàn)：科學(xué)研究的"體檢報(bào)告"

SCORE團(tuán)隊(duì)設(shè)計(jì)了三道關(guān)卡來檢驗(yàn)論文的可靠性，就像給科學(xué)研究做了一次全面體檢。

第一關(guān)：可復(fù)現(xiàn)性

研究人員嘗試用原始數(shù)據(jù)和相同方法重新分析結(jié)果。在600篇論文中，僅有145篇提供了足夠詳細(xì)的操作說明，而在這145篇中，只有53%能夠完全復(fù)現(xiàn)原始發(fā)現(xiàn)。

開放科學(xué)中心的研究負(fù)責(zé)人Tim Errington指出，許多失敗并非源于學(xué)術(shù)造假，而是因?yàn)樽髡邲]有充分公開數(shù)據(jù)細(xì)節(jié)，或者外部研究者不得不"猜測(cè)"原始的操作步驟。

第二關(guān)：穩(wěn)健性

如果換一種合理的統(tǒng)計(jì)方法分析同一批數(shù)據(jù)，結(jié)論是否依然成立？在對(duì)100篇論文的測(cè)試中，約四分之三通過了這一關(guān)。但有2%的論文在新分析下得出了完全相反的結(jié)論——這個(gè)比例雖小，卻足以讓人警醒。

第三關(guān)：可復(fù)制性

這是最嚴(yán)格的一關(guān)：從頭開始，重新做一次實(shí)驗(yàn)。在164項(xiàng)研究中，僅有49%在統(tǒng)計(jì)學(xué)意義上實(shí)現(xiàn)了成功復(fù)制。

透明度是解藥

面對(duì)這一困境，Errington給出了一個(gè)關(guān)鍵詞：透明。

許多研究之所以無法被驗(yàn)證，不是因?yàn)榻Y(jié)論本身錯(cuò)誤，而是因?yàn)榘l(fā)表時(shí)省略了關(guān)鍵細(xì)節(jié)。數(shù)據(jù)共享不充分、方法描述不完整、代碼不公開——這些看似技術(shù)層面的疏漏，實(shí)際上構(gòu)成了科學(xué)交流的巨大障礙。

更令人欣慰的是，技術(shù)正在提供新的解決方案。"多元宇宙分析"等自動(dòng)化工具允許研究者用多種合理方法檢驗(yàn)同一數(shù)據(jù)，在論文發(fā)表前就能發(fā)現(xiàn)潛在的方法敏感性。

人工智能能預(yù)測(cè)可靠的研究嗎？

SCORE項(xiàng)目的另一個(gè)雄心是開發(fā)自動(dòng)化評(píng)估工具，為每篇論文打一個(gè)"可信度分?jǐn)?shù)"。

為此，他們先測(cè)試了人類的判斷能力。通過在線市場(chǎng)和結(jié)構(gòu)化群聊兩種方式，研究者預(yù)測(cè)論文可復(fù)制性的最高準(zhǔn)確率達(dá)到76%至78%。

這為AI工具設(shè)立了基準(zhǔn)線。在去年10月的首輪競(jìng)賽中，10支使用大語言模型的隊(duì)伍表現(xiàn)甚至不如隨機(jī)猜測(cè)。但在剛剛結(jié)束的第二輪競(jìng)賽中，最佳模型的準(zhǔn)確率已提升至68.5%。

Errington對(duì)此保持審慎樂觀：AI輔助科學(xué)評(píng)估的愿景值得期待，但距離實(shí)用化仍有相當(dāng)長(zhǎng)的路要走。

危機(jī)還是轉(zhuǎn)機(jī)？

"這并不意味著科學(xué)研究的質(zhì)量低下。"Errington的這句話值得深思。

可重復(fù)性危機(jī)暴露的不僅是問題，更是改進(jìn)的契機(jī)。當(dāng)一半發(fā)現(xiàn)無法被驗(yàn)證時(shí)，另一半經(jīng)受住考驗(yàn)的研究反而更加值得信賴。這種篩選機(jī)制，長(zhǎng)期來看有利于科學(xué)知識(shí)的提純。

對(duì)于普通讀者而言，這項(xiàng)研究也是一個(gè)提醒：面對(duì)各種"研究表明"，保持適度的懷疑精神并非否定科學(xué)，而是尊重科學(xué)的體現(xiàn)。真正的科學(xué)精神，恰恰包含了對(duì)自身局限的清醒認(rèn)知。

對(duì)于研究者來說，開放數(shù)據(jù)、透明方法、預(yù)注冊(cè)研究設(shè)計(jì)——這些正在興起的實(shí)踐，或許將成為未來學(xué)術(shù)發(fā)表的新常態(tài)。

7年、3900篇論文、865名研究者——SCORE項(xiàng)目的規(guī)模本身就說明了科學(xué)界直面問題的決心。

科學(xué)的自我糾錯(cuò)能力，或許正是它最可靠的特征。當(dāng)一個(gè)問題被清晰地界定，解決的路徑往往也隨之浮現(xiàn)。

在這個(gè)信息爆炸的時(shí)代，我們比任何時(shí)候都更需要可靠的知識(shí)。而可靠性的建立，始于承認(rèn)脆弱性。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.