當(dāng)統(tǒng)計學(xué)成為遮羞布
2026年初春,一篇關(guān)于明星減肥藥的論文悄然從學(xué)術(shù)期刊上消失。這篇研究曾信誓旦旦地宣稱,兩種藥物聯(lián)用能讓患者多減掉4%的體重——在GLP-1類藥物席卷全球醫(yī)藥市場的當(dāng)下,這個數(shù)字足以讓臨床醫(yī)生眼前一亮。
但貝勒醫(yī)學(xué)院的統(tǒng)計學(xué)家David Allison在審閱時發(fā)現(xiàn)了蹊蹺。他反復(fù)研讀論文的統(tǒng)計方法,卻始終無法復(fù)現(xiàn)作者的結(jié)論。更令人困惑的是,當(dāng)他試圖理解作者究竟采用了何種分析路徑時,竟發(fā)現(xiàn)這套方法在邏輯上根本無法推導(dǎo)出論文所聲稱的結(jié)果。
![]()
半年多的調(diào)查拉鋸后,期刊最終撤回了這篇論文。所有作者都不同意這個決定,他們正在準(zhǔn)備辯護信。但這已無關(guān)緊要。
真正值得警惕的不是這一篇論文的命運,而是它背后那個正在失控的龐大陰影。
三年暴漲六倍的學(xué)術(shù)奇觀
讓我們看一組數(shù)字:2021年,全球基于美國FDA不良事件報告系統(tǒng)的研究論文約有100篇。三年后,這個數(shù)字飆升至600篇。這不是某個新興領(lǐng)域的自然爆發(fā),而是一場有組織的學(xué)術(shù)淘金熱。
FAERS系統(tǒng)原本是個好東西。這個由美國藥監(jiān)部門維護的數(shù)據(jù)庫,收錄了二十年來數(shù)千萬條藥物副作用報告,為上市后的藥品安全監(jiān)管提供了重要依據(jù)。法國藥理學(xué)家Charles Khouri估計,市面上六成到七成的藥品說明書修訂,都源于這類藥物警戒數(shù)據(jù)庫的監(jiān)測發(fā)現(xiàn)。
![]()
但金礦一旦被發(fā)現(xiàn),挖礦的人就蜂擁而至。
這套系統(tǒng)的致命誘惑在于它的開放性。任何人都可以免費下載數(shù)據(jù),任何藥物都可以成為研究對象,任何副作用組合都可以被檢驗。當(dāng)數(shù)據(jù)庫的規(guī)模達(dá)到數(shù)百萬種藥物與數(shù)百萬種不良事件的量級時,統(tǒng)計學(xué)上的"顯著發(fā)現(xiàn)"就變成了可以批量制造的工業(yè)產(chǎn)品。
這本質(zhì)上是一種合法的學(xué)術(shù)博彩:只要檢驗的次數(shù)足夠多,總能湊出一個看似有意義的p值。
更隱蔽的陷阱在于數(shù)據(jù)本身的缺陷。FAERS依賴自愿上報,沒有人知道實際發(fā)生的副作用有多少比例被記錄。一種被媒體反復(fù)報道的"網(wǎng)紅藥",其副作用報告量可能遠(yuǎn)超那些同樣廣泛使用但缺乏話題性的老藥。這種報告偏倚不是技術(shù)誤差,而是系統(tǒng)性的信息扭曲,卻極少被論文作者認(rèn)真對待。
流水線生產(chǎn)的"科學(xué)發(fā)現(xiàn)"
Khouri和他的合作者深入分析了這股論文洪流的共同特征。他們發(fā)現(xiàn)了令人驚訝的標(biāo)準(zhǔn)化痕跡。
正常的藥物安全研究通常選用一種成熟的不成比例分析方法,因為多種方法并用往往是冗余的。但灌水論文偏偏熱衷于堆砌方法,仿佛方法越多,結(jié)論就越可靠。他們還發(fā)明了一種名為"鏡像圖"的可視化工具,把同樣的時間信息在同一幅圖里畫兩遍,美其名曰展示"發(fā)病時間規(guī)律",實則毫無信息增量。
但真正暴露底牌的,是這些論文普遍缺乏一個核心要素:研究問題。
規(guī)范的學(xué)術(shù)研究始于一個具體的臨床疑問。為什么懷疑這種藥會導(dǎo)致這種副作用?基于什么生物學(xué)機制或前期觀察?這些FAERS批量論文往往跳過這一步,直接把藥物扔進數(shù)據(jù)庫,讓算法去挖掘"信號",再把挖掘結(jié)果包裝成科學(xué)發(fā)現(xiàn)。
![]()
這種無的放矢的研究模式,偶爾會產(chǎn)出令人啼笑皆非的"成果"。比如有論文通過數(shù)據(jù)分析"發(fā)現(xiàn)",治療肺動脈高壓的藥物西地那非,與肺動脈高壓存在統(tǒng)計關(guān)聯(lián)。這就像通過大數(shù)據(jù)發(fā)現(xiàn)"醫(yī)院與疾病高度相關(guān)"一樣,把因果關(guān)系徹底顛倒了。研究者對藥物基本適應(yīng)癥的無知,在這種"發(fā)現(xiàn)"中暴露無遺。
產(chǎn)能爆發(fā)的背后推手
論文數(shù)量的異常曲線,往往指向評價體系的畸形激勵。
Khouri團隊的文獻計量分析揭示了一個尖銳的地理分布:近期發(fā)表的相關(guān)論文中,近八成來自中國研究機構(gòu)。而在2021年之前,中國作者在這個細(xì)分領(lǐng)域幾乎空白。這種從零到壟斷的跨越,很難用學(xué)術(shù)興趣的自然轉(zhuǎn)移來解釋。
更具體的線索來自作者署名。某所高校的一位研究者獨力貢獻了27篇相關(guān)論文,其中7篇發(fā)表在頂級專業(yè)期刊上。同校同事緊隨其后,另一所高校也有多人上榜。這種集中產(chǎn)能,遠(yuǎn)超個人學(xué)術(shù)興趣的范疇,更像是生產(chǎn)線上的分工協(xié)作。
英國學(xué)者Matt Spick將這種現(xiàn)象置于更宏觀的背景下審視。他追蹤了包括FAERS在內(nèi)的五個公共數(shù)據(jù)庫,發(fā)現(xiàn)它們的論文產(chǎn)出曲線呈現(xiàn)相似的異常模式。這與另一個案例高度吻合:美國全國健康營養(yǎng)調(diào)查數(shù)據(jù)庫NHANES,在2021年至2024年間同樣經(jīng)歷了單關(guān)聯(lián)研究論文的井噴。
Spick指出,一旦數(shù)據(jù)庫上網(wǎng),論文工廠的制約因素就只剩下 imagination 和投稿速度。數(shù)據(jù)下載是即時的,分析腳本可以復(fù)用,論文框架能夠模板化。再輔以生成式AI的文本潤色,一條零成本、高產(chǎn)出的學(xué)術(shù)產(chǎn)業(yè)鏈就此成型。
這不是孤立的學(xué)術(shù)失范,而是一場技術(shù)賦能的系統(tǒng)性沖擊。
期刊的防御與潰敗
最先感受到壓力的是學(xué)術(shù)期刊的編輯們。
《藥物安全專家觀點》的主編在2024年夏天下達(dá)了禁令:不再接受未經(jīng)邀請的FAERS數(shù)據(jù)分析投稿。出版方的解釋很直白——投稿量"顯著上升",即使投入額外資源進行預(yù)審,拒稿率仍超過八成,系統(tǒng)已不堪重負(fù)。具有諷刺意味的是,這位主編本人也署名發(fā)表了多篇基于FAERS的論文。
《藥理學(xué)前沿》選擇了另一條路。他們要求所有基于公共數(shù)據(jù)集的研究必須提供外部獨立驗證,試圖用提高門檻的方式過濾掉流水線產(chǎn)品。新政實施后效果顯著:739篇投稿被拒,僅9篇通過新規(guī)發(fā)表。
但這些措施只能阻擋未來的潮水,對已淹沒岸邊的洪水無能為力。
撤稿機制在此陷入了尷尬的沉默。
現(xiàn)有的學(xué)術(shù)糾錯體系擅長處理明確的造假:數(shù)據(jù)篡改、圖片拼接、抄襲剽竊,這些都有清晰的判定標(biāo)準(zhǔn)。但FAERS論文使用的是真實數(shù)據(jù),運行的是正版軟件,輸出的統(tǒng)計指標(biāo)格式規(guī)范。它們的問題不在于真?zhèn)危谟跓o意義——沒有研究假說支撐的統(tǒng)計顯著性,就像沒有地基的建筑,外觀完整卻經(jīng)不起推敲。
Khouri坦承,試圖以造假為由撤稿幾乎不可能。"結(jié)果是無意義的,存在p值操縱和高假陽性風(fēng)險。這些是無用的論文,但它們不是假的。"
大概吧。
無毒的污染物
"無用但非假",這個定性精準(zhǔn)地描述了此類論文的特殊危害。
它們不會直接毒害讀者,不會像造假論文那樣導(dǎo)致實驗室重復(fù)實驗時的事故。但它們以另一種方式破壞著學(xué)術(shù)生態(tài)的根基。
第一重危害在臨床一線。醫(yī)學(xué)文獻中的安全警告具有真實的威懾力。患者會因此停藥,醫(yī)生會因此改變處方習(xí)慣。如果一篇FAERS論文聲稱某類暢銷減肥藥與自殺傾向相關(guān),即使這個"信號"只是媒體關(guān)注度造成的報告偏倚疊加統(tǒng)計噪音,其傳播仍可能引發(fā)不必要的恐慌,讓真正需要藥物治療的患者錯失干預(yù)時機。
第二重危害在科研資源分配。當(dāng)虛假的"信號"進入文獻,就可能觸發(fā)后續(xù)的驗證研究。臨床試驗的設(shè)計、執(zhí)行、資金消耗,本應(yīng)用于探索真正未知的醫(yī)學(xué)問題,卻被浪費在證偽數(shù)據(jù)挖掘的幻覺上。
更深層的損害在于認(rèn)知環(huán)境的污染。同行評審的精力被海量低質(zhì)投稿稀釋,有價值的研究在噪聲中難以辨識,臨床決策所依賴的證據(jù)基礎(chǔ)被泥沙俱下的事實堆砌所動搖。
這不是學(xué)術(shù)不端,而是一種新型的文獻污染。它利用的是開放科學(xué)的善意設(shè)計,鉆的是評價體系的漏洞,留下的是難以清除的長期殘留。
結(jié)構(gòu)性困局與出路
問題的根源不在于某個數(shù)據(jù)庫被濫用,而在于"發(fā)表或出局"的學(xué)術(shù)生存法則。
當(dāng)職稱晉升、基金申請、人才帽子都以論文數(shù)量為硬通貨時,一篇耗時數(shù)月、精心設(shè)計的臨床觀察研究,與一篇用現(xiàn)成數(shù)據(jù)、模板化分析、一周成稿的數(shù)據(jù)庫挖掘論文,在統(tǒng)計表格上可能貢獻相同的分值。這種激勵機制天然地獎勵短平快的產(chǎn)出,懲罰需要長期投入的深耕。
技術(shù)變革正在放大這種扭曲。生成式AI降低了寫作門檻,開放數(shù)據(jù)庫消除了數(shù)據(jù)獲取成本,統(tǒng)計軟件的自動化功能減少了技術(shù)壁壘。學(xué)術(shù)生產(chǎn)的門檻從未如此之低,而質(zhì)量控制的手段卻未能同步進化。
堵住FAERS這一個口子,灌水者會涌向NHANES,涌向任何下一個被發(fā)現(xiàn)的數(shù)據(jù)寶庫。
那篇被撤回的GLP-1論文提供了一個觀察窗口。它并非典型的數(shù)據(jù)庫灌水作,作者來自正規(guī)學(xué)術(shù)機構(gòu),研究設(shè)計也相對完整。但它與那些流水線產(chǎn)品共享同一種深層病理:用復(fù)雜的數(shù)據(jù)操作替代清晰的因果邏輯,用統(tǒng)計顯著性包裝缺乏理論根基的"發(fā)現(xiàn)"。
Allison在回顧這個案例時提到,這涉及一個新興的研究領(lǐng)域——治療反應(yīng)異質(zhì)性。他認(rèn)為這個領(lǐng)域亟需方法學(xué)的規(guī)范,"讓人們理解什么是合理和合規(guī)的研究方法"。
但規(guī)范一個領(lǐng)域容易,規(guī)范整個學(xué)術(shù)生產(chǎn)的激勵結(jié)構(gòu)困難得多。
Spick提出了一個尖銳的元科學(xué)問題:我們應(yīng)該允許毫無意義的科學(xué)研究發(fā)表嗎?這個問題至今沒有共識。但在爭論繼續(xù)的同時,數(shù)以千計的類似論文正在進入索引系統(tǒng),被引用,被納入綜述,潛移默化地塑造著醫(yī)學(xué)知識的版圖。
它們不是謊言,卻正在構(gòu)成一種比謊言更隱蔽的知識污染。
尾聲:重建學(xué)術(shù)的價值錨點
FAERS危機是一面鏡子,映照出開放科學(xué)時代的新挑戰(zhàn)。
數(shù)據(jù)共享本是為了加速發(fā)現(xiàn)、造福公眾,卻在特定的激勵環(huán)境下異化為論文制造業(yè)的原材料。技術(shù)賦能讓"生產(chǎn)"變得無比高效,卻讓"創(chuàng)造"的價值更加稀缺。
解決之道不在于關(guān)閉數(shù)據(jù)庫,而在于重建評價體系的重心。一篇論文的學(xué)術(shù)價值,應(yīng)當(dāng)由它回應(yīng)的問題質(zhì)量來衡量,而非由它消耗的數(shù)據(jù)體量或運行的統(tǒng)計檢驗次數(shù)來判定。
在算法能夠批量生成符合格式規(guī)范的"研究"的時代,人類研究者的核心競爭力恰恰在于提出真問題的能力,在于對臨床現(xiàn)象的敏銳觀察,在于對生物學(xué)機制的深刻理解。這些無法被模板化的素質(zhì),應(yīng)當(dāng)成為學(xué)術(shù)評價的真正標(biāo)尺。
否則,我們終將面對一個文獻爆炸卻知識貧瘠的未來:數(shù)據(jù)庫越來越多,論文越來越厚,而真正推動醫(yī)學(xué)進步的真知灼見,卻淹沒在統(tǒng)計噪音的汪洋之中。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.