網易首頁 > 網易號 > 正文申請入駐

如果論文的主要讀者不再是人

2026-06-19 18:49:04　來源: 知識分子

北京舉報

分享至

撰文｜董彬北京大學北京國際數學研究中心教授?

做數學研究有一個基本循環，讀論文，從中獲得啟發或找到工具，用它們解決自己的問題，然后把結果寫成論文發表，等待別人來讀。影響力在這個循環里自然產生。一篇論文如果真的有用，會被后來的研究者讀到、引用、依賴。被引次數、h-index、期刊影響因子，這些指標雖然對象不同，但都把被同行引用作為核心信號之一。[1]

這套體系運轉了幾十年，問題不少（DORA 和萊頓宣言批評了十幾年 [1]），但底層邏輯是通的。人讀論文，人引論文，人的閱讀行為構成影響力的基礎數據。

然后 AI 開始介入這個循環的各個環節。

最初是寫作端。AI 幫你潤色英文、整理參考文獻、畫圖表，省掉一些機械勞動，但核心的智力工作還是人在做。接下來是閱讀端。AI 幫你總結一篇長論文、提取關鍵結論、在幾百篇文獻中篩選出可能相關的那十幾篇。再往后是方法端。AI 開始參與實驗設計、代碼生成、數據分析。Nature今年的一項大規模研究分析了 4130 萬篇論文，識別出一批 AI-augmented researchers，發現他們的論文數量約為 3 倍、引用量約為 5 倍[2]。但同一研究也提到，科學整體的主題覆蓋收縮了 4.63%，不同研究間的交叉承接互動下降22%。個人產出在膨脹，集體視野在收縮。產出加速了，但加速本身并不等于進步。

每一步變化發生的時候，感覺都只是效率的提升，科研的本質沒有變。所有學科都面臨類似的瓶頸：AI 加速了產出，但驗證跟不上。實驗科學需要重復實驗，臨床研究需要多中心試驗，這些驗證成本無法靠算力壓縮。

但數學這邊有一條獨特的出路。AI 同樣在加速數學的產出，而純數學的證明極難審，一篇論文審一兩年是常事。陶哲軒最近談到，當 AI 讓提出候選證明、搜索文獻和測試思路的成本下降時，可靠驗證和結果審查反而變得更加關鍵[3]。Buzzard近年來也反復強調，現代數學證明的復雜度已經讓傳統審稿很難逐步核查每個細節[4]。產出端在膨脹，審核端還是那些疲憊的人類專家。

但數學至少在原則上有一條出路：當命題和證明被準確形式化后，證明是否成立可以由機器來判定。真正困難的是形式化命題是否忠實表達了人類原本想證明的數學，但一旦這一步完成，邏輯核查就可以交給機器，人類專家轉向檢查定義、形式化目標和證明策略。形式化目前覆蓋的數學還遠不到前沿研究的程度，但邊界在快速擴展。我們團隊開發的LeanSearch（http://leansearch.net）是Mathlib的語義搜索引擎，團隊內部監測顯示，調用量在三個月內從日均不到 2000 次增長到超過 10 萬次/日[5]。單個工具的增長不等于整體趨勢，但至少說明形式化社區的活躍度在快速上升。Scholze 早在 2021 年就說過，“原則上可以在 Lean 中形式化任何你想形式化的東西”[6]。DeepMind 的 AlphaProof已經能在 Lean 4 中找到 IMO 級別問題的形式化證明[7]。這個趨勢預示著未來的一個可能性：AI 提出證明，形式化系統驗證，人類在關鍵節點選擇問題和判斷方向。

如果這個趨勢延續下去，數學論文的產出速度會遠超任何人的閱讀能力。在許多快速增長的方向里，單靠個人閱讀已經越來越難追蹤領域進展，研究者不得不借助搜索、推薦、形式化庫和 AI agent 來篩選信息。

那個“讀論文，獲得啟發，解決問題，發表論文”的基本循環，中間的每一步都開始由 AI 代勞。而當 AI 代勞到一定程度，我們就需要重新思考“影響力”的含義。

以 Allen Institute for AI 的 Asta 系統為例。Asta 在為用戶生成文獻綜述時引用了哪些學術論文，Allen AI 從去年開始追蹤這些數據。半年多下來，累計追蹤到近 500 萬次引用，覆蓋了 207 萬篇論文[8]。這些引用沒有進入 Google Scholar，沒有進入 Web of Science，沒有出現在任何一個學者的 h-index 里。在現有的學術評價體系中，它們不存在。但一個 AI 系統在替用戶解決問題時，確實檢索并顯式引用了這些論文，把它們作為回答用戶問題的知識來源。Asta 的意義不在于它已經給出了新的評價體系，而在于它第一次讓我們看見：AI 系統如何在具體問題中實際調用學術知識。

AI 引用同樣存在集中度，頭部論文占據了大部分引用。但 AI 的篩選邏輯和人類的不同。人類引用受同行互引、學術政治、聲望光環等主觀因素影響，在 RAG 型科研 agent 中，排序信號更直接地面向當前問題的相關性和可用性。當然，AI 的訓練數據本身繼承了人類世界的偏見，英語論文覆蓋率遠高于其他語言，高被引論文在語料中出現頻率更高，一個從未上過 arXiv 的關鍵引理在 AI 檢索中可能完全不可見。AI 不一定復制人類引用網絡中的所有舊偏見，但它會引入新的系統性盲區。即便如此，這類調用日志也許提供了一個比傳統引用更接近即時使用場景的觀察窗口。

回到數學。AI agent 在為你解決問題時檢索了哪些定理、調用了哪些引理、使用了哪些工具，這些調用記錄本身就構成了一種新的影響力度量。數學品味是否可以量化？恐怕不能完全量化。品味包含對美感的判斷、對深度的直覺、對“什么問題重要”的嗅覺，這些東西很難被任何指標捕獲。但品味有一些可觀測的切面：一條定理在數學知識網絡中連接了多少不同的領域，它作為橋梁的結構性價值，可能比它被幾篇論文引用更能反映它對數學整體的貢獻。當 AI 系統大規模地在這個知識網絡中檢索和調用時，這種結構性價值第一次變得可觀測了。

在數學中，形式化驗證使一部分 AI 調用信號更容易被解釋：如果 agent 調用了某個已形式化定理，我們至少知道它在一個經過核查的形式系統中被復用過。其他學科沒有這種確定性的正確性判定機制，信號更弱更模糊，但趨勢方向一致。當越來越多的研究者通過 AI agent 獲取知識，agent 在這個過程中調用了誰的工作，誰就獲得了更多關注。不是因為 agent 在主動賦予聲望，而是因為在特定任務、語料庫和檢索策略下，它把某些工作判定為更相關、更可調用；人類看到的，正是這層篩選后的結果。當足夠多人的 agent 都檢索到了同一篇工作，這篇工作在人類世界的注意力也會自然上升。

由此可以再推一步。借用一個略帶科幻色彩的說法，一個學者在碳基圈（人類世界）的影響力，可能越來越受到其工作在硅基系統中可檢索、可調用、可復用程度的影響。人類獲取知識越來越多地通過 AI 過濾，你所看到的成果是你的 agent 在為你解決問題時檢索到的，而 agent 檢索到的是在硅基世界中被證明有用的東西。碳基圈的聲望，反過來由硅基圈的使用頻率所塑造。

當 AI 降低了常規問題求解的成本，真正稀缺的不再是"做出來"，而是"值得被用"。對年輕研究者來說，這未必是壞消息。在這套邏輯下，一項工作的能見度越來越取決于它在硅基系統中是否被證明有用，而非作者在碳基圈的資歷與位置。陶哲軒最近的判斷也指向類似的方向：當 AI 承擔了更多常規求解，研究者的核心價值轉向選擇正確的問題、設計合理的工作流程以及仔細檢查結果[9]。"做"的門檻在降低，"被選中"的權重在上升，不管是被人選中，還是被 AI 選中。當然，"被證明有用"本身不容易，但至少游戲規則正在變得更可驗證。

這個框架如果成立，還意味著影響力不再只通過正式論文這一種載體顯現。一段寫在 GitHub 上的代碼、一條寫入形式化數學庫的引理、一個可被 AI agent 調用的工具，從未以論文形式發表，但在 AI 系統中的影響力可能遠超某些發在頂刊上的論文。Matplotlib 的論文被引用了兩萬多次，但依賴它的軟件包數量曾被統計到接近三十萬個量級，實際使用的廣度遠超引用數字所能反映的[10]。被依賴和被引用之間的巨大鴻溝，軟件引用運動推了十年也沒能彌合[11]。但在 AI 時代，這個問題也許會以一種意想不到的方式被繞過，至少在 RAG 和工具調用這類場景中，AI 系統對知識的顯式調用在工程上更容易被記錄，不完全依賴人類作者事后自覺地補上一行引用。

如果被 AI 引用成為一種影響力指標，Goodhart 定律幾乎必然會發生，研究者開始優化自己的工作以提高 AI 可見性，而不是追求真正的知識貢獻。任何指標一旦成為評估標準就會被博弈，AI 調用量大概也不例外。它最多應被視為一種輔助觀察信號，而不應直接變成新的考核指標。

陶哲軒和 Michael Harris 對 AI 在數學中的角色有不同的側重[12]，陶哲軒看到的是 AI 擴大了數學的產出能力，Harris 擔憂的是 AI 可能破壞數學的理解功能。證明了多少定理是一回事，創造了多少數學理解是另一回事。硅基影響力能衡量前者，一條定理被調用了多少次、連接了多少領域，但它能衡量后者嗎？一個深刻但難以形式化的洞察，一個改變了一代人思維方式的概念框架，這些東西在 AI 的調用日志里可能完全不可見。但這兩件事也許不像表面上那樣對立。Scholze 做形式化的初衷是確認正確性，結果卻獲得了更深的理解。形式化本身可以是通向理解的路徑，不一定是理解的對立面。真正的風險不在于工具，而在于用工具的人是否還追問“為什么成立”，還是只滿足于“確認成立”。

這些推演是否兌現，取決于接下來五到十年技術和制度的共同演化，沒有人有確定答案。

但不管評價體系怎么變，驅動好的研究的東西沒變過，好奇心，對問題本身的興趣，以及生命中那些屬于人的部分。Scholze 當初發起 Liquid Tensor Experiment的形式化，是因為他自己也不確定是否有人真正讀懂了那個證明，他想用機器來確認[6]。完成后他說，形式化過程讓他“理解了證明實際上為何成立”。這不是為了什么硅基影響力，就是一個數學家對自己證明的誠實。這些東西不在任何 agent 的調用日志里，但它們可能是唯一真正重要的。

注：本文也發布在知乎。

參考文獻：
[1] DORA (San Francisco Declaration on Research Assessment), 2013. https://sfdora.org ; Hicks, D., Wouters, P., et al. “Bibliometrics: The Leiden Manifesto for research metrics.” Nature, 520, 429–431, 2015. https://www.nature.com/articles/520429a
[2] Hao, Q., Xu, F., Li, Y., & Evans, J. “Artificial intelligence tools expand scientists’ impact but contract science’s focus.” Nature, 649, 1237–1243, January 14, 2026. https://doi.org/10.1038/s41586-025-09922-y
[3] Tao, T. “AI is ready for primetime in math and theoretical physics.” IPAM 會議暨 OpenAI Academy 博客, March 6, 2026. https://academy.openai.com/public/blogs/terence-tao-ai-is-ready-for-primetime-in-math-and-theoretical-physics-2026-03-06
[4] Buzzard, K. 關于 referees 與形式化驗證的觀點，參見 Science News, “Math, disrupted: AI can now verify proofs,” 2026. https://www.sciencenews.org/article/math-disrupted-by-ai-verify-proofs ; 及其在 ITP 2019、http://plus.maths.org 等場合的多次公開發言。
[5] LeanSearch 調用量統計（實時前端渲染數據，具體數值以訪問時頁面或后臺日志為準）. https://leansearch.net/stats.html
[6] Scholze, P. “Half a year of the Liquid Tensor Experiment: Amazing developments.” Xena Project, June 5, 2021. https://xenaproject.wordpress.com/2021/06/05/half-a-year-of-the-liquid-tensor-experiment-amazing-developments/ ; 另見 Hartnett, K. Quanta Magazine, July 28, 2021. https://www.quantamagazine.org/lean-computer-program-confirms-peter-scholze-proof-20210728/
[7] Hubert, T. et al. “Olympiad-level formal mathematical reasoning with reinforcement learning.” Nature 651, 607–613 (2026). Published online Nov. 12, 2025. https://doi.org/10.1038/s41586-025-09833-y
[8] Atmakuri, S., Singh, A., & Downey, D. “Making AI citations count with Asta.” Allen AI Blog, October 8, 2025. https://allenai.org/blog/asta-citations
[9] Tao, T. 引述自 Castelvecchi, D. “The job description is changing.” Nature, 653, 16–17, April 27, 2026. https://www.nature.com/articles/d41586-026-01246-9
[10] Hunter, J.D. “Matplotlib: A 2D Graphics Environment.” Computing in Science & Engineering, 9(3), 90–95, 2007. Semantic Scholar 等數據庫中引用數會隨時間變化，此處只取量級。軟件包依賴數據參見 Katz, D.S. & Murray, H. “Citing Software in Scholarly Publishing.” Scholarly Kitchen, January 21, 2021. https://scholarlykitchen.sspnet.org/2021/01/21/guest-post-citing-software-in-scholarly-publishing-to-improve-reproducibility-reuse-and-credit/
[11] Smith, A.M., Katz, D.S., Niemeyer, K.E., et al. “Software Citation Principles.” PeerJ Computer Science, 2:e86, 2016. https://doi.org/10.7717/peerj-cs.86
[12] Harris, M. “Silicon Reckoner” (Substack). https://siliconreckoner.substack.com ; Ithaka S+R. “A Third Transformation? Generative AI and Scholarly Publishing.” 2024.https://sr.ithaka.org/publicati

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.