![]()
這項由東南大學、北京中關村學院與昆山杜克大學聯合開展的研究,于2026年6月發表于arXiv預印本平臺,論文編號為arXiv:2606.00644。感興趣的讀者可以通過該編號檢索到完整論文。
一、為什么需要一個"先見之明"的測試?
每一位在科研領域工作過的人都會遇到這樣的困境:面對一堆已知的研究成果,如何判斷接下來哪個方向最值得花六個月時間深耕?哪個技術卡口一旦突破,就能打開一片新天地?這類決定不是查閱文獻就能找到答案的,它需要的是一種從已有線索中推斷未來走向的能力——姑且稱之為"科研先見之明"。
當前,人工智能輔助科研工具正以驚人的速度滲透進實驗室日常。從自動整理文獻到生成研究方案,AI助手越來越頻繁地參與到科研決策的鏈條中。然而,一個關鍵問題始終沒有得到正面回答:這些AI系統到底能不能憑借歷史證據,對尚未發生的科研走向做出靠譜的判斷?
研究團隊注意到,現有的評測基準幾乎都在考察AI系統的"事后理解"能力,也就是能不能檢索到已知論文、回答已知問題、執行已知流程。沒有任何測試系統地考察過:給定一個特定歷史時間點之前的所有文獻,AI能否像一位有經驗的科研人員那樣,做出合理的前瞻性判斷?
正是為了填補這個空白,研究團隊構建了ForeSci,一個專門用來評估AI科研代理(也就是具備自主行動能力的AI系統)能否做出前瞻性科研判斷的基準測試平臺。
二、ForeSci是什么?一個模擬"只知道過去"的測驗考場
理解ForeSci最好的方式,是把它比作一場特殊的考試。在這場考試里,考官會對考生說:"現在是2025年9月30日,我只會給你那天以前發表的論文,然后問你一些關于未來走向的問題。你的答案會等到未來真正發生之后,再來對照評分。"
這個設計抓住了前瞻性科研判斷的核心挑戰:你不能偷看答案,但你必須給出有理有據的判斷。
ForeSci覆蓋了四個快速演進的AI研究領域,分別是大語言模型智能體(可以理解為能自主執行復雜任務的AI)、大語言模型微調與后訓練(讓AI變得更聽話、更專業的技術)、檢索增強生成與信息檢索(讓AI能從外部知識庫中找到相關信息再作答的方法),以及視覺生成建模與擴散模型(能夠生成圖片、視頻等內容的AI技術)。這四個領域共同構成了500道考題,分布在四種不同類型的科研決策任務中,每種類型各125道題。
配合每道題的,是一套"截止日期對齊的線下知識庫",也就是那道題對應時間點之前所有可用的論文。截止日期之后的論文對AI系統完全隱藏,只用于最終評分。此外,研究團隊還特別挑選了在截止日期之前就已完成訓練的AI語言模型作為測試對象,從根本上杜絕了AI通過自身記憶"偷看"未來信息的可能。
三、四種科研決策任務:不同角度的"先見之明"
為了讓測試更貼近真實的科研決策場景,ForeSci設計了四種風格迥異的任務,每一種都考察不同維度的前瞻判斷能力。
第一種叫做方向預測,考的是眼光。給AI一組候選研究方向,以及截止日期前的所有相關信息,然后問:這些方向中,哪一個最有可能在接下來的一段時間內加速發展?這就好像讓一位股票分析師在只掌握歷史數據的情況下,判斷哪只股票最有可能在下個季度大漲。
第二種叫做瓶頸與機會發現,考的是診斷能力。給AI一個特定的研究子方向,問它:當前這個方向最根本的技術瓶頸是什么?如果這個瓶頸被攻克,會打開怎樣的一步之遙的新機會?這類問題類似于讓一位機械工程師在檢查完發動機之后,指出最關鍵的磨損部位,并預判修好之后能解鎖什么新功能。
第三種叫做戰略研究規劃,考的是統籌能力。給AI一套候選研究方向,以及一個假想團隊的資源限制,要求它按優先級排列這些方向,并給出六個月的行動路線圖。這一任務的難度在于,不僅要理解每個方向的潛力,還要考慮依賴關系、可行性和風險,就像一位項目經理在有限預算下編排多個并行任務的順序。
第四種叫做場館感知研究定位,考的是社區敏感度。給AI一篇擬議中的論文摘要,要求它判斷這篇工作最適合投向哪個國際學術會議,并解釋為什么在這個會議的審稿人面前,這項工作會受到認可,同時還需要指出潛在的被拒風險和可以加強的證據。這就像是讓一位老編輯看完一篇文章草稿后,判斷它更適合刊登在時尚雜志還是財經周刊,并給出具體的修改建議。
四、知識庫是怎么搭建的?一棵會生長的研究地圖
為了保證每道題都有堅實的歷史證據支撐,研究團隊花費了大量精力構建"時間鎖定知識庫"。他們從arXiv預印本平臺批量爬取候選論文,通過Semantic Scholar豐富元數據,去除重復項,再經過兩輪篩選。第一輪篩掉那些只是在表面上使用了相關詞匯但內容并不真正屬于目標領域的論文,第二輪進一步識別出具有核心貢獻價值、能對未來研究走向提供有用信號的"骨干論文"。最終,四個領域的知識庫分別包含了2769、2131、767和913篇文章。
然而,光有論文還不夠。研究團隊還基于這些文獻構建了一棵隨時間生長的"研究分類樹",借助一個名為TaxoAdapt的工具,自動從文獻中歸納出研究子方向,并用"延伸""適配""替換""競爭"等關系連接不同的技術節點。這棵樹會隨著時間推移不斷生長,每一個樹節點都對應著一批截止日期前可見的論文,記錄著這個子方向在那一時間點之前面臨的問題、采用的方法、評測重心和局限性。
從這棵"研究地圖"中,研究團隊進一步提煉出若干高層次信號,包括候選研究方向、方法演化脈絡(即某個技術是如何一步步從上一代方法演化而來的)、瓶頸信號(哪些局限性在多篇論文中反復出現)、可行性與依賴關系注記,以及各個學術會議的社區畫像。所有這些結構都先由AI系統從截止日期對齊的文獻中提取,再由人類專家核查時效性和支撐強度,最終才被用于生成考題。
五、如何評判答案的好壞?四把不同尺子
評判一個前瞻性科研判斷的質量,遠比評判一道選擇題復雜得多。研究團隊為此設計了四個互補的評分維度,每一個維度都從不同側面衡量答案的質量。
第一個維度叫做預測事實性。具體做法是把AI的回答拆解成一個個獨立的、最小化的事實性陳述,再把這些陳述與來自截止日期之后真實論文的"事實驗證庫"進行核對,最終計算一個類似精確率與召回率調和平均數的F1得分。這就像核查一篇新聞報道里每一句話的準確性,既要確保說出去的每句話都有來自未來的證據支持,也要確保重要的未來事實沒有被遺漏。
第二個維度叫做未來目標對齊度。對于方向預測和瓶頸發現這類任務,評分系統會把AI預測的方向或瓶頸與來自截止日期之后真實演變軌跡所歸納的"目標槽位"進行語義相似度比對,用的是一個叫做bge-m3的文本嵌入模型。對于排序類的任務(研究規劃和場館定位),則直接比對AI給出的排名與標準答案排名的一致程度,綜合考察最高優先項是否匹配、各項位置是否準確、兩兩順序關系是否保持。
第三個維度叫做證據可追溯性,專門用于評判AI系統有沒有真正用上截止日期前的文獻來支撐自己的判斷。評分員會檢查三個方面:AI的主要論斷有沒有明確關聯到具體的論文或證據片段,關聯的證據有沒有足夠的判別力(而不是泛泛的主題相關),以及答案中從證據到結論的推理鏈條有沒有隱性跳躍。這個維度只適用于那些有外部檢索支撐的系統,對于直接用AI語言模型本身作答、不調用外部知識庫的基礎版本則不適用。
第四個維度叫做審稿人說服力。這個維度讓另一個大語言模型扮演"虛擬審稿人"的角色,根據任務類型專用的評分表,從決策清晰度、機制推理質量、比較推理質量、清晰度和風險意識等多個子維度給出綜合打分。由于這個維度依賴大語言模型的判斷,存在一定的隨機性,研究團隊因此采取了多次重復評分取平均值的策略,以量化其波動范圍。
六、測了什么樣的AI系統?五種不同"配置"
研究團隊沒有只評測一種AI系統,而是在四種不同的基礎語言模型上,分別測試了五種不同的工作方式。
基礎語言模型直接作答的方式是最樸素的"原生LLM"配置,就是直接把問題扔給AI,讓它憑自身學到的知識作答,不提供任何外部檢索支持。這是基準線。
第二種配置叫做混合檢索增強生成,即在AI作答之前,先通過稀疏檢索(類似關鍵詞搜索)和密集檢索(基于語義相似度的向量搜索)兩種互補方式,從知識庫里撈出最相關的文獻片段,然后連同問題一起喂給AI。這好比考試之前允許翻開參考書,但書的內容被嚴格限定在截止日期之前。
剩下三種配置模仿了真實世界中已有的科研代理系統,分別是CoI風格(靈感來自"想法鏈"系統,側重通過多步驟推理鏈條生成和篩選研究思路)、ResearchAgent風格(模擬能自主規劃評審流程、生成結構化科研方案的代理系統)以及ARIS風格(模擬能做科研工作流中多環節任務的前沿代理平臺)。這三種系統都被嚴格改造,使其只能調用截止日期對齊的本地知識庫,不能聯網搜索任何額外信息。
測試所使用的四種基礎語言模型分別是Qwen3-235B(2025年4月29日發布)、GPT-5.2(知識截止日期為2025年8月31日)、GLM-4.6(2025年9月30日發布)以及Gemini-3(知識截止日期為2025年1月),全部在對應測試任務的截止日期之前完成訓練,從而確保不存在信息泄漏。
七、測試結果告訴我們什么?"能檢索"不等于"能判斷"
研究結果呈現出一幅耐人尋味的圖景。從整體來看,具有代理風格的系統在證據可追溯性和預測事實性這兩個維度上,普遍優于直接作答的基礎語言模型和簡單檢索增強生成系統。換句話說,當AI系統有了更有組織、更有結構的檢索和推理流程,它確實能更清楚地展示"我的判斷是基于哪些文獻的哪些內容",同時在事實準確性上也有所提升。
然而,這種提升并不均勻,也并不必然轉化為更好的整體判斷質量。在審稿人說服力這個維度上,代理風格系統的優勢并不穩定——有些時候,組織良好的檢索結構反而給最終答案引入了雜音,讓輸出顯得結構僵硬而缺乏洞見,拉低了審稿人給出的綜合評分。更值得注意的是,沒有任何一種方法能在所有基礎模型、所有任務類型和所有評分維度上同時占據最優位置。這意味著"更好的AI科研代理"這件事,沒有放之四海而皆準的解法。
從單項任務來看,戰略研究規劃是最難的任務類型:預測事實性低分率高達0.315,未來目標對齊度低分率更是高達0.512。原因并不難理解——這類任務要求AI給出一個全局排序,只要最高優先項判斷錯誤,整個方案的邏輯都會出現系統性偏差,而不像單個方向預測那樣可以允許局部誤差。場館定位和瓶頸發現任務則呈現出不同的失敗模式,前者的失敗往往源于檢索到的證據缺乏足夠的會議社區特異性,后者的失敗則更多來自對因果角色的錯誤歸因。
八、最關鍵的發現:證據與決策之間的"脫鉤"
這項研究最具診斷意義的發現,可以用"證據-決策脫鉤"這個詞來概括。研究團隊通過系統性的錯誤分析,識別出了四種典型的"答案漂移"模式。
第一種叫范圍與粒度漂移,指AI的回答討論的是一個相關的研究方向,但精度層級不對——比如問題問的是某個具體的技術改進路線,AI給出的卻是這個方向上游的一個更寬泛的大類別。
第二種叫因果角色漂移,指AI對某個技術因素的歸因出了偏差——比如把一個"被解鎖的機會"錯誤地當成了"根本性瓶頸"來描述,方向沒錯但因果結構反了。
第三種叫干預模式漂移,指AI識別出了正確的問題領域,但推薦的解決路徑類型不對——比如標準答案要求的是"改變訓練目標",而AI給出的卻是"優化系統集成",同是改進方案,但方向完全不同。
第四種叫時間視野漂移,指AI的判斷落腳在了錯誤的成熟度階段——比如題目問的是近期可落地的機會,AI給出的卻是一個更長遠的愿景目標。
研究團隊對這四種漂移的嚴重程度進行了量化評分,并計算了每種漂移對各評分維度的影響。結果顯示,因果角色漂移會讓預測事實性得分下降1.13個標準差,范圍漂移和干預模式漂移則分別讓未來目標對齊度下降1.22和1.12個標準差。
更令人印象深刻的是,研究團隊還專門檢驗了"高證據可追溯性但低未來目標對齊度"的案例。在所有高可追溯性答案中,那些同時具有低對齊度的答案,在四種漂移維度上的嚴重程度都顯著高于那些高可追溯性且高對齊度的答案。一個具體例子是:某Gemini-3 ARIS系統的答案在一道場館定位題上獲得了0.920的超高可追溯性得分,但預測事實性僅有0.200,未來目標對齊度只有0.355。這個系統引用了大量正確的歷史文獻證據,論證邏輯也看起來通順,但它最終給出了"投NeurIPS最合適"的建議,而標準答案是"投ACL/EMNLP最合適"——因為這項工作的核心定位是語言模型的后訓練與對齊,而不是泛化的強化學習方法論。
這個發現揭示了一個此前沒有被專門研究過的失敗模式:AI系統可以非常有說服力地"從A引向B",但如果一開始對研究對象的定性就出了偏差,那么無論后續的推理多么流暢,最終的判斷仍然是錯的。
九、預見未來的展望:這個框架還能繼續用
ForeSci不僅僅是一套存檔式的測試題庫。研究團隊特別強調,整套構建流水線支持持續刷新。他們在論文發布時,已經以2026年5月15日為截止日期,針對LLM智能體領域生成了12道預測題,覆蓋四種任務類型,預測窗口為2026年5月16日至8月15日。由于目標結果尚未發生,這12道題沒有評分,但展示了這套機制作為實時科研預測工具的可行性——每當新文獻積累到足夠數量,就可以用同一套方法生成新一批前瞻性考題,并在未來到來之后對答案質量進行驗證。
從更宏觀的角度看,這意味著ForeSci可以成為一個持續運行的"AI科研代理能力監測站",隨著人工智能研究本身的演進,不斷測量這類系統的科研決策能力是否真正在提升。
研究團隊也坦誠地指出了這項研究的局限。ForeSci目前只覆蓋了四個快速演進的AI細分領域,研究結果反映的是在這一受控基準環境下的特定表現,不宜直接推廣為所有科學領域AI代理的通用排名。此外,評測主要依賴截止日期后的學術論文作為驗證基準,無法捕捉那些存在于非正式渠道中的社區共識、未公開工作或私下的審稿偏好。場館定位和戰略規劃這兩類任務本身就具有偏好敏感性,不同人可能有不同但同樣合理的判斷,因此這套框架更適合用來比較失敗模式和證據使用方式,而不是認定唯一最佳答案。
說到底,這項研究最核心的貢獻不是告訴我們哪個AI最聰明,而是揭示了一個以前沒人系統量化過的能力缺口:AI系統可以把文獻檢索做得很好,把推理鏈條寫得很漂亮,但在"把證據轉化為正確的研究判斷"這件事上,它們仍然容易出現系統性的方向性錯誤。
歸根結底,科研先見之明是一種需要理解研究社區文化、技術演化邏輯和資源約束三者交匯的能力,而不只是把相關論文找齊、邏輯寫通順這么簡單。當我們越來越多地讓AI系統參與到科研決策鏈條中時,這種區別就變得至關重要。ForeSci提供了一個量化這種區別的工具,也為未來改進這類系統指出了一個具體的方向:不是讓AI檢索更多,而是讓AI在把證據轉化為判斷時,不再悄悄地把根本問題的角色、層級和時序搞錯。有興趣深入了解這項研究的讀者,可以通過arXiv編號2606.00644查閱完整論文。
Q&A
Q1:ForeSci基準測試和普通的AI文獻問答測試有什么本質區別?
A:普通的AI文獻問答測試考察的是AI系統能否從已有文獻中找到正確答案,屬于"事后理解"能力。ForeSci的核心不同之處在于它模擬了一種"信息封鎖"的情景:給AI一個特定歷史時間點之前的所有文獻,然后要求它對那個時間點之后才會發生的科研走向作出判斷,而真正的評分要等到未來真實發生之后才能進行。這考察的是從歷史證據推斷未來方向的"前瞻性判斷"能力,而非單純的信息檢索能力。
Q2:證據-決策脫鉤是什么意思?為什么這個發現很重要?
A:證據-決策脫鉤描述的是這樣一種失敗模式:AI系統引用了真實且相關的歷史文獻證據,推理鏈條看起來也很通順,但最終給出的科研判斷方向是錯誤的。這種錯誤很難從表面察覺,因為答案看起來有理有據。研究發現,這種情況在高可追溯性但低目標對齊度的答案中尤為突出,說明"檢索能力強"和"判斷能力強"是兩件不同的事,不能用前者替代后者來評估AI的科研決策價值。
Q3:ForeSci測試的四種任務類型中哪個最難,為什么?
A:戰略研究規劃是最難的任務類型,預測事實性低分率達到0.315,未來目標對齊度低分率更高達0.512。原因在于這類任務要求AI給出一套全局優先級排序,一旦最高優先項判斷錯誤,整個方案的邏輯就會出現系統性偏差。而方向預測類任務只需要判斷單個方向的走勢,局部誤差的代價相對可控。此外,戰略規劃還要同時考慮依賴關系、可行性和資源限制,信息維度更復雜,錯誤的早期假設會被放大成整套錯誤方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.