網易首頁 > 網易號 > 正文申請入駐

中國人民大學研究團隊：讓機器自主完成幾十小時的科研工程

2026-04-22 22:31:16　來源: 科技行者

北京舉報

分享至

這項研究由中國人民大學高嶺人工智能學院聯合獨立研究機構及AweAI團隊共同完成，于2026年4月14日以預印本形式發布，論文編號為arXiv:2604.13018。有興趣深入了解的讀者可通過該編號查詢完整論文。

一、從"寫代碼的AI"到"做科研的AI"，這一步有多難？

科研工作在很多人眼里是一項需要高度專注和持續推進的復雜工作。一位機器學習方向的博士生，拿到一篇論文后，需要先讀懂它，再搭建運行環境，接著動手寫代碼，然后跑實驗、看結果、發現問題、修改代碼、再跑……這個循環往往持續好幾天，中間任何一步出了岔子，都可能前功盡棄。

現在，有人想讓AI代替人類完成這整套工作，而且是從頭到尾、不依賴人類干預，連續工作幾十個小時。這就是這篇論文要解決的問題所在——不是讓AI寫一段代碼，也不是讓AI回答一道題，而是讓AI像一名真正的科研工程師那樣，端到端地完成整個機器學習研究的復現與優化流程。

中國人民大學的研究團隊將這類任務稱為"長周期機器學習研究工程"。他們開發了一個叫做AiScientist（以下簡稱"AI科學家"）的系統，并在兩個業界公認頗具挑戰性的測試基準上驗證了它的能力。結果相當值得關注：在第一個基準PaperBench上，AI科學家的平均得分比此前最強的AI基線系統高出10.54分；在第二個基準MLE-Bench Lite上，它以81.82%的"獲獎率"超越了所有有記錄的對比系統，其中包括多個已公開發布的知名商業和研究機構系統。

二、讓AI完成科研的四道關卡：為什么這件事比看起來難得多？

要理解AI科學家的設計思路，首先得明白這項任務到底難在哪里。研究團隊將挑戰歸納為四個層面，每一個單獨拿出來都不簡單，而它們疊加在一起，就構成了一道極為復雜的難題。

第一道關卡是"信息不全"。現實中，一篇機器學習論文往往不是一份完整的操作手冊。作者可能只寫了主要思路，很多實現細節散落在各個章節，甚至完全沒有提及。AI必須像一個經驗豐富的工程師一樣，從不完整的描述中推斷出缺失的決策，必要時還得查閱相關文獻或公開資源來補全。

第二道關卡是"環境搭建負擔"。光有算法還不夠。要讓代碼真正跑起來，需要配置運行環境、下載數據集、獲取預訓練模型，并將所有這些資源拼接成一個可運行的完整系統。這部分工作在實際工程中常常耗時最多，卻最容易被忽視。

第三道關卡是"延遲反饋"。AI提交的代碼不會立即報告"這里有一個邏輯錯誤"。真正的信息要等到實驗跑完才能看到：結果對不上論文中的數字，但是到底是哪里出了問題——是數據預處理、模型結構、超參數設置，還是環境配置——很難一眼判斷。AI必須在這種模糊的反饋中做出合理的判斷。

第四道關卡是"狀態連續性"。每一輪實驗都會產生代碼、日志、結果、診斷記錄。下一輪工作必須正確理解并建立在前一輪的基礎之上。如果AI每次都"忘記"之前做了什么、發現了什么，它就會一直在原地打轉，反復踩同樣的坑。

正是第四個挑戰，成為了AI科學家整個設計哲學的核心出發點。

三、"薄控制、厚狀態"：一套聽起來奇怪但非常有效的工作方式

研究團隊用一句話概括了AI科學家的設計核心："薄控制，厚狀態"。這句話乍聽有些抽象，但用一個具體的比方來理解就清晰多了。

假設你是一個大型建筑項目的總監。你不可能親自去工地搬磚、測量、焊接，但你需要知道每棟樓蓋到什么階段了，下一步應該安排哪個專業隊進場。你的管理方式是：讓每個專業隊把工作記錄寫在一個共享的項目文件夾里，你通過翻閱這個文件夾上的目錄（而不是每一份詳細記錄）來做決策。需要看具體情況時，你再去翻對應的文件。

這里，"薄控制"說的就是你這個總監——他對每件事只需要了解概要，不需要把所有細節裝進自己腦子里。"厚狀態"說的就是那個共享文件夾——它積累了所有真實的工作記錄、設計圖紙、問題診斷，是整個項目真正的"記憶"所在。

AI科學家正是按照這個邏輯構建的。系統的頂層有一個"指揮官"（Orchestrator），它不需要隨時掌握所有細節，只需要知道項目走到哪個階段了，下一步該交給哪個專業團隊。真正的工作細節——論文分析、代碼、實驗記錄、錯誤日志——都保存在一個結構化的共享工作區里，任何專業代理在需要時都可以去讀，而不是靠著"上一輪對話的記憶"來續接工作。

四、"文件即通道"：AI團隊如何不靠聊天傳遞信息

在AI科學家的工作方式中，有一個具體的機制叫做"File-as-Bus"，翻譯過來大約是"以文件為信息通道"。這個概念是整個系統的技術基石，也是它與其他AI系統最顯著的區別之一。

大部分多智能體系統（也就是由多個AI代理協作完成任務的系統）依賴的是"對話接力"：一個AI完成一段工作后，把結論用語言描述給下一個AI，下一個AI基于這段描述繼續工作。這就像打電話傳話——每傳一次，信息就可能失真一次。而且一旦某個AI的"記憶窗口"裝滿了，之前的信息就會被丟棄，再也無法追溯。

AI科學家的做法完全不同。它把所有中間成果都以文件形式保存在一個有權限管理的共享工作區里。這個工作區被劃分成三個區域：一是"論文分析區"，存放對目標論文的結構化理解、關鍵指標、實現細節和存疑之處；二是"提交區"，存放可運行的代碼倉庫，包括環境配置腳本、資源下載邏輯，以及最終執行入口文件；三是"代理工作區"，存放任務優先級計劃、實現日志（只能追加，不能修改）、實驗日志和每次具體實驗的詳細輸出。

每一個專業代理在開始工作時，不是靠"回憶上一輪對話說了什么"，而是先看一眼整個工作區的目錄索引（一個輕量的"地圖"），然后按需讀取與自己任務相關的文件，完成工作后再把結果寫回對應文件。這樣，每一輪工作的成果都真實地沉淀下來，后續的代理可以站在前人工作的肩膀上繼續推進，而不是每次都從零開始。

權限管理也是這套機制的重要組成部分。每個專業代理只能寫它職責范圍內的文件，共享日志只能追加不能覆蓋。這避免了不同代理之間相互干擾，也保證了工作記錄的可追溯性。

五、四個專家加一個指揮官：AI科研團隊的內部分工

AI科學家并不是一個單一的"大腦"，而是一個由多層次代理組成的協作團隊。頂層是"指揮官"，中間層是四個專業領域的"專家代理"，必要時每個專家還可以召喚更專注的"子代理"來處理具體小任務。

指揮官的職責是做階段性決策：現在應該推進哪個階段的工作，應該把任務交給哪個專家。它通過閱讀工作區目錄和各代理返回的簡短摘要來了解項目進展，不需要把所有細節裝進自己的"腦袋"。這種安排使得指揮官的"工作記憶"始終保持輕盈，從而能在整個幾十小時的任務周期內持續穩定地發揮協調作用。

專家代理各有分工。"論文理解專家"負責讀懂目標論文，將其分解為結構、算法、實驗設計、基線方法等維度，并將結果寫入論文分析區。它可以同時召喚多個子代理并行處理不同維度，再匯總成完整的分析文件，供后續所有代理參考。

"任務優先級專家"則讀取論文分析結果，識別各項實現任務之間的依賴關系，按照重要性和可行性排列順序，生成一份明確的執行計劃文件。這份文件就是整個項目實施階段的"行動綱領"。

"實現專家"是代碼工作的主力。它有兩種工作模式：當系統還沒有可運行代碼時，它從分析文件和執行計劃出發，從頭搭建整個代碼倉庫；當已經有代碼但實驗出了問題時，它切換到修復模式，根據實驗日志中記錄的錯誤，有針對性地修改代碼，并把每次重要的代碼決策記錄在實現日志中。

"實驗專家"負責運行代碼、觀察結果，將實際產生的指標與論文中報告的目標值進行對比，記錄差異和問題，并在遇到簡單錯誤（如導入路徑錯誤、配置文件格式問題）時直接修復，而將需要深度代碼改動的問題提交給指揮官，由指揮官再次調度實現專家處理。

此外，系統還設有一個"通用助手接口"，用于處理探索、規劃或一次性輔助任務，這些任務不需要專門的專家流程，但也值得有一個專門的代理去完成。

六、實驗結果：兩個基準上的表現如何？

研究團隊選擇了兩個互補的評測基準來全面考察AI科學家的能力。

第一個是PaperBench，由OpenAI參與設計，專門用來測試AI從頭復現頂級機器學習會議論文的能力。任務規則非常嚴格：給AI一篇論文、一個配有GPU的空白Docker容器和24小時時間，不能使用作者的原始代碼，必須自己從零開始搭建、運行并得出與論文匹配的實驗結果。評分維度包括代碼質量、能否成功運行，以及結果與論文的吻合程度。這個基準出了名地難——此前最好的AI系統只能完成約21%的評分要求，而頂尖的機器學習博士生在48小時內能完成約41%。

AI科學家在使用Gemini-3-Flash作為底層語言模型時，平均得分達到30.52分，比同條件下最強的基線系統高出9.92分；使用GLM-5時，平均得分達到33.73分，比最強基線高出11.15分。在20個不同的論文復現任務中，幾乎每一個任務上AI科學家都有明顯提升，其中最顯著的一個任務（pinn）在GLM-5下提升了32.99分。

值得特別關注的是成本對比。此前表現相對較好的"迭代代理"系統（IterativeAgent）在Gemini-3-Flash下每個任務平均花費27.44美元，而AI科學家只需15.67美元，卻能取得更高的分數。在GLM-5下差距更懸殊：迭代代理每任務花費54.90美元，AI科學家只需12.20美元。這說明單純"多做幾輪交互"并不等于更好的結果，關鍵在于每一輪交互是否真正建立在之前積累的成果之上。

第二個基準是MLE-Bench Lite，這個基準更接近Kaggle競賽的形式——AI需要在現有數據集上持續優化機器學習方案，爭取在模擬的競賽排行榜上獲得銅牌、銀牌或金牌。主要評估指標是"任意獎牌獲取率"（Any Medal%），即在全部測試任務中，有多少比例能至少獲得一枚獎牌。

在受控對比實驗中，AI科學家使用兩種底層模型均達到了81.82%的任意獎牌率，分別比最強對比系統高出4.55和18.18個百分點。在官方排行榜上，AI科學家的81.82%超過了所有已公開記錄的系統，其中最高的是75.76%。

圖1展示了一個具體案例：在"侮辱性言論檢測"這一任務上，AI科學家在23小時內自主完成了74輪實驗，將模型的驗證集AUC（一種衡量分類模型好壞的指標，越接近1越好）從0.903提升到了0.982，期間經歷了18次"找到更好方案并保留"的關鍵節點，同時也經歷了大量"嘗試無效果而丟棄"的探索過程，全程無需人工干預。

七、關鍵機制驗證：去掉"文件通道"會發生什么？

為了弄清楚AI科學家的效果到底來自哪里，研究團隊做了一系列對照實驗，重點檢驗兩個問題：去掉"文件即通道"機制后系統表現如何下降？與更簡單的非層級化代理相比，層級化編排貢獻了多少？

去掉文件即通道機制的實驗結果相當直觀。在PaperBench上，平均分下降了6.41分；在MLE-Bench Lite上，任意獎牌率下降了31.82個百分點。后者的下降尤為值得關注——去掉這個機制后，系統仍然能產生有效提交，也還能獲得一些銅牌，但銀牌、金牌這類需要多輪精細優化才能達到的成績大幅下滑。這個模式揭示了一個關鍵規律：文件即通道機制的價值不在于幫助AI"入門"，而在于幫助它在已經有基礎的情況下"持續進步"。換句話說，當任務需要跨越多輪實驗、不斷從之前的診斷中學習時，丟失中間狀態的代價就會急劇放大。

與更簡單代理的對比同樣說明了問題。研究團隊將AI科學家與非層級化的簡單代理（在PaperBench上對應BasicAgent，在MLE-Bench Lite上對應AIDE）進行比較，發現即使是去掉文件即通道機制的"殘缺版"AI科學家，在PaperBench上仍比BasicAgent高出4.74分，在MLE-Bench Lite上的"高于中位數率"和任意獎牌率也分別高出22.73和9.09個百分點。這說明層級化編排本身就帶來了獨立的貢獻，而不是全部效果都來自文件持久化。此前的迭代代理系統盡管比BasicAgent多了更多交互輪次，卻仍然遠不如AI科學家（甚至不如去掉文件通道的AI科學家），進一步印證了"更多交互"和"在積累狀態上的持續推進"是兩件完全不同的事。

八、這項研究告訴我們什么？

歸根結底，AI科學家這個系統傳遞的最核心信息，是對"AI如何做長周期任務"這一問題的一次重新定性。

研究團隊認為，自主長周期機器學習研究工程本質上是一個**系統協調問題**，而不僅僅是一個**局部推理問題**。過去很多人認為，只要語言模型足夠強大，給它更多時間和更多"思考"機會，它就能自然而然地完成更復雜的任務。但這項研究的實驗結果表明，單純增加交互輪次并不能帶來持續的進步，因為每一輪新的工作如果不能建立在之前工作的基礎上，就只是在重復勞動，而不是在積累。

真正讓AI能夠跨越幾十小時、跨越幾十輪實驗持續進步的，是一套讓"歷史工作成果"始終可訪問、可信賴、可建立的機制設計。文件即通道協議做到了這一點，而層級化編排則確保了這些積累下來的狀態能夠被正確地路由給有能力處理它們的專業代理。

當然，這個系統離人類頂尖研究人員的水平還有距離——在PaperBench上，頂尖機器學習博士生在48小時內能完成約41%的評分要求，而AI科學家目前達到的是約33.73%。但這個差距已經比之前任何AI系統小得多，而且研究團隊在這個方向上的設計思路，為進一步縮小這一差距提供了一個清晰可擴展的框架。

值得思考的是，隨著這類系統的能力不斷提升，科研流程的加速和民主化可能比我們預期的更快到來——不僅是頂尖機構，普通研究者也可能借助類似的系統，以更低的成本完成更高質量的實驗性研究工作。

對這個話題有興趣的讀者，可以通過arXiv編號2604.13018查閱完整論文，獲取更多技術細節和實驗數據。

Q&A

Q1：AiScientist系統的"文件即通道"機制是什么意思，為什么重要？

A：文件即通道（File-as-Bus）是指AI科學家系統中各個代理不通過對話傳遞信息，而是把所有中間成果（如論文分析、代碼、實驗日志）寫入一個共享工作區的文件里，后續代理直接讀文件來續接工作。這避免了信息在反復"傳話"中失真或丟失，使每輪工作都能真正建立在之前積累的基礎上。實驗表明去掉這個機制后，MLE-Bench Lite的獲獎率會下降近32個百分點。

Q2：PaperBench測試的是什么，AI科學家的表現如何？

A：PaperBench要求AI在24小時內，從一篇機器學習論文出發，在沒有原始代碼的情況下從零搭建、運行并復現論文的核心實驗結果。此前最好的AI系統只能完成約21%的評分要求，而頂尖博士生能完成約41%。AI科學家使用GLM-5模型時達到了平均33.73分，比此前最強AI基線高出11.15分，并顯著縮小了與人類博士生的差距。

Q3：AI科學家系統與其他AI代理系統最大的區別是什么？

A：最大區別在于AI科學家通過"文件即通道"機制實現了跨輪次的持久狀態積累，而不是依賴對話接力傳遞信息。此外，它采用層級化編排，由一個輕量的指揮官調度多個專業代理（論文理解、任務規劃、代碼實現、實驗執行），每個代理只負責自己的領域，避免了單一代理承擔過多任務導致的失控問題。兩者共同作用，使系統能在幾十小時內持續有效地推進工作。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.