无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI從論文走到實驗室:人大高瓴提出長程研究工程系統AiScientist

0
分享至



作者 | 論文團隊

編輯丨ScienceAI

如果說 AI for Science 的一個長期目標,是讓模型不只回答科學問題、解釋實驗現象,而是真正幫助研究者完成一整條研究流程,那么機器學習研究工程無疑是最具挑戰性的場景之一。

因為在這里,系統面對的并不是一道題、一次生成,或者某個孤立的編碼任務,而是一條跨越論文理解、環境搭建、資源獲取、代碼實現、實驗運行、結果診斷與反復修復的連續任務鏈。每個環節本身都很難,而把這些環節在數十小時的跨度中真正接起來、持續推進,則更難。

近日,中國人民大學高瓴人工智能學院提出了一個名為 AiScientist 的系統,嘗試解決這一設定:long-horizon ML research engineering。



論文地址:https://arxiv.org/pdf/2604.13018

代碼地址:https://github.com/AweAI-Team/AiScientist

它試圖回答一個更具體、也更接近真實科研的問題:如果給 AI 一篇論文或者一道科學任務、一個基礎環境和有限預算,它能否從頭開始,把研究工程一步一步做下去?

答案正在變得越來越清晰。

在 MLE-Bench Lite 的 Detecting Insults 任務上,AiScientist 在 23 小時內自主完成了 74 輪實驗循環,將 validation AUC 從 0.903 提升到 0.982。在更具挑戰性的 PaperBench 上,它相對最佳匹配基線平均提升 10.54 分;在 MLE-Bench Lite 上,系統達到 81.82% Any Medal。進一步的機制分析還表明,真正決定長程研究工程能否持續推進的,關鍵不只是單步推理夠不夠強,而是系統能否在跨階段迭代中維護、繼承并利用不斷演化的項目狀態。



為什么研究工程比「會寫代碼」更難?

過去一年,AI for Research 的進展非常快。從 idea generation、literature synthesis,到代碼實現、實驗輔助、科學寫作,越來越多系統已經展現出實用價值。

但研究工程和單點能力不同。它不是把幾個能力模塊簡單拼起來就能完成的任務,而是一種典型的「長程、延遲反饋、狀態敏感」問題。

論文把這種困難概括得很準確。首先,研究規格往往是不完備的。論文不會把所有實現細節都寫清楚,模型需要自己補足缺失決策。其次,系統 setup 本身就很重,環境、依賴、數據和模型資源都可能成為阻塞點。再次,真正有價值的反饋往往要等實驗跑起來之后才會出現,而且問題來源常常是混雜的:可能是理解偏差,也可能是代碼實現、數據處理、超參選擇,甚至是基礎設施配置。

更關鍵的是,項目狀態必須被持續保留。一輪實驗產出的日志、配置、結果和診斷,都會直接影響下一輪決策。如果這些狀態在多輪推進中丟失,系統就很難判斷「哪里出了問題」,更難真正進入后續 refinement。

也正因如此,ML research engineering 不只是很多 local problem 的疊加,它本身還是一個更難的 systems problem。

AiScientist 的核心,不僅僅是「更會分工」,而且是「更會把狀態存住」



AiScientist 的核心思路,可以用論文中的一句話概括:thin control over thick state。

直白來說,就是把「控制」和「狀態」拆開。

一方面,系統保留一個輕量的頂層 Orchestrator,負責階段級決策與流程推進;另一方面,真正承載項目記憶的,不是不斷膨脹的對話上下文,而是 workspace 中持續演化的分析、計劃、代碼、實驗日志和結果記錄。

這套設計包含兩個互相配合的關鍵部分。

第一,是層級化 orchestration。

AiScientist 并不是把所有事都交給同一個 agent 去完成,而是讓不同角色分別處理論文理解、任務規劃、代碼實現、實驗執行與診斷修復等環節。這樣做的目的,不只是「多幾個 agent」,而是讓每個角色都在更合適的局部上下文里工作。

第二,是 File-as-Bus。

這是 AiScientist 更有辨識度的一點。它把共享工作區視為系統的「外部記憶」。論文分析、任務計劃、實現代碼、實驗日志、錯誤記錄等,都被持續寫回文件系統,成為后續階段可以重新讀取和利用的 durable artifacts。系統因此不需要每一輪都把歷史重新塞回 prompt,而是可以圍繞真實存在的項目證據繼續推進。

換句話說,AiScientist 的關鍵,不只是多智能體組織形式本身,而是它把狀態連續性做成了系統能力。

結果之外,更值得注意的是什么?

在 PaperBench 上,AiScientist 相對最佳匹配基線平均提升約 10.54 分。這意味著,它并不是只在個別 case 上有效,而是在從論文復現到完整工程實現的高難度任務中,穩定拉開了與現有方法的差距。



在 MLE-Bench Lite 上,AiScientist 達到了 81.82% Any Medal,說明它不只擅長「先跑出一個版本」,也能在更接近真實實驗優化的場景中持續改進結果。



但論文里最值得注意的,其實不只是這些數字,還有一個很重要的判斷:More interaction alone is not enough.

這句話背后對應的是一個常見誤解:很多人會自然地以為,只要讓系統多試幾次、多跑幾輪,就能自動獲得更強的長程能力。但論文的結論恰恰相反。額外的輪次只有建立在前面正確積累的狀態之上,才會真正轉化為有效進步;否則,更多交互反而可能意味著更高成本和更多噪聲。

File-as-Bus 為什么值得單獨看?

論文的消融實驗給出了一個非常清晰的信號。

移除 File-as-Bus 后,AiScientist 在 PaperBench 上下降 6.41 分,在 MLE-Bench Lite 上 Any Medal 下降 31.82 個百分點。這說明,狀態連續性并不是一個「有更好、沒有也行」的輔助設計,而是長程研究工程里真正決定系統能否持續推進的重要機制。



更有意思的是,這種退化并不是平均落在所有階段上。論文顯示,去掉 File-as-Bus 后,系統未必立刻連基礎可運行性都失去,但在更依賴后期 refinement 的指標上,退化會更明顯。

這意味著,File-as-Bus 的價值不只是幫助系統先搭一個能跑的腳手架,更重要的是讓系統在后續的診斷、修補、結果對齊與迭代優化中,真正把每一輪試錯都建立在前一輪留下的有效證據之上。

從這個角度看,它解決的并不只是 executability,更是 fidelity。

這項工作對 AI for Science 意味著什么?

AiScientist 之所以值得 AI for Science 社區關注,并不只是因為它在某個 benchmark 上拿到了更高分數,而是因為它觸及了一個更深層的問題:

如果 AI 想真正進入科學研究流程,它需要的不只是更強的單步能力,還需要在長程任務中維持項目狀態、銜接異構階段、持續吸收實驗反饋。

對于科學研究而言,這一點非常關鍵。因為真正高價值的科研任務,很少是一次生成就結束的。無論是算法復現、實驗設計、參數迭代,還是結果分析與修正,研究者都在和一種「不斷演化的項目狀態」打交道。

也正因為如此,AiScientist 給出的啟示并不局限于機器學習研究工程本身。它更像是在提醒整個 AI for Science 社區:未來更強的科學智能體,也許不僅要「會推理、會生成、會調用工具」,還要學會在長時間跨度里記住什么、保留什么、繼承什么、繼續推進什么。

從 benchmark 走向研究工具

論文還有一點值得注意:團隊并沒有把 AiScientist 停留在 benchmark 評測對象上,而是在繼續把它推進為真實可用的軟件系統。



這件事很重要。因為 benchmark 回答的是「能不能做」,而工具真正回答的是「能不能被用起來」。

如果 AI 研究系統未來真的要進入實驗、復現、調參與迭代的日常流程,那么它最終必須以工具形態存在,成為研究者工作流的一部分,而不只是論文中的一個分數。

小結

AiScientist 試圖推動的,并不只是一個更強的科研 agent,而是一種對長程研究工程的新理解:在真實科研任務中,真正重要的往往不是單次生成得多漂亮,而是系統能否在跨階段、跨輪次、跨文件的任務鏈中,把項目狀態穩定存住,并據此持續推進。

如果這一點成立,那么 AI 進入科研流程的方式,也將從「輔助某一步」逐漸走向「接手整條鏈路」。

聲明:包含AI生成內容

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
飯局酒局的二場,現在沒人再去KTV了

飯局酒局的二場,現在沒人再去KTV了

微微熱評
2026-05-21 00:38:48
維吾爾族博主遭死亡威脅背后,是一場沒有退路的文明保衛戰

維吾爾族博主遭死亡威脅背后,是一場沒有退路的文明保衛戰

西域都護
2026-05-20 22:42:58
17年前他在愛妻葬禮上哭到昏厥,發誓永不再娶,現在他做到了嗎?

17年前他在愛妻葬禮上哭到昏厥,發誓永不再娶,現在他做到了嗎?

妙娛連珠
2026-05-21 16:20:01
200架波音大單落地,中國成功從美國手中,換回一個關鍵承諾

200架波音大單落地,中國成功從美國手中,換回一個關鍵承諾

普陀動物世界
2026-05-21 01:27:39
張本智和棄日赴德?德乒國家隊教練發聲,真相估計和你想的不一樣

張本智和棄日赴德?德乒國家隊教練發聲,真相估計和你想的不一樣

阿纂看事
2026-05-20 12:33:01
“大傻”去世15年后,兒子入獄孫子身亡,王晶爆料往事:絕對狠人

“大傻”去世15年后,兒子入獄孫子身亡,王晶爆料往事:絕對狠人

林輕吟
2026-05-21 14:25:53
比開塞露還管用!這3種“推屎”食物,每天吃一點,清空宿便

比開塞露還管用!這3種“推屎”食物,每天吃一點,清空宿便

白宸侃片
2026-05-19 11:56:50
美國人意識到,貿易戰之后,不會再有中國外的大規模工業化國家了

美國人意識到,貿易戰之后,不會再有中國外的大規模工業化國家了

遁走的兩輪
2026-05-21 12:10:14
藏不住了!王傳福親口實錘!比亞迪準車主最擔心的事發生了

藏不住了!王傳福親口實錘!比亞迪準車主最擔心的事發生了

老特有話說
2026-05-19 17:22:06
殺得過就殺,殺不過就死,妻子和母親遭受凌辱,男子怒殺村霸全家

殺得過就殺,殺不過就死,妻子和母親遭受凌辱,男子怒殺村霸全家

易玄
2026-05-20 18:55:42
越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

觀史搜尋著
2026-05-21 05:41:15
馬爾代夫洞潛事故5人遺體全找到!疑被60米深“鯊魚洞”窄口吸入,全堵在一起?

馬爾代夫洞潛事故5人遺體全找到!疑被60米深“鯊魚洞”窄口吸入,全堵在一起?

英國報姐
2026-05-20 21:47:13
傳奇繼續!Shams:湖人正在全力挽留老詹,后者至少還會再戰一季

傳奇繼續!Shams:湖人正在全力挽留老詹,后者至少還會再戰一季

移動擋拆
2026-05-21 09:16:40
事態升級!川觀新聞怒批《監獄來的媽媽》,李敖的話終于有人信了

事態升級!川觀新聞怒批《監獄來的媽媽》,李敖的話終于有人信了

八斗小先生
2026-05-20 10:49:17
中俄元首簽署兩國關于進一步加強全面戰略協作、深化睦鄰友好合作的聯合聲明

中俄元首簽署兩國關于進一步加強全面戰略協作、深化睦鄰友好合作的聯合聲明

澎湃新聞
2026-05-20 15:04:15
嚴幼韻98歲確診大腸癌,醫生勸她手術,她嘆了口氣:還是安樂死吧

嚴幼韻98歲確診大腸癌,醫生勸她手術,她嘆了口氣:還是安樂死吧

興趣知識
2026-05-20 00:27:29
跳水100點!2個信號明顯了!周五,A股迎來救贖了

跳水100點!2個信號明顯了!周五,A股迎來救贖了

郭小凡財經
2026-05-21 15:01:04
1983年,紅衛兵頭子被判刑,晚年淪落到撿菜葉子充饑,活到2019年

1983年,紅衛兵頭子被判刑,晚年淪落到撿菜葉子充饑,活到2019年

米果說識
2024-09-12 04:20:03
假賭黑處罰追加扣除梅州客家6分 負3分暫墊底中甲

假賭黑處罰追加扣除梅州客家6分 負3分暫墊底中甲

體壇周報
2026-05-21 16:06:12
保羅獲得人文學博士學位:以后可以叫CP3博士,別忘了加博士

保羅獲得人文學博士學位:以后可以叫CP3博士,別忘了加博士

懂球帝
2026-05-21 16:02:20
2026-05-21 17:28:49
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1307文章數 227關注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達交出816億美元營收

頭條要聞

特朗普稱將與賴清德交談 外交部表態

頭條要聞

特朗普稱將與賴清德交談 外交部表態

體育要聞

常住人口7000的小鎮,擁有了一支德甲球隊

娛樂要聞

反轉!金秀賢與金賽綸未成年時交往不實

財經要聞

英偉達業績超預!指引再新高仍不夠亮眼

汽車要聞

26.98萬起步 看小鵬GX如何詮釋一車多能以及滿配的科技與豪華

態度原創

手機
本地
時尚
數碼
公開課

手機要聞

全球首發天璣9500 Monster!iQOO 15T圖賞

本地新聞

用云錦的方式,打開江蘇南京

全網首檔挑戰Al設備拍攝短劇現場直播!

數碼要聞

2026年Q1全球電視品牌出貨量TOP5:三星穩坐第一 TCL緊追其后

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版