无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

清華、中關村學院團隊如何構建能自主完成從代碼到新SOTA閉環系統

0
分享至



編輯丨ScienceAI

對于每一位在實驗室徹夜調參的研究者來說,最繁瑣的部分往往不是靈光一現,而是其后的環境配置、Bug 修復與實驗迭代。現在的 AI 科研就像是一場追求極致性能的漫漫征途。

看看近年 AI 頂會的投稿數據就知道了:NeurIPS 投稿量高達 21575 篇,其中口頭報告(Oral)僅占 0.4% ;ICML 投稿 12107篇,Oral 占比 0.9% ;ICLR 投稿 11603 篇,Oral 也不過 1.8%。

在這樣千軍萬馬過獨木橋的競爭中,SOTA(當前最佳水平)成為了衡量研究價值的唯一金標準。但攀登這座高峰需要巨量的研究力量投入,一個好的 Idea 可能只占研究過程的一小部分,剩下的全是漫長而痛苦的打磨優化。

近期,清華大學電子工程系助理教授、北京中關村學院兼職導師徐豐力課題組與北京中關村學院聯合發布了AutoSOTA 項目,為這一難題提供了一套工業級的解決方案。目前,AutoSOTA 項目已發布預印本論文。



論文地址:https://arxiv.org/abs/2604.05550

AutoSOTA 致力于實現端到端的 AI 科研自動化,其核心理念是將 AI 智能體的賦能邊界延伸到實驗的每一個底層細節。不同于那些局部加速的工具,AutoSOTA 構建了一個完整的閉環流程,涵蓋了從原始論文輸入到最終優化方法產出的全生命周期。

一支永不疲倦的超級研究團隊



圖 1:AutoSOTA 流程。

在架構層面,AutoSOTA 采用了精密的“多智能體協作”邏輯。整個系統由一個強大的認知架構驅動,具備規劃、推理、記憶和工作流管理能力。我們可以把它想象成一個分工明確的超級研究團隊,具體分工如下:

第一步:資源準備與目標設置

這一環節由AgentResource和 AgentObjective 負責。它們會從海量的 AI 頂會研究(如 ICML、KDD、The Web Conf、AAAI 等)中提取原始論文和代碼庫。

AgentResource 負責管理 PDF 文檔和模型參數,而 AgentObjective 則根據論文目標構建評價指標體系(Rubric Construction),確立優化方向。簡單來說,它們負責搞清楚要研究什么,以及怎么才算研究得好。

第二步:實驗評估閉環

這可能是最讓研究者頭疼的環節,但在AutoSOTA 里,一切都是全自動的。AgentInit 負責底層的環境初始化,AgentMonitor 實時追蹤實驗狀態,而 AgentFix 則負責接收反饋并執行修復指令(Repair Command),直至代碼通過各種復雜的測試與調試。這個過程就像是有個永不疲倦的師兄在幫你改 Bug、配環境,不僅高效而且零出錯。

第三步:代碼優化引擎

AutoSOTA 利用程序數據庫(Program Database)與提示詞采樣(Prompt Sampler),結合大模型集成(LLMs Ensemble)和評估器池(Evaluators pool),實現算法實現的持續精煉。通過不斷地反饋(Feedback)與執行(Execution),模型性能在一次次迭代中穩步提升。

第四步:反思構思引擎

這是AutoSOTA 最像“人類科學家”的地方。AgentScheduler 會協調 AgentIdeator 進行文獻檢索與創新構思(Ideation),并由 AgentSupervisor 進行監督驗證(Supervision & Validation),確保方案的創新性與合規性。這套受人類研究啟發的創新構思引擎,使得系統不再是盲目地調參,而是具備了頂層設計的思考能力。

為了支撐這一復雜的協作模式,AutoSOTA 配備了完善的工具庫(Toolkit)與技能集(Skill Set),這使得智能體能夠獨立完成原本需要人類干預的繁重任務。



圖 2:AutoSOTA多智能體架構。

5小時 vs 數月

在一周的密集實驗中,這套系統交出了一份驚人的成績單。在消耗了約220 億 Token、約 10 萬元人民幣成本的前提下,系統基于前一年的頂會論文成功發現了 105 個性能顯著提升的模型。

最令人興奮的是,這些發現中超過 60% 具備新穎的 AI 模型結構設計,平均性能提升接近 10%。這證明了 AutoSOTA 并非只是在既有路徑上機械搜索,而是展現出了真正的算法創新能力。

更具沖擊力的數據在于研發周期的縮減。在傳統路徑下,一名博士生要閱讀論文、準備資源、配置環境、修正評測、調研構思再到迭代優化,通常需要數月時間才能完成一個SOTA 模型的迭代優化。然而,AutoSOTA 將這一閉環流程的時間壓縮到了 5 小時以內。這意味著系統可以在同一時間內開展數百個并行的研究任務,實現科研產出的爆發式增長。



圖 3:AutoSOTA實驗結果。

項目網站:https://tsinghua-fib-lab.github.io/AutoSOTA/

AutoSOTA 的價值不僅在于刷新了性能數據,更在于它為科研范式提供了全新的可能。它證明,通過多智能體系統的賦能,可以將繁瑣的科研流程從“手工打磨”升級為“智能制造”。正如徐豐力課題組所強調的,AutoSOTA 更像是一個“創造力放大器”。它通過接管那“1到100”的高強度迭代過程,讓人類研究者能夠將最寶貴的注意力重新投入到“0到1”的顛覆式創新中。

這一項目的發布,不僅展示了科研智能體在端到端優化中的巨大潛力,也標志著人類進入了人智協同科學研究的新階段。

未來,當AI 可以大規模自動發現 SOTA 模型時,我們或許該重新思考:科學突破的本質到底是什么?答案可能就藏在那些大膽的問題和未知的方向中。

如果你覺得每天調參、配環境太辛苦,不妨讓 AutoSOTA 這位“超級研究員”來幫你。與我們一起讓科研回歸創新本質!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

漢史趣聞
2026-05-21 11:05:32
女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務員一直舉牌勸阻卻被忽視

女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務員一直舉牌勸阻卻被忽視

封面新聞
2026-05-21 12:12:47
繼蘿卜崗后,又出來“祖墳”崗?網友:誰能考上,一輩子有的吹了

繼蘿卜崗后,又出來“祖墳”崗?網友:誰能考上,一輩子有的吹了

社會日日鮮
2026-05-21 09:22:29
胡歌被正式確診為早F晚E,粉絲們都痛心不已

胡歌被正式確診為早F晚E,粉絲們都痛心不已

LULU生活家
2026-05-21 08:43:17
19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復;死者父親:他遇害前一個月未騎摩托

19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復;死者父親:他遇害前一個月未騎摩托

都市快報橙柿互動
2026-05-20 17:07:55
普京回去了,給人一種莫名的傷感!

普京回去了,給人一種莫名的傷感!

達文西看世界
2026-05-21 09:48:14
網戀10天奔現4天領證!安徽離異女子攜子與新婚丈夫露營走紅網絡

網戀10天奔現4天領證!安徽離異女子攜子與新婚丈夫露營走紅網絡

火山詩話
2026-05-21 06:43:02
被判賠三家車企共226萬元,知名汽車博主回應:正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據支撐

被判賠三家車企共226萬元,知名汽車博主回應:正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據支撐

每日經濟新聞
2026-05-21 00:51:17
楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區人心惶惶

楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區人心惶惶

譚談社會
2026-05-21 11:24:12
我定居日本20年,娶過3個妻子,發現日本的女人都有一個共同特點

我定居日本20年,娶過3個妻子,發現日本的女人都有一個共同特點

千秋文化
2026-05-20 20:33:05
職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

另子維愛讀史
2026-05-21 08:03:05
A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

趨勢清風俠
2026-05-21 11:13:14
越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

觀史搜尋著
2026-05-21 05:41:15
恐怖!深圳深中通道雨水倒灌、大面積積水,有網友發帖一針見血

恐怖!深圳深中通道雨水倒灌、大面積積水,有網友發帖一針見血

火山詩話
2026-05-21 16:07:16
爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

念洲
2026-05-21 08:02:07
光速失業!禁足名單內10人目前仍為現役球員或在足球行業從事

光速失業!禁足名單內10人目前仍為現役球員或在足球行業從事

懂球帝
2026-05-21 15:41:08
三大元兇引發跳水 后期策略

三大元兇引發跳水 后期策略

趨勢巡航
2026-05-21 14:55:48
上海工大男生課堂喊殺后續:大四重修生,老師道歉,學校回應來了

上海工大男生課堂喊殺后續:大四重修生,老師道歉,學校回應來了

奇思妙想草葉君
2026-05-21 02:23:55
今天直接跌成股災了

今天直接跌成股災了

曹多魚的財經世界
2026-05-21 15:35:37
為了給中國人留下好印象,一生出訪無數的普京,這次終于破了例

為了給中國人留下好印象,一生出訪無數的普京,這次終于破了例

福建睿平
2026-05-20 14:09:24
2026-05-21 18:11:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1307文章數 227關注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達交出816億美元營收

頭條要聞

中紀委連打三"虎":一人被指違規核發機動車號牌

頭條要聞

中紀委連打三"虎":一人被指違規核發機動車號牌

體育要聞

常住人口7000的小鎮,擁有了一支德甲球隊

娛樂要聞

反轉!金秀賢與金賽綸未成年時交往不實

財經要聞

英偉達業績超預!指引再新高仍不夠亮眼

汽車要聞

小鵬正在研發"高達" 融合機器人技術的主動懸架

態度原創

本地
時尚
教育
親子
公開課

本地新聞

用云錦的方式,打開江蘇南京

全網首檔挑戰Al設備拍攝短劇現場直播!

教育要聞

嶺大AI學科躋身軟科2025全球前200!三大碩士課程招生中!

親子要聞

研究:生育對男性產生影響加劇,育兒成本到底該由誰來“買單”?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版