无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

科研問題變AI反復試錯環境,斯坦福等提出的自動循環執行LLM流程

0
分享至



編輯丨%

為了加速各類生產研究的進度,使用 AI 大模型來進行決策或者提出新穎的想法已經不算少見。但絕大部分研究思路本身看似合理,實際是否有用還有待商榷。

過去一年,多項系統評測已經反復驗證一個事實:LLM 生成的研究構想,往往“看起來很對”,但一執行就失效。它們善于組合概念,卻很少真正接受過“實驗結果”的懲罰。

來自斯坦福大學等的研究團隊選擇了一條更為激進的路線。他們構建了一套自動執行器的循環,通過進化搜索與獎勵學習,來強化 LLM 生成更為有效的想法。相關內容以「Towards Execution-Grounded Automated AI Research」為題,于 2026 年 1 月 20 日刊登在 arxiv。



論文鏈接:https://arxiv.org/abs/2601.14525

進入反復試錯的環境

研究團隊的設想可以這么總結:將 AI 生成的想法付諸于代碼,并從實驗結果中汲取經驗回滾想法。如果成功,這些自動化 AI 研究人員可以在龐大的搜索空間中自動開發和識別有效的研究想法,從而將計算轉化為科學發現;這些發現的理念反過來又可能改進前沿 AI 模型本身,實現遞歸自我改進。

這也正是本研究中提出的核心系統:Execution-Grounded Automated AI Research(執行落地型自動科研)

它基于特定的環境,并在構建時力求開放式的研究問題,以此空出足夠的空間容納創新算法,并建立完善的基線與基準指標。



圖 1:自動化的執行器。

為了避免空談,團隊將研究場景壓縮為兩個高度真實、但可控的執行環境

一個是預訓練:

  • 任務:加速 nanoGPT 的預訓練過程
  • 指標:在固定 GPU 預算下,更快達到目標驗證損失
  • 對照基線:nanoGPT speedrun(35.9 分鐘)

另一個是后訓練:

  • 任務:改進 GRPO 算法的后訓練效果
  • 指標:數學推理任務(MATH)驗證準確率
  • 對照基線:48.0%

執行反饋與強化學習

執行反饋的核心引導部分在于,它融合了探索與利用,用這兩者模擬科研迭代過程。

作為核心的自動化創意執行器由三個核心模塊組成:Implementer 實現者、Scheduler 調度器、Worker 工作單位



圖 2:GRPO 和 nanoGPT 環境中自執行(上行)與 GPT-5(下行)的模型性能比較。

通過這三個模塊,AI 輸出的想法都會轉化為實際的數值反饋,反復自我修正,通過不斷控制執行,直到確認想法可行或失敗。在這個環節,初始探索 / 利用比例 5:5,后續逐步提高利用比例,共進行十次迭代

而在其后的獎勵強化學習部分,則以實驗性能為獎勵,這與實驗效果直接關聯。這種應用模式可通過梯度更新持續提升想法質量,突破進化搜索的限制。

實驗驗證里,后訓練在僅有50 個想法采樣的情況下,Claude-4.5-Sonnet 的最大準確率為 60.4%,遠超 48.0% 的基線標準。并且在 nanoGPT 上,Claude-4.5-Opus 的損耗最低,為 3.237,低于基線的 3.255。

在預訓練環境里,模型達到目標損失的訓練時間 19.7 分鐘,遠超 nanoGPT 基線(35.9 分鐘),僅落后人類頂尖解(2.1 分鐘),但無需人工干預。

表 1:在整個執行引導搜索中,超參數調優與算法思想的細分。



更多的實驗思路此處不做過多贅述。

探索算法直覺的道路

在執行日志的分析中,研究團隊發現一個耐人尋味的現象:模型并非只是在簡單地調參,它嘗試在算法層間進行修改,這其中包括訓練流程,更新策略,資源調度等方式。但這也凸顯了當下比較明顯的幾個問題,比如多數模型早期就出現的性能飽和,與少數模型才擁有的較清晰的“搜索隨規模提升”的趨勢。

未來的更新中,可能需要針對 RL 的模式崩潰引入多種獎勵補丁,平衡有效性與創新性。執行器也需要進一步升級,以應對復雜任務帶來的處理能力需要。

聲明:包含AI生成內容

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

漢史趣聞
2026-05-21 11:05:32
女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務員一直舉牌勸阻卻被忽視

女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務員一直舉牌勸阻卻被忽視

封面新聞
2026-05-21 12:12:47
繼蘿卜崗后,又出來“祖墳”崗?網友:誰能考上,一輩子有的吹了

繼蘿卜崗后,又出來“祖墳”崗?網友:誰能考上,一輩子有的吹了

社會日日鮮
2026-05-21 09:22:29
胡歌被正式確診為早F晚E,粉絲們都痛心不已

胡歌被正式確診為早F晚E,粉絲們都痛心不已

LULU生活家
2026-05-21 08:43:17
19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復;死者父親:他遇害前一個月未騎摩托

19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復;死者父親:他遇害前一個月未騎摩托

都市快報橙柿互動
2026-05-20 17:07:55
普京回去了,給人一種莫名的傷感!

普京回去了,給人一種莫名的傷感!

達文西看世界
2026-05-21 09:48:14
網戀10天奔現4天領證!安徽離異女子攜子與新婚丈夫露營走紅網絡

網戀10天奔現4天領證!安徽離異女子攜子與新婚丈夫露營走紅網絡

火山詩話
2026-05-21 06:43:02
被判賠三家車企共226萬元,知名汽車博主回應:正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據支撐

被判賠三家車企共226萬元,知名汽車博主回應:正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據支撐

每日經濟新聞
2026-05-21 00:51:17
楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區人心惶惶

楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區人心惶惶

譚談社會
2026-05-21 11:24:12
我定居日本20年,娶過3個妻子,發現日本的女人都有一個共同特點

我定居日本20年,娶過3個妻子,發現日本的女人都有一個共同特點

千秋文化
2026-05-20 20:33:05
職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

另子維愛讀史
2026-05-21 08:03:05
A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

趨勢清風俠
2026-05-21 11:13:14
越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

觀史搜尋著
2026-05-21 05:41:15
恐怖!深圳深中通道雨水倒灌、大面積積水,有網友發帖一針見血

恐怖!深圳深中通道雨水倒灌、大面積積水,有網友發帖一針見血

火山詩話
2026-05-21 16:07:16
爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

爭議!國際足聯重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

念洲
2026-05-21 08:02:07
光速失業!禁足名單內10人目前仍為現役球員或在足球行業從事

光速失業!禁足名單內10人目前仍為現役球員或在足球行業從事

懂球帝
2026-05-21 15:41:08
三大元兇引發跳水 后期策略

三大元兇引發跳水 后期策略

趨勢巡航
2026-05-21 14:55:48
上海工大男生課堂喊殺后續:大四重修生,老師道歉,學校回應來了

上海工大男生課堂喊殺后續:大四重修生,老師道歉,學校回應來了

奇思妙想草葉君
2026-05-21 02:23:55
今天直接跌成股災了

今天直接跌成股災了

曹多魚的財經世界
2026-05-21 15:35:37
為了給中國人留下好印象,一生出訪無數的普京,這次終于破了例

為了給中國人留下好印象,一生出訪無數的普京,這次終于破了例

福建睿平
2026-05-20 14:09:24
2026-05-21 18:11:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1307文章數 227關注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達交出816億美元營收

頭條要聞

中紀委連打三"虎":一人被指違規核發機動車號牌

頭條要聞

中紀委連打三"虎":一人被指違規核發機動車號牌

體育要聞

常住人口7000的小鎮,擁有了一支德甲球隊

娛樂要聞

反轉!金秀賢與金賽綸未成年時交往不實

財經要聞

英偉達業績超預!指引再新高仍不夠亮眼

汽車要聞

小鵬正在研發"高達" 融合機器人技術的主動懸架

態度原創

家居
游戲
手機
親子
教育

家居要聞

風格碰撞 個性與藝術

《生化9》當之無愧年度級別!美國年度銷量冠軍

手機要聞

蘋果史詩級大改!20周年iPhone測試四曲面屏:告別直屏時代

親子要聞

研究:生育對男性產生影響加劇,育兒成本到底該由誰來“買單”?

教育要聞

嶺大AI學科躋身軟科2025全球前200!三大碩士課程招生中!

無障礙瀏覽 進入關懷版