網易首頁 > 網易號 > 正文申請入駐

科研問題變AI反復試錯環境，斯坦福等提出的自動循環執行LLM流程

2026-02-24 12:54:59　來源: ScienceAI

河北舉報

分享至

編輯丨%

為了加速各類生產研究的進度，使用 AI 大模型來進行決策或者提出新穎的想法已經不算少見。但絕大部分研究思路本身看似合理，實際是否有用還有待商榷。

過去一年，多項系統評測已經反復驗證一個事實：LLM 生成的研究構想，往往“看起來很對”，但一執行就失效。它們善于組合概念，卻很少真正接受過“實驗結果”的懲罰。

來自斯坦福大學等的研究團隊選擇了一條更為激進的路線。他們構建了一套自動執行器的循環，通過進化搜索與獎勵學習，來強化 LLM 生成更為有效的想法。相關內容以「Towards Execution-Grounded Automated AI Research」為題，于 2026 年 1 月 20 日刊登在 arxiv。

論文鏈接：https://arxiv.org/abs/2601.14525

進入反復試錯的環境

研究團隊的設想可以這么總結：將 AI 生成的想法付諸于代碼，并從實驗結果中汲取經驗回滾想法。如果成功，這些自動化 AI 研究人員可以在龐大的搜索空間中自動開發和識別有效的研究想法，從而將計算轉化為科學發現;這些發現的理念反過來又可能改進前沿 AI 模型本身，實現遞歸自我改進。

這也正是本研究中提出的核心系統：Execution-Grounded Automated AI Research（執行落地型自動科研）。

它基于特定的環境，并在構建時力求開放式的研究問題，以此空出足夠的空間容納創新算法，并建立完善的基線與基準指標。

圖 1：自動化的執行器。

為了避免空談，團隊將研究場景壓縮為兩個高度真實、但可控的執行環境：

一個是預訓練：

任務：加速 nanoGPT 的預訓練過程
指標：在固定 GPU 預算下，更快達到目標驗證損失
對照基線：nanoGPT speedrun（35.9 分鐘）

另一個是后訓練：

任務：改進 GRPO 算法的后訓練效果
指標：數學推理任務（MATH）驗證準確率
對照基線：48.0%

執行反饋與強化學習

執行反饋的核心引導部分在于，它融合了探索與利用，用這兩者模擬科研迭代過程。

作為核心的自動化創意執行器由三個核心模塊組成：Implementer 實現者、Scheduler 調度器、Worker 工作單位。

圖 2：GRPO 和 nanoGPT 環境中自執行（上行）與 GPT-5（下行）的模型性能比較。

通過這三個模塊，AI 輸出的想法都會轉化為實際的數值反饋，反復自我修正，通過不斷控制執行，直到確認想法可行或失敗。在這個環節，初始探索 / 利用比例 5:5，后續逐步提高利用比例，共進行十次迭代

而在其后的獎勵強化學習部分，則以實驗性能為獎勵，這與實驗效果直接關聯。這種應用模式可通過梯度更新持續提升想法質量，突破進化搜索的限制。

實驗驗證里，后訓練在僅有50 個想法采樣的情況下，Claude-4.5-Sonnet 的最大準確率為 60.4%，遠超 48.0% 的基線標準。并且在 nanoGPT 上，Claude-4.5-Opus 的損耗最低，為 3.237，低于基線的 3.255。

在預訓練環境里，模型達到目標損失的訓練時間 19.7 分鐘，遠超 nanoGPT 基線（35.9 分鐘），僅落后人類頂尖解（2.1 分鐘），但無需人工干預。

表 1：在整個執行引導搜索中，超參數調優與算法思想的細分。

更多的實驗思路此處不做過多贅述。

探索算法直覺的道路

在執行日志的分析中，研究團隊發現一個耐人尋味的現象：模型并非只是在簡單地調參，它嘗試在算法層間進行修改，這其中包括訓練流程，更新策略，資源調度等方式。但這也凸顯了當下比較明顯的幾個問題，比如多數模型早期就出現的性能飽和，與少數模型才擁有的較清晰的“搜索隨規模提升”的趨勢。

未來的更新中，可能需要針對 RL 的模式崩潰引入多種獎勵補丁，平衡有效性與創新性。執行器也需要進一步升級，以應對復雜任務帶來的處理能力需要。

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.