![]()
編輯丨%
為了加速各類生產研究的進度,使用 AI 大模型來進行決策或者提出新穎的想法已經不算少見。但絕大部分研究思路本身看似合理,實際是否有用還有待商榷。
過去一年,多項系統評測已經反復驗證一個事實:LLM 生成的研究構想,往往“看起來很對”,但一執行就失效。它們善于組合概念,卻很少真正接受過“實驗結果”的懲罰。
來自斯坦福大學等的研究團隊選擇了一條更為激進的路線。他們構建了一套自動執行器的循環,通過進化搜索與獎勵學習,來強化 LLM 生成更為有效的想法。相關內容以「Towards Execution-Grounded Automated AI Research」為題,于 2026 年 1 月 20 日刊登在 arxiv。
![]()
論文鏈接:https://arxiv.org/abs/2601.14525
進入反復試錯的環境
研究團隊的設想可以這么總結:將 AI 生成的想法付諸于代碼,并從實驗結果中汲取經驗回滾想法。如果成功,這些自動化 AI 研究人員可以在龐大的搜索空間中自動開發和識別有效的研究想法,從而將計算轉化為科學發現;這些發現的理念反過來又可能改進前沿 AI 模型本身,實現遞歸自我改進。
這也正是本研究中提出的核心系統:Execution-Grounded Automated AI Research(執行落地型自動科研)。
它基于特定的環境,并在構建時力求開放式的研究問題,以此空出足夠的空間容納創新算法,并建立完善的基線與基準指標。
![]()
圖 1:自動化的執行器。
為了避免空談,團隊將研究場景壓縮為兩個高度真實、但可控的執行環境:
一個是預訓練:
- 任務:加速 nanoGPT 的預訓練過程
- 指標:在固定 GPU 預算下,更快達到目標驗證損失
- 對照基線:nanoGPT speedrun(35.9 分鐘)
另一個是后訓練:
- 任務:改進 GRPO 算法的后訓練效果
- 指標:數學推理任務(MATH)驗證準確率
- 對照基線:48.0%
執行反饋與強化學習
執行反饋的核心引導部分在于,它融合了探索與利用,用這兩者模擬科研迭代過程。
作為核心的自動化創意執行器由三個核心模塊組成:Implementer 實現者、Scheduler 調度器、Worker 工作單位。
![]()
圖 2:GRPO 和 nanoGPT 環境中自執行(上行)與 GPT-5(下行)的模型性能比較。
通過這三個模塊,AI 輸出的想法都會轉化為實際的數值反饋,反復自我修正,通過不斷控制執行,直到確認想法可行或失敗。在這個環節,初始探索 / 利用比例 5:5,后續逐步提高利用比例,共進行十次迭代
而在其后的獎勵強化學習部分,則以實驗性能為獎勵,這與實驗效果直接關聯。這種應用模式可通過梯度更新持續提升想法質量,突破進化搜索的限制。
實驗驗證里,后訓練在僅有50 個想法采樣的情況下,Claude-4.5-Sonnet 的最大準確率為 60.4%,遠超 48.0% 的基線標準。并且在 nanoGPT 上,Claude-4.5-Opus 的損耗最低,為 3.237,低于基線的 3.255。
在預訓練環境里,模型達到目標損失的訓練時間 19.7 分鐘,遠超 nanoGPT 基線(35.9 分鐘),僅落后人類頂尖解(2.1 分鐘),但無需人工干預。
表 1:在整個執行引導搜索中,超參數調優與算法思想的細分。
![]()
更多的實驗思路此處不做過多贅述。
探索算法直覺的道路
在執行日志的分析中,研究團隊發現一個耐人尋味的現象:模型并非只是在簡單地調參,它嘗試在算法層間進行修改,這其中包括訓練流程,更新策略,資源調度等方式。但這也凸顯了當下比較明顯的幾個問題,比如多數模型早期就出現的性能飽和,與少數模型才擁有的較清晰的“搜索隨規模提升”的趨勢。
未來的更新中,可能需要針對 RL 的模式崩潰引入多種獎勵補丁,平衡有效性與創新性。執行器也需要進一步升級,以應對復雜任務帶來的處理能力需要。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.