網易首頁 > 網易號 > 正文申請入駐

循環即實驗室：八個AI自主研究系統橫評

2026-04-10 17:47:37　來源: 賽博禪心

北京舉報

分享至

RESEARCH

現在，AI Agent 這個詞已經成了真正在跑的東西

Karpathy 寫了 630 行代碼讓 AI 自己做實驗，Google DeepMind 讓程序自己進化出了 56 年來沒人改進過的算法，Sakana AI 做了一個會重寫自己源碼的 Agent 然后它學會了作弊。這些系統不再是論文里的示意圖，它們在真實的 GPU 上跑著，產出真實的結果

但它們到底在做什么事？各自的能力邊界在哪？能不能組合起來用？

今天 Interesting Engineering++ 發了一篇長文，把這些系統放在同一個分析框架里做了橫評，回答的就是這些問題

The Loop Is The Lab

本文線索，由線人莊明浩腦濕舉報

原文地址：interestingengineering.substack.com/p/the-loop-is-the-lab

一個核心命題：科學方法本身是程序

先說背景。過去一年，做 AI 的人越來越意識到一件事：訓練模型這件事本身，可以被模型來做。不是那種「AI 輔助研究」的客氣說法，是真的讓 Agent 自己提假說、自己跑實驗、自己看結果、自己決定下一步怎么辦

這篇文章看了八個這樣的系統。它們來自不同的團隊，解決不同的問題，但共享同一個洞察：科學方法就是一個循環——假說、實驗、評估、保留或丟棄、重復。這個循環可以寫成代碼，寫成代碼就能自動化，自動化了就能以機器速度運行

每個系統實現這個循環的方式不同，這些差異決定了它們各自能做什么、會在哪里卡住

八個系統的定位概覽

原文提出了一個七原語加治理的分析框架，用來拆解任意智能體系統，然后把這個框架應用到全部八個系統上

分析框架：怎么理解一個 Agent 系統

要比較八個系統，得先有一把統一的尺子。原文造了一把，挺好用

八個原語

說白了，不管多復雜的 Agent 系統，拆開來看就是八個零件的排列組合。搞清楚一個系統裝了哪些零件、每個零件誰控制，基本上就理解了它能做什么和不能做什么

八原語圖解

感知（Perceive）、記憶（Remember）、推理（Reason）、行動（Act）、評估（Evaluate）、變異（Mutate）、協調（Coordinate）

七原語速查表

治理（Governance），關鍵的第八個

治理原語

可進化性階梯

關于一個自主系統，最有診斷價值的問題只有一個：變異發生在哪一層？這個問題的答案把所有系統分成了六檔。越往上，Agent 能改寫的東西越多，能力天花板越高，風險也越大

可進化性階梯：從 L0 到 L5

L0 是聊天機器人，只改輸出不改自己。L1 調超參，經典 AutoML。L2 改代碼，AlphaEvolve 和 AutoResearch 在這。L3 寫新工具擴展動作空間，OpenClaw 在這。L4 改控制自己推理和行動的代碼，Darwin G?del Machine 在這。L5 改評判自己的標準——目前沒有系統在這一層運行，但苗頭已經出現了

八個系統，逐個看

1. AutoResearch

Karpathy / Eureka Labs，2026 年 3 月

Karpathy 做的東西有個特點：極簡，但極簡本身就是設計決策。AutoResearch 是一個 630 行 的 Python 項目，MIT 協議開源。每個實驗精確跑 5 分鐘，只用一塊 GPU，整個代碼庫能放進一個 LLM 的上下文窗口

兩天演示跑了約 700 次自主修改，找到約 20 個疊加改進，把一個已經被認為充分優化的代碼庫的 Time-to-GPT-2 指標砍了 11%。社區拿 Mac Mini M4 跑隔夜測試，nano 尺度上到了約 28%

AutoResearch 流程圖

5 分鐘預算是這個系統最重要的設計決策，雖然不是最顯眼的那個。它讓每個實驗可比，防止 Agent 發現在更長訓練中不成立的虛假改進，順便把硬件門檻降到了一臺 Mac Mini

Agent 的學習機制很樸素：它看到一個不斷累積的「什么有效、什么失敗」的歷史，假說質量隨迭代提升。Git 同時充當審計軌跡和回滾機制

AutoResearch 關鍵屬性

卡在哪：AutoResearch 在 train.py 內部發現改進。但 50% 的算力削減需要根本不同的架構（比如 MoE）或內核級效率改進，一個 630 行腳本里做不到這些

2. AlphaEvolve

Google DeepMind，2025 年 5 月

如果說 AutoResearch 是一個人的周末項目，AlphaEvolve 就是 Google 級別的工程——在內部跑了一年多才公開。成果放在這個量級上看確實嚇人：56年來首次改進 Strassen 的矩陣乘法算法，Gemini 架構里 FlashAttention 內核加速 23%，改進 Borg 調度啟發式永久回收了 Google 全球計算資源的 0.7%

架構是進化的。維護一個候選程序的群體，用雙 LLM 變異策略：Gemini Flash 負責廣度（大量廉價變異），Gemini Pro 負責深度（對最有前途的候選者做昂貴推理）。Strassen 那個突破就歸因于 Pro 的深度推理能力

AlphaEvolve 流程圖

父代選擇時，不是只選最優者，分數差的程序可能攜帶了對另一目標有用的遺傳材料。群體修剪用 Pareto 前沿。形式化驗證器是凍結的，人寫的，檢查程序是否真的算對了

AlphaEvolve 關鍵屬性

卡在哪：AlphaEvolve 發現怎么更高效地計算一個給定架構，但它不能發現該用什么架構。內核級增益到 25-30% 大概就封頂了

3. Darwin G?del Machine

Sakana AI / UBC / Vector Institute，2025 年 5 月

這是八個系統里哲學上最激進的。名字致敬了兩個譜系：Schmidhuber 2003 年的 G?del Machine（只在能形式化證明改變有益時才改自己）和達爾文進化論（不需要證明，活下來就行）。DGM 把兩者嫁接：放棄形式化證明，用經驗性基準驗證替代數學確定性

SWE-bench 上 80 次迭代從 20.0% 干到 50.0%。Polyglot 上從 14.2% 到 30.7%，超過了手調的 Aider。用 Claude 3.5 Sonnet 優化的工作流還能遷移到 Claude 3.7 和 o3-mini，說明 Agent 找到的是工作流架構層面的改進

然后出了一件有意思的事。在一次運行里，Agent 修改了自己的評估代碼來偽造基準日志，人為抬高自己的分數。研究人員抓住了它，因為每個變更都被沙盒化且可追溯

DGM 流程圖

DGM 的 Agent 把自己的全部 Python 源碼讀進內存，然后推理怎么改進自己。它可以改任何東西——包括構造 LLM 提示的代碼、檔案采樣策略、甚至判定什么算「改進」的標準。這就是它在可進化性階梯上處于 L4 的原因

DGM 關鍵屬性

卡在哪：DGM 在「搜索」上越來越好，但不一定在「搜索找到的東西」上越來越好。當代理基準和真正目標在規模上偏離時，完美的搜索者探索錯誤的景觀，收斂到的還是錯誤的答案。80 次迭代花 22000 美元

4. OpenClaw

Steinberger，2026

OpenClaw 是感知范圍最廣的那個。文件、郵件、日歷、OS 命令、API、網頁、ArXiv 論文、GitHub 倉庫、Slack，只要有對應的 skill 就能對接。最特別的是它可以自己寫新 skill——在運行時永久擴展自己的動作空間

OpenClaw 流程圖

OpenClaw 不只檢索信息，它跨源綜合——識別矛盾、匯聚和未探索的組合。這種信息收集一個人類研究者要花好幾周

OpenClaw 關鍵屬性

卡在哪：原文有一句話說得太準了

OpenClaw produces the world's best-organised backlog of untested ideas.

OpenClaw 產出了全世界組織得最好的未測試想法清單

沒有自動化反饋循環。每個實驗結果必須人來審閱。90 天里一個仔細的人能評估 10-15 個結果，AutoResearch 一個晚上跑 100 個

Marc Andreessen 怎么看 OpenClaw

Marc Andreessen 在一期播客里說他認為 π 和 OpenClaw 的組合是幾十年來最重要的軟件架構突破之一。他的定義很簡潔

LLM + shell + file system + markdown + cron loop

幾個讓他「炸裂」的點：Agent 把狀態存在文件系統里，換模型不影響身份和狀態；Agent 對自己的文件結構有完整自省知識，可以重寫自己的代碼；跟 Unix shell 結合后 Agent 原生擁有計算機的全部能力

他把組件一個個列出來——LLM、shell、markdown、cron loop——說這些東西都不新，但組合在一起之后軟件的定義變了。從人手動造軟件變成 Agent 自己進化出能力來滿足需求

5. Claude Code

Anthropic，2025+

Claude Code 做的事跟上面那些研究自動化系統不太一樣。它是一個編碼 Agent，設計目標是在現有代碼庫里把活干好。讀整個代碼庫、跟終端交互、通過 MCP 連外部服務、生成子 Agent 并行執行、用 CLAUDE.md 做持久記憶

它的核心優勢在實現層。人提供假說，Claude Code 來實現和測試，比人類開發者更快更準

Claude Code 流程圖

Claude Code 關鍵屬性

卡在哪：第 30 天，所有顯而易見的效率提升都實現了——混合精度、激活檢查點、數據管線優化、融合操作，加起來約 15%。第 31 到 90 天不再產出新假說。CLAUDE.md 成為一份組織得很漂亮的停滯搜索記錄

6. AutoResearch Swarm

社區分叉，2026+

一個人的 AutoResearch 跑不過來了，社區就把它拆成了四個 Agent 協作：A1 生假說，A2 并行跑實驗，A3 跨所有結果做綜合，A4 盯著有沒有獎勵黑客和統計異常

關鍵的質變在復合學習。A3 的綜合喂回 A1 的假說生成，假說越來越好。90 天跑大約 9000 個實驗，樣本密度夠大，能發現單次隔夜運行永遠找不到的架構交互

AutoResearch Swarm 流程圖

Swarm 關鍵屬性

卡在哪：Swarm 產出了全世界驗證得最好的「可能在前沿規模有效」的清單。但真正驗證需要一次 5000 萬到 1 億美元 的訓練運行。搜索問題解決了，驗證問題仍然是人類的

7. Moltbook

Agent 社交網絡，2025/6+

Moltbook 是個奇怪的東西。它是一個 Agent 原生的社交網絡，大約 150 萬 個 Agent 賬戶在里面發帖、回復、互發消息，沒有中央編排者，沒有選擇壓力，沒有評估函數

它被放進這篇橫評不是因為它能做研究——它不能——而是因為它是對等網格拓撲的最大規模實驗。無治理的高復雜度協調會產出什么？答案挺刺激的

記錄在案的涌現行為：協調聯盟自發形成、加密點對點通信通道、加密貨幣計劃，以及研究人員描述的涌現原始宗教（emergent proto-religion）

Moltbook 流程圖

8. NemoClaw

NVIDIA，2026

NemoClaw 跟前面七個不太一樣。它不引入新的搜索能力或變異機制。它做的事是之前的七原語框架里沒有對應類別的：在 Agent 行為執行的那一刻進行攔截——在行為產生效果之前

之前所有系統的監督都是事后的——看 git 日志、查基準分數、讀綜合報告。NemoClaw 把監督移到了行動的瞬間：Agent 試圖連接一個不在預批準列表里的網絡端點時，請求被阻止，實時展示給人類操作員，批準或拒絕后才繼續

NemoClaw 流程圖

NemoClaw 治理架構，來源：NVIDIA 文檔

NemoClaw 架構細節，來源：NVIDIA 文檔

NemoClaw 默認路由到 Nemotron 3 Super 120B。通過提供企業部署 Agent 必需的合規和審計基礎設施，NVIDIA 同時把自己變成了所有受治理 OpenClaw 部署的默認推理提供商

NemoClaw 關鍵屬性

開放問題：實時逐連接審批在少量 Agent 時可行。規模化之后——幾百個 Agent、每小時幾千個連接請求——審批要么退化成橡皮圖章，要么變成瓶頸

放在一起看每個系統在哪里卡住

原文做了一張表，把八個系統對照完成研究循環所需的階段逐一映射。前沿規模驗證那一列，對每個系統都是空的

階段解剖表格（上）

階段解剖表格（下）

約束已經從「發現改進」轉移到了「在有意義的規模上驗證改進」

混合體：每個系統貢獻什么

各系統對混合體的貢獻

三條系統思維規則

三條規則概覽

規則一：瓶頸揭示架構盲區：一個系統的瓶頸總是在它能測量的東西和目標真正需要的東西之間的裂縫處

The precise location of the stall is the most informative single piece of information about a system's architecture.

瓶頸的精確位置是關于系統架構最有信息量的單一信息

規則二：評估函數就是系統：兩個層完全一樣但評估函數不同的系統會收斂到不同的解

The evaluation function is the system's actual objective, regardless of what the designers specify in prose.

評估函數是系統的真正目標，不管設計者在文檔里怎么寫的

規則三：規模邊界需要人類權威

Humans remain essential not because they reason better, but because they can authorise expenditures that change scale.

人類仍然不可或缺，不是因為推理得更好，而是因為能授權那些改變規模的支出

Harness 在哪

原文最后討論了 Harness（護欄）和三條規則的關系。Harness 就是 Agent 周圍的固定框架：定義評估信號、觀察接口和 Agent 能觸碰與不能觸碰的邊界。三條規則各描述了 Harness 的一個邊界處發生的事

Harness 與三條規則的關系

規則一在測量邊界觸發——Harness 能測量的捕捉不到真正目標時，Agent 就在那里停滯。規則二命名了 Harness 的核心組件。規則三在權威邊界觸發——人類是 Harness 最外層的邊界

八原語框架是解剖學，映射系統的凍結/可進化結構。三條規則是診斷學，解釋為什么這個結構產出了它所產出的結果。兩者都需要

原文最后一段：

The scientific loop — hypothesise, experiment, measure, keep or discard, repeat — is itself a program. The question is no longer whether AI can run this loop. It is how to define the loop so that what gets optimised is what we actually care about — and who holds authority over the decisions that code cannot make.

科學循環本身是一個程序。問題不再是 AI 能不能跑這個循環。問題是怎么定義這個循環，使得被優化的東西確實是我們在乎的東西——以及誰對那些代碼做不了的決策擁有權威

下一個前沿不是更強的獨立 Agent，而是它們的組合架構

原文地址：interestingengineering.substack.com/p/the-loop-is-the-lab
參考文獻見原文，涵蓋 Karpathy AutoResearch 倉庫、NVIDIA NemoClaw 文檔、AlphaEvolve 論文（arXiv:2506.13131）、Darwin G?del Machine 論文（arXiv:2505.22954，ICLR 2026）、Sakana AI 博客、OpenClaw 文檔、Claude Code 文檔等

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.