无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

UIUC、Meta、斯坦福解讀Claude Code爆火后Agent Harness底層邏輯

超模女球迷爆火后出鏡 自證不是AI

0
分享至



過去兩年,大模型寫代碼已經不再新鮮。從代碼補全到 GitHub issue 修復,從競賽編程到倉庫級軟件工程,人們習慣用一個簡單標準評估 coding agent:代碼能不能寫對?測試能不能通過?

但 Claude Code、Codex 這類系統的出現,正在把問題推向更底層的一層。真正強的 coding agent,并不只是 “會寫代碼”。它還要能在長時間窗口內讀倉庫、做計劃、改文件、運行命令、查看報錯、修復失敗、維護上下文,并在多輪反饋中持續推進任務。

這套讓模型長期可靠 “跑起來” 的執行系統,就是 Agent Harness。很多關于 harness 的討論,關注的是模型外面應該包什么:工具、API、沙箱、記憶、權限邊界、驗證器、反饋循環。它們回答的是 “一個可用 Agent 需要哪些系統組件”。

來自伊利諾伊大學香檳分校(UIUC)、Meta 和斯坦福(Stanford University)的 102 頁綜述《Code as Agent Harness》進一步追問:當 Agent 被放進長期任務環境里,真正把推理、行動、反饋、驗證和協作串起來的操作對象是什么?

答案是:代碼。



  • 論文標題:Code as Agent Harness
  • 論文:https://arxiv.org/pdf/2605.18747
  • GitHub 倉庫:https://github.com/YennNing/Awesome-Code-as-Agent-Harness-Papers

這里的代碼,不只是模型最終生成的一段程序,也不是說 Agent 框架本身由代碼寫成。它指的是 Agent 在 harness 中不斷生成、運行、修改、保存和共享的一系列代碼化中間物:Plan.md、測試腳本、shell 命令、patch、執行日志、workflow、技能庫、仿真器、驗證器,甚至共享倉庫狀態。

傳統代碼生成里,代碼通常是模型最后交付的產物;但在 Agent Harness 里,代碼會進入整個執行循環,承載計劃、執行、反饋、驗證和狀態管理,正在成為 harness 組織長期執行過程的核心媒介。



Code as Agent Harness 將代碼視為 Agent 系統中的可執行、可檢查、有狀態媒介,并從接口、機制、多 Agent 擴展三個層次展開。

為什么 Harness 需要代碼作為核心載體?

一個純粹的大語言模型本質上是無狀態的。它可以根據上下文生成下一段文本,但不會天然保存任務進度,也不會自動維護外部世界的狀態變化。Harness 的作用,就是把模型接到真實執行環境里。

代碼之所以適合成為 harness 的核心載體,是因為它有自然語言不具備的三個屬性:可執行、可檢查、有狀態。

可執行,意味著模型的意圖可以變成真實操作。一個計劃不只是 “我將修改文件”,而是可以落成 shell command、patch 或測試腳本。

可檢查,意味著執行過程會產生客觀反饋。編譯錯誤、runtime error、測試結果、日志和 trace,都能告訴系統當前發生了什么,而不是只依賴模型自我解釋。

有狀態,意味著任務進度可以被持久保存。倉庫、文件系統、配置、測試、commit history、skill library 都能記錄 Agent 已經做了什么、失敗在哪里、下一步應該接著哪里做。

所以,這篇 survey 和一般 harness 綜述最大的不同,不是又列一遍工具、記憶和沙箱,而是把代碼放在中心位置:代碼是 harness 中最穩定、最可操作的狀態載體。

代碼如何打通 Harness 的接口?

這篇綜述的第一層是 Harness Interface:代碼如何成為模型和外部世界之間的接口。

首先,代碼讓推理可執行。過去模型依賴自然語言 Chain-of-Thought 做推理,但文本推理很難驗證。PoT、PAL 等方法把中間推理轉成程序,讓解釋器完成計算;Lean/Coq 相關工作則進一步把推理變成機器可檢查的證明過程。關鍵不在于 “模型會寫程序”,而在于推理本身被外部化成了可執行對象。

其次,代碼讓行動可落地。對于 Claude Code 或 Codex,行動不是一句 “我會修復 bug”,而是實際修改文件、運行測試、查看報錯、再生成 patch。對于機器人,SayCan、Code as Policies、Voyager 等工作展示了另一種形式:語言目標被轉成技能調用、控制腳本或可復用函數。

第三,代碼讓環境可建模。Agent 要長期運行,就必須知道環境狀態。軟件倉庫、測試結果、執行日志、DOM tree、仿真器、數據分析腳本,都可以成為 Agent 理解世界的結構化表示。SWE-bench、AgentBench 等可執行評測環境也正是基于這一點:任務不再只是靜態問答,而是在一個可執行環境中完成。

代碼進入 Harness Interface 后,推理不再只是文本,行動不再只是承諾,環境也不再只是描述。它們都變成了可以執行、檢查和更新的狀態。



代碼在接口層連接 reasoning、acting 和 environment modeling,讓 Agent 的推理、行動與環境狀態進入同一個可執行閉環。



代碼作為接口層的發展路線圖。

Harness 如何用代碼管理狀態與反饋?

真實任務很少一步完成。修復一個 bug,可能要多次定位、修改、測試和回滾;操作一個網頁系統,可能要跨多個頁面和工具;做一個科學實驗,可能要提出假設、運行模擬、分析數據,再根據結果調整下一步。

這時,關鍵不只是模型更強,而是 Agent 的每一步是否能被組織進一個可控的執行循環。

Planning不再只是模型腦內計劃,而可以變成 Plan.md、workflow 或可執行任務圖。Memory也不只是 “更大的上下文窗口”,而是哪些倉庫證據、執行日志、失敗經驗、歷史 patch 應該被保存、壓縮或卸載到外部狀態中。Tool use也不只是 API 調用,而是通過終端、沙箱、測試框架、靜態分析器等工具改變外部世界。

最核心的是Plan-Execute-Verify 循環。計劃定義操作范圍,執行在沙箱或受限環境中發生,驗證依賴測試、linter、靜態分析和運行日志。像 SWE-agent、OpenHands 這類系統之所以重要,不只是因為它們會調用工具,而是因為它們把 “寫代碼 — 運行 — 失敗 — 修復” 組織成了可重復的狀態轉移過程。

一個成熟的 Agent 不應該害怕報錯。報錯、測試失敗和執行日志,正是代碼 harness 控制 Agent 行為、讓它逐步收斂的反饋傳感器。



規劃、記憶、工具使用和執行反饋共同構成代碼中心 Harness 架構,支持 Agent 長程運行。

多 Agent 協作時,代碼是共享基底

當任務復雜到單個 Agent 無法完成,多 Agent 協作成為自然方向。一個 Agent 做 manager,一個做 planner,一個寫代碼,一個寫測試,一個做 reviewer。

但多 Agent 的真正難點不是 “多叫幾個模型討論”,而是它們如何共享同一個世界狀態。

如果多個 Agent 只靠聊天記錄協作,很容易出現狀態發散:每個 Agent 都以為自己理解了當前進展,但它們對代碼到底被改成什么樣、測試失敗在哪里、哪些修改已經生效,可能并沒有共同認知。

代碼在這里提供了更穩定的共享基底。倉庫、測試、PR、issue、CI log、review comment、執行 trace,都可以成為多個 Agent 共同讀寫和驗證的對象。真正的協作不是 “互相說服”,而是圍繞共享程序狀態不斷收斂。

多 Agent 系統的共同語言,不應該只是自然語言對話,而應該是可執行的共享代碼狀態。



在多 Agent 系統中,共享倉庫、測試、執行狀態和 workflow 構成協作基底。

從 Claude Code 到機器人:

代碼正在成為 Agent 操作系統

Code as Agent Harness 最先在 coding agent 中變得明顯,并不意外。軟件世界天然可執行、可測試、可回滾、可記錄,因此最適合作為 Agent 落地的樣板間。

但這個趨勢并不止于寫代碼。在 GUI/OS Agent 中,網頁和操作系統正在被轉化為可編程環境,DOM tree、accessibility tree、Playwright 腳本都讓界面操作變成可執行狀態轉移。在機器人中,語言意圖需要變成技能庫、控制腳本和仿真反饋,抽象目標只有落到可執行代碼里,才能被物理約束檢查。在科學發現中,假設、實驗、模擬、數據分析和實驗記錄可以被組織成代碼流水線,Agent 不只是生成想法,而是通過可執行 pipeline 推進發現過程。

因此,未來很多 Agent 不一定都叫 coding agent,但它們很可能都會運行在某種 code-centric harness 之上。

模型像大腦,harness 像身體和神經系統;而代碼,就是把大腦、身體、反饋和記憶連接起來的操作系統。



Code as Agent Harness 從代碼助手擴展到 GUI/OS、機器人、科學發現、個性化系統等場景。

Open Problems:

下一代 Agent 不能只評測最終結果

當 Agent 變成長期執行系統,評測方式也必須改變。過去 benchmark 主要看最終結果:答案對不對、測試過沒過、任務完成沒有。但對于 code-harnessed agent,這遠遠不夠。

一個 Agent 可能最終通過測試,但過程中做了大量危險修改、污染共享狀態,或者引入隱藏 regression。另一個 Agent 可能沒有完成任務,但執行軌跡清晰、失敗原因明確、狀態可恢復。真實部署中,后者未必更差。

論文因此提出了幾個開放問題:如何做 harness-level evaluation,不僅評估最終輸出,也評估計劃、工具調用、狀態轉移和反饋使用;如何處理 incomplete feedback,因為測試通過不代表程序真正正確;如何實現 regression-free self-evolution,避免 harness 自我優化時引入新失敗模式;如何解決多 Agent 共享狀態中的語義沖突;以及如何把 human-in-the-loop 變成可記錄、可追責、可驗證的系統狀態。

AI Agent 的下一步,不只是讓模型更會回答,而是讓整個代碼化執行過程更可檢查、更可恢復、更可治理。

過去,代碼是模型的考題。

現在,代碼正在成為 Agent 的操作系統。

關于作者

寧徐瑛(Xuying Ning),本文一作,伊利諾伊大學香檳分校(UIUC)CS 博士生,研究方向包括 AI Agent、多模態機器學習與信息檢索,一作工作發表于 ICLR(Oral)、ICML 等頂尖會議,共累計發表論文 20 余篇,入選 2026 年 Siebel Scholar,曾在 Meta、Ant Group 開展研究工作。本文核心貢獻者還包括 UIUC 博士生 Katherine Tieu、魏天心(Tianxin Wei)、李子豪(Zihao Li)、貝元琛(Yuanchen Bei),以及 Meta 研究科學家付東奇(Dongqi Fu)。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
絕殺反絕殺!德比斯說到做到:站在賽車上揮拳慶祝 舉法國國旗繞場

絕殺反絕殺!德比斯說到做到:站在賽車上揮拳慶祝 舉法國國旗繞場

風過鄉
2026-06-13 21:27:26
秦海璐變賣房產,清空全部資產,湊出近億身家,絕境兜底救下劉濤

秦海璐變賣房產,清空全部資產,湊出近億身家,絕境兜底救下劉濤

秋別離
2026-06-13 15:50:00
張碧晨和楊超越這倆人同框,沒開美顏竟然長這樣!

張碧晨和楊超越這倆人同框,沒開美顏竟然長這樣!

可樂談情感
2026-06-13 18:53:06
錢再多有什么用?52歲傅程鵬如今現狀,給娛樂圈所有人提了個醒!

錢再多有什么用?52歲傅程鵬如今現狀,給娛樂圈所有人提了個醒!

阿纂看事
2026-06-12 19:30:33
為什么90年代全港黑道沒人敢動周星馳?

為什么90年代全港黑道沒人敢動周星馳?

手工制作阿殲
2026-06-12 01:19:55
搶在王毅專機起飛前,蒙古就亮出危險4字,逼中國做出兩件讓步

搶在王毅專機起飛前,蒙古就亮出危險4字,逼中國做出兩件讓步

小小科普員
2026-06-13 16:08:53
廁紙扔簍是窮病,得治!

廁紙扔簍是窮病,得治!

霹靂炮
2026-06-10 23:07:06
居民存款連續兩個月減少,上次出現是在2015年A股牛市5178見頂前夕

居民存款連續兩個月減少,上次出現是在2015年A股牛市5178見頂前夕

東方豪俠
2026-06-13 14:33:14
誰能想到,這些東西的正確用法竟然是“倒著用”!真是刷新認知

誰能想到,這些東西的正確用法竟然是“倒著用”!真是刷新認知

甜茶極簡記
2026-06-13 16:19:27
這下要排隊買奇瑞了!新車配固態電池,續航1500km,號稱永不自燃

這下要排隊買奇瑞了!新車配固態電池,續航1500km,號稱永不自燃

音樂時光的娛樂
2026-06-13 13:09:30
梅西的定妝照片!從2010-2026,20年青春全給了足球

梅西的定妝照片!從2010-2026,20年青春全給了足球

五姑娘臺球
2026-06-13 16:13:33
“鵝腿阿姨”:一個時代有一個時代的笑話

“鵝腿阿姨”:一個時代有一個時代的笑話

天水人李成義
2026-06-13 11:00:23
鵝腿阿姨為何賣“綠鴨腿”?網友們瘋狂實驗

鵝腿阿姨為何賣“綠鴨腿”?網友們瘋狂實驗

三言科技
2026-06-11 08:48:15
“鵝腿阿姨”將有怎樣的結局?

“鵝腿阿姨”將有怎樣的結局?

方清云
2026-06-12 20:15:44
裁判馬寧成世界杯最大笑點?意外出圈原因曝光,所有人都沒想到

裁判馬寧成世界杯最大笑點?意外出圈原因曝光,所有人都沒想到

史行途
2026-06-13 17:28:24
20歲大學生被蜈蚣咬傷,整夜失眠、胡言亂語!家長誤以為心理壓力大,送醫才發現全身炎癥,醫生:病例極具警示性

20歲大學生被蜈蚣咬傷,整夜失眠、胡言亂語!家長誤以為心理壓力大,送醫才發現全身炎癥,醫生:病例極具警示性

上海約飯局
2026-06-13 13:23:47
世界杯太慘了!邀約4000人到場0人,央視疑似虧錢,評論區太現實

世界杯太慘了!邀約4000人到場0人,央視疑似虧錢,評論區太現實

譚談社會
2026-06-12 23:51:18
劉浩存“臥魚”動作引全網模仿熱潮!專業戲曲從業者提醒

劉浩存“臥魚”動作引全網模仿熱潮!專業戲曲從業者提醒

韓小娛
2026-06-13 07:43:04
高鑫王一楠女兒高中畢業典禮!外公外婆昆明飛上海,全家盛裝出席

高鑫王一楠女兒高中畢業典禮!外公外婆昆明飛上海,全家盛裝出席

露珠聊影視
2026-06-13 22:29:29
悲哀!48歲媽媽因管教12歲女兒發生爭執,母女倆同日先后跳樓身亡

悲哀!48歲媽媽因管教12歲女兒發生爭執,母女倆同日先后跳樓身亡

青梅侃史啊
2026-06-12 22:00:42
2026-06-14 01:24:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13246文章數 142668關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

房產
教育
手機
本地
軍事航空

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

教育要聞

奉勸所有老師,別再自費買獎品獎勵學生了!

手機要聞

比華為三折疊還稀缺!iPhone Ultra國行備貨量不足:博主直言搶到賺到

本地新聞

AK劉彰邂逅河北南大港濕地

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內容

無障礙瀏覽 進入關懷版