網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全球排名前三,復(fù)旦自進(jìn)化Harness Engineering讓GPT5.4再漲7個(gè)點(diǎn)

2026-05-20 17:23:00　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心編輯部

2026 年以來(lái)，OpenAI、Anthropic、LangChain 等機(jī)構(gòu)紛紛發(fā)布關(guān)于 Harness Engineering 的技術(shù)博客，OpenClaw、Hermes Agent 等項(xiàng)目的火爆更讓 Harness Engineering 成為業(yè)界熱詞。人們的共識(shí)正在形成：模型的能力釋放，依賴(lài)于一套精密的外部框架

Harness 的開(kāi)發(fā)與優(yōu)化是一個(gè)工程問(wèn)題，需要結(jié)合模型能力、任務(wù)環(huán)境共同設(shè)計(jì)。然而，模型自身以月為單位進(jìn)化，任務(wù)場(chǎng)景往長(zhǎng)尾分布發(fā)展，Harness 的進(jìn)化與迭代卻高度依賴(lài)人工經(jīng)驗(yàn)。這引出了一個(gè)核心問(wèn)題：在 Harness Engineering 的迭代循環(huán)中，哪些部分可以被自動(dòng)化？如何讓 Harness 自動(dòng)地從經(jīng)驗(yàn)中學(xué)習(xí)并改進(jìn)？

來(lái)自復(fù)旦大學(xué)、北京大學(xué)、上海奇績(jī)智峰的團(tuán)隊(duì)提出Agentic Harness Engineering (AHE)，這是一套可觀測(cè)性（Observability）驅(qū)動(dòng)的 Harness 自動(dòng)優(yōu)化方法，端到端貫穿 Harness Engineering 的全流程，實(shí)現(xiàn)了模型能動(dòng)性的最大程度釋放。

論文標(biāo)題：Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
論文鏈接：arxiv.org/abs/2604.25850
代碼倉(cāng)庫(kù)：github.com/china-qijizhifeng/agentic-Harness-engineering
項(xiàng)目博客：https://dawning-road.github.io/blog/agentic-Harness-engineering

在實(shí)驗(yàn)期間，使用 GPT?5.4，AHE 在 Terminal-Bench 2 上的分?jǐn)?shù)從 69.7 迭代到 77.0。GPT-5.5發(fā)布后，AHE迅速迭代出與之適配的Harness，在 Leaderboard 上位列全球第三

并且，自動(dòng)迭代得到的 Harness 展現(xiàn)出良好的模型間泛化以及任務(wù)間泛化能力，確保不是在 overfit 評(píng)測(cè)集。

目前論文在社交平臺(tái) X 上收獲大量關(guān)注，已經(jīng)有 10w + 瀏覽討論。

為什么要設(shè)計(jì)可觀測(cè)體系？

Harness Engineering 的三個(gè)視角

從形態(tài)上看，模型和 Harness 共同構(gòu)成一個(gè)主體和環(huán)境進(jìn)行交互。模型的所有行為都發(fā)生在概率空間中，是信息壓縮、智能發(fā)生、不確定性的來(lái)源，而 Harness 是包裹在外的確定性組件：system prompt、工具定義與實(shí)現(xiàn)、middleware/hook、skill 文檔、sub-agent 編排、長(zhǎng)期記憶、日志與觀測(cè)。在 agent 邁向長(zhǎng)程、生產(chǎn)力任務(wù)過(guò)程中，Harness 是讓模型行為穩(wěn)定、一致、可控的重要保證。

從目的上看，Harness 的職能之一是在模型和環(huán)境之間管理一條雙向的上下文流：一側(cè)在合適的時(shí)機(jī)把任務(wù)、用戶(hù)意圖、環(huán)境狀態(tài)、外部信息傳進(jìn)模型，另一側(cè)把模型的動(dòng)作忠實(shí)地記錄、校驗(yàn)后交回環(huán)境執(zhí)行。

過(guò)去，開(kāi)發(fā)者需要手動(dòng)設(shè)計(jì) prompt、復(fù)制 terminal 輸出、復(fù)制外部文檔內(nèi)容給模型，上下文分布在互不相通的空間里，人類(lèi)依據(jù)直覺(jué)和觀察來(lái)決定 context 的構(gòu)成。因此，Harness 的設(shè)計(jì)目標(biāo)之一，就是讓 context 的流動(dòng)可以更加精準(zhǔn)、更加自主。

基于以上的形態(tài)與目標(biāo)，Harness Engineering 的方法論是什么？

最直觀的，是獨(dú)立優(yōu)化各個(gè)組件代碼，或者稱(chēng)之為 Agent Infra。開(kāi)發(fā)者社區(qū)貢獻(xiàn)了大量有用的 Harness 組件，用于記憶、上下文管理、沙盒環(huán)境、軌跡管理，這依賴(lài)于扎實(shí)的工程開(kāi)發(fā)與優(yōu)化，讓各個(gè)部分的獨(dú)立地變得更加高效、安全、穩(wěn)定。

進(jìn)一步地，對(duì)于任意一個(gè)特定環(huán)境，若要找到最優(yōu)的 Harness，這就成為了一個(gè)模型 x Harness x 環(huán)境的組合優(yōu)化問(wèn)題。不再能像開(kāi)發(fā)單獨(dú)組件那樣有一個(gè)明確的規(guī)則，不再能利用人類(lèi)開(kāi)發(fā)者的先驗(yàn)知識(shí)一步到位找出最優(yōu)組合，而是要開(kāi)發(fā)、觀測(cè)、迭代，根據(jù)模型的運(yùn)行軌跡、評(píng)測(cè)分?jǐn)?shù)，反復(fù)調(diào)整。

人類(lèi)的注意力是稀缺的，因此，必須讓 agent 本身也參與到 Harness 優(yōu)化的過(guò)程中來(lái)。只要把優(yōu)化目標(biāo)、動(dòng)作空間、狀態(tài)空間都以一種 agent 可讀的方式呈現(xiàn)，那么就可以引入 agent 進(jìn)行自主優(yōu)化。這便是 AHE 設(shè)計(jì)可觀測(cè)體系的出發(fā)點(diǎn)。

可觀測(cè)體系：組件、經(jīng)驗(yàn)、決策

Harness 的開(kāi)發(fā)也分為幾個(gè)階段：編寫(xiě)組件、運(yùn)行 agent、收集反饋。這個(gè)過(guò)程反復(fù)迭代，持續(xù)運(yùn)行。如果要想讓 agent 接手人類(lèi)的工作，就需要在此過(guò)程中所產(chǎn)生的 context 可觀測(cè)，并且做好 context 結(jié)構(gòu)化、層次化。

在此過(guò)程中，并不限制 agent 的自主決策空間，只依賴(lài)評(píng)測(cè)結(jié)果，以及更多分層信息來(lái)輔助它精準(zhǔn)修改、準(zhǔn)確歸因。

AHE 方法由三個(gè)角色構(gòu)成：Coding Agent 負(fù)責(zé)運(yùn)行測(cè)試，Agent Debugger 負(fù)責(zé)整理軌跡，Evolve Agent 負(fù)責(zé)修改 Coding Agent 的 Harness 實(shí)現(xiàn)進(jìn)化。

整個(gè)可觀測(cè)體系分三部分：

NexAU 提供各部分解耦的 Harness，提供 Harness 組件的可觀測(cè)性；
Agent Debugger 把 10M token 量級(jí)的 raw trace 提煉成分層的、可溯源的多維反饋意見(jiàn)，實(shí)現(xiàn)經(jīng)驗(yàn)的可觀測(cè)性；
Evolve Agent 基于 git 溯源的組件歷史、反饋結(jié)果，構(gòu)建證據(jù)驅(qū)動(dòng)的完整修改鏈路，對(duì)相應(yīng)組件進(jìn)行修改，實(shí)現(xiàn)優(yōu)化行為的可觀測(cè)性。

（1）組件可觀測(cè)性：解耦的 “聲明式 Harness”

Coding Agent 基于 NexAU 框架運(yùn)行。AHE 把 Harness 拆成了七種正交的文件級(jí)組件：System Prompt、Tool Description、Tool Implementation、Middleware、Skill、Sub-agent Config、Long-term Memory。每個(gè)組件都是一個(gè)獨(dú)立的文件，有明確的掛載點(diǎn)，彼此之間結(jié)構(gòu)解耦。

這種設(shè)計(jì)的巧妙之處在于：它讓 “失敗模式 - 單一組件” 的映射關(guān)系變得極其清晰。所有修改通過(guò) Git 進(jìn)行版本管理，每次變更都是一次可追溯、可審計(jì)、可回滾的 commit。

目標(biāo) Coding Agent 則故意從一個(gè) “零先驗(yàn)” 的極簡(jiǎn)形態(tài)起步：只有一個(gè) run_shell_command 工具，沒(méi)有任何 Middleware、Skill 或 Sub-agent。這樣做是為了確保后續(xù)每一次新增組件、每一次 Prompt 改寫(xiě)，都能被干凈地歸因。

（2）經(jīng)驗(yàn)可觀測(cè)性：Agent Debugger 把軌跡變成可消費(fèi)資產(chǎn)

一次完整評(píng)測(cè)所產(chǎn)生的原始軌跡動(dòng)輒數(shù)千萬(wàn) Token，如果把它們直接丟給 Evolve Agent，其上下文窗口將瞬間被淹沒(méi)，什么代碼都改不了。

AHE 開(kāi)發(fā)了一套名為 Agent Debugger 的分層提煉流水線(xiàn)：底層完整記錄所有原始軌跡；中層由 Cleaner 去除重復(fù)的工具輸出；上層則通過(guò)一個(gè) QA Sub-agent，針對(duì)每道題的多次 rollout 結(jié)果，自動(dòng)切換提問(wèn)策略。最后，所有單題分析匯聚成一份約 10K Token 的概覽報(bào)告，交給 Evolve Agent 消費(fèi)。

本質(zhì)上，這是一種漸進(jìn)式披露的設(shè)計(jì)。Evolve Agent 默認(rèn)只需閱讀概覽，但隨時(shí)可以查看單題細(xì)節(jié)，在需要核實(shí)結(jié)論時(shí)回溯原始軌跡。10M 級(jí)別的數(shù)據(jù)由此變成了可并發(fā)、可消費(fèi)、可審計(jì)的經(jīng)驗(yàn)資產(chǎn)。

（3）決策可觀測(cè)性：Evolve Agent 的 “證據(jù)驅(qū)動(dòng)修改”

Evolve Agent 的設(shè)計(jì)原則極其克制，目的是為了實(shí)現(xiàn)穩(wěn)定進(jìn)化：

只能修改 workspace 內(nèi)的 Harness 組件文件，評(píng)測(cè)框架、LLM 配置、原始 System Prompt 均為只讀，杜絕任何繞過(guò)評(píng)測(cè)的 hacking 行為。
每次修改必須附帶一份 “變更清單”，包括：失敗的證據(jù)（具體哪些任務(wù)失敗了）、推斷的根因、針對(duì)性的修改方案，以及自我聲明的預(yù)測(cè)（預(yù)計(jì)修復(fù)哪些任務(wù)、可能破壞哪些任務(wù)）。每一輪修改后，由下一輪評(píng)測(cè)充當(dāng)驗(yàn)證者：預(yù)測(cè)正確的修改保留，預(yù)測(cè)錯(cuò)誤的修改自主決定回滾。

如此一來(lái)，每一次 Harness 變動(dòng)都不再是工程師的直覺(jué)、抽象經(jīng)驗(yàn)，而是一條可被下一輪實(shí)驗(yàn)所證偽的假說(shuō)。Harness 進(jìn)化由此從藝術(shù)走向工程，從經(jīng)驗(yàn)走向科學(xué)。

實(shí)驗(yàn)結(jié)果：超越人類(lèi)專(zhuān)家，跨模型泛化

在主實(shí)驗(yàn)上，AHE 將 GPT-5.4 驅(qū)動(dòng)的 Coding Agent 在 Terminal-Bench 2 上的 pass@1 分?jǐn)?shù)從最初的 69.7% 提升到了 77.0%，絕對(duì)提升 7.3 個(gè)百分點(diǎn)，相對(duì)提升 10.5%。這一成績(jī)不僅超過(guò)了同樣使用 GPT-5.4 的 OpenAI 官方 Codex-CLI（71.9%），也顯著優(yōu)于 ACE 和 Training Free-GRPO 等主流基線(xiàn)。

更讓人驚喜的是泛化能力。

跨任務(wù)泛化：將在 Terminal-Bench 2 上演化得到的 Harness 凍結(jié)后，直接遷移到 SWE-Bench Verified 上，AHE 以更少的 Token 消耗實(shí)現(xiàn)了比 ACE 和 TF-GRPO 更高的成功率。這表明演化學(xué)到的不是 “如何刷 Terminal-Bench 2” 的特化知識(shí)，而是可遷移的通用工程經(jīng)驗(yàn)。

跨模型泛化：同樣一份由 GPT-5.4 演化得到的 Harness，分別配到 Qwen-3.6-Plus、Gemini-3.1-Flash 和 DeepSeek-V4 上，不做任何再演化直接評(píng)測(cè)。結(jié)果是三種模型均獲得 +5.1 到 +10.1 個(gè)百分點(diǎn)的顯著提升，且模型越弱，提升越大。這套 Harness 并非為某個(gè)特定模型量身定制，而是學(xué)到了一些真正普適的結(jié)構(gòu)性原則。

價(jià)值到底沉淀在哪里？

事實(shí)比策略更可遷移

在博客中，作者還提到了一些前期的失敗探索。為了快速迭代，團(tuán)隊(duì)最初只在 Terminal-Bench 2 的 30 道 hard 難度的題目上做 10 輪演化。結(jié)果題目通過(guò)數(shù)在 16-20 間反復(fù)震蕩，基本修一個(gè)壞一個(gè)。分析最終版本的 Harness 發(fā)現(xiàn)，Evolve Agent 對(duì)特定任務(wù)寫(xiě)了針對(duì)性的 hack：Golden Gate 的 splice-offset 檢測(cè)、Caffe 的完整工作流模板等等。這表明，過(guò)小的題集讓單一題目的信號(hào)過(guò)強(qiáng)，抑制不住 agent 的 hack 傾向

團(tuán)隊(duì)將題集擴(kuò)到 89 題的全集，并在 Evolve Agent 的 System Prompt 中加入顯式的方法論指導(dǎo)，比如 “Safety/Creativity/Generality” 原則和 “Middleware > Tool Desc > Skill > Prompt” 的約束層級(jí)排序。結(jié)果 overfit 確實(shí)緩解了，但訓(xùn)練曲線(xiàn)在 75.3% 就早早觸頂不再上升，78% 的修改都落在 Middleware 層。人工引入的行為先驗(yàn)，恰恰成了進(jìn)化的僵化之源

最終版本做了兩個(gè)關(guān)鍵改動(dòng)：一是在評(píng)測(cè)時(shí)每題跑兩次，通過(guò) partial-pass 的 diff 定位最精準(zhǔn)的診斷信號(hào)；二是刪掉所有行為指導(dǎo)，只保留證據(jù)驅(qū)動(dòng)過(guò)程要求和回滾規(guī)則。

結(jié)果上，不僅分?jǐn)?shù)上穩(wěn)步提升至 77.0%，修改分布也變得更加健康：middleware 37% + tool 48% + prompt 10%，沒(méi)有任何層級(jí)單獨(dú)占比超過(guò)一半，不同階段靈活調(diào)整。

一個(gè)來(lái)自社區(qū)的慣性思維是 “先調(diào)整 Prompt”。然而，把 AHE 演化得到的四類(lèi)組件（Memory、Tools、Middleware、System Prompt）逐一單獨(dú)放回最初的 Harness 上進(jìn)行消融實(shí)驗(yàn)時(shí)，結(jié)果卻截然相反：Memory 單獨(dú)就能恢復(fù)全局增幅的 95% 以上，Tool 在中等難度題目上提升顯著，而 System Prompt 單獨(dú)遷移反而導(dǎo)致性能下降。

一個(gè)可能的原因是：Prompt 的語(yǔ)義是策略性的（你應(yīng)該這樣做），而 Memory 和 Tool 的語(yǔ)義是事實(shí)性的（這里有一段可復(fù)用代碼）。事實(shí)比策略遷移性好，它們保留了信息，同時(shí)維持了泛化性。這或許也解釋了為什么人類(lèi)試圖通過(guò)注入方法論來(lái)指導(dǎo) Evolve Agent 時(shí)會(huì)遭遇失敗：開(kāi)發(fā)者習(xí)慣于教策略，而模型更擅長(zhǎng)學(xué)事實(shí)。

結(jié)語(yǔ)：可觀測(cè)的進(jìn)化循環(huán)會(huì)讓 AGI 加速到來(lái)

AHE 帶來(lái)的最大啟示或許在于：當(dāng)模型足夠強(qiáng)，搭建一個(gè)結(jié)構(gòu)化的、可觀測(cè)的演化環(huán)境，比直接開(kāi)發(fā) Harness 更重要。搭建好觀測(cè)體系（讓 Evolve Agent 能訪(fǎng)問(wèn)組件、軌跡、反饋），然后在全量數(shù)據(jù)上運(yùn)行測(cè)試，就足夠演化出有競(jìng)爭(zhēng)力的 Harness。無(wú)需替 Agent 思考任何方法論，只是給它一個(gè)清晰的 workspace、明確的修改接口和高質(zhì)量的反饋信號(hào)，Evolve Agent 的行為便自動(dòng)向真實(shí)工程師收斂。

是時(shí)候邁出第一步，讓 Harness 也開(kāi)始進(jìn)化了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.