網易首頁 > 網易號 > 正文 申請入駐

Harness要不要做?斯坦福的回答是:讓AI自己做

0
分享至


作者 | 黃小藝
郵箱 | huangxiaoyi@pingwest.com

同一個模型,換一套Harness,編程基準分就翻倍了,行業為此吵了兩個月,現在斯坦福說:不用吵了。

Harness火了,但也吵起來了

2026年開年最熱的AI工程概念,就是Harness。

它指的是模型之外的一切——prompt模板、上下文管理、檢索策略、多步推理編排、工具調用邏輯。一句話概括:你怎么調用模型,和模型本身同樣重要,甚至更重要。

OpenAI Codex團隊5個月寫了100萬行Agent代碼后,得出的最大教訓是“Agent不難,Harness才難”;SWE-Bench Mobile論文中,同一個Claude Opus 4.5在不同Harness下成功率2%對12%,差了6倍;LangChain 的編碼 Agent 在 Terminal Bench 2.0 上,通過僅優化 Harness 而不修改底層模型,得分從 52.8% 提升至 66.5%,排名從第 30 躍升至第 5。

數據足夠有說服力。Harness這個概念迅速從學術圈破圈,成了產業界的高頻詞。

但一個概念一旦火了,爭議就跟著來了。給這股Harness熱潑冷水的,比如OpenAI的Noam Brown,說Harness本質是拐杖,模型終將超越它——推理模型出來后,大量精心設計的Agentic系統一夜淘汰就是明證;Claude Code團隊也說,“所有秘密武器在模型本身,追求最薄的包裝”。

Anthropic的實踐還提供了一個微妙的視角。他們先為Opus 4.5做了一套相當厚重的Harness方案——GAN式對抗架構、三Agent分工、sprint合約;但Opus 4.6出來后,Harness直接做了減法:去掉sprint分解、整體簡化,從6小時$200降到3.8小時$125。性能更好,成本更低。

這套操作被稱為Build to Delete——Harness的厚度取決于模型當前的能力邊界,模型變強了,對應Harness就該被剝離。

所以爭論的本質是什么?不是Harness重不重要,因為數據已經回答了,而是Harness不是一個靜態的東西——它需要隨模型迭代、隨任務變化、隨能力邊界移動而持續演化。

斯坦福的Yoonho Lee團隊和MIT的Omar Khattab看到了這個矛盾,然后給出了一個沒想到的回答:

“別爭了。讓AI自己來做自己的Harness。”

Meta-Harness:一個“反智”的暴力方案

論文全稱是 Meta-Harness: End-to-End Optimization of Model Harnesses,作者包括Yoonho Lee、Chelsea Finn(Stanford)、Omar Khattab(MIT,DSPy框架的創造者)等人。

核心思路的“反智”在于:讓一個足夠強的coding Agent自己一輪輪不斷優化Harness來適配模型,過程中不壓縮任何東西,全存下來,自己去翻閱、分析、總結,然后寫出更好的Harness框架。


具體來說,每輪迭代產生的所有內容——候選Harness的完整源代碼、逐樣本執行軌跡、評分結果——全部以文件形式保存在一個結構化目錄中。沒有數據庫,沒有向量檢索,就是最樸素的文件和文件夾。

然后,一個coding Agent被放進這個系統,任務只有一個:“基于之前所有嘗試的經驗,寫一個更好的Harness。”

外層循環極其簡潔:生成候選 → 評估 → 保存完整結果 → Agent分析所有歷史 → 生成新候選 → 重復。沒有花哨的搜索算法,沒有進化策略,沒有梯度近似。搜索的全部“智能”來自Agent自身的代碼理解和推理能力。

為什么現有方法不夠

這個方案看起來樸素,但它解決了一個此前所有自動優化方法都沒解決的問題:信息保留。

過去涌現的文本優化器——Google的OPRO、TextGrad、DeepMind的AlphaEvolve——有一個共同的致命缺陷:對歷史反饋的壓縮太激進了。有些方法完全沒有記憶,每輪從零開始;有些只保留一個標量評分(比如,“準確率62%”);有些把執行過程壓縮成簡短摘要。

這就好比讓一個工程師debug復雜系統,但只告訴他“上一版代碼得了62分”——沒有日志、沒有堆棧跟蹤、沒有錯誤樣例。他怎么知道該改什么?

Meta-Harness的做法恰好相反。每輪評估能產生1000萬tokens的診斷信息——包括每個樣本的輸入、模型輸出、正確答案、中間推理步驟等完整執行軌跡。

Agent不是被喂了一段摘要,而是真的在“做研究”——自主決定讀哪些文件。論文統計,Agent每輪中位數讀取82個文件。它會看之前表現最好和最差的Harness源碼,抽查特定樣本的執行軌跡,發現“這類樣本模型總是把A類判成B類”,對比兩個Harness的差異,推斷哪個設計決策導致了性能變化。

這個過程,和一個優秀工程師做實驗分析的workflow幾乎一模一樣——只不過讀文件速度快幾百倍,而且永遠不會累。

為什么現在才可行

論文作者特別指出了一個時機問題:Meta-Harness在2026年初才變得可行。原因很簡單——它完全依賴Coding Agent在過去一年的質變式能力提升。兩年前的Agent根本無法在包含數百個文件的目錄中自主導航、做有意義的分析、并寫出能跑通的代碼。今天可以了。

這不只是一個方法論的突破,更是一個時機的故事。Agent能力的提升,讓一種原本“想法對但執行不了”的方案突然變成了現實。

三個戰場,三種碾壓

理論再漂亮,得拿數據說話。Meta-Harness在三個差異巨大的任務上做了驗證。


戰場一:文本分類——4次迭代抵別人40次

文本分類實驗中,Meta-Harness拿下“48.6%準確率”,比此前最強手工基線ACE高出7.7個百分點(ACE為40.9%)。更值得注意的是效率:上下文token用量11.4K,ACE需要50.8K——少了將近4倍。效果更好,成本更低。

收斂速度同樣驚人:僅需4次評估迭代,就能匹配需要40次評估的競品方法。Agent每輪從完整軌跡中提取的信息密度,遠超那些只能看到分數或摘要的優化器。

論文還做了分布外泛化測試——將在5個數據集上搜索到的最優Harness直接遷移到9個未見數據集,結果同樣優于ACE。這說明Meta-Harness找到的不是針對特定數據集的trick,而是更好的框架設計。

戰場二:數學推理——自動發現人類沒想到的路由策略

IMO難度的檢索增強數學推理任務上,Meta-Harness自動發現了一個“4路路由BM25檢索策略”——系統學會將數學題分為組合、幾何、數論和默認四個類別,對每個類別使用差異化的檢索參數。這種精細化路由設計,沒有任何人類工程師事先指定過。


遷移能力同樣值得關注:用GPT-OSS-20B搜索到的最優Harness,零樣本遷移到5個未見推理模型均有提升。這意味著好的框架設計對不同模型都有效——Harness優化和模型選擇是正交的兩個維度。換言之,你在Harness工程上的投入不會因為換了模型就打水漂。

戰場三:編程Agent——超越人類Harness方案

Claude Haiku 4.5組別中,Meta-Harness 確實以 37.6% 拿到了組別第一,超越了所有已知的手工 Harness(如 Goose 和官方的 Claude Code);在 Claude Opus 4.6組別中,Meta-Harness 以 76.4% 拿到組別第二

Meta-Harness在這個任務上還自主發現了一個關鍵trick——“Environment Bootstrapping”(環境自舉/引導):在Agent執行任務前,先自動運行shell命令收集沙箱環境快照(OS版本、已安裝軟件包、目錄結構等),注入初始prompt。

這消除了Agent通常需要的2到4輪環境探索——不用再浪費推理步驟去看看目錄里有什么。對token預算有限的編程Agent來說,省下這幾輪等于直接提升了有效推理能力。沒有人事先告訴系統要做這個優化,它是Meta-Harness在搜索過程中自己發現的。

消融實驗:信息量就是關鍵杠桿

論文中給出了三種信息保留策略的對比,結果一目了然:


- 僅保留分數 → 中位準確率 34.6%

- 分數 + 摘要 → 34.9%

- 完整軌跡(Meta-Harness) → 50.0%

完整軌跡帶來15個百分點的提升,而摘要幾乎沒有幫助——甚至有時有害,因為壓縮會丟掉看似瑣碎但至關重要的診斷細節。

這對整個“AI優化AI”領域是一個值得反復咀嚼的結論:當Agent足夠強大時,人為的預處理和壓縮不是在幫忙,是在添亂。把原始信息全部交給Agent,讓它自己決定看什么、忽略什么,效果遠比人類代勞好得多。

同一個Bitter Lesson,兩種解讀

最后,讓我們回到那場行業爭論——把Meta-Harness放進去,事情變得非常有趣。

業界將Noam Brown的觀點歸入Bitter Lesson 陣營,因為提到Harness是拐杖:AI研究反復證明,依賴人類領域知識的精心設計終將被暴力計算碾平,所以別在框架工程上浪費時間,把賭注押在模型能力的持續增長上。

Meta-Harness用的也是Bitter Lesson:AI研究反復證明,通用搜索擊敗精心手工設計——所以不要手工設計Harness,讓AI用通用搜索自己找最優解。它沒有否認Harness重要,也沒有否認模型會持續變強。它說的是:既然手工Harness終將被淘汰,那就讓AI來接管。

簡單來說,Noam Brown的版本是“別費勁做Harness了”,Meta-Harness的版本是“別費勁手做Harness了”。

Meta-Harness實質上重新定義了這場爭論的坐標系。Model和Harness不是非此即彼的選擇。當Harness優化本身被自動化后,兩條路線自然收斂——模型變強了,Meta-Harness搜出的最優Harness也會跟著變薄。Anthropic手動執行的Build to Delete,在這套框架下會自動發生。

這件事本身就是Bitter Lesson說的那種“更大的計算”——那種總會贏的力量。

論文團隊在最后提出了一個更遠的方向:Harness與模型權重的協同進化。今天模型訓練和框架設計還是兩個獨立過程。但如果Harness能被自動優化,未來的模型訓練如何把Harness納入優化循環?

巧的是,前阿里Qwen技術負責人林俊旸最近也在說類似的事。他在離職后發布的長文 "From Reasoning Thinking to Agentic Thinking" 里,把Harness的角色推到了更細分的位置——不只是推理時的運行框架,更應該是訓練時的核心基礎設施。Agent在什么樣的Harness環境里訓練,決定了它能學到什么。

現在,斯坦福已經讓AI接管了推理時的Harness,那林俊旸瞄準的是訓練時Harness呢?

這里有個耐人尋味的區別:推理時的Harness,目標明確,跑分見高下,AI比人快;訓練時的Harness,定義的是模型在這個環境里訓完之后,整體能力有沒有變強,這是一個長程、稀疏、很難歸因的過程——這一層的搭建,恐怕還得是人來做。

方向有了,誰先動手?2026年下半年的牌桌上,可能又多一道新題了。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
250萬賠償不算啥?官方介入,崔麗麗事件“創先河”,釋放3大信號

250萬賠償不算啥?官方介入,崔麗麗事件“創先河”,釋放3大信號

天天熱點見聞
2026-04-25 06:27:01
世界羽聯會員大會投票通過“15分制”改革,將于2027年實行

世界羽聯會員大會投票通過“15分制”改革,將于2027年實行

懂球帝
2026-04-25 22:23:26
拿水貨8號秀換場均22+4!狼隊的救世主,火箭為伊森放棄他太可惜

拿水貨8號秀換場均22+4!狼隊的救世主,火箭為伊森放棄他太可惜

你的籃球頻道
2026-04-26 12:04:53
特朗普、穆杰塔巴、佩澤希齊揚,同日表態

特朗普、穆杰塔巴、佩澤希齊揚,同日表態

極目新聞
2026-04-26 07:59:00
俄羅斯的錯誤決不能再犯!攻臺之戰,即使發射一萬枚導彈也不夠用

俄羅斯的錯誤決不能再犯!攻臺之戰,即使發射一萬枚導彈也不夠用

尋墨閣
2026-04-26 08:33:01
華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

以茶帶書
2026-04-25 16:22:06
白宮記協晚宴發生槍擊事件 特朗普、萬斯撤離現場畫面曝光

白宮記協晚宴發生槍擊事件 特朗普、萬斯撤離現場畫面曝光

新華社
2026-04-26 13:00:36
“真假開市客”牽扯出的皮省川,曾被渣打銀行與華潤打假

“真假開市客”牽扯出的皮省川,曾被渣打銀行與華潤打假

金融界
2026-04-25 22:02:49
特朗普:美國總統是危險職業 不想生活在恐懼之中

特朗普:美國總統是危險職業 不想生活在恐懼之中

財聯社
2026-04-26 12:16:05
中國最危險的“淀粉崇拜”!不吃米飯哪有力氣?這套農耕廢物邏輯害慘了現代人

中國最危險的“淀粉崇拜”!不吃米飯哪有力氣?這套農耕廢物邏輯害慘了現代人

知識圈
2026-04-25 20:46:53
南京一派出所副所長為完成查處任務,“設計”讓6名未成年人吸毒再查獲,犯欺騙他人吸毒罪一審被判5年

南京一派出所副所長為完成查處任務,“設計”讓6名未成年人吸毒再查獲,犯欺騙他人吸毒罪一審被判5年

大風新聞
2026-04-25 22:34:13
2.4億頂薪打沒了!季后賽場均9+8,不像魔獸霍華德,更像小喬丹

2.4億頂薪打沒了!季后賽場均9+8,不像魔獸霍華德,更像小喬丹

你的籃球頻道
2026-04-26 08:17:48
伊朗政權秋后算賬,絞死更多抗議者

伊朗政權秋后算賬,絞死更多抗議者

一種觀點
2026-04-25 19:08:26
賴清德被摁住,29國24小時內為臺撐腰,大陸三句話回應

賴清德被摁住,29國24小時內為臺撐腰,大陸三句話回應

嘴角上翹
2026-04-26 03:57:43
來感受一下黃仁勛的絕望

來感受一下黃仁勛的絕望

智先生
2026-04-25 21:03:53
車圈最卷的時候,有人開始做減法

車圈最卷的時候,有人開始做減法

虎嗅APP
2026-04-25 16:02:28
史上最大規模化債,已經開始!一個堅持了30年的信仰,進入倒計時

史上最大規模化債,已經開始!一個堅持了30年的信仰,進入倒計時

柏年說政經
2026-04-25 10:00:08
被賣緬甸女學生后續:對方同意放人后表示壓力大,又提出無理要求

被賣緬甸女學生后續:對方同意放人后表示壓力大,又提出無理要求

青梅侃史啊
2026-04-25 09:29:26
心態被打崩了!麥丹上空籃,約基奇跑全場討說法引沖突,前者亮了

心態被打崩了!麥丹上空籃,約基奇跑全場討說法引沖突,前者亮了

籃球資訊達人
2026-04-26 11:40:03
震驚!東方甄選員工集體辭職要挾俞敏洪,被網友直言“蠢出天際”

震驚!東方甄選員工集體辭職要挾俞敏洪,被網友直言“蠢出天際”

火山詩話
2026-04-26 07:09:07
2026-04-26 13:51:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

頭條要聞

白宮槍手系教師兼游戲開發者 曾向哈里斯總統競選捐款

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

家居
旅游
本地
藝術
公開課

家居要聞

自然肌理 溫潤美學

旅游要聞

春光正好迎假期 文旅消費暖意濃 多元“微度假”體驗解鎖小城引流密碼

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版