亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Meta-Harness讓Haiku性能狂飆,甚至追平Opus!

0
分享至


新智元報道

編輯:傾傾

【新智元導(dǎo)讀】如果未來的某天,AI智能體可以給自己調(diào)參數(shù),修bug,會發(fā)生什么?

就在這兩天,斯坦福IRIS Lab的博士生Yoonho Lee聯(lián)合MIT、威斯康星大學(xué)的研究者放出一篇新論文,把AI智能體優(yōu)化的邏輯翻了個個兒。

作者陣容十分豪華。導(dǎo)師是機(jī)器人學(xué)習(xí)明星學(xué)者Chelsea Finn,合作者里還有DSPy框架作者Omar Khattab。

曾經(jīng),大家卷模型本身的參數(shù)量、訓(xùn)練數(shù)據(jù)、RLHF。但Meta-Harness另辟蹊徑:支撐模型運(yùn)行的那層「腳手架」同樣決定生死。

這些東西以前全靠人工調(diào)?,F(xiàn)在,Meta-Harness讓AI自己來干這活。


結(jié)果十分完美:Claude Haiku 4.5的成功率達(dá)到37.6%,登頂所有Haiku智能體榜首;Claude Opus 4.6更是達(dá)到76.4%,僅次于榜一ForgeCode。

模型是商品,Harness決定成敗

harness指的是一整套基礎(chǔ)設(shè)施:系統(tǒng)提示詞、工具定義、重試邏輯、上下文管理、子代理協(xié)調(diào)、生命周期鉤子。

模型本身只是個大腦,harness才是讓這個大腦能干活的身體。

這個概念在2026年突然爆火,業(yè)界終于意識到,同一個模型,換個harness,性能差距可以大到離譜

2月,工程師Can B?lük做了個實(shí)驗(yàn)。

他只改編輯格式,不動模型,15個LLM的編碼性能提升了5到14個百分點(diǎn),輸出token還減少了約20%。


更夸張的是,GPT-4 Turbo僅僅換了一種編輯格式,準(zhǔn)確率就從26%飆升到59%。

同樣的模型,性能差了一倍多,唯一變量是harness。

Agent = Model + Harness,成了最熱門的趨勢

模型提供智能,harness讓智能變得有用。

Claude Code、Codex在做同一件事:精心設(shè)計(jì)harness來彌補(bǔ)模型的短板。

那么問題來了,harness工程目前高度依賴人工。

工程師得手動寫提示詞、調(diào)工具接口、設(shè)計(jì)重試策略,然后跑測試、看日志、猜哪里出了問題、改代碼、再跑測試。

這個循環(huán)費(fèi)時費(fèi)力,而且很多失敗模式根本不是人能輕易診斷的。

Meta-Harness想做的,就是把這個循環(huán)自動化。

400倍信息量:AI自己「復(fù)盤+迭代」

Meta-Harness嘗試著給優(yōu)化器看更多東西。聽起來簡單,但這恰恰是過去所有方法的瓶頸。

論文這張對比表,列出了主流文本每一步能看到多少上下文:


Meta-Harness 與主流優(yōu)化方法的上下文觀察量對比。

Self-Refine只看最近一次輸出加自我批評,大約1000 token;

OPRO看過去幾輪的方案和分?jǐn)?shù),大約2000 token;

TextGrad、AlphaEvolve、GEPA這些更先進(jìn)的方法,也就在8000到26000 token之間。

Meta-Harness呢?最高1000萬token,差距是400倍。

為什么需要這么多?因?yàn)閔arness工程產(chǎn)生的失敗模式,往往藏在執(zhí)行軌跡的細(xì)節(jié)里。

一個任務(wù)跑失敗了,原因可能是十步之前的某個工具調(diào)用返回了截斷的輸出,導(dǎo)致后續(xù)推理全歪。

如果優(yōu)化器只能看到一個「失敗」的標(biāo)量分?jǐn)?shù),或者一段壓縮過的摘要,它根本沒法定位問題。

Meta-Harness的做法,是給proposer一個完整的文件系統(tǒng)。

這個文件系統(tǒng)里裝著所有歷史候選harness的源代碼、每一輪的執(zhí)行軌跡、命令日志、錯誤信息、超時行為、評分結(jié)果。

Proposer可以用grep、cat這些標(biāo)準(zhǔn)工具自己去翻,想看哪個文件就看哪個,想搜哪個關(guān)鍵詞就搜哪個。

優(yōu)化器不再是在固定prompt上做推理,而是一個會檢索信息、瀏覽歷史、編輯代碼的代理。

proposer用的是Claude Code,它不需要被喂壓縮過的信息,它有能力自己決定看什么、怎么看。

整個搜索循環(huán)很直白:

  1. Proposer讀取文件系統(tǒng)里的歷史記錄

  2. 分析哪些任務(wù)失敗了、失敗原因是什么

  3. 針對性地重寫harness代碼

  4. 新harness跑測試,結(jié)果寫回文件系統(tǒng)

  5. 循環(huán)繼續(xù)


Meta-Harness 核心優(yōu)化閉環(huán)示意圖。Proposer 從“包含全部歷史經(jīng)驗(yàn)”的文件系統(tǒng)讀取完整軌跡(①),提出新的 Harness 代碼 → 結(jié)合 LLM 執(zhí)行任務(wù)并評估(②)→ 將 Proposed Code、Reasoning Traces、Eval Score 等全部日志存回文件系統(tǒng)(③),實(shí)現(xiàn)自我迭代。

論文展示了一個19任務(wù)子集上的搜索過程。

從Terminus-KIRA基線的28.5%起步,到第7輪迭代就漲到了46.5%。


Meta-Harness 在 19 任務(wù)子集上的迭代優(yōu)化過程。從 Terminus-KIRA 基線 28.5% 的成功率起步,第 7 輪迭代達(dá)到 46.5%,展示了通過完整執(zhí)行軌跡診斷實(shí)現(xiàn)的高效 harness 優(yōu)化。

每一輪都基于具體的執(zhí)行軌跡做「反事實(shí)診斷」——如果我當(dāng)時這樣處理,結(jié)果會不會不一樣?

舉個例子,第7輪的改進(jìn)是在第一次LLM調(diào)用之前先跑一條shell命令,把環(huán)境依賴信息注入到初始prompt里。

加一條命令,省掉無謂的試錯。 這種程度的診斷精度,靠壓縮摘要是做不到的。

89個任務(wù),小模型登頂

Meta-Harness分了三個場景做了測試:文本分類、數(shù)學(xué)推理、代碼代理。

代碼代理用的基準(zhǔn)是TerminalBench-2,它包含89個Docker化任務(wù),覆蓋代碼翻譯、分布式機(jī)器學(xué)習(xí)配置、系統(tǒng)編程、生物信息學(xué)、密碼分析等領(lǐng)域。

每個任務(wù)都是二元評分,跑5次取平均,難度相當(dāng)高。

因?yàn)樗鼈冃枰L程自主執(zhí)行、處理復(fù)雜依賴、應(yīng)對截斷的終端輸出,還得有相當(dāng)?shù)念I(lǐng)域知識。

這個基準(zhǔn)被幾乎所有主流前沿實(shí)驗(yàn)室用來衡量代碼代理的實(shí)際能力,是繼SWE-bench之后又一個被廣泛認(rèn)可的「真實(shí)工作」測試集。

Meta-Harness的做法是優(yōu)化完整的編碼harness,包括系統(tǒng)提示詞、工具定義、完成檢測邏輯、上下文管理,全部都在優(yōu)化范圍內(nèi)。

Proposer會讀取每個任務(wù)的執(zhí)行軌跡,診斷失敗模式,然后提出針對性修復(fù)。

結(jié)果,Claude Haiku 4.5的成功率達(dá)到37.6%,在所有Haiku 4.5代理中排名第一,超過第二名Goose的35.5%

Claude Opus 4.6的成功率高達(dá)76.4%,在所有Opus 4.6代理中排名第二,僅次于ForgeCode的81.8%

需要強(qiáng)調(diào)的是,Haiku是Claude系列里最輕量的版本,參數(shù)量遠(yuǎn)小于Opus。

傳統(tǒng)思路下,小模型就是不如大模型,性能天花板是硬傷。

但Meta-Harness證明,通過優(yōu)化harness,小模型的天花板可以被顯著抬高。


Meta-Harness 端到端優(yōu)化結(jié)果總結(jié)。(左)在文本分類任務(wù)上,Meta-Harness 以極少的評估次數(shù)就超越了 ACE、OpenEvolve 等先前方法;(右)在 TerminalBench-2 基準(zhǔn)上,Meta-Harness 優(yōu)化的 Claude Haiku 4.5 harness 達(dá)到 37.6% 通過率,超越所有已報道的 Haiku 4.5 harness(包括 Goose 35.5% 和 Terminus-KIRA 33.7%),實(shí)現(xiàn)小模型登頂。

不止代碼:文本分類和數(shù)學(xué)推理同樣有效

Meta-Harness不只在代碼任務(wù)上管用。

在文本分類場景下,研究者用了三個數(shù)據(jù)集:LawBench(215個類別)、Symptom2Disease(22個類別)、USPTO-50k(180個類別),模型是GPT-OSS-120B。

跑了20輪進(jìn)化迭代,每輪2個候選,總共產(chǎn)出40個候選harness。

最佳發(fā)現(xiàn)的harness在測試集上達(dá)到48.6%準(zhǔn)確率,比之前的SOTA方法ACE高出7.7個百分點(diǎn)。

甚至它的成本更低——Meta-Harness只用了45.5K上下文token,而ACE用了203K。


Meta-Harness 在文本分類任務(wù)上的表現(xiàn)。

研究者還做了直接對比實(shí)驗(yàn),把Meta-Harness和兩個代表性的程序搜索方法放在一起,給同樣的proposer和評估預(yù)算。

結(jié)果是,Meta-Harness用十分之一的評估次數(shù)就追平了它們的最終準(zhǔn)確率,而最終準(zhǔn)確率還比它們高出10個百分點(diǎn)以上。


Harness Optimizer 搜索進(jìn)度對比。Meta-Harness(紅色曲線)在極少的 Harness Evaluations 下快速達(dá)到最高性能,顯著優(yōu)于 OpenEvolve、TTTDiscover、ACE 等方法,展現(xiàn)了完整執(zhí)行軌跡帶來的效率優(yōu)勢。

原因就是OpenEvolve和PUCT都把歷史壓縮成固定的prompt格式,丟掉了執(zhí)行軌跡。Meta-Harness保留了一切。

在數(shù)學(xué)推理場景下,Meta-Harness搜索的是檢索增強(qiáng)的推理策略。

語料庫里有超過50萬道題,來自8個開源數(shù)據(jù)集。

研究者在250道題的搜索集上進(jìn)化出一個檢索harness,然后在200道IMO級別的題目上測試,還額外用了5個搜索時從未見過的模型。

單一發(fā)現(xiàn)的檢索harness在5個新模型上平均提升了4.7個百分點(diǎn)(從34.1%到38.8%),而且是在模型不變的情況下。


Meta-Harness 檢索策略的跨模型遷移能力。

這說明Meta-Harness發(fā)現(xiàn)的策略是可遷移的,不是只對特定模型有效的過擬合技巧。

模型能力的競爭正在進(jìn)入一個新階段。

過去幾年,前沿實(shí)驗(yàn)室比的是誰的模型更強(qiáng)、參數(shù)更多、訓(xùn)練數(shù)據(jù)更大、benchmark分?jǐn)?shù)更高。

但現(xiàn)在,GPT-5、Claude 4、Gemini 3在很多任務(wù)上已經(jīng)拉不開太大差距。

真正的差距在哪里?在harness。

同一個模型,配上不同的harness,性能可以差一倍。

而harness工程目前還高度依賴人工經(jīng)驗(yàn),沒有系統(tǒng)化的方法論,也沒有自動化的工具。

模型是智能的來源,harness是智能的放大器,而現(xiàn)在,優(yōu)化harness本身也可以交給AI來做。

這可能是LLM應(yīng)用開發(fā)進(jìn)入下一階段的標(biāo)志。

參考資料:

https://x.com/yoonholeee/status/2038640635482456118

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
多地寺廟按下暫停鍵:臨建商鋪全關(guān)閉,知情人爆料,更多細(xì)節(jié)曝光

多地寺廟按下暫停鍵:臨建商鋪全關(guān)閉,知情人爆料,更多細(xì)節(jié)曝光

眼光很亮
2026-04-15 18:14:52
善惡有報,許家印認(rèn)罪僅1天,子女近況被扒,原來大兒子早有布局

善惡有報,許家印認(rèn)罪僅1天,子女近況被扒,原來大兒子早有布局

八斗小先生
2026-04-15 17:47:57
不想訪華了?特朗普召回美駐華大使,貝森特放話:中國“不可靠”

不想訪華了?特朗普召回美駐華大使,貝森特放話:中國“不可靠”

健身狂人
2026-04-16 05:35:38
五一不要隨便走,3個好消息,2個壞消息,關(guān)系到每一個人!

五一不要隨便走,3個好消息,2個壞消息,關(guān)系到每一個人!

小談食刻美食
2026-04-16 07:31:22
同門反目!大疆近百名工程師倒戈,核心地盤被昔日自己人搶占

同門反目!大疆近百名工程師倒戈,核心地盤被昔日自己人搶占

火山詩話
2026-04-15 06:41:46
美國多位機(jī)密領(lǐng)域科學(xué)家失蹤或死亡?白宮:若屬實(shí)會認(rèn)真調(diào)查

美國多位機(jī)密領(lǐng)域科學(xué)家失蹤或死亡?白宮:若屬實(shí)會認(rèn)真調(diào)查

紅星新聞
2026-04-16 12:32:14
稱“新冠病毒是對人類懲罰”的石正麗,一直在國內(nèi),現(xiàn)在怎么樣了

稱“新冠病毒是對人類懲罰”的石正麗,一直在國內(nèi),現(xiàn)在怎么樣了

李昕言溫度空間
2026-04-15 22:24:50
大口吃肉吃菜 為何中國人能實(shí)現(xiàn)美國人卻做不到?

大口吃肉吃菜 為何中國人能實(shí)現(xiàn)美國人卻做不到?

看看新聞Knews
2026-04-15 23:36:04
炸裂! 中國留學(xué)生往奶茶里下藥迷奸女鄰居8次 全程錄像+聊天炫耀

炸裂! 中國留學(xué)生往奶茶里下藥迷奸女鄰居8次 全程錄像+聊天炫耀

北國向錫安
2026-04-16 09:14:12
炸穿臺灣政壇!蔣友松強(qiáng)行遷走兩蔣懸棺,半世紀(jì)漂泊終要?dú)w鄉(xiāng)

炸穿臺灣政壇!蔣友松強(qiáng)行遷走兩蔣懸棺,半世紀(jì)漂泊終要?dú)w鄉(xiāng)

陳漎侃故事
2026-04-14 17:28:18
美國真正的幕后老板現(xiàn)身了,特朗普瑟瑟發(fā)抖

美國真正的幕后老板現(xiàn)身了,特朗普瑟瑟發(fā)抖

一個壞土豆
2026-04-15 19:35:37
成了,越南答應(yīng)中國了

成了,越南答應(yīng)中國了

太陽來
2026-04-16 05:32:39
佩斯科夫:普京準(zhǔn)備重新考慮接收伊朗濃縮鈾

佩斯科夫:普京準(zhǔn)備重新考慮接收伊朗濃縮鈾

新京報
2026-04-16 07:14:22
被整瘋了!這么直觀感受到什么叫NPD父母,一浙江女生哭訴引共鳴

被整瘋了!這么直觀感受到什么叫NPD父母,一浙江女生哭訴引共鳴

火山詩話
2026-04-16 07:18:27
偉偉道來 | 油價再降,美伊第二輪談判呼之欲出

偉偉道來 | 油價再降,美伊第二輪談判呼之欲出

經(jīng)濟(jì)觀察報
2026-04-15 11:23:32
臭氣熏天,記者現(xiàn)場“yue”個不停!網(wǎng)友:很久沒看到這么有“活人感”的報道,隔著屏幕都能感受到

臭氣熏天,記者現(xiàn)場“yue”個不停!網(wǎng)友:很久沒看到這么有“活人感”的報道,隔著屏幕都能感受到

深圳晚報
2026-04-15 14:53:52
“見過最廉價的兜底”,一份山姆燒雞,讓低認(rèn)知母子淪為全網(wǎng)笑柄

“見過最廉價的兜底”,一份山姆燒雞,讓低認(rèn)知母子淪為全網(wǎng)笑柄

妍妍教育日記
2026-04-15 09:30:09
后續(xù)!孕婦200買水果被老公罵:已去醫(yī)院終止妊娠 老公發(fā)怒砸東西

后續(xù)!孕婦200買水果被老公罵:已去醫(yī)院終止妊娠 老公發(fā)怒砸東西

小鋭有話說
2026-04-14 08:37:44
絲芭傳媒:創(chuàng)始人王子杰去世,享年63歲

絲芭傳媒:創(chuàng)始人王子杰去世,享年63歲

界面新聞
2026-04-16 11:04:57
楊某媛稱已找到工作,結(jié)果立馬被網(wǎng)友舉報了……

楊某媛稱已找到工作,結(jié)果立馬被網(wǎng)友舉報了……

麥杰遜
2026-04-15 11:53:46
2026-04-16 14:19:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14984文章數(shù) 66773關(guān)注度
往期回顧 全部

科技要聞

39.98萬!小鵬GX預(yù)售“純電增程同價”

頭條要聞

伊朗媒體:美以襲擊后 伊朗經(jīng)濟(jì)可能需要12年才能修復(fù)

頭條要聞

伊朗媒體:美以襲擊后 伊朗經(jīng)濟(jì)可能需要12年才能修復(fù)

體育要聞

很快,亞洲籃球要有自己的NCAA了?

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財經(jīng)要聞

一季度GDP,5.0%!

汽車要聞

空間大五個乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

家居
教育
旅游
時尚
親子

家居要聞

智能舒適 簡約風(fēng)尚

教育要聞

濟(jì)南小學(xué)生手搓紙橋承重43斤!

旅游要聞

泉城公園的龍爪槐

赫本愛穿的傘裙,好優(yōu)雅!

親子要聞

四十歲,重啟一場溫柔的奔赴——我的孕期建卡碎碎念

無障礙瀏覽 進(jìn)入關(guān)懷版