網易首頁 > 網易號 > 正文申請入駐

Meta-Harness：當一個agent學會了看場合說話

2026-04-17 16:23:47　來源: 集智俱樂部

北京舉報

分享至

導語

集智俱樂部昨日文章《》從宏觀層面探討了智能從個體屬性向社會性系統涌現的轉變，指出下一輪智能爆發更可能源于多主體協作與人機共生結構，而非單一模型能力的線性提升。今日文章則將視角進一步下沉，關注一項于 3 月 30 日發布在 arXiv 的研究提出了 Meta-Harness，一種端到端優化模型 harness 的自動搜索系統。研究團隊在文本分類、數學推理和 agentic 編程三項任務上驗證了該方法，發現其自動搜索到的 harness 在文本分類上僅用 4 次評估即追平對手 60 次的最終準確率，在數學推理上使用多個未見模型平均提升 4.7 個百分點，在 TerminalBench-2 上排名 Haiku 4.5 agents 第一。本文從社會語言學的語域理論切入，揭示代碼策略與語言變體之間的深層結構同構。

關鍵詞：程序語域（Register）、Harness、Meta-Harness、語言社會化、執行軌跡、帕累托最優、語料庫語言學、雙言現象

任筱芃丨作者

趙思怡丨審校

論文題目：Meta-Harness: End-to-End Optimization of Model Harnesses 論文鏈接：https://arxiv.org/abs/2603.28052 發表時間：2026 年 3 月 30 日論文來源：arXiv

4 次迭代追平對手 60 次的最終成績？

Meta-Harness 團隊做了一個實驗。自動文本優化器 OpenEvolve 需要 60 次評估才能爬到的最終準確率，Meta-Harness 僅用 4 次就追平了，使用的上下文 token 還少了 4 倍。它同時超越了此前最優的手工設計 harness 和其他自動優化器（如TTT-Discover），且優勢隨評估輪次增加持續擴大。

圖1：（左）在文本分類上，Meta-Harness 超越了此前最佳手工設計的 harness（ACE）和現有的文本優化器（TTT-Discover、OpenEvolve），僅用 4 次評估就達到了次優方法的最終準確率。（右）在 TerminalBench-2 上，Meta-Harness 超越了所有報告的 Claude Haiku 4.5 harness。

這個差距之大，甚至讓人懷疑是不是 Meta 的模型又過擬合了。但隨著最近 Claude Code 源代碼的泄露，很多人開始意識到一個高度定制化的外圍調度層，可能只需要額外幾十行代碼就能實現。在這個背景下，這樣的結果反而變得可以理解——而數據也確實支持這一點。能訪問完整執行軌跡的 Proposer，整體表現大幅提升，甚至連其中位數成績都已經超過了另外兩組所能達到的最佳成績。

為什么自動化搜索能發現人類工程師想不到的策略？這和人類學習語言的過程有什么相似之處？本文嘗試從社會語言學的“語域”理論切入，將 Meta-Harness 系統的技術發現與語言使用的情境適應性機制進行對照分析，揭示兩者在結構上的深層同構。在展開理論之前，先看一個 agent 是如何“學會說話”的。

一、一個 agent 的成長史

Meta-Harness 是一個外循環搜索系統。它的核心是一個編碼智能體（以下以Proposer代指），通過終端工具讀寫文件。每次迭代，Proposer 讀取所有先前候選的原始代碼、評分和完整執行軌跡，然后生成新的調度代碼候選。候選被評估后，所有日志以新目錄存回文件系統，循環重復。典型運行評估約 60 個候選方案，跨 20 次迭代，每次迭代消耗約 180 萬 token——大致相當于讓一個人連續讀完整套《哈利·波特》之后，寫一份 500 行的簡評。

原論文逐輪記錄了 Proposer 在 TerminalBench-2 搜索過程中的行為。這十輪迭代的閱讀體驗，像看一份田野調查筆記。

第 1-2 輪中，Proposer 最初提出的 harness 把多個變量攪在一起——檢索策略、提示格式、驗證步驟全部打包在一個巨大的提示詞里。有的分類任務好一點，有的差一點，但 Proposer 無法分辨是哪個改動導致了哪個結果。這就像一個初學方言的人把標準語和方言混在一起說，聽起來怪異且不一致。分數徘徊在 35%。

第 3 輪，識別混淆變量。 Proposer 從前兩輪的失敗軌跡中注意到了問題——“我改了檢索詞，但同時提示格式也變了，所以不知道是誰的功勞�！庇谑撬褭z索策略和提示格式拆分成獨立模塊，逐個測試。這就像一個語言學習者意識到“我應該分別練習發音和詞匯，而不是同時嘗試雜糅”。分數跳到 39%。

在第 4-6 輪，Proposer 學到了風險規則。接下來 Proposer 開始嘗試更復雜的結構——多輪驗證、級聯檢索、對比學習。有些有效（分數升到 42%），有些失�。ǖ� 37%）。但它從失敗中學到了一條關鍵規則，即控制流修改是高風險操作。改變 harness 的整體流程比微調提示詞危險得多，因為一個小改動會級聯影響所有下游步驟。這就像說話者發現改變句子的主語比換個形容詞更容易造成誤解。

第 7 輪。 Proposer 做了一件出人意料的事。它不再糾結于提示詞的措辭，轉而提出了一種全新的策略。先收集環境信息，再開始分類。具體來說，它讓 LLM 先閱讀數據集的標簽列表和幾個示例，構建一個“任務心型”，然后再開始正式分類。分數跳到 46%。這就像說話者突然意識到，在發言之前先了解聽眾，比精心措辭更重要。

第 8-9 輪。Proposer 做了小幅調整。微調檢索的 BM25 參數、調整驗證步驟的閾值。分數穩步上升到 48% 和 49%。大的策略已經對了，現在只是在打磨細節。

第 10 輪。從失敗中回憶。最令人驚喜的發現。Proposer 引用了第 5 輪一條失敗軌跡中的具體錯誤信息——“第 5 輪 harness 在 GoEmotions 數據集上把 ‘nervousness’ 和 ‘fear’ 混淆了”——并據此設計了一個針對性的對比驗證步驟。這意味著 Proposer 不僅從成功中學習，還能從過去的錯誤中回憶并反思。分數達到 50.3%。

六次退步，一次識別混淆變量，一次策略轉向。

這十輪迭代的總體圖景是一種“語言社會化”（language socialization）。兒童不需要語法書也能學會在葬禮上保持安靜；Proposer 不需要人類標注也能學會在分類任務前先做環境探測。社會語言學家 Schieffelin 記錄過一個案例。巴布亞新幾內亞的 Kaluli 族有一個獨特的語言習得傳統——母親會托住嬰兒的手臂，讓孩子面對另一個家庭成員，然后母親以孩子的口吻說出一句適當的社交問候（Schieffelin, 1990）。這是一種“有指導的暴露”。Meta-Harness 的 Proposer 同樣被“引導”。文件系統中的代碼和軌跡就是它所處的“語言社區”，評估分數就是社區的反饋。

搜索過程中，Proposer 每次迭代中位讀取 82 個文件，涉及 20 多個先前候選。其中源代碼占 41%，執行軌跡占 40%，分數/摘要僅占 6%，其余 13% 為配置和日志。Proposer 花在代碼和“軌跡”上的時間幾乎等分，而讀“分數/摘要”只占不到十五分之一。結合下文的消融實驗，這意味著它自己選擇了語料中信息密度最高的部分。

表1：來自 TerminalBench-2 搜索運行的 Proposer 文件訪問統計（10 次迭代，Claude Opus 4.6）。Proposer 從文件系統廣泛讀取，對先前的源代碼和執行軌跡給予大致相等的關注。

用社會語言學的眼睛看，這臺搜索引擎是一臺田野調查引擎的擬像（simulacrum）——它進入任務空間、收集執行軌跡、識別代碼變體、分析最優策略，與傳統語言學家進入社區做田野調查的過程同構。Joshua Fishman（Fishman, 1965）給了語域研究一個經典表述：“誰在何時對誰說什么語言”（who speaks what language to whom and when）。六十年后，這套系統用代碼回答了同一個問題。

當然，以這種方式工作，代價不菲。該系統在一次完整的文本分類搜索中消耗了約 35 億 token，而另一種方法TTT-Discover 約 50 萬。差距對應的是實際調用api時必然爆脹的硬件占用以及賬單，是實際想嘗試這種做法的人或機構所必須要考慮的。

表2：文本優化方法及其設置的比較。每行代表一種跨任務折疊的方法。Mtok/iter是我們根據每篇論文中考慮的最大設置，從一個文本工件的單次評估中生成完整上下文的最佳估計。本文考慮的設置使得每個工件評估產生的上下文數量級更大。

二、語域映射

換一層代碼，同一個 AI 模型的表現可以差 6 倍。面對案件涉及的不同利益相關方，同一個律師的說話方式完全不同。這兩件事共享同一個底層結構。一種受制于情景的能力調度模式。

在社會語言學中，語域（register）指的是根據使用情境而變化的語言變體。這不是方言——方言跟著說話者變，語域跟著用途變。一個律師在法庭上說“尊敬的法官”，回家對孩子說“這孩子怎么又點外賣”。同一個人，實質上地自動切換兩套語言。這就是語域的體現。

Harness 指的是包裹在模型外層的調度代碼——它決定模型看到什么信息、以什么順序看到、如何存儲和檢索上下文。兩者做的事情一樣，即為特定情境選擇特定策略。因此，本文將這一對應關系記為Harness ≈ 語域。

在當下，各個基模 lab 為了在基準排行上多 1% 的準確度激烈競爭，甚至不惜損害用戶體驗也要把 GPU 時間留給新模型的推理。在這樣的背景下，外層調度代碼在特定條件下的表現提升，是一個值得認真評估的方向。

SWE-bench Mobile是一個面向真實移動端代碼倉庫的 agentic coding 基準。在該基準上，Meta-Harness 發現的調度策略將 Haiku 4.5 的解決率從基線的約 6% 提升至 37.6%，改善幅度相較于 OpenHands 可以相差 6 倍。這僅僅是因為外圍包裝代碼不同。

表3：在 TerminalBench-2 上的通過率。結果或其他數據來自官方排行榜。Meta-Harness 在所有 Opus-4.6 agents 中排名第二，在所有 Haiku-4.5 agents 中排名第一。

這種對應關系在具體情境中會變得更清晰。

在日常對話中，有些一種輕量確認語域，不需要長篇大論。你在咖啡店遇到朋友，對方問“那部電影怎么樣？”你回一句“還行，能看”。Draft verification（搜索系統發現的變體之一）做的一樣——調用了兩次 LLM，第 1 次讓模型草擬一個分類結果，第 2 次用簡短的提示詞引導驗證。準確率 40.1%，平均只用了 5400 個 token�？欤瑝蛴�。

同樣是回答“這部電影怎么樣”，但場景換成了應對電影批評學術委員會的年度評審。你也許會準備引用齊全的論述，仔細限定每一個斷言。Label primed query（另一變體）在嘗試模仿這種做法。它先展示所有可能的標簽及其定義，再要求模型在完整標簽體系的背景下作出判斷。上下文消耗平均 45500 個 token，準確率 48.6%。模仿形式推理有其代價，但因其帶來可靠性，所以物有所值。

社會語言學里有一個重要發現：語域不是離散的類別，而是一個連續譜系（register continuum）。優化系統在文本分類任務上發現的 8 個帕累托最優代碼變體恰好排成一個譜系條帶。

表4：從主文本分類搜索中發現的帕累托最優變體，在平均準確率與上下文成本之間做權衡。正文中所選系統為 Meta-Harness (Label-Primed Query)。Ctx 表示輸入上下文中額外字符數的平均值（千）。

一端是 Draft Verification——像酒吧里隨口回答“這部電影還行吧”。另一端是 Label-Primed Query——像一份措辭考究的正式報告。中間 6 個變體平滑地填補了兩者之間的空間，構成一條近似連續的帕累托前沿。沒有一個在所有維度上被另一個完全支配——這正是社會語言學所說的語域連續體。

達達主義演講不適合學術會議，但在酒館中就反而能襯托出精神狀態的美麗。帕累托前沿捕捉到了每個變體都在“準確率 × 成本”空間中占據一個最優位置，沒有誰能完全取代誰。

圖片來源：bilibili視頻蘇黎世達達主義 Dada Hugo Ball Cabaret Voltaire，視頻鏈接：https://www.bilibili.com/video/BV1W44y1J7xf/?share_source=copy_web&vd_source=131d50afe5a7320a1546f0347fe36f32

三、“歷史”為什么不可壓縮

研究團隊做了一個消融實驗（ablation study）。給 Proposer 提供三種不同級別的信息，看哪種效果最好。三種條件分別給 Proposer 不同的“學習材料”。第一種只給分數。第二種給分數加摘要。第三種給完整的執行軌跡，包含了候選 harness 的源代碼、每次調用 LLM 的輸入輸出、中間步驟的推理過程、以及最終得分。其它的條件控制一致。

表5：在線文本分類中 Proposer 可用信息的消融。> ZS：準確率超過零樣本基線的運行次數。完整的 Meta-Harness 接口顯著優于僅分數和分數+摘要的消融條件。訪問原始執行軌跡是啟用 harness 搜索的關鍵要素。

Full Traces (分數 + 完整代碼 + 執行軌跡)條件下的中位分數超過了 Scores-only (只有歷史候選的分數)的最佳分數 11.3 %，也超過了 Scores+Summary (分數 + 候選的文本摘要)的最佳分數 8.7 %。不是平均好一點，而是最差的情況比其它條件下最好的情況還好一大截。Full Traces 在 10 次獨立運行中有 9 次超過了零樣本基線（36.1%），而 Scores-only只有 3 次。

同時這也可能能夠解釋為什么一個曾經被大家覺得非常有用的項目 Repomix 在社區中實際上是褒貶不一的。 Repomix嘗試將整個倉庫打包成 xml。甚至你還可以選擇壓縮，也就是提取倉庫中代碼的關鍵結構，比方說類的定義、input語句、類型聲明，然后丟棄所有的注釋、空行之類的東西。因為在當時（也許包括現在）我們篤信為了達到最好的輸出，需要向整個大語言模型塞盡可能多的信息，而上下文窗口又是寶貴的，所以選擇生成超大的單文件。然而，如前文所述，這樣的行為可能會導致最差的結果。

語料庫語言學視角

語料庫語言學（corpus linguistics）四十年來一直在證明同一件事，即語言的描述不能替代語言本身。要讓一個主體學會或者說表現得學會了某種“語言”，必要前提是讓它暴露于原始數據，而非經過人工篩選的知識點中。任何摘要、總結或綱要都是選擇。保留了什么、丟棄了什么，而做選擇的人不可能預知哪些細節最終會關鍵。從這個角度看，開頭那個現象——即不壓縮信息能帶來收益——可以被改寫，因為原始數據優于摘要本該是意料之中的事。

1980年代，Sinclair 領導的 COBUILD 項目團隊做了一個在當時堪稱異端的實驗（Sinclair, 1991）。他們不使用語言學家的直覺或者經典的統計方法來編寫詞典，而是讓計算機從 2000 萬詞的真實語料庫中自動提取詞頻、搭配和用法。結果也確實是另類的，許多被語言學家認定為“基本用法”的規則被挑戰了。比如 set 這個詞，語言學家給出的 20 條釋義覆蓋了他們認為的全部用法，但語料庫顯示排名前 5 的高頻用法就占了實際使用的 70%，而這些用法的權重在傳統語法書中往往無法體現。

或者我們代入一個初學者，這三種條件分別對應：

Scores Only：你只知道“這個人說話聽不懂”但沒分析過他說話
Scores + Summary：你讀了篇關于某種方言的百科詞條，知道了你使用的語言與目標語言的差異
Full Traces：你真正在一個社區住了一個月，每天聽當地人說話

哪一種讓你真正學會那個方言？答案不言而喻。語料庫語言學用四十年證明了“暴露于原始數據”是語言習得的必要條件，消融實驗證明同樣的規律適用于代碼策略的“習得”。

Ryle 三元組

哲學家 Gilbert Ryle 在 1949 年區分了“知其然”（knowing that）和“知其所以然”（knowing how）。社會語言學家會再加一項“知其時”（knowing when）——知道在什么情境下用什么策略�！爸淙弧备嬖V“Draft Verification 效果不錯”，這是摘要可以提供的；但“知其所以然”（驗證步驟怎么寫、為什么第 47 版比第 42 版好）以及“知其何時”（在什么情境下該用什么策略）摘要都給不了。這些是程序性知識（procedural knowledge），只能從經驗中獲得。而“經驗”在 Meta-Harness 的世界里目前看來表現為完整的執行軌跡。Ryle 在這個基礎上反駁笛卡爾式的“機器中的幽靈”——把心智當作一個獨立于行為的實體觀念。對 Ryle 來說，知道怎么做不是在大腦中存儲了一套規則，而是一種傾向（disposition），一種在面對具體情境時做出恰當反應的能力。Proposer 不是在“存儲”關于最優代碼的知識，它是在每次迭代中面對具體的軌跡數據，做出具體的修改決策。知識就在過程中，不在結果里。

就像你想學會一種語言的幽默感——不能讀一篇“xx式反諷的十大特征”就完事，你必須真正聽幾百段對話，感受每一個停頓和語調變化。

壓縮摧毀信息。任何摘要都必須做出的“保留什么、丟棄什么”的選擇，因此也就極有可能丟棄了追溯因果鏈所需的線索。Harness 在長時間跨度上運作，一個關于存儲什么、何時檢索、如何展示的單個選擇可能影響很多步之后的行為。壓縮后的反饋通常丟失了將下游失敗追溯到上游 harness 決策所需的信息。

類似的，如果我們使用滑動窗口，也就是保持一個大小固定的上下文緩沖區（一旦新信息進來，而緩沖區已滿，舊信息就會被刪除）嘗試harness迭代也可能是危險的。例如第2次迭代的執行歷史在第7次迭代的時候可能被擠出窗口了。參考諾蘭導演的經典電影《記憶碎片》，你可能能夠更加感性上的認知這種危險的程度。

圖2：電影《記憶碎片》海報

四、多路由系統與多言現象

雙言以及多言現象

前兩節建立了兩個對應。一個是harness 變體即語域，另一個是執行軌跡即語料。到目前為止的討論都限于單一情境。大致對應一個任務用一種 harness。Meta-Harness 在數學推理任務上找到了多種策略，還找到了一個自動在這些策略之間切換的機制。多種策略在同一系統中共存、功能分工、按情境切換。社會語言學家們可能會將這種現象稱之為雙言現象（diglossia）。

雙言現象是社會語言學中迷人的現象之一。Charles Ferguson 給出經典定義是一個言語社區中存在兩種功能明確分工的語言變體——高級變體（H, high variety）用于正式場合，低級變體（L, low variety）用于日常交流。阿拉伯世界有標準阿拉伯語和各地方言，瑞士有標準德語和瑞士德語，海地有法語和克里奧爾語。Ferguson 總結 H 一般被視為更優美、更邏輯化、更適合文學和宗教；L 則被當作“自然而然”的、不需要學習的。每種變體都有自己不可替代的功能生態位。掌握雙言的人不是簡單的“會兩種語言”，知道在什么時候該用哪一種是一種微妙的能力。

中國大概是人類歷史上持續時間最長、層級最復雜的雙言社會。最外層文言（H）和白話（L）共存了兩千多年——朝堂上寫奏折用文言，回家跟妻兒說話用白話。白話內部又嵌套著官話（H）與方言（L）的對立，而且帶著鮮明的權力等級。清雍正皇帝甚至專門下旨，說福建廣東官員“鄉音不可解”——皇帝聽不懂他們說話——于是設正音書院教官員說官話。于是可以合理想象一個廣東吏員的一天是早上天尚不亮就在正音書院練官話，然后去衙門用官話稟報公務，退堂后和同儕用粵語閑聊，晚上寫信給老家的大兄又得切回半文半白的書面語。三套變體，三個情境，無縫切換。

這和接下來要說的多路由系統仿佛。

4-Route 系統：自動化的“四言現象”

LLM主力模仿形式推理的領域是數學。搜索系統在迭代中發現了一個4 路由詞匯路由器（4-route lexical router），根據問題的表面特征自動切換到對應子領域的檢索策略，且特征是系統自己從軌跡中發現的。

圖3：所發現的數學檢索 harness。詞匯路由器將每個查詢分配給四個學科特定檢索策略之一。所選策略檢索示例，這些示例被插入到最終提示中。

組合數學關心計數與排列，檢索側重枚舉方法和容斥原理；幾何關心圖形與距離，檢索側重坐標系和變換；數論關心整除性與素數，檢索側重數論定理；代數關心方程與不等式，檢索側重代數恒等式。四個子領域，四條檢索策略，一個路由器自動切換。Bingo，自動化的“四言現象”（tetraglossia）。

路由器基于表面詞匯特征（lexical features）做出選擇。你不會在看到“圓內接四邊形”時去檢索數論定理，就像你不會在葬禮上說怪話，語境一般而言會自動觸發正確的變體。

同時，路由器是被發現的而不是被設計的。沒有人告訴搜索系統“數學有四個子領域”。它通過觀察大量解決軌跡，自己發現了這個分類。在這之前，如果你想實現這樣一個針對數學子領域的策略切換，標準做法是請人類工程師手工設計路由規則。可能包括非常繁瑣的細節，人工定義“組合數學需要 XX 檢索策略，幾何需要 YY 檢索策略”等等。這相當于給一個初學者一張語言選擇的決策二叉樹。問題是，這張決策樹永遠是不完整的，因為專家能想到的區分維度一定是有限的，邊界情況則是無窮的。路由器的制造過程繞過了這種人在回路。就像兒童沒有人給他們一張“語言選擇決策樹”，卻自然習得了“在家說方言，在學校說普通話”的規則。

這個 4 路由系統在 5 個從未見過的模型上平均提升 4.7 個百分點（Lee et al., 2026, Table 6）。說明路由器所捕獲的不是某個測試集上特有的偏見，而是數學推理任務本身的結構特征。無論說話者或者說LLM是誰，在數學推理這個場合中，他們通過選擇正確的語域或正確地切換策略，都獲得了增益。

表6：在 200 道 IMO 級別數學題上的檢索增強數學問題求解。展示每個問題三次采樣的 pass@1 平均值，括號內為相對無檢索基線的絕對提升。所發現的 Meta-Harness 檢索策略在全部五個留外模型上均提升了推理能力，平均增益 4.7 個百分點。

到目前為止我們一直在說“語域”——不同情境用不同策略。但這些都是在搜索過程中默會知識的再發現。在一個任務上學到的策略，換到完全陌生的任務上還能用嗎？回答這個問題需要引入社會語言學中的另一個核心區分。

五、交際能力與語用預設

交際能力

1965 年，Chomsky（Chomsky, 1965）提出了“語言能力”（linguistic competence），即說話者內在的語言知識。1972 年，Dell Hymes（Hymes, 1972）不滿意。因為他認為知道一門語言不僅是知道語法，還必須知道什么時候說什么話，對誰說，怎么說。他稱之為“交際能力”（communicative competence）。區別在哪？語法告訴你“這句話在這個場合合不合法”，交際能力告訴你“這句話在這個場合合不合適”。差一個字。

那么 Meta-Harness 發現的 harness 有沒有“交際能力”？從證據來看，表現的有。

在文本分類上發現的 harness，在 9 個從未見過的數據集上達到了 73.1% 的準確率，而 ACE（此前最佳方法）只有 70.2%。核心策略跨數據集保持穩定——“正確分類”的目的不變，“檢索→理解→判斷”的行為序列不變，驗證閾值的規范不變。改變的只是數據內容和文本風格。這就是交際能力：同一個策略骨架，在不同的情境中保持有效。

表7：分布外（OOD）文本分類數據集評估。報告各數據集的測試準確率及全部九個數據集的平均額外上下文 token 數。Meta-Harness 在這 9 個此前未見的任務上比次優方法高出 2.9 個百分點。

Hymes 用 SPEAKING 縮寫刻畫了交際能力的八個維度。其中與 harness 最核心的是四維：Ends（目的）——正確分類或正確推理，跨任務恒定；Act sequence（行為序列）——檢索→理解→判斷的三步結構；Key（基調）——置信度評估的保守或激進；Norms（互動規范）——什么級別的置信度需要額外驗證。它們構成 harness “語域”不變的骨架。而 Setting（數據內容和領域）、Participants（文本主題和風格）、Genre（分類、推理、編程等任務類型）則是隨任務變化的情境參數。Instrumentalities（BM25 還是向量檢索、單次還是多輪調用）是具體的實現手段。

表8：Hymes' SPEAKING 框架。S-Setting（場景）、P-Participants（參與者）、E-Ends（目的）、A-Act sequence（行為序列）、K-Key（基調）、I-Instrumentalities（媒介）、N-Norms（規范）、G-Genre（體裁）。

語用預設檢查

Meta-Harness 在 TerminalBench-2（一個 agentic 編程基準）上發現的調度代碼是語用能力（pragmatic competence）的體現。

具體來說，Harness 的第一步不是直接寫代碼，而是先收集環境快照或者說工作記憶。工作目錄、/app 文件列表、可用編程語言及版本（Python、GCC、G++、Node、Java、Rust、Go）、已安裝包管理器（pip、apt-get）、可用內存。然后才開始 agent 循環。

這在語用學中有一個精確的對應——預設檢查（presupposition checking）。當你說“請把門關上”，你至少預設了有一扇門、門是開的、聽者能關上它等等等等。如果預設不成立，言語行為就失敗了。Environment Bootstrap 做的就是這件事。在發出“寫入指令”之前，先檢查所有預設。一個承諾的言語行為需要說話者有能力且有意愿履行；一條指令需要聽話者有能力執行。同理，一段有效的代碼生成需要運行環境具備正確的編譯器和依賴。跳過這一步，相當于在明知道是對牛彈琴的前提下開始外交斡旋。

圖4：所發現的 TerminalBench-2 harness。該 harness 繼承了 Terminus-KIRA 的原生工具調用、輸出上限和多方完成檢查清單（綠色）。環境引導（紅色）是 Meta-Harness 發現的組件：它在 agent 循環開始前收集沙箱環境快照，消除了早期的探索性輪次。

TerminalBench-2 上超越 Terminus-KIRA，排名 Haiku 4.5 agents 第一。注意，Meta的研究團隊承認TerminalBench-2 相關的搜索與最終評估使用了同一組 89 個任務，沒有設置獨立的測試集。論文給出的理由是基準規模小、運行成本高，拆分會“顯著削弱搜索信號”。對過擬合的檢查僅限于人工審查和基于正則表達式的字符串泄漏審計。相比之下，同一論文中其他兩個領域采用了嚴格的評估，例如數學推理在 5 個未見過的模型和 200 道新題上測試。TerminalBench-2 是開源基準，我們要感謝社區為構建此基準所做的努力，但這也同時意味著所有測試任務對提交者是可見的。對于模型提供商（Meta 近期通過 Meta api 開放了對于其閉源模型 Muse Spark 的調用）而言，這就形成了選擇對自己有利的配置、方法和評估口徑來定制結果的動機。例如國產第一梯隊的模型之一，kimi k2.5，在該第三方獨立進行的基準測試上的準確率在40.45%左右。Claude Haiku 4.5在開啟 thinking功能之后也能跑到38.20%左右的準確率，因此也不要對這項技術在論文中帶來的效用盲目樂觀。也就是說，Environment Bootstrap 作為“語用預設檢查”的隱喻是精確的。但在沒有獨立驗證之前，應預先意識到它帶來的可能是一個有著非常不顯著的限定條件的精準度的提升。

表8：在 TerminalBench-2 上的通過率。結果或其他數據來自官方排行榜。Meta-Harness 在所有 Opus-4.6 agents 中排名第二，在所有 Haiku-4.5 agents 中排名第一。

不過，先理解你的聽眾（環境），再選擇你的措辭（代碼策略）已被實驗數據驗證在特定工程條件下成功。

六、拼圖與遠方

為什么不用“文化”來理解？

一個常見的直覺是用“文化”來理解 harness 的風格問題。在人類學和社會學中，文化指的是一種整體性解釋框架。是作為社會成員的人所獲得的全部知識、信仰、藝術、道德、法律、習俗以及其他能力和習慣的復合整體。在這個意義上，“團隊文化”、“工程文化”等說法暗示了一種同質的、相對穩定的、滲透到組織各個層面的統一體。但語域是情境的、動態的、異質的——它承認同一個說話者（同一個 LLM）在不同情境下需要不同的策略。

Meta-Harness 的發現恰好支持后者。它沒有發現一個萬能的最優解，它發現了一組帕累托最優變體；數學領域的 4-route 路由器進一步證實，即使在同一個任務內部，不同子領域也需要不同策略。

工程中的策略選擇不是“文化固定”問題——把一種最佳實踐灌輸給模型。它是語域選擇問題——幫助模型在不同情境下選擇最合適的表達策略。

試想一下，如果用文化框架來理解這些發現，會發生什么？首先，你會傾向于尋找“最優文化”或者說一個放之四海而皆準的 harness。但 Meta-Harness 發現的是帕累托前沿，不是單一最優點。其次，你會認為文化傳播是單向的——從“高文化”到“低文化”。但 Proposer 不是在“傳播”某種已有的最佳實踐，而是在“發現”情境特定的策略。像是是田野工作者在每個社區中發現當地特有的溝通方式。最后，文化框架會讓人忽略同一個系統內部的多樣性。聲明“這個系統有一種文化”就像說“中國人有一種文化”，倒是不能說錯，但是怎么聽怎么別扭，似乎掩蓋了語域、語碼轉換這些更精細的現象。而正是這些精細現象構成了 Meta-Harness 最有趣的發現。

聯想問題

關于語域本身。Meta-Harness 的搜索空間是否覆蓋了所有可能的語域？帕累托前沿的形狀是否暗示了某種深層的“語域語法”？4-route 路由器使用詞匯特征做路由，更復雜的語用推理能否進一步提升路由質量？隨著基礎模型能力提升，最優語域會如何變化——是否存在“語域化石”，曾經有用但已過時的策略？

關于軌跡和語料。什么樣的軌跡信息對語域習得最重要？是否存在最小充分語料——剛好夠學但不過多的軌跡子集？語言學家的田野筆記是一種智能摘要，與之對應的Proposer 保留了什么、丟棄了什么？這個問題值得深究。

關于泛化和遷移。文本分類的語域能否遷移到情感分析（或其它）？數學推理的路由策略能否啟發代碼生成的路由？什么條件下語域可以“借用”？harness 在 5 個模型上都有效，這是否意味著存在模型無關的語域——還是說它們只是剛好兼容當前的模型生態？下一代模型架構變化后，這些語域還成立嗎？

Harness 語言學？如果 Meta-Harness 發現的 harness 是一種語域，那是否存在一門系統的元語言學？“音系學”（phonology）：token 層面的模式——什么樣的 token 序列構成有效的 harness 片段�！靶螒B學”（morphology）：harness 的組成單元——prompt、verification、routing 的組合規則�！熬浞▽W”（syntax）：harness 的結構——嵌套、遞歸、組合的約束。“語義學”（semantics）：harness 的意義——一個 harness 做了什么�！罢Z用學”（pragmatics）：harness 的使用——在什么情境下用什么 harness。Meta-Harness 已經給了我們新語料，以及大量自動發現的 harness 變體。也許下一個突破點也不在模型本身，而在我們理解模型如何“說話”的語言里。現在的問題是——誰來寫它們的語法？我嗎，或者說是人嗎？

參考文獻

Chomsky, Noam. Aspects of the Theory of Syntax. MIT Press, 1969.
Ferguson, Charles A. "Diglossia." Word, vol. 15, no. 2, Jan. 1959, pp. 325–40, doi:10.1080/00437956.1959.11659702.
Fishman, Joshua A. Proposer Who Speaks What Language to Whom and When?Proposer The Bilingualism Reader, Routledge, 2020, pp. 55–70, https://doi.org/10.4324/9781003060406-9
Halliday, Michael Alexander Kirkwood, et al. The Linguistic Sciences and Language Teaching. 1964.
Hymes, Dell H., et al. On Communicative Competence. 1972.
Yoonho Lee, et al. "Meta-Harness: End-to-End Optimization of Model Harnesses." arXiv.org, 30 Mar. 2026, https://arxiv.org/abs/2603.28052
Ryle, Gilbert. The Concept of Mind. University of Chicago Press, 1984.
Schieffelin, Bambi B. The Give and Take of Everyday Life: Language, Socialization of Kaluli Children. CUP Archive, 1990.
Schieffelin, Bambi B., and Elinor Ochs. Language Socialization Across Cultures. Cambridge University Press, 1986.
Searle, John R. Speech Acts: An Essay in the Philosophy of Language. Cambridge University Press, 1969.
Sinclair, John. Corpus, Concordance, Collocation. Oxford University Press, USA, 1991.
Stalnaker, Robert. "Presuppositions." Journal of Philosophical Logic, vol. 2, no. 4, Oct. 1973, doi:10.1007/bf00262951.
Tian, Muxin, et al. "SWE-Bench Mobile: Can Large Language Model Agents Develop Industry-Level Mobile Applications?" arXiv.org, 10 Feb. 2026, https://arxiv.org/abs/2602.09540

參考文獻可上下滑動查看

Appendix

術語雙解表

大語言模型與多智能體系統讀書會

集智俱樂部聯合西湖大學工學院特聘研究員趙世鈺、浙江大學教授任沁源、鵬城實驗室高級工程師崔金強，共同發起，探究大語言模型給機器人領域帶來的新思想新價值。讀書會已完結，現在報名可加入社群并解鎖回放視頻權限。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.