網易首頁 > 網易號 > 正文申請入駐

王云鶴眼中的Harness：復雜優化問題，AGI靈魂爭奪之戰

2026-05-18 18:15:52　來源: 機器之心Pro

河北舉報

分享至

機器之心轉載

最近一段時間，Agent 又一次成為 AI 圈最熱的關鍵詞。

OpenClaw 這類開源項目走紅之后，關于 Agent 的討論迅速升溫：Agent 到底是什么？應該怎么做？長期會演進到哪里？這些問題重新被擺到臺面上。

近日，王云鶴在知乎上圍繞這一問題發表了一篇文章，討論了自己對Harness Engineering的看法，引起了AI 社區的關注與討論。

機器之心經授權轉載，讓我們看下他對Harness 的觀點

原文地址：https://zhuanlan.zhihu.com/p/2038669387150927679

其實長久以來，一直有一個問題沒有被定義清楚，到底什么是 Agent？LLM 和 Agent 的邊界在哪里？我也經常會跟人討論，自主規劃、自己判斷、執行任務……

但是其實一直也沒有個公論，隨著 LLM 的能力持續提升，甚至很多時候有一種 Base model as Agent 的趨勢，加上各種工具調用軌跡數據的回流后。比如問模型今天的日期和天氣，模型去讀取了本地的信息，這種時候，是叫它 LLM 還是叫它 Agent？

回到當下，從 OpenClaw 出來，關于 Agent 到底是什么，應該怎么做，長期演進方向是什么的討論非常多，也衍生出來很多新的機會，無論是算法研究還是工程創新。

最早我跟人討論的是 Agent 已經進階到需要我們討論 AgentOS 層面（非通信、協議等）了，Agent = Base Models+AgentOS。很多人會聯想到上個時代的 OS，Android、Linux，但是此 OS 非彼 OS，AgentOS 里面包含了很多組件來進一步釋放大模型本身的能力和拓展其應用邊界。后來逐步大家收斂到 Harness Engineering 的概念 [r1]，也就是 Agent = Model+Harness。到現在，也有了更多的關于 AgentOS 和 Harness 的討論和推演 [r2,r3]，我覺得無論是 AgentOS 還是 Harness，都是在告訴我們，Base model 很重要，但是怎么把它使用的更好，可能，更重要。

另外一個值得深度思考的問題是，Harness 是否會長期存在，以及，Harness 會不會被模型吃掉？有人會說，Harness 只是一個新概念，像以前的 rag、向量數據庫一樣會隨著模型長序列能力的提升而消亡，但實際上呢？Rag 其實在升級而不是消失，加上了 prompt、工具調用、更多的知識等變成了 skills。很多 Harness 里面的元素都是一直存在的，并且隨著模型能力和業界的算法與工程算法創新不斷進化。并且 Harness 真正意義上的把所有的圍繞模型的所有高價值元素都聯動在了一起，是 Agent 時代最重要的事情之一。

好了，那我們現在可以回答最初的問題了，就是 Agent 是 Base Model（可以是 LLM、VLM、VLA……）加上 Harness 層面的任何優化，哪怕是多加一點點 prompt 優化，多加了一點工具調用，而不是 Base Model as Agent。那回到我自己的觀點，我覺得 Agent 可能要更進一步，還是要變成 Agent = Models+Harness，也就是說多模型配合可以產生更好的 Agent 能力。先講為什么：

1.模型 “七國八制”：我覺得模型的終局還早，先不談中美模型的差距，立足當下國內的模型格局，還是一個七國八制的情況，各家模型根據自己的業務屬性、根據自己的數據、根據自己最早 bet 的路線，一定會出現特異化的情況（有的生活娛樂類表現好、有的注重數學、有的 coding 能力強、有的長序列做的好），而且，價格也不一樣。Claude Code 內部還會調用多款模型（opus、sonnet、haiku 等）來實現綜合最優解。此外，不同模型盡管評測相差不大，但是在具體任務上的表現差異可能很大，甚至執行結果會跟 benchmark 關聯度很小，還記得去年很火的 AI 量化的項目，qwen、deepseek、gpt、gemini、claude、grok 六個比拼的結果，最后勝出的是 deepseek 和 qwen，讓人大跌眼球的是 gpt。后來我也跟朋友們分析過，結論是 gpt 太安全了，遇到高風險場景不敢做決策，但是往往那些才是收益率最大的地方。另外，服務于模型的 benchmark 也是非常多的，當然也有主觀評測的榜單，這就導致了以不同基準不同體系評價出來的最優模型也是不一樣的。

2.模型中的任務會 “打架”：在機器學習中很多任務是沒法用一個統一的 loss function 來表達的，并且是不能用一個模型來學出來的。語言模型這塊有一點不一樣，首先 raw data 的 representation 是一致的，然后，通過 pre-training 和 scaling law 會抵消很多，但是還是有一些跡象。比如，快慢思考合一（非 prompt 切換）我們在 25 年 4 月份就努力的放到一起過，但是后來幾乎所有人都放棄了。其實關于這個很早做 IPT（Pretrained Image Processing Transformer [r4]）的時候就遇到過，圖像超分和圖像去模糊是最容易沖突的兩個任務，放在一個基模里面學不好，本質上這兩個東西一個是高通濾波，一個是低通濾波，我覺得快慢思考從信號處理的角度也是一樣的，于是后面我們又做了 instruct IPT [r5]。所以，哪怕模型同質化，不同的任務最優的模型，也會有差異性，除非所有人都對所有任務給同樣的權重。

3.復雜任務更需要多模型：語言模型本身是個確定性的事情，大家在這個方向上已經足夠卷了，排名靠前的幾個模型不存在顯著的性能上的差距。但是，Beyond LLM，未來還有更多復雜的任務，比如多模態理解和生成，具身智能的 agent 等，需要多個模型來協同，比如短劇生成，文案轉寫用什么模型？視頻生成用什么模型？中間過程比如轉場后的穩定性用什么模型和方法保障？具身智能更是需要多模型協同來做感知、決策、運控、預測、記憶等等。如果說基模的愿景是一個最強的模型吞噬掉所有的 Harness，那這個事情相較于上面兩條，給 Harness 這一層的時間窗更大，甚至要 3-5 年以上了。

回到我為什么要對 Harness 這件事極度感興趣，首先是各種模型能力的持續提升，尤其是 coding 和 planning 能力的爆發，迎來了 OpenClaw 這么史無前例的開源項目，也涌現了非常多的生產力應用，那如果進一步思考 Agent 解決問題的能力，其實是要解決一個復雜的優化問題的。比如，我們給定了一個任務，和一些可以用的 Base Models，那對應每一個模型，Harness 當中的每一個模組需要調整的可能是不一樣的，也就是模型 vs agent 有很多子特性上的匹配。這也跟上面一段講的 “七國八制” 有關。比如，有的模型 prompt 可以增長補充提升精度、有些模型 rag 掛多了反而會影響精度、有的安全加多了模型能力會劇烈下降。

所以，我對 Harness 這一層的認知是，這是一個非常非常非常復雜的，優化和系統工程問題，值得投入。

光是求解這個復雜的優化問題來帶來更好的 agent 就是一個令人覺得有趣且有價值的事情了。但是，從公式 1 的角度，M 也未嘗不可以被優化，尤其是在 Harness 上積累的數據，對下一階段的模型也至關重要。這二者一定不是互斥的，甚至 Anthropic 告訴我們的道理是，基模很重要，但是 Harness 做好了可以反哺基模的進化，于是有了 opus 4-claude code 1.0-opus4.5-claude code2.0-opus4.6…… 的迭代。上一個時代，大家瞄著 AGI 要做的事情是，給定數據集，大家優化模型參數。當前這個階段，Agent 在干的所有事情其實，都是給定模型，大家優化 Harness parameters。那如果，我們把 model parameters 也帶入進來一起優化呢？對應的下一代 AGI 路徑很有可能就是

即，Model Parameters 和 Harness Parameters 迭代優化，或者，聯合優化。那么，Harness 最觸動我的事情是什么？

AI “靈魂” 之爭：廣義上，大家會覺得大模型才是真正智能的大腦，是所有應用的核心源泉，就好比是汽車里的發動機，手機里面的芯片一樣，然后 Harness 是駕馭大模型，是自動駕駛系統，是整個手機的軟硬協同。但，如果公式 1 成立，要控制模型，甚至選擇模型，AI 的大腦，或者說靈魂到底是在 Base Model 還是 Harness 呢？如果公式 2 存在可能性，那就是我們還要基于 Harness 來進一步增訓模型，實現 Agent 中的自主進化，那靈魂到底屬于誰呢？

[r1] Trivedy, Vivek. "The Anatomy of an Agent Harness." LangChain Blog, 10 Mar. 2026, http://www.langchain.com/blog/the-anatomy-of-an-agent-harness.

[r2] Liu, Rui, et al. "AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem." arXiv preprint arXiv:2603.08938 (2026).

[r3] He, Chaoyue, et al. "Harness Engineering for Language Agents: The Harness Layer as Control, Agency, and Runtime." (2026).

[r4] Chen, Hanting, et al. "Pre-trained image processing transformer." CVPR 2021.

[r5] Tian, Yuchuan, et al. "Instruct-ipt: All-in-one image processing transformer via weight modulation." arXiv preprint arXiv:2407.00676 (2024).

[r6] Yang, Chengrun, et al. "Large language models as optimizers." ICLR 2024.

[r7] Trivedi, Prashant, et al. "Align-pro: A principled approach to prompt optimization for llm alignment." AAAI 2025.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.