網易首頁 > 網易號 > 正文 申請入駐

踏馬的 Agent

0
分享至

先解釋一下標題。Harness 這個詞最近在 AI 圈很火,本意是馬具,套在馬身上讓它好好干活的那套東西

Agent with harness,也是很踏馬的


踏馬的Agent

這篇文章想聊的事情很簡單。過去三年,AI 圈先后流行了三個帶「Engineering」的詞:Prompt EngineeringContext EngineeringHarness Engineering。每一個新詞出來的時候,上一個詞就顯得不夠用了

這三次變化背后有一條線,順著捋一遍,會發現一些有意思的東西

先學說話

2023 年ChatGPT剛火的時候,大家遇到的第一個問題特別樸素:不會跟 AI 說話

你隨便問它一個問題,它給你一個回答,質量忽高忽低。后來有人發現,你在提示詞末尾加一句let's think step by step,模型的推理能力就能明顯提升。給幾個示例(few-shot),輸出格式就能穩定下來。再后來有人總結了一整套方法論,按場景分類,每種場景配一套模板

那個階段的隱含假設很簡單:模型夠聰明,你不會問而已

在簡單任務上,這個假設完全成立。你問一個問題,模型答一個問題,一輪結束。Prompt 寫得好就好,寫得差就差

但你讓模型寫一個完整的項目,這套邏輯就開始松了。模型需要知道項目結構、依賴關系、技術棧偏好、現有代碼長什么樣。這些東西塞不進一句提示詞里

會說話是第一課。但光會說話,確實走不太遠

然后學選信息

2025 年 9 月,Anthropic 發了一篇工程博客,標題叫「Effective context engineering for AI agents」。開頭有一句話說得挺直接:構建 AI 應用,越來越不在于找到正確的措辭,越來越在于回答一個更大的問題:什么樣的上下文配置,最可能讓模型產生你想要的行為

這就是從PromptContext的換擋

Prompt Engineering 關注的是怎么寫指令。Context Engineering 關注的是怎么管理模型在推理時能看到的全部信息:系統指令、工具定義、外部數據、對話歷史、MCP 接入的各種服務

模型能力在漲。上下文窗口從 4K 到 128K 再到百萬 token。RAG 來了,工具調用來了,MCP 來了。模型能接收的信息量大了好幾個數量級。相應的,你能塞給它的東西也多了好幾個數量級

你會說話了,但給多了它消化不動,給少了它缺信息,給錯了更糟糕

給錯了是最要命的。模型會非常認真地基于錯誤的上下文,產出一個看起來很對、實際上離譜的結果。它不會告訴你「你給我的信息有問題」,它只會老老實實地用錯誤的前提推出一個自洽的結論

Anthropic 在那篇博客里說,context 是一種有限資源,每一個 token 都有成本。Context Engineering 就是在這個有限窗口里,塞進信號最強的那部分,同時把噪音擋在外面

這個階段的瓶頸很明確:人不知道該給什么信息


Anthropic 的 Context Engineering 博客,2025 年 9 月

再然后,發現人才是問題

2025 年 11 月,還是 Anthropic,又發了一篇博客,叫「Effective harnesses for long-running agents」。這篇文章記錄了一個有點扎心的發現:即使用他們最好的模型Opus 4.5,配上了上下文管理能力(compaction),讓 Agent 在多個上下文窗口里跑長任務,結果還是會出問題。模型要么試圖一次性做完所有事,要么跑到一半就覺得「差不多了」提前收工

信息給對了,還是不行

2026 年 2 月,OpenAI 發了一組博客講Harness Engineering。他們在內部做了個實驗:一個小團隊完全不手寫代碼,靠 Codex Agent 交付了一個大約一百萬行代碼的產品。工程師干的活從寫代碼變成了別的東西

一開始他們用一個超長的AGENTS.md文件,把所有規則都寫進去告訴 Agent。很快就發現不行。上下文窗口有限,一個大文件把任務本身的空間都擠沒了。當所有規則都「重要」的時候,Agent 對哪條規則都不上心

文件很快過時,沒人維護,Agent 開始被一堆不再成立的規則誤導

后來改了。AGENTS.md縮到 100 行,只當一個目錄。架構文檔、設計決策、技術規范,全部拆成獨立文件,Agent 需要什么就加載什么

但最有意思的變化是思路上的

OpenAI 給 Agent 的代碼庫設了極其嚴格的分層依賴規則。業務代碼只能單向調用,越界就被系統切斷,合并都合并不進去。Anthropic 在 Harness 里設了三個角色:規劃師拆需求,生成器寫代碼,評估器做驗收。評估器直接打開產品去點擊測試,發現不對直接打回

這些約束有一個共同的特點:人沒有告訴 Agent 應該怎么做,人只告訴它哪里不能做

想想看,這個轉變其實挺微妙的。從「你應該這樣寫代碼」到「你隨便寫,但這條線不能碰」。從主動指導變成被動約束。原因說白了就是,人也不知道 Agent 具體每一步應該怎么做,人只知道邊界在哪

一直都是人的問題

回頭看這三個階段,會發現一個有點尷尬的規律

Prompt Engineering 階段,人不會跟模型說話。Context Engineering 階段,人不知道該給模型什么信息。Harness Engineering 階段,人不知道怎么指揮 Agent 做對,只能劃一條線說「這里不許過」

瓶頸從來都在人身上。只是每個階段的表現形式不一樣

模型一代比一代強。從 GPT-3.5 到 GPT-5.4,以及各家的最新版本,能力一直在漲。但更強的模型并沒有讓問題消失,反而讓問題換了個樣子出現

Anthropic 升級模型之后發現,之前為了對抗「上下文焦慮」設計的重置機制可以去掉了,新模型自己能處理。但同時冒出來的新能力又需要一套全新的 Harness 來配合

模型越強,人需要做的事情反而越多。做的事不一樣了而已

從寫提示詞,到選信息,到設計約束和環境。人的角色在持續后退,從前線退到中臺,從中臺退到后臺。但人一直都在

踏馬

回到開頭的話題。馬具的功能說白了就兩件事:約束和引導。讓馬的力量朝正確的方向走,同時保護馬自己不受傷害

Agent 跑長任務的時候,你沖它吆喝一嗓子(Prompt),它可能跑了,但方向不一定對。你把草料備好、路況摸清、裝備配齊(Context),它跑得確實好了一些,但跑遠了還是會偏。你給它套上挽具和韁繩(Harness),力量就被物理性地約束在正確的通道里了

最潮的仔,都是踏馬的

Minghao 騎馬去酒廠

有一家公司做了189 年的 Harness,叫愛馬仕。1837 年在巴黎開的馬具工坊。他們家創始人有一條產品哲學:「我們的第一個客戶是馬」。從被約束者的體驗出發來設計約束,這條經驗放到 Agent 身上一個字不用改

巧的是,最近 AI 圈還真火了一個叫Hermes的 Agent。開源的,跑在你自己的服務器上,slogan 寫的是「an agent that grows with you」

Agent with harness,也是很踏馬的

說不準半年之后又會冒出一個新的帶 Engineering 的詞。到時候再來看,是哪種新的馬具

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
緊急叫停!醫生:服用二甲雙胍的人,身體出現6種癥狀必須停藥

緊急叫停!醫生:服用二甲雙胍的人,身體出現6種癥狀必須停藥

荊醫生科普
2026-04-21 15:09:02
NBA同戰績選秀抽簽:爵士勝國王,鵜鶘勝獨行俠,火箭勝騎士

NBA同戰績選秀抽簽:爵士勝國王,鵜鶘勝獨行俠,火箭勝騎士

懂球帝
2026-04-21 14:26:06
外交部:敦促美方恪守國際法原則和國際關系基本準則,立即停止以任何方式插手香港事務和中國內政

外交部:敦促美方恪守國際法原則和國際關系基本準則,立即停止以任何方式插手香港事務和中國內政

環球網資訊
2026-04-21 15:51:17
記者:加納喬為女友付7000歐做隆胸手術,因移民限制兩人不住一塊

記者:加納喬為女友付7000歐做隆胸手術,因移民限制兩人不住一塊

懂球帝
2026-04-21 14:47:06
爸爸好心幫女兒晾曬內衣,女兒看到直接發火:他摸都不能摸!

爸爸好心幫女兒晾曬內衣,女兒看到直接發火:他摸都不能摸!

丫頭舫
2026-04-20 23:11:09
對標優衣庫,干翻宜家?這家“摳門”會員店,憑什么讓中產上癮

對標優衣庫,干翻宜家?這家“摳門”會員店,憑什么讓中產上癮

青眼財經
2026-04-20 14:48:46
國務院任免國家工作人員

國務院任免國家工作人員

新華社
2026-04-21 11:35:19
近10年崩得最狠的專業:從年薪幾十萬到月薪兩千五!

近10年崩得最狠的專業:從年薪幾十萬到月薪兩千五!

燈錦年
2026-04-21 13:28:31
賠了夫人又折兵!霍汶希本想力挺張敬軒,結果連累容祖兒謝霆鋒

賠了夫人又折兵!霍汶希本想力挺張敬軒,結果連累容祖兒謝霆鋒

攬星河的筆記
2026-04-21 16:13:50
許光漢穿皮衣現身「新身份曝光」 再次聯手殷振豪…狂玩諧音梗!

許光漢穿皮衣現身「新身份曝光」 再次聯手殷振豪…狂玩諧音梗!

ETtoday星光云
2026-04-21 17:32:05
伊媒稱伊朗已為戰事重新爆發做好準備

伊媒稱伊朗已為戰事重新爆發做好準備

新華社
2026-04-21 20:08:10
69年陳云下放江西,時任省委書記拒不見面,陳云:此人膽子很大

69年陳云下放江西,時任省委書記拒不見面,陳云:此人膽子很大

鑒史錄
2026-04-20 22:03:41
14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

不似少年游
2026-04-17 19:31:49
《八千里路云和月》大結局前瞻:田家泰犧牲,孟萬福、玉嬌成特工

《八千里路云和月》大結局前瞻:田家泰犧牲,孟萬福、玉嬌成特工

阿纂看事
2026-04-21 17:42:36
14年前拿U型鎖砸人的蔡洋:2022年出獄,找不到工作靠打零工為生

14年前拿U型鎖砸人的蔡洋:2022年出獄,找不到工作靠打零工為生

天天熱點見聞
2026-04-21 05:15:28
李亞鵬官宣!嫣然醫院告別14年租房,新院區地理位置優越

李亞鵬官宣!嫣然醫院告別14年租房,新院區地理位置優越

王楔曉
2026-04-21 04:42:47
美國發現一個“秘密”:每次對華加征關稅,中國就去找非洲,為何

美國發現一個“秘密”:每次對華加征關稅,中國就去找非洲,為何

泠泠說史
2026-04-21 21:59:17
聯合國秘書長發言人在記者會上用中文問好 并表示希望聯合國的多語種服務越來越好

聯合國秘書長發言人在記者會上用中文問好 并表示希望聯合國的多語種服務越來越好

每日經濟新聞
2026-04-21 14:32:56
不比不知道,一比嚇一跳!蘇林回國后很焦慮:原來我們落后這么多

不比不知道,一比嚇一跳!蘇林回國后很焦慮:原來我們落后這么多

小俎娛樂
2026-04-21 03:08:17
狂勝35分!一場恥辱的勝利!和文班亞馬相比,你確實不太配拿MVP

狂勝35分!一場恥辱的勝利!和文班亞馬相比,你確實不太配拿MVP

籃球掃地僧
2026-04-21 09:47:36
2026-04-21 23:35:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
396文章數 50關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

商家網售"宣威火腿"被訴侵權:我就是宣威人為何不能賣

頭條要聞

商家網售"宣威火腿"被訴侵權:我就是宣威人為何不能賣

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

數碼
本地
時尚
健康
公開課

數碼要聞

OPPO發布影像雙旗艦:專業口袋哈蘇OPPO Find X9 Ultra領銜

本地新聞

春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

頂流復工,已判若兩人

干細胞抗衰4大誤區,90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版