无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI成功率從20%飆到100%!只需一個Harness文件

0
分享至


新智元報道


【新智元導讀】Anthropic實錘:Claude裸跑模型,9美元全廢;但是套上Harness花200美元效果直接起飛。AI效果不好?別再糾結換模型了!OpenAI和Anthropic都在用的Harness工程,一文講透。

最近,AI圈子里一個逃不開的話題就是Harness

甚至,連DeepSeek最近也在開始招聘Harness工程師。


那么,到底什么是Harness?


Harness,圍繞AI編程智能體搭建的一整套工程基礎設施,由五個子系統組成:指令、工具、環境、狀態、反饋。


為什么值得專門講它?

因為2026年前后,Anthropic和OpenAI幾乎同時在各自的工程實驗里給出了同一個結論——AI編程智能體頻頻失敗,問題不在模型,在模型之外的Harness

兩家分別用一組對照實驗當證據。先看數據。

兩組數據對照

Anthropic對照實驗——同一個Opus 4.5模型,同一道編程題:

多花的191美元,全花在驗證循環上——每寫一段代碼就跑測試,不通過就改,直到真正通過。


OpenAI百萬行實驗,Codex團隊在真實倉庫上驗證:

實驗只改了一件事——倉庫根目錄加了一個AGENTS.md文件,不到100行markdown。


Harness是什么

Harness不是工具,也不是提示詞技巧,是圍繞智能體的一整套工程基礎設施,由五個子系統組成,每一個對應一種具體失敗模式。


指令子系統(Instructions)

倉庫根目錄的一個markdown文件——OpenAI陣營叫AGENTS.md,Anthropic陣營叫CLAUDE.md。

Codex、Claude Code、Cursor啟動時自動讀取并注入「系統提示詞」。

解決:智能體不知道項目約定,瞎寫代碼(風格不一致、用錯包管理器、隨手執行破壞性命令)。


不到15行,把項目約定從反復重申變成啟動時自動注入。

工具子系統(Tools)

限定智能體能調用哪些命令。

Claude Code用.claude/settings.json,Codex用~/.codex/config.toml。

解決:越權操作(rm-rf誤刪、gitpush--force覆蓋遠端、不該聯網時調外部API)。


允許的直接跑,禁止的直接拒,灰色地帶的彈確認。

環境子系統(Environment)

鎖定依賴版本、運行時配置、數據庫狀態。

實現:setup.sh/Dockerfile/devcontainer.json。

解決:這臺機器上能跑的虛假環境(本地通過,CI一跑就廢)。


關鍵一行--frozen-lockfile——智能體無法擅自升級任何依賴。

狀態子系統(State)

把跨會話進度、斷點、未完成任務持久化到PROGRESS.md,新會話第一件事讀它。

解決:跨會話失憶(第二個會話從零開始,寫出和第一個會話沖突的代碼)。


在AGENTS.md固化約定:新會話第一件事讀PROGRESS.md;任務完成或斷點變化,立即回寫

反饋子系統(Feedback)

機器可執行的驗證命令——測試、lint、類型檢查、構建。

智能體宣布完成前必須跑通,退出碼不為0就不算完成。

解決:過早宣布勝利(說Done!但一行跑不通)——Anthropic 9美元裸跑實驗的核心死因。


三大致命失敗模式

Anthropic和OpenAI的實驗,不約而同指向了智能體最常見的三種致命失敗模式。


過早宣布勝利

場景:智能體寫完500行功能,輸出已完成。合并代碼——CI紅屏,type check報12個錯,單測一個沒跑過。

根因:沒有強制反饋循環。判定來自自我感覺,不來自機器可驗證的事實。

解法:反饋子系統。把判定權移交給退出碼——退出碼≠0,任務≠完成。

上下文焦慮(ContextAnxiety)

場景:長任務做到70%,上下文Token數快撐滿窗口。智能體開始趕進度——跳過測試、刪邊界處理、寫stub收尾、宣布完成。

根因:沒有斷點續傳。感知到上下文壓力時,智能體會試圖在這個會話內做完所有事,哪怕代價是質量崩塌。

解法:狀態子系統+主動重啟。每完成一個子任務立即回寫PROGRESS.md;上下文Token用量超70%,主動停下、寫完斷點、開新會話。

跨會話失憶(Cross-SessionAmnesia)

場景:第一個會話寫了用戶模塊,第二個會話寫訂單模塊——智能體不知道用戶模塊已存在,又寫了一遍getUserById,跟前一版接口簽名沖突。

根因:沒有持久化狀態+沒有首讀約定。

解法:狀態子系統+指令子系統組合。PROGRESS.md維護已完成功能清單;AGENTS.md寫明開會話第一件事讀PROGRESS.md;沖突時以代碼為準——倉庫本身是唯一事實來源。

五步從零搭一個Harness

搭建一個Harness,并不難。

下面五步用文本編輯器即可完成,加起來不超過200行配置。


第1步·根目錄建AGENTS.md

touch AGENTS.md。至少三塊:項目說明、禁止操作、完成定義。

第2步·配permissions

.claude/settings.json或~/.codex/config.toml。最小兩條:

第3步·寫setup.sh鎖環境

已有Dockerfile/devcontainer.json可跳過。

否則寫一個setup.sh,把所有版本寫死。最關鍵一行:pnpminstall--frozen-lockfile。

第4步·建PROGRESS.md

touchPROGRESS.md,四塊:已完成、進行中、待辦、已知問題。提交進git,當成項目自身的一部分維護。

第5步·在AGENTS.md末尾固化完成定義

寫明pnpm type check/test/lint/build四個命令,退出碼不為0就不算完成。如果項目還沒有這些命令,今天就配上。

沒有反饋循環,Harness等于沒裝——這是Anthropic 9美元實驗的核心教訓:前四步全做對,第五步缺位,依然全廢。

兩家殊途同歸

過去一年所有人都在追下一個更強的模型。

2026年,Anthropic和OpenAI用兩組不同的實驗給出了同一個答案——別先換模型,先把Harness裝好

模型能力決定上限,Harness決定你能用到上限的幾成。

沒有Harness,Opus 4.5跑出的代碼連編譯都過不去;有了Harness,小一檔的模型也能穩定交付。

下一個更強的模型當然會再抬一截上限。但今天連Harness都沒裝,下一個模型來了,成功率依然停在20%。

與其等下一個模型,現在就安裝Harness。

參考資料:

https://walkinglabs.github.io/learn-harness-engineering/en/

編輯:大衛

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
云南鴕鳥肉案兇手被判死刑,當地曾多人購買,這些人后來怎樣了

云南鴕鳥肉案兇手被判死刑,當地曾多人購買,這些人后來怎樣了

林林故事揭秘
2025-01-03 17:30:21
最大贏家?總決賽還未開打,索漢已提前鎖定本賽季總冠軍戒指

最大贏家?總決賽還未開打,索漢已提前鎖定本賽季總冠軍戒指

懂球帝
2026-05-31 11:33:19
雷霆無緣總冠軍,揪出3大“罪臣”!主教練在列 一人可直接被交易

雷霆無緣總冠軍,揪出3大“罪臣”!主教練在列 一人可直接被交易

鳴哥說體育
2026-05-31 15:19:48
總決賽G3賽前上海2大外動態!洛夫頓現身場邊,懷特塞德沒在杭州

總決賽G3賽前上海2大外動態!洛夫頓現身場邊,懷特塞德沒在杭州

籃球資訊達人
2026-05-31 11:29:13
快訊!關于江啟臣的消息!

快訊!關于江啟臣的消息!

故事終將光明磊落
2026-05-31 12:52:15
一夜爆紅!深圳73歲老人擺攤,躺路邊熟睡!有人凌晨光顧,有人專程蹲點

一夜爆紅!深圳73歲老人擺攤,躺路邊熟睡!有人凌晨光顧,有人專程蹲點

南方都市報
2026-05-31 09:19:43
禽獸都不會這么干!巴西亞馬遜雨林發生嚴重挑戰人類倫理的事情

禽獸都不會這么干!巴西亞馬遜雨林發生嚴重挑戰人類倫理的事情

科普大世界
2026-05-30 21:04:03
巴黎衛冕歐冠!姆巴佩登上熱搜太諷刺,恩里克兩年前的話字字誅心

巴黎衛冕歐冠!姆巴佩登上熱搜太諷刺,恩里克兩年前的話字字誅心

小梊搞笑解說
2026-05-31 09:45:45
反轉!姜洪濤被判賠堂哥36萬,前妻花堂哥不少錢,姜洪濤也要退還

反轉!姜洪濤被判賠堂哥36萬,前妻花堂哥不少錢,姜洪濤也要退還

漢史趣聞
2026-05-30 13:05:27
不聽大陸勸告執意訪美,鄭麗文人未啟程,就遭美方公開敲打!

不聽大陸勸告執意訪美,鄭麗文人未啟程,就遭美方公開敲打!

阿傖說事
2026-05-31 01:06:09
特寫|黃浦江畔的創作者“大聯歡”,共享靈感、好內容和城市機遇

特寫|黃浦江畔的創作者“大聯歡”,共享靈感、好內容和城市機遇

澎湃新聞
2026-05-31 07:30:28
劉燁兒子正式出道!190cm顏值驚人,網友直呼:混血感,好重。

劉燁兒子正式出道!190cm顏值驚人,網友直呼:混血感,好重。

感覺會火
2026-05-31 12:08:07
暴跌93%,國產葡萄酒崩盤了

暴跌93%,國產葡萄酒崩盤了

毒sir財經
2026-05-30 22:44:12
學術打假風暴:南開大學和中山大學同一天發布通報,免去院長、副院長各一名

學術打假風暴:南開大學和中山大學同一天發布通報,免去院長、副院長各一名

呦呦鹿鳴
2026-05-30 21:59:22
網友請假說明原因,外企領導:隱私、無需說明,評論區感動哭了!

網友請假說明原因,外企領導:隱私、無需說明,評論區感動哭了!

譚談社會
2026-05-31 11:03:25
張嘉倪已復婚!買超微博仍是張嘉倪老公,疑似張嘉倪為熱度假離婚

張嘉倪已復婚!買超微博仍是張嘉倪老公,疑似張嘉倪為熱度假離婚

八卦王者
2026-05-31 14:18:47
僅200萬元!余承東官宣新尊界S800開啟預售后,奇怪的現象出現了

僅200萬元!余承東官宣新尊界S800開啟預售后,奇怪的現象出現了

春雨說科技
2026-05-30 17:45:12
現場核爆級!7臺引擎瞬間成廢鐵,印度零件坑慘美國登月計劃?

現場核爆級!7臺引擎瞬間成廢鐵,印度零件坑慘美國登月計劃?

普陀動物世界
2026-05-31 00:41:55
中美對香會都有變化,越南蘇林參會很積極

中美對香會都有變化,越南蘇林參會很積極

新民周刊
2026-05-31 09:08:09
“你兒子肝臟不要了?”男孩中藥配晚餐,吃到干嘔家長卻無動于衷

“你兒子肝臟不要了?”男孩中藥配晚餐,吃到干嘔家長卻無動于衷

妍妍教育日記
2026-05-29 07:20:09
2026-05-31 16:32:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15349文章數 66894關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

美國嚴厲警告后 德國仍上趕著:將擴大"印太"軍事參與

頭條要聞

美國嚴厲警告后 德國仍上趕著:將擴大"印太"軍事參與

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

數碼
本地
游戲
藝術
公開課

數碼要聞

小米米家無線吸塵器4 Pro開啟預售,以舊換新1219元

本地新聞

用剪紙的方式,打開江蘇揚州

91歲楊老頭棄坑《生化危機7》!直言:不嚇自己只想快樂

藝術要聞

Luis Alvarez Roure | 美國現實主義畫家

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版