无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Claude Code 從 Demo 到產線 · 企業 Harness 工程化的 8 道關卡

0
分享至


責編 | 夢依丹

出品 | CSDN(ID:CSDNnews)

在 AI 輔助編程風靡全球的今天,許多開發者都經歷過 Vibe Coding 帶來的驚艷:輸入一行 Prompt,AI 迅速生成一個精美的 Demo。然而,當技術團隊試圖將這些工具引入復雜的、百萬行級代碼的企業級生產系統時,往往會面臨“硬著陸”的尷尬:

  • 每次開啟新會話,AI 就會忘記項目既定的技術棧和代碼規范;

  • 長對話進行到后期,AI 因為上下文污染和“注意力漂移”變得越來越糊涂,甚至開始原地打轉;

  • 自動生成的代碼因為隱藏的邏輯缺陷或依賴引入,導致 PR 被多次退回。

這些痛點說明了一個嚴峻的事實:Demo 驚艷不等于產線可用。AI 編程的瓶頸,已經不再是模型本身的智力,而是工程化能力。

近日,新加坡科技研究局高性能計算研究所 AI 研究員、知名技術作家黃佳(咖哥)走進 CSDN 「AI 進化論」欄目,深入拆解了如何將 Claude Code 從 Demo 推進到產線的完整方法論。

黃佳指出:“2025 年我們都在玩 Vibe Coding,而 2026 年,企業真正需要的是 Harness Engineering。”

本文基于黃佳老師的分享內容,整理了將 Agent 推向生產環境必須跨越的“八道 關卡”及對應的工程設計模式,以饗讀者。

核心共識:Agent = Model + Harness

在系統拆解之前,我們需要厘清一個核心公式:

Agent=Model+Harness

Harness 一詞的原意為“馬具”(套在馬身上的挽具、韁繩等)。馬匹雖然力大無窮,但若沒有馬具的控制與牽引,便無法拉動車輛。大語言模型也是如此,它本 身只是一個具備理解與生成能力的“智力引擎”,而 Harness 則是包裹在模型外層的一切工程化基礎設施(包括上下文管理、工具調度、事件攔截、狀態持久化等)。


截圖自黃佳老師 PPT

近期,多項行業實測證實了一個關鍵規律:

  • “同一模型在不同 Harness 下的表現差異,遠大于不同模型在同一 Harness 下的差距。”

  • 在 TerminalBench 基準測試中,僅通過對 Harness 層的優化,就使同一個模型的能力從基線以下躍升至 Top 5;

  • Vercel 團隊發現,主動剔除 80% 的 Agent 工具后,流程更精簡,Token 消耗驟降,響應速度反而更快。

因此,調教 Harness 才是釋放 AI 真實工程效能的真正變量。



第一關:如何讓 AI 讀懂(巨型)代碼庫?

痛點:AI 記不住項目規范,大庫讀不完

每次新建會話都要重新給 AI 解釋項目背景,且由于上下文窗口的限制,面對百萬行級別的代碼大庫,AI 常常面臨“讀不完”或“讀了后面忘前面”的窘境。

解法:五層記憶體系 + 上下文分診

1. 建立分層的記憶架構

不能把所有的規范都塞進同一個配置文件里。黃佳老師提出,應該構建一個五層記憶體系:

  • Enterprise 級:企業全局 CLAUDE.md,寫入不可繞過的安全與合規策略(如:嚴禁將代碼發送至外部 API、禁止硬編碼密鑰等)。

  • User 級: 存放個人的編碼偏好(如:交流語言、快捷指令映射)。

  • Project 級: 團隊共享的項目級規范(如:明確規定使用 Fastify 框架和 pnpm 包管理)。Anthropic 官方硬指標要求該文件控制在 200~300 行以內,它不是文檔夾,而是始終在線的 P0 槽,每一行都應是真金白銀的規則。

  • Rules 級: 將細分領域的規范(如前端組件規范、數據庫遷移規范、測試策略)拆解為獨立文件。利用 YAML Frontmatter 的 paths 字段聲明 Glob 模式進行條件化加載。例如:只有當 AI 操作 tests/** 路徑時,才會激活測試規范,實現按需取用。

  • Local 級:存放個人的臨時備忘,該文件自動被納入 .gitignore,不提交到代碼庫。

2. 上下文分診:類比操作系統調度

黃佳老師給出了一個精妙的隱喻:在大模型時代,LLM 是 CPU,Context 是內存,文件系統則是磁盤。


我們無法把磁盤一股腦堆進內存中,這就需要引入類似 OS 虛擬內存管理器的“上下文分診”機制,將候選信息分為四個等級(P0 ~ P3):


截圖自黃佳老師PPT

通過這種分診調度,例如在排查“訂單扣款失敗”問題時,AI 僅調入 3 段核心日志(P0/P1)與 5 段歷史工單句柄(P3),將上下文體積從 18K 壓縮至 2K Token,信噪比大幅提升,定位問題的準確度反而更高。


第二關:如何控制 AI 的幻覺?

痛點:AI 給出看起來對、實際是錯的代碼

在長會話中,Claude Code 在 95% 容量時會自動觸發上下文壓縮。如果它把一段 487-token 的“連接池耗盡”錯誤堆棧壓縮成了一句簡單的 a database error occurred,AI 就丟失了原本的反饋回路,接下來可能會花費數小時重試那些早已被堆棧排除掉的錯誤方案,在原地打轉。

解法:結構化上下文 + Hooks 質量門禁

1. 結構化輸入,注入而非生成

減少幻覺的關鍵在于讓 AI 基于已有的代碼進行“注入修改”,而不是讓其“憑空創造”。在向 AI 下達任務時,盡量避免“幫我優化這個函數”等模糊表達,而是要提供結構化信息:

  • 反例:幫我優化這個函數。

  • 正例:優化 src/utils/parser.ts 的 parseConfig 函數,瓶頸在第 42 行的循環。

2. Stop Hook 作為契約:將控制交回確定性工程

“Prompt 是請求,Hook 是契約。”我們不需要在 Prompt 里一遍遍地哀求 AI “請不要胡思亂想”,而是要用確定性的 Hook 門禁把不靠譜的產出擋在門外。

通過在擴展層配置 Stop Hook(在 AI 完成響應并生成完代碼之后、準備交付之前觸發),讓系統自動靜默運行單元測試與代碼靜態檢查:

}

如果測試未通過,系統直接阻斷本次提交并報錯,把結果喂回給 AI,讓其自己修改,直到自愈通過后再交付。


第三關:如何實現經驗復用?

痛點:好 Prompt 鎖在個人腦子里,無法團隊共享

每個開發者都在自己的終端里重復寫著類似的代碼審查、測試生成等 Prompt,新人上手慢,全隊重復造輪子。

解法:從 Prompt 到聲明式 Skill

在 Claude Code 的設計中,支持將好用的 Prompt 封裝為 .claude/skills/ 目錄下的 Skill 資產,并通過 Git 進行版本控制。如此一來,新人克隆代碼庫時就 能瞬間繼承整個團隊沉淀的 AI 編程能力。

一個 Skill 實質上是一個包含 SKILL.md 的目錄。為了節省 Token,Claude 采用了漸進式披露的設計:

  • 啟動階段: 僅加載每個 Skill 頂部的 name 和 description(約 100 tokens 的元數據)。

  • 匹配階段: 當用戶的輸入命中該 Skill 的語義(如提到“審查代碼”),系統才會展開完整的 SKILL.md 主文件。

  • 執行階段: 只有在真正需要動作時,才動態調用掛載的 bundled 腳本/外部資源。

通過這種“只在翻開書的對應章節時才看內容”的設計,在運行多 Skill 系統時,Token 空間可節省達 98% 左右。


第四關:算力貴、用量不透明?探尋 Token 經濟學

痛點:一次任務燒了多少錢說不清,長對話越到后面越貴

解法:反向選型、多層路由與 Talker-Reasoner 架構

1. 建立模型選擇矩陣

在企業實際部署中,全跑高檔的 Opus 往往會造成極大的資金浪費。經過對真實業務復雜度分布的統計發現,多達 41% 的查詢只是簡單的 SQL 模板填空, 只需要最便宜的 Haiku 模型即可勝任。


通過在 Harness 中配置三層路由機制:

  • Haiku (60%)→Sonnet (30%)→Opus (10%)

在保障產出質量的前提下,月賬單可以從 48 萬驟降至 12 萬,綜合成本下降達 65%~75%。

2. 反向選型:在受限模型下選擇“模式”

當預算和部署環境是硬約束,只能在本地部署開源便宜模型(如 Qwen-32B)時,該如何提升準確率?

黃佳老師強調,此時模式的選擇才是設計的核心:

  • 單次調用 Opus: 價格高昂,面對邊緣 case 依然可能出錯。

  • Haiku 便宜模型 + 迭代自愈: 讓 Haiku 寫代碼,另一個 Haiku 做 Code Review,循環迭代 2 輪。其綜合算力成本依然遠低于單次調用頂級模型,但最終產出質量反而實現了反超。

3. Talker-Reasoner 雙系統

針對實時對話/Voice 等高頻交互場景,長時間的思考延遲(如 reasoning 模型動輒等待 24 秒)會導致用戶以為系統卡死。

借鑒 Kahneman 雙系統理論,可將架構重構為 Talker-Reasoner 協同模型:

  • Talker:采用 200ms 的極速便宜模型(如 Haiku),負責立即回復用戶、邊聊邊等;

  • Reasoner:采用慢速但聰明的模型(如 Opus/ reasoning),在后臺進行深度推理,將推理出的 belief state(信念狀態)源源不斷地供給給 Talker。

這樣成功 地把思考延遲在用戶的感知里“藏”了起來。


第五關:約束與放手

痛點:AI 改對了 Bug,卻順手改了三處不該改的安全邏輯

解法:約束行動而不是約束思考,引入 HITL 人工審核

在治理 AI 的行動邊界時,很多技術負責人會陷入一個誤區:試圖在 Prompt 里細化 AI 的每一個思考步驟。這反而會束縛模型的推理自由。

“約束限定的是行動的邊界,而不是思考的自由。約束不是能力的保障,而是能力的容器。”

合理的工程約束應該放置在動作發生、產生副作用(不可逆操作)的地方:

  • 只讀/低爆炸半徑操作(如查代碼、看文檔): 自動放行,不中斷流程。

  • 可寫/中等影響操作: 留痕放行,記錄全鏈路的 Keyed log,事后支持完整 replay 溯源。

  • 高爆炸半徑/不可逆操作: 強制觸發阻斷,并在控制臺彈出 HITL 人工審核面板,人手點下確認后,AI 才能繼續往下執行。

第六關:復雜的編排載體該如何抉擇?

痛點:SubAgent、Skill、Workflow、Agent Team 概念混淆,不知道怎么組織

解法:一張四方圖厘清邊界

在 Harness 設計中,這四種編排載體并不是競爭關系,而是分別映射了現實世界中的四種工作實體:


  • Skill = 崗位操作手冊:是靜態的、跨任務復用的知識包與 SOP 模板,代表了 Agent 的職業能力。

  • SubAgent = 專職員工:具備獨立的、被隔離的上下文空間,執行完特定任務(如跑個測試、搜個關鍵字)后即刻銷毀,實現防污染。

  • Workflow = SOP 流程圖:將控制流顯式、確定性地凍結在代碼或腳本中,適用于多步、有著明確目標的長期自動化流程(如 nightly build 代碼自動修復)。

  • Agent Team = 持續協作的虛擬團隊:維持長期的、多人的對話交互,各個 Mate 角色擁有持久化 Session。

在成熟的企業項目中,這四者通常是互補、嵌套使用的,共同組合為一套業務流水線。

第七關:如何防止長任務狀態漂移?

痛點:復雜的長任務跑著跑著就偏離了目標

解法:三平面分立架構 + 草稿紙看板

針對這個問題,黃佳老師引述了團隊核心共創者梁博老師在金融級 SaaS 智能體落地中的實踐經驗。當一個 Agent 需要操作多套系統并維持長周期任務時,傳統的混沌上下文極易導致“狀態漂移”。

其核心解法是推行三權分立的狀態平面管理:

執行調度平面:采用 DAG結構,只記錄任務狀態與執行流,不摻雜任何自然語言敘事與業務參數。

機械參數平面:嚴格鍵值的結構化字典,是業務 API 入參的唯一可審計來源。

敘事對齊平面:采用自然語言記錄“目標與進展”,它是防漂移的“防波堤”,包含三個核心:

  • 錨(Anchor):鎖定用戶的原始最終目標,無論中間跳轉多少輪,均以此進行校準,防漂移。

  • 賬(Ledger):里程碑臺賬,結構化地紀要“做到了哪一步”、“確認了什么”。

  • 集(Collection):投影工作集。由于全量狀態過大,每一步只給 AI 投影當前該看的、最小的上下文集合,降低檢索開銷。

此外,引入草稿紙看板設計,將 AI 內部的思考流外化成一塊可讀、可審計、可隨時恢復的物理看板,落盤保存。即使某一輪因意外故障導致崩潰,系統也能根據草稿紙記錄瞬間恢復狀態并繼續運行。

第八關:從 Demo 到產線,如何合規治理?

痛點:能寫代碼不等于能交付系統,誰來對 AI 的生產出錯負責?

解法:可觀測性 + 來源坐標 + 團隊的兩條紀律

AI 本身作為概率性模型,無法承擔最終的生產安全責任。“背鍋”和負責的永遠是人。因此,走向生產環境的最后一步是構筑一套可觀測與安全追溯的防線:

Provenance 來源坐標體系:對系統中的每一個機械參數進行嚴格的鏈路追蹤(哪個工具產生、從響應的哪條路徑抽取、處于哪一步 turn、由哪個用戶輸入發起),出事能精準回溯到源頭。

兩條鐵的紀律:

  • 紀律一: 角色規則前置,別等出事再通過 Prompt 去補,必須寫進 Skill 或 agent.md。

  • 紀律二: 實行 Pre-task gating。在 AI 動手寫代碼前,強迫其先進行評估,說出“要做好這件事,我還需要補充什么信息、明確哪些問題”。不評估,不準寫代碼。

從 Vibe Coding 的熱鬧,走到 Harness Engineering 的嚴謹,這是 Agent 工業化落地的必經之路。

為了不讓這些踩坑得來的經驗重新回到封閉的個人腦海里,黃佳老師聯合業內在軟件工程、長程多智能體編排以及企業級落地有著豐富經驗的資深專家(茹炳晟、姜寧、梁博),共同發起了 Agent 設計模式共同體(Agent Design Patterns Society, 簡稱 ADPS)。

如果您對將 AI 真正引入生產系統、優化研發效能、打通 Harness 工程設計感興趣,歡迎添加 CSDN 福利官,領取黃佳老師本次分享的 PPT 與直播回放視頻。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
俗話說:“女看腳男看手,就知家中有沒有”,該怎么看?一看便知

俗話說:“女看腳男看手,就知家中有沒有”,該怎么看?一看便知

聞心品閣
2026-06-29 14:53:45
姆巴佩女友曝光,是西班牙頂流女星,顏值太高,難怪他身價1.8億

姆巴佩女友曝光,是西班牙頂流女星,顏值太高,難怪他身價1.8億

寒士之言本尊
2026-06-24 22:11:19
5米大六座SUV,家用太香了!試駕智己LS8,全家出行幸福感飆升

5米大六座SUV,家用太香了!試駕智己LS8,全家出行幸福感飆升

沙雕小琳琳
2026-07-01 12:07:27
烏克蘭導彈再摧毀莫斯科太空通信中心!近期打掉四個

烏克蘭導彈再摧毀莫斯科太空通信中心!近期打掉四個

項鵬飛
2026-07-01 21:28:29
時隔20年,梅爾·吉布森這部R級神作重映,續集預告首曝

時隔20年,梅爾·吉布森這部R級神作重映,續集預告首曝

熱搜摘要官
2026-07-02 00:04:14
原來他是任素汐前夫,倆人大學同學,自爆被出軌,結婚2年沒孩子

原來他是任素汐前夫,倆人大學同學,自爆被出軌,結婚2年沒孩子

神顏販賣機
2026-07-02 01:20:09
中國男籃vs日本男籃!12人終極名單出爐,攻防均衡誓破強敵

中國男籃vs日本男籃!12人終極名單出爐,攻防均衡誓破強敵

寶哥精彩賽事
2026-07-01 16:47:19
法拉利被孩子當滑梯玩后續,車主:維修費14360元必須照價賠償

法拉利被孩子當滑梯玩后續,車主:維修費14360元必須照價賠償

映射生活的身影
2026-06-29 16:14:33
真相大白!黃大煒倆姐姐繼承遺產,生前與女友決裂,張閭蘅非生母

真相大白!黃大煒倆姐姐繼承遺產,生前與女友決裂,張閭蘅非生母

瀲滟晴方DAY
2026-07-01 23:06:48
為什么紅軍到了陜北,就安全了?原因很現實,6個原因

為什么紅軍到了陜北,就安全了?原因很現實,6個原因

老呶侃史
2026-06-11 21:36:40
賺翻了!阿森納放棄 1.3 億世界杯水貨,轉頭要撿漏頂級邊鋒!

賺翻了!阿森納放棄 1.3 億世界杯水貨,轉頭要撿漏頂級邊鋒!

瀾歸序
2026-07-01 06:35:40
63歲句號近況曝光!二婚娶小11歲丫蛋低調生女,如今幸福圓滿

63歲句號近況曝光!二婚娶小11歲丫蛋低調生女,如今幸福圓滿

落雪聽梅a
2026-06-29 20:03:38
欠稅39.5元!美妝博主程十安停更三年回歸漲粉

欠稅39.5元!美妝博主程十安停更三年回歸漲粉

情感大頭說說
2026-07-01 15:45:39
如果人到了老年還好色,足以證明這人有極強的生命力

如果人到了老年還好色,足以證明這人有極強的生命力

喵咪文化
2026-06-21 20:15:06
涉臺灣問題 外交部回應巴拉圭:不要再自陷孤立

涉臺灣問題 外交部回應巴拉圭:不要再自陷孤立

看看新聞Knews
2026-07-02 00:57:12
少林寺新方丈釋印樂,上任才10個月,少林寺被曝一下少了800多萬

少林寺新方丈釋印樂,上任才10個月,少林寺被曝一下少了800多萬

許三歲
2026-06-14 09:57:24
下半年6款硬派SUV將上市,哪款是你的硬核座駕?

下半年6款硬派SUV將上市,哪款是你的硬核座駕?

娛樂圈的筆娛君
2026-07-01 16:36:09
國家正式出手!住院護工大洗牌,以后老人看病不用子女熬夜

國家正式出手!住院護工大洗牌,以后老人看病不用子女熬夜

據說說娛樂
2026-06-29 09:34:53
心理學研究發現:一個人扛過至暗時刻,最先改變的不是認知,不是意志,不是性格,而是大腦深處一個沉睡多年的隱秘開關

心理學研究發現:一個人扛過至暗時刻,最先改變的不是認知,不是意志,不是性格,而是大腦深處一個沉睡多年的隱秘開關

心理觀察局
2026-06-27 06:59:06
你知道嗎?這些公安部門以前全是獨立的!

你知道嗎?這些公安部門以前全是獨立的!

音樂時光的娛樂
2026-06-21 12:38:39
2026-07-02 03:31:00
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創造者和使用者
2737文章數 7711關注度
往期回顧 全部

科技要聞

Claude Code被曝“植入木馬”識別中國用戶

頭條要聞

凱恩梅開二度 英格蘭2-1逆轉民主剛果將戰墨西哥

頭條要聞

凱恩梅開二度 英格蘭2-1逆轉民主剛果將戰墨西哥

體育要聞

賣球衣救子的門將,把德國撲出了世界杯

娛樂要聞

77歲牛群公證裸捐全部財產,清貧獨居堅持月捐

財經要聞

新氧貸款:宣傳年化15%,實際頂格24%

汽車要聞

同比暴漲188.4% 方程豹6月熱銷35607臺

態度原創

健康
家居
數碼
時尚
旅游

年糕湯圓別油炸,水煮清蒸更健康

家居要聞

傳奇筑 日常詩

數碼要聞

華碩a豆高速固態U盤上架:280-959元

月入3萬,時代紅利砸向文科生

旅游要聞

不用奔赴遠郊散心,滇中健康城全齡適配,夜游打鐵花性價比拉滿!

無障礙瀏覽 進入關懷版