網易首頁 > 網易號 > 正文申請入駐

上下文失控、自檢失效？搞定長時，Agent，就靠這幾招

2026-06-10 16:13:12　來源: 何蕥室內設計

四川舉報

分享至

在開發者的日常工作中，AIAgent（智能體）的執行穩定性是一個核心難題。一年前，如果要求AI獨立完成一個音樂創作軟件的開發，系統可能在運行20分鐘后便因執行任務壓力過大或指令混亂而停止。隨著模型能力的演進，AI已經能夠處理長達數小時甚至數天的復雜任務。實現這一跨越，不僅僅依賴于模型本身的進化，更取決于開發者對工程腳手架（Harness）的迭代與取舍。

在ClaudeCode發布之初，Agent主要面臨三大局限性，導致它們難以實現長時間的連續工作：

輸出判斷缺失：模型往往難以客觀評估自身的產出，容易迎合用戶的預期而非事實。即便功能僅實現了一小部分，AI也可能判定任務已完成，導致后續步驟建立在錯誤的基礎之上。

經過過去一年多的版本迭代，Anthropic通過多項技術優化解決了上述痛點：

架構升級：從Claude3.7到4.6，模型在編程能力與任務規劃上實現了顯著提升，任務執行時長由起初的1小時躍升至12小時以上。

檢查點機制：引入檢查點持續跟蹤代碼演變，支持在出現偏差時回退到之前的狀態，確保大流程的可控性。

為了防止模型“自欺欺人”，工程師設計了一套生成器與評估器的對抗循環機制，以模擬真實開發環境中的質檢流程：

角色拆解：系統將工作拆分為“生成器（Generator）”與“評估器（Evaluator）”兩個角色。評估器不僅僅是查看代碼，它會利用自動化工具（如Playwright）在真實瀏覽器環境中運行應用，模擬用戶交互并根據評分標準進行客觀打分。

契約化交付：在生成代碼前，生成器與評估器會協商并制定明確的“完成契約（Contract）”。評估器將依據這些具體的契約而非模糊的規格說明進行評分。一旦某項功能未能通過測試，評估器會給出具體的修改意見，促使生成器進行針對性調整。

抗錯能力：若模型在多輪迭代后仍無法滿足評分標準，對抗式機制允許Agent推翻當前方案并從頭嘗試，這種容錯與重試能力是傳統單一循環所不具備的。

隨著模型智能水平的提高，工程架構也應隨之精簡。部分過去被視為必要的復雜組件，在最新模型版本下反而增加了維護成本：

深入分析運行軌跡：調試的核心手段在于讀寫日志。通過分析Agent的運行軌跡（Traces），開發者能夠直接定位AI在判斷邏輯上與人類預期的不一致處，并針對性地調整提示詞（Prompt）與系統指令，而非盲目地堆砌實驗次數。

在構建長時運行Agent時，Anthropic的應用團隊提出了幾項核心建議，旨在提升系統可靠性：

對抗式評估是關鍵：避免依賴模型自評，配置一個獨立的、具備對抗性的評估器，能有效識別出代碼的邊界情況與邏輯漏洞。

明確評分標準：主觀質量可以量化。通過制定明確的設計、工藝與功能性評分維度，能夠逼迫模型向高質量產出收斂。

重視自動化測試：在開發全棧應用時，應將Puppeteer等自動化測試工具集成至評估循環中。模型只有在真正“操作”并運行應用后，才能抓到那些CI系統容易漏掉的邏輯Bug。

目前，這一套工程架構已能夠支持復雜應用的構建，例如音樂創作輔助工具或游戲制作器等。雖然這一過程依然伴隨著較高的算力消耗與成本，但對于復雜任務的自動化與高可靠性產出，這種工程化的約束是不可或缺的。

未來，隨著前沿模型的繼續演進，這些復雜的工程腳手架或許會進一步精簡。但其背后所體現的“契約化拆解”、“對抗式評估”與“運行軌跡分析”的工程思維，將持續作為開發者馴服AI、確保其在復雜任務中保持穩定輸出的核心邏輯。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.