在開發者的日常工作中,AIAgent(智能體)的執行穩定性是一個核心難題。一年前,如果要求AI獨立完成一個音樂創作軟件的開發,系統可能在運行20分鐘后便因執行任務壓力過大或指令混亂而停止。隨著模型能力的演進,AI已經能夠處理長達數小時甚至數天的復雜任務。實現這一跨越,不僅僅依賴于模型本身的進化,更取決于開發者對工程腳手架(Harness)的迭代與取舍。
![]()
在ClaudeCode發布之初,Agent主要面臨三大局限性,導致它們難以實現長時間的連續工作:
輸出判斷缺失:模型往往難以客觀評估自身的產出,容易迎合用戶的預期而非事實。即便功能僅實現了一小部分,AI也可能判定任務已完成,導致后續步驟建立在錯誤的基礎之上。
經過過去一年多的版本迭代,Anthropic通過多項技術優化解決了上述痛點:
架構升級:從Claude3.7到4.6,模型在編程能力與任務規劃上實現了顯著提升,任務執行時長由起初的1小時躍升至12小時以上。
![]()
檢查點機制:引入檢查點持續跟蹤代碼演變,支持在出現偏差時回退到之前的狀態,確保大流程的可控性。
![]()
為了防止模型“自欺欺人”,工程師設計了一套生成器與評估器的對抗循環機制,以模擬真實開發環境中的質檢流程:
角色拆解:系統將工作拆分為“生成器(Generator)”與“評估器(Evaluator)”兩個角色。評估器不僅僅是查看代碼,它會利用自動化工具(如Playwright)在真實瀏覽器環境中運行應用,模擬用戶交互并根據評分標準進行客觀打分。
![]()
契約化交付:在生成代碼前,生成器與評估器會協商并制定明確的“完成契約(Contract)”。評估器將依據這些具體的契約而非模糊的規格說明進行評分。一旦某項功能未能通過測試,評估器會給出具體的修改意見,促使生成器進行針對性調整。
抗錯能力:若模型在多輪迭代后仍無法滿足評分標準,對抗式機制允許Agent推翻當前方案并從頭嘗試,這種容錯與重試能力是傳統單一循環所不具備的。
![]()
隨著模型智能水平的提高,工程架構也應隨之精簡。部分過去被視為必要的復雜組件,在最新模型版本下反而增加了維護成本:
![]()
深入分析運行軌跡:調試的核心手段在于讀寫日志。通過分析Agent的運行軌跡(Traces),開發者能夠直接定位AI在判斷邏輯上與人類預期的不一致處,并針對性地調整提示詞(Prompt)與系統指令,而非盲目地堆砌實驗次數。
![]()
在構建長時運行Agent時,Anthropic的應用團隊提出了幾項核心建議,旨在提升系統可靠性:
對抗式評估是關鍵:避免依賴模型自評,配置一個獨立的、具備對抗性的評估器,能有效識別出代碼的邊界情況與邏輯漏洞。
![]()
明確評分標準:主觀質量可以量化。通過制定明確的設計、工藝與功能性評分維度,能夠逼迫模型向高質量產出收斂。
重視自動化測試:在開發全棧應用時,應將Puppeteer等自動化測試工具集成至評估循環中。模型只有在真正“操作”并運行應用后,才能抓到那些CI系統容易漏掉的邏輯Bug。
目前,這一套工程架構已能夠支持復雜應用的構建,例如音樂創作輔助工具或游戲制作器等。雖然這一過程依然伴隨著較高的算力消耗與成本,但對于復雜任務的自動化與高可靠性產出,這種工程化的約束是不可或缺的。
未來,隨著前沿模型的繼續演進,這些復雜的工程腳手架或許會進一步精簡。但其背后所體現的“契約化拆解”、“對抗式評估”與“運行軌跡分析”的工程思維,將持續作為開發者馴服AI、確保其在復雜任務中保持穩定輸出的核心邏輯。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.