網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude Code 的“/goals”將執(zhí)行任務(wù)的代理與決定任務(wù)完成的代理區(qū)分開(kāi)來(lái)。

2026-05-16 16:18:40　來(lái)源: 人工智能學(xué)家

北京舉報(bào)

分享至

https://venturebeat.com/orchestration/claude-codes-goals-separates-the-agent-that-works-from-the-one-that-decides-its-done

代碼遷移代理程序運(yùn)行完畢，管道狀態(tài)顯示正常。但實(shí)際上有幾段代碼從未編譯完成——而且花了數(shù)天時(shí)間才發(fā)現(xiàn)這個(gè)問(wèn)題。這不是模型故障；而是代理程序在實(shí)際完成之前就判定任務(wù)已完成。

許多企業(yè)現(xiàn)在發(fā)現(xiàn)，生產(chǎn)環(huán)境中的AI代理流程失敗并非由于模型本身能力不足，而是因?yàn)榇肀澈蟮哪Ｐ蜎Q定停止運(yùn)行。LangChain、Google和OpenAI目前都提供了一些防止任務(wù)過(guò)早退出的方法，但這些方法通常依賴于獨(dú)立的評(píng)估系統(tǒng)。Anthropic公司在Claude Code上提出了最新的方法：/goals，該方法正式地將任務(wù)執(zhí)行和任務(wù)評(píng)估分離。

編碼代理以循環(huán)方式工作：它們讀取文件、運(yùn)行命令、編輯代碼，然后檢查任務(wù)是否完成。

Claude Code /goals 本質(zhì)上是在該循環(huán)中添加了第二層。用戶定義目標(biāo)后，Claude 會(huì)繼續(xù)逐輪執(zhí)行，但每一步之后都會(huì)引入一個(gè)評(píng)估模型來(lái)審查并判斷目標(biāo)是否已達(dá)成。

兩種模型的劃分

來(lái)自三家供應(yīng)商的編排平臺(tái)都遇到了同樣的難題。但它們的解決方法卻不盡相同。OpenAI 不干預(yù)循環(huán)，讓模型自行決定何時(shí)結(jié)束，但允許用戶添加自己的評(píng)估節(jié)點(diǎn)。LangGraph 和 Google 的 Agent Development Kit 也支持獨(dú)立評(píng)估，但需要開(kāi)發(fā)者定義評(píng)判節(jié)點(diǎn)、編寫(xiě)終止邏輯并配置可觀測(cè)性。

Claude Code 的 `/goals` 參數(shù)用于設(shè)置獨(dú)立評(píng)估器的默認(rèn)運(yùn)行時(shí)間，即用戶希望評(píng)估器運(yùn)行更長(zhǎng)時(shí)間還是更短時(shí)間。基本上，開(kāi)發(fā)者通過(guò)提示設(shè)置目標(biāo)完成條件。例如，`/goal all tests in test/auth pass and lint step is clean`。然后 Claude Code 運(yùn)行，每次代理嘗試結(jié)束工作時(shí)，評(píng)估模型（默認(rèn)為 Haiku）都會(huì)檢查條件循環(huán)。如果條件不滿足，代理將繼續(xù)運(yùn)行。如果條件滿足，則會(huì)將已達(dá)成的條件記錄到代理對(duì)話記錄中，并清除目標(biāo)。評(píng)估器只做兩個(gè)決定，這也是為什么無(wú)論目標(biāo)是否完成，較小的 Haiku 模型都能很好地工作的原因。

Claude Code 通過(guò)將嘗試完成任務(wù)的模型與確保任務(wù)實(shí)際完成的評(píng)估模型分離，實(shí)現(xiàn)了這一點(diǎn)。這可以防止智能體將已完成的任務(wù)與仍需完成的任務(wù)混淆。Anthropic 指出，使用這種方法，無(wú)需第三方可觀測(cè)性平臺(tái)（盡管企業(yè)可以繼續(xù)將第三方平臺(tái)與 Claude Code 結(jié)合使用），也無(wú)需自定義日志，并且減少了對(duì)事后重建的依賴。

像 Google ADK 這樣的競(jìng)爭(zhēng)對(duì)手支持類似的評(píng)估模式。Google ADK 部署了 LoopAgent，但開(kāi)發(fā)者需要自行設(shè)計(jì)相關(guān)邏輯。

人道組織在其文件中指出，最成功的條件通常具備以下特點(diǎn)：

一個(gè)可衡量的最終狀態(tài)：測(cè)試結(jié)果、構(gòu)建退出代碼、文件計(jì)數(shù)、空隊(duì)列
明確說(shuō)明檢查方式：Claude 應(yīng)該如何證明，例如“npm test exits 0”或“git status is clean”。
重要的約束條件：任何在此過(guò)程中絕對(duì)不能改變的內(nèi)容，例如“不得修改其他測(cè)試文件”。

在環(huán)可靠性

對(duì)于已經(jīng)管理龐大工具棧的企業(yè)來(lái)說(shuō)，其吸引力在于它是一個(gè)原生評(píng)估器，不會(huì)增加需要維護(hù)的另一個(gè)系統(tǒng)。

這是智能體領(lǐng)域更廣泛趨勢(shì)的一部分，尤其是在有狀態(tài)、長(zhǎng)時(shí)間運(yùn)行和自學(xué)習(xí)智能體的可能性日益成為現(xiàn)實(shí)的情況下。評(píng)估模型、驗(yàn)證系統(tǒng)和其他獨(dú)立裁決系統(tǒng)開(kāi)始出現(xiàn)在推理系統(tǒng)中，在某些情況下，也出現(xiàn)在像 Devin 或 SWE-agent 這樣的編碼智能體中。

Sprinklr 的解決方案總監(jiān) Sean Brownell 在一封電子郵件中告訴 VentureBeat，人們對(duì)這種任務(wù)和評(píng)判者分離的循環(huán)很感興趣，但他認(rèn)為 Anthropic 的方法并沒(méi)有什么獨(dú)特之處。

“是的，這個(gè)循環(huán)有效。將構(gòu)建者和評(píng)判者分開(kāi)是合理的設(shè)計(jì)，因?yàn)閺母旧现v，你不能指望模型來(lái)評(píng)判它自己的作業(yè)。執(zhí)行任務(wù)的模型往往最難判斷任務(wù)是否完成，”布朗內(nèi)爾說(shuō)道。“話雖如此，Anthropic 并非首家將此類技術(shù)推向市場(chǎng)的公司。這里最有趣的是，全球兩家最大的人工智能實(shí)驗(yàn)室在短短幾天內(nèi)發(fā)布了相同的指令，但它們對(duì)于誰(shuí)有權(quán)宣布‘完成’卻得出了截然不同的結(jié)論。”

布朗內(nèi)爾表示，該循環(huán)最適用于“具有可驗(yàn)證最終狀態(tài)的確定性工作，例如遷移、修復(fù)損壞的測(cè)試套件、清理積壓工作”，但對(duì)于更細(xì)致的任務(wù)或需要設(shè)計(jì)判斷的任務(wù)，由人來(lái)做決定則更為重要。

將評(píng)估者/任務(wù)拆分到代理循環(huán)級(jí)別表明，像 Anthropic 這樣的公司正在推動(dòng)代理和編排進(jìn)一步朝著更可審計(jì)、可觀察的系統(tǒng)發(fā)展。

閱讀最新前沿科技趨勢(shì)報(bào)告，請(qǐng)?jiān)L問(wèn)21世紀(jì)關(guān)鍵技術(shù)研究院的“未來(lái)知識(shí)庫(kù)”

未來(lái)知識(shí)庫(kù)是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建立的在線知識(shí)庫(kù)平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到2月28日 ”未來(lái)知識(shí)庫(kù)”精選的百部前沿科技趨勢(shì)報(bào)告

（加入未來(lái)知識(shí)庫(kù)，全部資料免費(fèi)閱讀和下載）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.