![]()
https://venturebeat.com/orchestration/claude-codes-goals-separates-the-agent-that-works-from-the-one-that-decides-its-done
代碼遷移代理程序運(yùn)行完畢,管道狀態(tài)顯示正常。但實(shí)際上有幾段代碼從未編譯完成——而且花了數(shù)天時(shí)間才發(fā)現(xiàn)這個(gè)問(wèn)題。這不是模型故障;而是代理程序在實(shí)際完成之前就判定任務(wù)已完成。
許多企業(yè)現(xiàn)在發(fā)現(xiàn),生產(chǎn)環(huán)境中的AI代理流程失敗并非由于模型本身能力不足,而是因?yàn)榇肀澈蟮哪P蜎Q定停止運(yùn)行。LangChain、Google和OpenAI目前都提供了一些防止任務(wù)過(guò)早退出的方法,但這些方法通常依賴于獨(dú)立的評(píng)估系統(tǒng)。Anthropic公司在Claude Code上提出了最新的方法:/goals,該方法正式地將任務(wù)執(zhí)行和任務(wù)評(píng)估分離。
編碼代理以循環(huán)方式工作:它們讀取文件、運(yùn)行命令、編輯代碼,然后檢查任務(wù)是否完成。
Claude Code /goals 本質(zhì)上是在該循環(huán)中添加了第二層。用戶定義目標(biāo)后,Claude 會(huì)繼續(xù)逐輪執(zhí)行,但每一步之后都會(huì)引入一個(gè)評(píng)估模型來(lái)審查并判斷目標(biāo)是否已達(dá)成。
兩種模型的劃分
來(lái)自三家供應(yīng)商的編排平臺(tái)都遇到了同樣的難題。但它們的解決方法卻不盡相同。OpenAI 不干預(yù)循環(huán),讓模型自行決定何時(shí)結(jié)束,但允許用戶添加自己的評(píng)估節(jié)點(diǎn)。LangGraph 和 Google 的 Agent Development Kit 也支持獨(dú)立評(píng)估,但需要開(kāi)發(fā)者定義評(píng)判節(jié)點(diǎn)、編寫(xiě)終止邏輯并配置可觀測(cè)性。
Claude Code 的 `/goals` 參數(shù)用于設(shè)置獨(dú)立評(píng)估器的默認(rèn)運(yùn)行時(shí)間,即用戶希望評(píng)估器運(yùn)行更長(zhǎng)時(shí)間還是更短時(shí)間。基本上,開(kāi)發(fā)者通過(guò)提示設(shè)置目標(biāo)完成條件。例如,`/goal all tests in test/auth pass and lint step is clean`。然后 Claude Code 運(yùn)行,每次代理嘗試結(jié)束工作時(shí),評(píng)估模型(默認(rèn)為 Haiku)都會(huì)檢查條件循環(huán)。如果條件不滿足,代理將繼續(xù)運(yùn)行。如果條件滿足,則會(huì)將已達(dá)成的條件記錄到代理對(duì)話記錄中,并清除目標(biāo)。評(píng)估器只做兩個(gè)決定,這也是為什么無(wú)論目標(biāo)是否完成,較小的 Haiku 模型都能很好地工作的原因。
Claude Code 通過(guò)將嘗試完成任務(wù)的模型與確保任務(wù)實(shí)際完成的評(píng)估模型分離,實(shí)現(xiàn)了這一點(diǎn)。這可以防止智能體將已完成的任務(wù)與仍需完成的任務(wù)混淆。Anthropic 指出,使用這種方法,無(wú)需第三方可觀測(cè)性平臺(tái)(盡管企業(yè)可以繼續(xù)將第三方平臺(tái)與 Claude Code 結(jié)合使用),也無(wú)需自定義日志,并且減少了對(duì)事后重建的依賴。
像 Google ADK 這樣的競(jìng)爭(zhēng)對(duì)手支持類似的評(píng)估模式。Google ADK 部署了 LoopAgent,但開(kāi)發(fā)者需要自行設(shè)計(jì)相關(guān)邏輯。
人道組織在其文件中指出,最成功的條件通常具備以下特點(diǎn):
一個(gè)可衡量的最終狀態(tài):測(cè)試結(jié)果、構(gòu)建退出代碼、文件計(jì)數(shù)、空隊(duì)列
明確說(shuō)明檢查方式:Claude 應(yīng)該如何證明,例如“npm test exits 0”或“git status is clean”。
重要的約束條件:任何在此過(guò)程中絕對(duì)不能改變的內(nèi)容,例如“不得修改其他測(cè)試文件”。
對(duì)于已經(jīng)管理龐大工具棧的企業(yè)來(lái)說(shuō),其吸引力在于它是一個(gè)原生評(píng)估器,不會(huì)增加需要維護(hù)的另一個(gè)系統(tǒng)。
這是智能體領(lǐng)域更廣泛趨勢(shì)的一部分,尤其是在有狀態(tài)、長(zhǎng)時(shí)間運(yùn)行和自學(xué)習(xí)智能體的可能性日益成為現(xiàn)實(shí)的情況下。評(píng)估模型、驗(yàn)證系統(tǒng)和其他獨(dú)立裁決系統(tǒng)開(kāi)始出現(xiàn)在推理系統(tǒng)中,在某些情況下,也出現(xiàn)在像 Devin 或 SWE-agent 這樣的編碼智能體中。
Sprinklr 的解決方案總監(jiān) Sean Brownell 在一封電子郵件中告訴 VentureBeat,人們對(duì)這種任務(wù)和評(píng)判者分離的循環(huán)很感興趣,但他認(rèn)為 Anthropic 的方法并沒(méi)有什么獨(dú)特之處。
“是的,這個(gè)循環(huán)有效。將構(gòu)建者和評(píng)判者分開(kāi)是合理的設(shè)計(jì),因?yàn)閺母旧现v,你不能指望模型來(lái)評(píng)判它自己的作業(yè)。執(zhí)行任務(wù)的模型往往最難判斷任務(wù)是否完成,”布朗內(nèi)爾說(shuō)道。“話雖如此,Anthropic 并非首家將此類技術(shù)推向市場(chǎng)的公司。這里最有趣的是,全球兩家最大的人工智能實(shí)驗(yàn)室在短短幾天內(nèi)發(fā)布了相同的指令,但它們對(duì)于誰(shuí)有權(quán)宣布‘完成’卻得出了截然不同的結(jié)論。”
布朗內(nèi)爾表示,該循環(huán)最適用于“具有可驗(yàn)證最終狀態(tài)的確定性工作,例如遷移、修復(fù)損壞的測(cè)試套件、清理積壓工作”,但對(duì)于更細(xì)致的任務(wù)或需要設(shè)計(jì)判斷的任務(wù),由人來(lái)做決定則更為重要。
將評(píng)估者/任務(wù)拆分到代理循環(huán)級(jí)別表明,像 Anthropic 這樣的公司正在推動(dòng)代理和編排進(jìn)一步朝著更可審計(jì)、可觀察的系統(tǒng)發(fā)展。
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)21世紀(jì)關(guān)鍵技術(shù)研究院的“未來(lái)知識(shí)庫(kù)”
![]()
未來(lái)知識(shí)庫(kù)是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建 立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。
截止到2月28日 ”未來(lái)知識(shí)庫(kù)”精選的百部前沿科技趨勢(shì)報(bào)告
(加入未來(lái)知識(shí)庫(kù),全部資料免費(fèi)閱讀和下載)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.