无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Code 的“/goals”將執(zhí)行任務(wù)的代理與決定任務(wù)完成的代理區(qū)分開(kāi)來(lái)。

0
分享至


https://venturebeat.com/orchestration/claude-codes-goals-separates-the-agent-that-works-from-the-one-that-decides-its-done

代碼遷移代理程序運(yùn)行完畢,管道狀態(tài)顯示正常。但實(shí)際上有幾段代碼從未編譯完成——而且花了數(shù)天時(shí)間才發(fā)現(xiàn)這個(gè)問(wèn)題。這不是模型故障;而是代理程序在實(shí)際完成之前就判定任務(wù)已完成。

許多企業(yè)現(xiàn)在發(fā)現(xiàn),生產(chǎn)環(huán)境中的AI代理流程失敗并非由于模型本身能力不足,而是因?yàn)榇肀澈蟮哪P蜎Q定停止運(yùn)行。LangChain、Google和OpenAI目前都提供了一些防止任務(wù)過(guò)早退出的方法,但這些方法通常依賴于獨(dú)立的評(píng)估系統(tǒng)。Anthropic公司在Claude Code上提出了最新的方法:/goals,該方法正式地將任務(wù)執(zhí)行和任務(wù)評(píng)估分離。

編碼代理以循環(huán)方式工作:它們讀取文件、運(yùn)行命令、編輯代碼,然后檢查任務(wù)是否完成。

Claude Code /goals 本質(zhì)上是在該循環(huán)中添加了第二層。用戶定義目標(biāo)后,Claude 會(huì)繼續(xù)逐輪執(zhí)行,但每一步之后都會(huì)引入一個(gè)評(píng)估模型來(lái)審查并判斷目標(biāo)是否已達(dá)成。

兩種模型的劃分

來(lái)自三家供應(yīng)商的編排平臺(tái)都遇到了同樣的難題。但它們的解決方法卻不盡相同。OpenAI 不干預(yù)循環(huán),讓模型自行決定何時(shí)結(jié)束,但允許用戶添加自己的評(píng)估節(jié)點(diǎn)。LangGraph 和 Google 的 Agent Development Kit 也支持獨(dú)立評(píng)估,但需要開(kāi)發(fā)者定義評(píng)判節(jié)點(diǎn)、編寫(xiě)終止邏輯并配置可觀測(cè)性。

Claude Code 的 `/goals` 參數(shù)用于設(shè)置獨(dú)立評(píng)估器的默認(rèn)運(yùn)行時(shí)間,即用戶希望評(píng)估器運(yùn)行更長(zhǎng)時(shí)間還是更短時(shí)間。基本上,開(kāi)發(fā)者通過(guò)提示設(shè)置目標(biāo)完成條件。例如,`/goal all tests in test/auth pass and lint step is clean`。然后 Claude Code 運(yùn)行,每次代理嘗試結(jié)束工作時(shí),評(píng)估模型(默認(rèn)為 Haiku)都會(huì)檢查條件循環(huán)。如果條件不滿足,代理將繼續(xù)運(yùn)行。如果條件滿足,則會(huì)將已達(dá)成的條件記錄到代理對(duì)話記錄中,并清除目標(biāo)。評(píng)估器只做兩個(gè)決定,這也是為什么無(wú)論目標(biāo)是否完成,較小的 Haiku 模型都能很好地工作的原因。

Claude Code 通過(guò)將嘗試完成任務(wù)的模型與確保任務(wù)實(shí)際完成的評(píng)估模型分離,實(shí)現(xiàn)了這一點(diǎn)。這可以防止智能體將已完成的任務(wù)與仍需完成的任務(wù)混淆。Anthropic 指出,使用這種方法,無(wú)需第三方可觀測(cè)性平臺(tái)(盡管企業(yè)可以繼續(xù)將第三方平臺(tái)與 Claude Code 結(jié)合使用),也無(wú)需自定義日志,并且減少了對(duì)事后重建的依賴。

像 Google ADK 這樣的競(jìng)爭(zhēng)對(duì)手支持類似的評(píng)估模式。Google ADK 部署了 LoopAgent,但開(kāi)發(fā)者需要自行設(shè)計(jì)相關(guān)邏輯。

人道組織在其文件中指出,最成功的條件通常具備以下特點(diǎn):

  • 一個(gè)可衡量的最終狀態(tài):測(cè)試結(jié)果、構(gòu)建退出代碼、文件計(jì)數(shù)、空隊(duì)列

  • 明確說(shuō)明檢查方式:Claude 應(yīng)該如何證明,例如“npm test exits 0”或“git status is clean”。

  • 重要的約束條件:任何在此過(guò)程中絕對(duì)不能改變的內(nèi)容,例如“不得修改其他測(cè)試文件”。

在環(huán)可靠性

對(duì)于已經(jīng)管理龐大工具棧的企業(yè)來(lái)說(shuō),其吸引力在于它是一個(gè)原生評(píng)估器,不會(huì)增加需要維護(hù)的另一個(gè)系統(tǒng)。

這是智能體領(lǐng)域更廣泛趨勢(shì)的一部分,尤其是在有狀態(tài)、長(zhǎng)時(shí)間運(yùn)行和自學(xué)習(xí)智能體的可能性日益成為現(xiàn)實(shí)的情況下。評(píng)估模型、驗(yàn)證系統(tǒng)和其他獨(dú)立裁決系統(tǒng)開(kāi)始出現(xiàn)在推理系統(tǒng)中,在某些情況下,也出現(xiàn)在像 Devin 或 SWE-agent 這樣的編碼智能體中。

Sprinklr 的解決方案總監(jiān) Sean Brownell 在一封電子郵件中告訴 VentureBeat,人們對(duì)這種任務(wù)和評(píng)判者分離的循環(huán)很感興趣,但他認(rèn)為 Anthropic 的方法并沒(méi)有什么獨(dú)特之處。

“是的,這個(gè)循環(huán)有效。將構(gòu)建者和評(píng)判者分開(kāi)是合理的設(shè)計(jì),因?yàn)閺母旧现v,你不能指望模型來(lái)評(píng)判它自己的作業(yè)。執(zhí)行任務(wù)的模型往往最難判斷任務(wù)是否完成,”布朗內(nèi)爾說(shuō)道。“話雖如此,Anthropic 并非首家將此類技術(shù)推向市場(chǎng)的公司。這里最有趣的是,全球兩家最大的人工智能實(shí)驗(yàn)室在短短幾天內(nèi)發(fā)布了相同的指令,但它們對(duì)于誰(shuí)有權(quán)宣布‘完成’卻得出了截然不同的結(jié)論。”

布朗內(nèi)爾表示,該循環(huán)最適用于“具有可驗(yàn)證最終狀態(tài)的確定性工作,例如遷移、修復(fù)損壞的測(cè)試套件、清理積壓工作”,但對(duì)于更細(xì)致的任務(wù)或需要設(shè)計(jì)判斷的任務(wù),由人來(lái)做決定則更為重要。

將評(píng)估者/任務(wù)拆分到代理循環(huán)級(jí)別表明,像 Anthropic 這樣的公司正在推動(dòng)代理和編排進(jìn)一步朝著更可審計(jì)、可觀察的系統(tǒng)發(fā)展。

閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)21世紀(jì)關(guān)鍵技術(shù)研究院的“未來(lái)知識(shí)庫(kù)”


未來(lái)知識(shí)庫(kù)是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建 立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到2月28日 ”未來(lái)知識(shí)庫(kù)”精選的百部前沿科技趨勢(shì)報(bào)告

(加入未來(lái)知識(shí)庫(kù),全部資料免費(fèi)閱讀和下載)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
《五十公里桃花塢6》最絕情商反差!袁詠儀賺足好感全身而退,方媛無(wú)腦接盤被網(wǎng)暴

《五十公里桃花塢6》最絕情商反差!袁詠儀賺足好感全身而退,方媛無(wú)腦接盤被網(wǎng)暴

鄉(xiāng)野小珥
2026-05-18 08:50:22
放棄 1.2 億標(biāo)王!切爾西 7000 萬(wàn)鎖定新核,阿隆索首簽要來(lái)了

放棄 1.2 億標(biāo)王!切爾西 7000 萬(wàn)鎖定新核,阿隆索首簽要來(lái)了

瀾歸序
2026-05-18 01:50:02
特朗普剛走,普京后腳到,外媒急了:中國(guó)或迎來(lái)“萬(wàn)國(guó)來(lái)朝”時(shí)代

特朗普剛走,普京后腳到,外媒急了:中國(guó)或迎來(lái)“萬(wàn)國(guó)來(lái)朝”時(shí)代

梁濆愛(ài)玩車
2026-05-18 21:14:10
NBA季后賽明天5月19日賽程:CCTV5直播,西決G1雷霆VS馬刺

NBA季后賽明天5月19日賽程:CCTV5直播,西決G1雷霆VS馬刺

薇說(shuō)體育
2026-05-18 16:33:38
特朗普甩出四個(gè)“不”,明確拒不出兵護(hù)臺(tái),賴清德當(dāng)場(chǎng)就慫了

特朗普甩出四個(gè)“不”,明確拒不出兵護(hù)臺(tái),賴清德當(dāng)場(chǎng)就慫了

趣文說(shuō)娛
2026-05-18 21:47:03
74歲上海女知青重返貴州尋找初戀,再相遇,對(duì)方一句話讓她淚崩

74歲上海女知青重返貴州尋找初戀,再相遇,對(duì)方一句話讓她淚崩

燦爛夏天
2025-04-07 21:20:37
大家怎么看待人體藝術(shù)?

大家怎么看待人體藝術(shù)?

文一史二
2026-05-18 07:35:12
陪睡只是入門!認(rèn)干爹、舔手指,背地里的陰暗面完全藏不住了...

陪睡只是入門!認(rèn)干爹、舔手指,背地里的陰暗面完全藏不住了...

芳華青年
2026-05-18 13:07:54
中國(guó)最好吃的6個(gè)城市,50歲前要去一次

中國(guó)最好吃的6個(gè)城市,50歲前要去一次

簡(jiǎn)食記工作號(hào)
2026-05-14 00:06:06
心理學(xué)上有個(gè)詞叫:逆火效應(yīng)(永遠(yuǎn)不要指出你身邊人的任何問(wèn)題,包括你的親戚朋友。成年人的最大清醒就是不介入他人的生活)

心理學(xué)上有個(gè)詞叫:逆火效應(yīng)(永遠(yuǎn)不要指出你身邊人的任何問(wèn)題,包括你的親戚朋友。成年人的最大清醒就是不介入他人的生活)

德魯克博雅管理
2026-05-18 17:11:20
12小時(shí)航程1萬(wàn)公里,全程不加油,特朗普的空軍一號(hào),我國(guó)能造嗎

12小時(shí)航程1萬(wàn)公里,全程不加油,特朗普的空軍一號(hào),我國(guó)能造嗎

泠泠說(shuō)史
2026-05-14 21:50:29
唐伯虎真跡現(xiàn)身美國(guó),世上僅此一件,網(wǎng)友:讓當(dāng)代書(shū)家汗顏

唐伯虎真跡現(xiàn)身美國(guó),世上僅此一件,網(wǎng)友:讓當(dāng)代書(shū)家汗顏

幸福娃3790
2025-12-04 11:10:09
U16江宇涵:跟亞洲一流對(duì)手比賽,能讓我找到今后努力的方向

U16江宇涵:跟亞洲一流對(duì)手比賽,能讓我找到今后努力的方向

懂球帝
2026-05-18 17:36:37
特朗普連發(fā)15張圖分享“中國(guó)記憶”,“不可思議的中國(guó)”依然刷屏海外

特朗普連發(fā)15張圖分享“中國(guó)記憶”,“不可思議的中國(guó)”依然刷屏海外

臺(tái)州交通廣播
2026-05-18 16:45:24
畢業(yè)旅行變永別:24歲學(xué)霸懸崖跳水失蹤,沖擊力等同18米撞玻璃

畢業(yè)旅行變永別:24歲學(xué)霸懸崖跳水失蹤,沖擊力等同18米撞玻璃

最英國(guó)
2026-05-18 18:46:01
淚目!曼聯(lián)官宣小將離隊(duì),卡里克全程不談自己,只談曼聯(lián)的崛起

淚目!曼聯(lián)官宣小將離隊(duì),卡里克全程不談自己,只談曼聯(lián)的崛起

嗨皮看球
2026-05-18 17:17:48
全球異動(dòng):歐美股市、黃金白銀一度拉升!美方暫時(shí)豁免對(duì)伊石油制裁;霍爾木茲海峽,又有新消息

全球異動(dòng):歐美股市、黃金白銀一度拉升!美方暫時(shí)豁免對(duì)伊石油制裁;霍爾木茲海峽,又有新消息

中國(guó)基金報(bào)
2026-05-18 21:40:28
梁靖崑奚美麗從離婚到復(fù)婚,這對(duì)姐弟戀夫妻如今一家四口其樂(lè)融融

梁靖崑奚美麗從離婚到復(fù)婚,這對(duì)姐弟戀夫妻如今一家四口其樂(lè)融融

科學(xué)發(fā)掘
2026-05-18 10:02:59
凌晨通報(bào):教官?gòu)埬常校?7歲)被刑拘

凌晨通報(bào):教官?gòu)埬常校?7歲)被刑拘

南方都市報(bào)
2026-05-18 14:05:14
G2廣廈92-85力克深圳 球員評(píng)價(jià):2人優(yōu)秀,7人及格,2人低迷

G2廣廈92-85力克深圳 球員評(píng)價(jià):2人優(yōu)秀,7人及格,2人低迷

籃球資訊達(dá)人
2026-05-18 21:43:10
2026-05-18 22:52:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4744文章數(shù) 37464關(guān)注度
往期回顧 全部

科技要聞

同一公司,有人獎(jiǎng)金是6年工資,我卻只有半年

頭條要聞

伊朗披露穆杰塔巴受傷細(xì)節(jié):未導(dǎo)致面容損毀或肢體傷殘

頭條要聞

伊朗披露穆杰塔巴受傷細(xì)節(jié):未導(dǎo)致面容損毀或肢體傷殘

體育要聞

58順位的保羅,最強(qiáng)第三中鋒

娛樂(lè)要聞

票房會(huì)破14億!口碑第一電影出現(xiàn)了

財(cái)經(jīng)要聞

中國(guó)芯片,怎么突然不便宜了?

汽車要聞

歸元S平臺(tái)首款車型 魏牌V9X上市 34.98萬(wàn)元起

態(tài)度原創(chuàng)

房產(chǎn)
親子
藝術(shù)
手機(jī)
旅游

房產(chǎn)要聞

突發(fā)!海口重磅調(diào)規(guī)!碧桂園要解套;新埠島要起飛了!

親子要聞

寶藍(lán)沒(méi)有公主裙,沒(méi)辦法參加舞會(huì),所以自己做了一條~

藝術(shù)要聞

這才是帝王書(shū)法“尖子生“,水平完勝宋徽宗

手機(jī)要聞

中興U15S隨身Wi-Fi將于5月20日發(fā)售,179元

旅游要聞

【好評(píng)中國(guó)】從“看鄉(xiāng)村”到“玩鄉(xiāng)村” 激活鄉(xiāng)村發(fā)展的澎湃動(dòng)能

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版