Anthropic 又又又更新了
之前 的時候,大家驚奇的發現,里面有一個正在開發的功能:做夢
今天凌晨,做夢、成果評估、多 Agent 協作這三項功能,已經被上線到了 Claude Managed Agents。這東西之前報道過,是 Anthropic 的 Agent 托管服務,具體的可以看這里:
這仨個功能里面 成果評估和多 Agent 協作,這倆已經直接可用了。「做夢」則需要單獨申請訪問權限,申請地址在這:https://claude.com/form/claude-managed-agents
Agent 會做夢了
Agent 在每次工作(session)中會往 memory store 寫東西,記住自己學到了什么。但時間長了,memory 里會堆滿重復條目、過時信息和相互矛盾的記錄
Dreaming 解決的就是這個退化問題。它是一個在 session 之間運行的異步任務,讀取現有的 memory store 和過去的 session 記錄(最多 100 個),然后生成一個全新的、整理好的 memory store:重復的合并,過時的替換成最新值,還能從多個 session 的交叉分析中發現新模式
![]()
Dreaming 的工作流程:從多個 session 和 memory store 中提煉出整理后的新 memory
在整個處理的過程中,做夢不會修改原始數據。輸入的 memory store 保持原樣,輸出寫到一個新的 store 里。不滿意可以直接丟掉,不影響原始數據
Anthropic 官方的描述是,memory 讓 Agent 在工作中記住學到了什么,dreaming 讓 Agent 在工作間隙想明白這些經驗意味著什么。一個是即時學習,一個是反思整理
目前支持 claude-opus-4-7 和 claude-sonnet-4-6 兩個模型。dreaming 的耗時取決于輸入量,通常幾分鐘到幾十分鐘,按標準 API token 費率計費
成果評估
以前讓 Agent 干活,干完了需要人工檢查,而成果評估(Outcomes)這東西,是把這個檢查環節自動化了:你需要寫一份評分標準(rubric),Agent 干完活之后,一個獨立的 grader 會對著 rubric 逐項打分
它這個 grader 會運行在獨立的上下文窗口里,不會影響上下文。如果 grader 判定某些條目沒達標,會把具體差在哪里反饋給 Agent。Agent 拿著反饋改,改完再評,直到全部達標或者迭代次數用完(默認 3 次,最多 20 次)
Anthropic 內部測試的數據:outcomes 比標準 prompting loop 的任務成功率高了最多 10 個百分點,在文件生成任務上,docx 成功率 +8.4%,pptx 成功率 +10.1%。越難的任務提升越明顯
Rubric 就是一份 Markdown 文檔,按維度列出什么算合格。比如一個 DCF 模型的 rubric 會寫:營收預測要用過去 5 年的歷史數據、WACC 計算要標注假設來源、敏感性分析必須包含在內
配合這次同時推出的 Webhooks,你可以定義好 outcome,讓 Agent 去干,干完了 webhook 通知你。不用盯著看
正義的群毆
當工作太復雜,多 Agent 協作系統就會讓一個 lead agent 把任務拆成幾塊,分給不同的 specialist agent 并行處理,這個東西被叫做 multiagent orchestration
在這系統里面,每個 specialist 有自己的模型、prompt 和工具集,在自己的 session thread 里工作,上下文互相隔離。但它們共享同一個文件系統:一個 agent 寫了文件,另一個 agent 能讀到
![]()
Claude Console 里的多 Agent session 追蹤界面,每個 agent 做了什么一目了然
線程是持久的:lead agent 可以回頭找之前調用過的 agent 繼續聊,那個 agent 還記得之前做了什么。在 Claude Console 里可以追蹤每個 agent 的每一步操作,誰做了什么、什么順序、為什么這么做,全程可見
一個有意的限制:只支持一層委托。Lead agent 可以調用其他 agent,但被調用的 agent 不能再調用下一層。這是為了防止 agent 鏈式調用失控
使用反饋
根據 Anthropic 的說法,有四家公司已經在生產環境或深度測試中用上了這些新功能,各自的場景和數據都挺有說服力
Harvey法律科技公司,用 Managed Agents 協調長文法律文書起草。加了 dreaming 之后,Agent 能記住上次 session 里學到的文件格式技巧和工具使用模式。他們測試的結果是完成率漲了大約 6 倍
Netflix平臺工程團隊做了一個日志分析 agent,要處理幾百個 build 在不同來源的日志。用 multiagent 并行分析各批日志,只浮出反復出現的問題模式,忽略一次性的噪音
Spiral(by Every)一個寫作工具,用了一個很聰明的模型分層方案:Haiku 當領隊接需求、問跟進問題,然后把寫作任務分給 Opus 的子 agent 干。要多個稿件就并行跑。用 outcomes 對著 Every 的編輯標準和用戶的個人風格(從 memory 里取)給每篇稿子打分,不達標不交
Wisedocs醫療文檔質檢公司,用 outcomes 的 rubric 對照內部質檢標準審核文檔。實測數據:AI + 人類協作比純人類審核快了 50%,多抓了 30% 的錯誤。不過他們也發現,自家 pipeline 處理速度是 Managed Agents 的 7 倍、成本只有十分之一,所以只把 Managed Agents 用在 QA 審核這個環節,不做主力處理
Dreaming 目前是 research preview,outcomes、multiagent 和 memory 在 public beta 階段。想試 dreaming 需要單獨申請
![]()
→ 官方博客:claude.com/blog/new-in-claude-managed-agents
→ 開發文檔:platform.claude.com/docs/en/managed-agents/overview
→ 申請訪問:claude.com/form/claude-managed-agents
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.