網易首頁 > 網易號 > 正文申請入駐

Anthropic 上線「做夢」功能，讓 Agent 越睡越聰明

2026-05-07 01:36:20　來源: 賽博禪心

北京舉報

分享至

Anthropic 又又又更新了

之前的時候，大家驚奇的發現，里面有一個正在開發的功能：做夢

今天凌晨，做夢、成果評估、多 Agent 協作這三項功能，已經被上線到了 Claude Managed Agents。這東西之前報道過，是 Anthropic 的 Agent 托管服務，具體的可以看這里：

這仨個功能里面成果評估和多 Agent 協作，這倆已經直接可用了。「做夢」則需要單獨申請訪問權限，申請地址在這：https://claude.com/form/claude-managed-agents

Agent 會做夢了

Agent 在每次工作（session）中會往 memory store 寫東西，記住自己學到了什么。但時間長了，memory 里會堆滿重復條目、過時信息和相互矛盾的記錄

Dreaming 解決的就是這個退化問題。它是一個在 session 之間運行的異步任務，讀取現有的 memory store 和過去的 session 記錄（最多 100 個），然后生成一個全新的、整理好的 memory store：重復的合并，過時的替換成最新值，還能從多個 session 的交叉分析中發現新模式

Dreaming 的工作流程：從多個 session 和 memory store 中提煉出整理后的新 memory

在整個處理的過程中，做夢不會修改原始數據。輸入的 memory store 保持原樣，輸出寫到一個新的 store 里。不滿意可以直接丟掉，不影響原始數據

Anthropic 官方的描述是，memory 讓 Agent 在工作中記住學到了什么，dreaming 讓 Agent 在工作間隙想明白這些經驗意味著什么。一個是即時學習，一個是反思整理

目前支持 claude-opus-4-7 和 claude-sonnet-4-6 兩個模型。dreaming 的耗時取決于輸入量，通常幾分鐘到幾十分鐘，按標準 API token 費率計費

成果評估

以前讓 Agent 干活，干完了需要人工檢查，而成果評估（Outcomes）這東西，是把這個檢查環節自動化了：你需要寫一份評分標準（rubric），Agent 干完活之后，一個獨立的 grader 會對著 rubric 逐項打分

它這個 grader 會運行在獨立的上下文窗口里，不會影響上下文。如果 grader 判定某些條目沒達標，會把具體差在哪里反饋給 Agent。Agent 拿著反饋改，改完再評，直到全部達標或者迭代次數用完（默認 3 次，最多 20 次）

Anthropic 內部測試的數據：outcomes 比標準 prompting loop 的任務成功率高了最多 10 個百分點，在文件生成任務上，docx 成功率 +8.4%，pptx 成功率 +10.1%。越難的任務提升越明顯

Rubric 就是一份 Markdown 文檔，按維度列出什么算合格。比如一個 DCF 模型的 rubric 會寫：營收預測要用過去 5 年的歷史數據、WACC 計算要標注假設來源、敏感性分析必須包含在內

配合這次同時推出的 Webhooks，你可以定義好 outcome，讓 Agent 去干，干完了 webhook 通知你。不用盯著看

正義的群毆

當工作太復雜，多 Agent 協作系統就會讓一個 lead agent 把任務拆成幾塊，分給不同的 specialist agent 并行處理，這個東西被叫做 multiagent orchestration

在這系統里面，每個 specialist 有自己的模型、prompt 和工具集，在自己的 session thread 里工作，上下文互相隔離。但它們共享同一個文件系統：一個 agent 寫了文件，另一個 agent 能讀到

Claude Console 里的多 Agent session 追蹤界面，每個 agent 做了什么一目了然

線程是持久的：lead agent 可以回頭找之前調用過的 agent 繼續聊，那個 agent 還記得之前做了什么。在 Claude Console 里可以追蹤每個 agent 的每一步操作，誰做了什么、什么順序、為什么這么做，全程可見

一個有意的限制：只支持一層委托。Lead agent 可以調用其他 agent，但被調用的 agent 不能再調用下一層。這是為了防止 agent 鏈式調用失控

使用反饋

根據 Anthropic 的說法，有四家公司已經在生產環境或深度測試中用上了這些新功能，各自的場景和數據都挺有說服力

Harvey法律科技公司，用 Managed Agents 協調長文法律文書起草。加了 dreaming 之后，Agent 能記住上次 session 里學到的文件格式技巧和工具使用模式。他們測試的結果是完成率漲了大約 6 倍

Netflix平臺工程團隊做了一個日志分析 agent，要處理幾百個 build 在不同來源的日志。用 multiagent 并行分析各批日志，只浮出反復出現的問題模式，忽略一次性的噪音

Spiral（by Every）一個寫作工具，用了一個很聰明的模型分層方案：Haiku 當領隊接需求、問跟進問題，然后把寫作任務分給 Opus 的子 agent 干。要多個稿件就并行跑。用 outcomes 對著 Every 的編輯標準和用戶的個人風格（從 memory 里取）給每篇稿子打分，不達標不交

Wisedocs醫療文檔質檢公司，用 outcomes 的 rubric 對照內部質檢標準審核文檔。實測數據：AI + 人類協作比純人類審核快了 50%，多抓了 30% 的錯誤。不過他們也發現，自家 pipeline 處理速度是 Managed Agents 的 7 倍、成本只有十分之一，所以只把 Managed Agents 用在 QA 審核這個環節，不做主力處理

Dreaming 目前是 research preview，outcomes、multiagent 和 memory 在 public beta 階段。想試 dreaming 需要單獨申請

→ 官方博客：claude.com/blog/new-in-claude-managed-agents

→ 開發文檔：platform.claude.com/docs/en/managed-agents/overview

→ 申請訪問：claude.com/form/claude-managed-agents

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.