无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Anthropic 上線「做夢」功能,讓 Agent 越睡越聰明

0
分享至

Anthropic 又又又更新了

之前 的時候,大家驚奇的發現,里面有一個正在開發的功能:做夢

今天凌晨,做夢、成果評估、多 Agent 協作這三項功能,已經被上線到了 Claude Managed Agents。這東西之前報道過,是 Anthropic 的 Agent 托管服務,具體的可以看這里:

這仨個功能里面 成果評估和多 Agent 協作,這倆已經直接可用了。「做夢」則需要單獨申請訪問權限,申請地址在這:https://claude.com/form/claude-managed-agents

Agent 會做夢了

Agent 在每次工作(session)中會往 memory store 寫東西,記住自己學到了什么。但時間長了,memory 里會堆滿重復條目、過時信息和相互矛盾的記錄

Dreaming 解決的就是這個退化問題。它是一個在 session 之間運行的異步任務,讀取現有的 memory store 和過去的 session 記錄(最多 100 個),然后生成一個全新的、整理好的 memory store:重復的合并,過時的替換成最新值,還能從多個 session 的交叉分析中發現新模式


Dreaming 的工作流程:從多個 session 和 memory store 中提煉出整理后的新 memory

在整個處理的過程中,做夢不會修改原始數據。輸入的 memory store 保持原樣,輸出寫到一個新的 store 里。不滿意可以直接丟掉,不影響原始數據

Anthropic 官方的描述是,memory 讓 Agent 在工作中記住學到了什么,dreaming 讓 Agent 在工作間隙想明白這些經驗意味著什么。一個是即時學習,一個是反思整理

目前支持 claude-opus-4-7claude-sonnet-4-6 兩個模型。dreaming 的耗時取決于輸入量,通常幾分鐘到幾十分鐘,按標準 API token 費率計費

成果評估

以前讓 Agent 干活,干完了需要人工檢查,而成果評估(Outcomes)這東西,是把這個檢查環節自動化了:你需要寫一份評分標準(rubric),Agent 干完活之后,一個獨立的 grader 會對著 rubric 逐項打分

它這個 grader 會運行在獨立的上下文窗口里,不會影響上下文。如果 grader 判定某些條目沒達標,會把具體差在哪里反饋給 Agent。Agent 拿著反饋改,改完再評,直到全部達標或者迭代次數用完(默認 3 次,最多 20 次)

Anthropic 內部測試的數據:outcomes 比標準 prompting loop 的任務成功率高了最多 10 個百分點,在文件生成任務上,docx 成功率 +8.4%,pptx 成功率 +10.1%。越難的任務提升越明顯

Rubric 就是一份 Markdown 文檔,按維度列出什么算合格。比如一個 DCF 模型的 rubric 會寫:營收預測要用過去 5 年的歷史數據、WACC 計算要標注假設來源、敏感性分析必須包含在內

配合這次同時推出的 Webhooks,你可以定義好 outcome,讓 Agent 去干,干完了 webhook 通知你。不用盯著看

正義的群毆

當工作太復雜,多 Agent 協作系統就會讓一個 lead agent 把任務拆成幾塊,分給不同的 specialist agent 并行處理,這個東西被叫做 multiagent orchestration

在這系統里面,每個 specialist 有自己的模型、prompt 和工具集,在自己的 session thread 里工作,上下文互相隔離。但它們共享同一個文件系統:一個 agent 寫了文件,另一個 agent 能讀到


Claude Console 里的多 Agent session 追蹤界面,每個 agent 做了什么一目了然

線程是持久的:lead agent 可以回頭找之前調用過的 agent 繼續聊,那個 agent 還記得之前做了什么。在 Claude Console 里可以追蹤每個 agent 的每一步操作,誰做了什么、什么順序、為什么這么做,全程可見

一個有意的限制:只支持一層委托。Lead agent 可以調用其他 agent,但被調用的 agent 不能再調用下一層。這是為了防止 agent 鏈式調用失控

使用反饋

根據 Anthropic 的說法,有四家公司已經在生產環境或深度測試中用上了這些新功能,各自的場景和數據都挺有說服力

Harvey法律科技公司,用 Managed Agents 協調長文法律文書起草。加了 dreaming 之后,Agent 能記住上次 session 里學到的文件格式技巧和工具使用模式。他們測試的結果是完成率漲了大約 6 倍

Netflix平臺工程團隊做了一個日志分析 agent,要處理幾百個 build 在不同來源的日志。用 multiagent 并行分析各批日志,只浮出反復出現的問題模式,忽略一次性的噪音

Spiral(by Every)一個寫作工具,用了一個很聰明的模型分層方案:Haiku 當領隊接需求、問跟進問題,然后把寫作任務分給 Opus 的子 agent 干。要多個稿件就并行跑。用 outcomes 對著 Every 的編輯標準和用戶的個人風格(從 memory 里取)給每篇稿子打分,不達標不交

Wisedocs醫療文檔質檢公司,用 outcomes 的 rubric 對照內部質檢標準審核文檔。實測數據:AI + 人類協作比純人類審核快了 50%,多抓了 30% 的錯誤。不過他們也發現,自家 pipeline 處理速度是 Managed Agents 的 7 倍、成本只有十分之一,所以只把 Managed Agents 用在 QA 審核這個環節,不做主力處理

Dreaming 目前是 research preview,outcomes、multiagent 和 memory 在 public beta 階段。想試 dreaming 需要單獨申請


→ 官方博客:claude.com/blog/new-in-claude-managed-agents

→ 開發文檔:platform.claude.com/docs/en/managed-agents/overview

→ 申請訪問:claude.com/form/claude-managed-agents

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

另子維愛讀史
2026-03-10 22:56:08
13歲學生體檢誤診艾滋遭學校勸退!隨后多次復查為陰性,醫院致歉!

13歲學生體檢誤診艾滋遭學校勸退!隨后多次復查為陰性,醫院致歉!

閃電新聞
2026-06-12 20:47:48
CCTV5直播!世界杯13日賽程:2支東道主出戰,美國VS巴拉圭引關注

CCTV5直播!世界杯13日賽程:2支東道主出戰,美國VS巴拉圭引關注

何老師呀
2026-06-12 18:47:57
“你兒子專注力廢了”,小學男生每天聽故事,過來人點出真相

“你兒子專注力廢了”,小學男生每天聽故事,過來人點出真相

澤澤先生
2026-06-06 21:14:40
青島鬼樓奇案:德國富商蓋洋樓死于非命,20年后,解放軍查出真相

青島鬼樓奇案:德國富商蓋洋樓死于非命,20年后,解放軍查出真相

歷來都很現實
2025-02-23 02:50:42
穆帥考察居萊爾 將打造皇馬新陣

穆帥考察居萊爾 將打造皇馬新陣

體壇周報
2026-06-12 23:35:47
全線大漲,近10萬人爆倉!

全線大漲,近10萬人爆倉!

每日經濟新聞
2026-06-12 09:20:05
若金價暴跌81%至800美元:央行巨虧3.92萬億將引發多大全球沖擊?

若金價暴跌81%至800美元:央行巨虧3.92萬億將引發多大全球沖擊?

三農老歷
2026-06-12 01:32:43
中信建投:關注半導體前驅體量價齊升大趨勢

中信建投:關注半導體前驅體量價齊升大趨勢

界面新聞
2026-06-12 07:46:48
富家小姐的身子丫鬟的命?24歲女孩盛裝出嫁,簡陋小院配豪華婚服

富家小姐的身子丫鬟的命?24歲女孩盛裝出嫁,簡陋小院配豪華婚服

搗蛋窩
2026-05-11 21:35:50
被網友“掛抹布”的方式驚呆了!一個比一個機智,我怎么早沒發現

被網友“掛抹布”的方式驚呆了!一個比一個機智,我怎么早沒發現

家居設計師蘇哥
2026-06-12 13:21:19
四個號,一家親:國際足聯把飯喂到嘴邊,國足用四個“零蛋”證明

四個號,一家親:國際足聯把飯喂到嘴邊,國足用四個“零蛋”證明

民間胡扯老哥
2026-06-11 10:34:23
美國懵了,世界杯開始了,觀眾沒了?

美國懵了,世界杯開始了,觀眾沒了?

宋鴻兵
2026-06-12 20:02:47
長鑫科技,IPO注冊申請獲通過,上半年凈利潤預計同比增長2244.03%至2544.19%

長鑫科技,IPO注冊申請獲通過,上半年凈利潤預計同比增長2244.03%至2544.19%

每日經濟新聞
2026-06-12 19:41:05
伊朗議員:美再襲伊朗實為施壓,美須接受伊朗已不同往日

伊朗議員:美再襲伊朗實為施壓,美須接受伊朗已不同往日

澎湃新聞
2026-06-12 23:26:12
25歲女子確診紅斑狼瘡,堅持保胎后多器官衰竭進ICU,丈夫痛哭

25歲女子確診紅斑狼瘡,堅持保胎后多器官衰竭進ICU,丈夫痛哭

極目新聞
2026-06-12 17:30:53
曼聯推銷拉什福德,不向巴薩妥協!無法逐出更衣室否則其免費走人

曼聯推銷拉什福德,不向巴薩妥協!無法逐出更衣室否則其免費走人

羅米的曼聯博客
2026-06-12 10:11:30
羅馬諾實錘!阿森納遭截胡,拜仁 5000 萬目標已非常接近

羅馬諾實錘!阿森納遭截胡,拜仁 5000 萬目標已非常接近

一隅非生
2026-06-12 05:49:38
為什么今年沒人提“消費降級”了?

為什么今年沒人提“消費降級”了?

黯泉
2026-05-20 17:47:21
世界杯誰將奪冠?曼聯名宿給出答案,葡萄牙無望,一隊有望成黑馬

世界杯誰將奪冠?曼聯名宿給出答案,葡萄牙無望,一隊有望成黑馬

兵哥籃球故事
2026-06-12 14:29:27
2026-06-13 02:28:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
466文章數 53關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

親子
藝術
數碼
手機
公開課

親子要聞

給孩子報個幼兒園還要工資流水?難道這就是傳說中的“因財施教”

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

數碼要聞

英國監管機構警告:亞馬遜、eBay仍在售可能致命的假冒手機充電器

手機要聞

vivo X Fold6再預熱:天璣9500超能版+OriginOS 6 Fold

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版