網易首頁 > 網易號 > 正文 申請入駐

噓,Claude正在「做夢」!睡一覺瘋狂進化,一夜暴漲6倍戰力

0
分享至


新智元報道

編輯:好困 桃子

【新智元導讀】Claude開發者大會來了!這一次,Anthropic讓Agent學會了「做夢」,兩次干活的間隙自動反芻記憶、自我進化。配合多Agent兵團作戰和自動評分官,AI任務完成率直接暴漲6倍。

就在剛剛,Anthropic讓AI學會做夢了!


Code with Claude舊金山開發者大會上,Anthropic真的給Claude托管智能體加了一個叫Dreaming的功能——

AI可以在兩次工作的間隙,像人類進入REM睡眠一樣,自動回顧歷史會話、整理碎片記憶、發現隱藏規律。

一覺醒來,直接滿級。


同時發布的還有Outcomes(自動評分)和多智能體編排(multiagent orchestration)。



讓Claude睡一覺,醒來自己變強

任何用過AI Agent的人都知道一個痛點,Agent干活時會往記憶庫里寫東西,但這些記錄是零散的、遞增的。

跑了幾十次會話之后,記憶庫里一團糟,重復條目、過時信息、前后矛盾的內容堆在一起。

Agent自己意識不到這個問題,因為它們每次只看到當前會話的局部視角。

而Dreaming就是來解決這件事的。


它是一個定時運行的異步任務,會同時讀取Agent現有的記憶庫和過去最多100個會話的完整文字記錄,然后生成一個全新的、經過重新梳理的記憶庫。

具體做三件事:(1)合并重復項;(2)用最新值替換掉過時或矛盾的條目;(3)從歷史會話中挖掘出Agent自己沒注意到的宏觀規律。

熟悉神經科學的人會立刻反應過來,這就是人腦REM睡眠在干的事。

白天大腦吸收原始信息存成短期記憶,夜間REM階段把當天經歷重放一遍,強化有價值的連接、丟棄無用信息、整合成長期記憶。

Anthropic的工程師顯然也想到了這層對應關系,所以直接把功能叫做Dreaming。

1968年菲利普·K·迪克問了一個問題,「仿生人會夢見電子羊嗎」?58年后,Anthropic給出了一個工程層面的回答。


值得注意的是,這里還有一個關鍵設計。

Dreaming永遠不會修改輸入的原始記憶庫。它生成的是一個全新的輸出記憶庫,開發者可以先審查結果,不滿意就直接丟棄。

也就是說,你對AI的「夢境」有完全的控制權,可以選擇讓它自動生效,也可以人工審核后再決定是否采納。


AI做夢,全程直播

具體來說,Dream任務進入running狀態后,會暴露一個session_id,開發者可以流式訂閱這個會話的事件流,實時看到AI正在讀取哪條記憶、正在寫入什么新條目。如果發現問題,還可以隨時「叫醒」(取消)。

換句話說就是,你趴在AI的床邊,看著它做夢。

跑完之后,底層會話會被歸檔保留,事后還能回看完整的「夢境記錄」。

更關鍵的是,開發者可以通過instructions字段告訴AI「做什么夢」。

由于輸入記憶庫不會被修改,理論上你可以對同一份記憶跑多次Dreaming,每次聚焦不同主題,產出不同維度的整理結果。

Agent交完卷,還有一個評分官在等著

光會做夢還不夠,干活的質量誰來把關?

這就是Outcomes的作用。


開發者可以寫一套評分標準,描述「什么算交付成功」,然后系統會分配一個獨立的評估器,在它自己的上下文窗口中對Agent輸出進行打分。

由于評估器和干活的Agent完全隔離,因此不會被Agent自身的推理過程帶偏。

只要它發現問題,就會精準指出需要修改的地方,并讓Agent重新打磨再跑一輪。

此時,開發者還可以設置最大迭代次數來控制成本。

根據Anthropic的內部測試,相比標準prompt循環,Outcomes把任務成功率提升了最高10個百分點。越難的問題,提升越明顯。

在文件生成場景下效果更直觀,docx文檔任務成功率提高8.4%,pptx幻燈片提高10.1%。

這個功能對主觀質量評估同樣有效。

比如文案語氣是否符合品牌調性,設計稿是否遵循視覺規范,這類以前必須靠人盯的活兒,現在Agent自己就能對照標準反復打磨。

一個Agent搞不定,那就組隊上

第三件套是多智能體編排。

邏輯很簡單,當任務太大或太復雜,單個Agent搞不定時,讓一個主智能體(lead agent)把總任務拆成多個小塊,分別派發給搭載不同模型、不同提示詞、不同工具的專家級子智能體。


這些子智能體基于同一個共享文件系統并行工作,各自的成果匯總到主智能體的全局上下文中。

主智能體可以在工作流進行到一半時隨時找其他智能體對齊進度。

過程中,開發者還能在Claude控制臺里追溯每一步細節,哪個Agent干了什么、先后順序、決策理由,全部可見。


6個著陸點砸了2個,睡一覺全修好了

大會上,Anthropic用一個月球采礦無人機著陸任務,把三個功能一口氣串了起來。

第一步,搭兵團。

Commander作為主Agent統籌全局,底下掛兩個專家Agent:Detector負責地質探測,判斷采礦點是否值得開采;Navigator負責導航,判斷地形哪里可以安全降落。


第二步,定標準。

Outcomes評分標準就是一個普通的Markdown文件,幾行文字寫清通過條件:軟著陸速度≤2.0 m/s、地面不能有巨石和隕石坑、剩余燃料≥5%。


第三步,跑模擬。

大屏上同時顯示6個著陸點的實時狀態。

結果,4個綠色LANDED,但Site 3以398 m/s的速度直接砸了(紅色CRASH),Site 4也沒達標。整體安全評分67%。


這個結果,顯然是不合格的。

于是,她打開Claude控制臺的Dreams頁面,選了Opus 4.7模型,點擊「Start dreaming」,讓Dreaming跑了一整夜。


Opus 4.7花了8分鐘,從530萬token的歷史會話中蒸餾出一份98行的「Lumara Descent Commander's Playbook」,覆蓋危險規則、懸停掃描流程、燃料底線、中止走廊等維度。每條規則都標注了來源于哪次任務。


第二天早上回來,用升級后的記憶庫重新跑了一輪模擬。

原來失敗的2個站點全部修復,原來成功的4個沒有倒退。

整個過程,就是在控制臺里按了幾下按鈕。


Harvey用完漲了6倍,靠的就是這三件套

托管智能體平臺從4月公測以來,核心賣點一直是「你別自己搭Agent基礎設施了,我幫你托管」。

但光托管運行環境還不夠,Agent要真正好用,必須解決三個問題——

1. 跨會話的記憶衰退

2. 不穩定的輸出質量

3. 單Agent搞不定的復雜任務

這次,Dreaming解決第一個,Outcomes解決第二個,多Agent編排解決第三個。三件套一起上,把Agent從「能跑」推向「能用」。

早期客戶已經在驗證這套組合拳。法律AI公司Harvey用上Dreaming后,任務完成率飆升了大約6倍。

目前,Dreaming作為研究預覽版上線,支持Claude Opus 4.7和Claude Sonnet 4.6,需要申請權限。Outcomes和多Agent編排已進入公測。

費用方面,托管智能體在標準API token費率之外,額外收取每會話小時0.08美元的運行時費用。有開發者算過賬,24個Agent每天跑8小時,光運行時就是15.36美元/天,還沒算token。

One More Thing

算力自由

同一天還有一個重磅消息。

Anthropic官宣與SpaceX達成協議,租下馬斯克Colossus 1數據中心的全部算力,共22萬張GPU。

Dreaming一次跑530萬token,多Agent并行開工,Outcomes反復迭代打分,全都是吃算力的重活。22萬張GPU,正好給托管智能體這套服務兜底。


同時,「算力自由」也帶來了更直接的用戶福利——

·Claude Code五小時使用限額即刻翻倍。

·取消Pro/MAX中,Claude Code高峰時段限制額度削減。

·Opus API速率限制大幅上漲。

今天,Anthropic給AI裝上了REM睡眠,但這場夢才剛開始做。

迪克當年真正想問的,或許不是仿生人會不會做夢,而是做完夢之后,它還算不算機器。

參考資料:

https://claude.com/blog/new-in-claude-managed-agents

https://x.com/claudeai/status/2052067399088664981

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
高市早苗之下跪,不是東施效顰,是荒誕不經!

高市早苗之下跪,不是東施效顰,是荒誕不經!

新民周刊
2026-05-07 09:07:23
自己廢物老公是大神是什么體驗?網友:這種夢會害死好多女生的

自己廢物老公是大神是什么體驗?網友:這種夢會害死好多女生的

解讀熱點事件
2026-05-06 00:45:30
告別側邊指紋!華為Mate 90重磅升級:將搭載自研超聲波指紋

告別側邊指紋!華為Mate 90重磅升級:將搭載自研超聲波指紋

快科技
2026-05-07 13:24:19
中國駐瑞典大使館:再次提醒在瑞典中國公民拍攝注意事項

中國駐瑞典大使館:再次提醒在瑞典中國公民拍攝注意事項

澎湃新聞
2026-05-07 01:29:03
隊記:馬刺G1輸球后,波波維奇參加了球隊的錄像分析課

隊記:馬刺G1輸球后,波波維奇參加了球隊的錄像分析課

懂球帝
2026-05-07 10:24:13
4只皮皮蝦1035元!當事人稱已接到最新回復…

4只皮皮蝦1035元!當事人稱已接到最新回復…

北京商報
2026-05-07 14:25:13
女生要主動起來跟想象中完全不一樣!網友:讓我遞毛巾 瞬間開竅了

女生要主動起來跟想象中完全不一樣!網友:讓我遞毛巾 瞬間開竅了

另子維愛讀史
2026-01-26 18:39:06
56歲汪峰被曝又換新歡,凌晨別墅相會,森林北清空賬號疑似劃界限

56歲汪峰被曝又換新歡,凌晨別墅相會,森林北清空賬號疑似劃界限

趣味八卦
2026-05-07 12:04:01
趙心童一根球桿19萬,吳宜澤他爸連房子賣了,斯諾克貧富差距扎心

趙心童一根球桿19萬,吳宜澤他爸連房子賣了,斯諾克貧富差距扎心

小娛樂悠悠
2026-05-06 00:08:26
巴基斯坦戰略專家:這三場戰爭已表明,中國才是世界最強超級大國

巴基斯坦戰略專家:這三場戰爭已表明,中國才是世界最強超級大國

農夫史記
2026-05-05 20:42:36
5月7日,人社部2026年養老金調整通知公布了嗎?調整比例會是多少

5月7日,人社部2026年養老金調整通知公布了嗎?調整比例會是多少

社保小達人
2026-05-07 11:20:31
魯比奧一句話,令島內上下震動,大陸已做好準備,鄭麗文打算拼了

魯比奧一句話,令島內上下震動,大陸已做好準備,鄭麗文打算拼了

小叨娛樂
2026-05-07 10:29:08
5月7日最新油價,原油2天下降10.6%,明晚汽柴油“大漲變小漲”!

5月7日最新油價,原油2天下降10.6%,明晚汽柴油“大漲變小漲”!

豬友巴巴
2026-05-07 09:22:21
八路軍最古怪的旅:兩大元帥都怕鎮不住,偉人派去一人完美解決!

八路軍最古怪的旅:兩大元帥都怕鎮不住,偉人派去一人完美解決!

談古論今歷史有道
2026-05-07 13:45:04
80歲大爺:我不僅每月退休金1萬,還有3套房,可我卻只想早點離開

80歲大爺:我不僅每月退休金1萬,還有3套房,可我卻只想早點離開

烙任情感
2026-05-06 14:23:42
韓媒:中國隊,放馬過來! 申裕斌已強勢回歸要為小組賽0-3復仇

韓媒:中國隊,放馬過來! 申裕斌已強勢回歸要為小組賽0-3復仇

勁爆體壇
2026-05-07 07:46:09
國民黨內訌,趙少康挑起對立,鄭麗文立"軍令狀",面臨去留選擇

國民黨內訌,趙少康挑起對立,鄭麗文立"軍令狀",面臨去留選擇

聞識
2026-05-07 08:03:37
每體:穆里尼奧與老佛爺視頻通話,表示自己不會與平圖斯共事

每體:穆里尼奧與老佛爺視頻通話,表示自己不會與平圖斯共事

懂球帝
2026-05-07 09:30:51
他從縣委書記一躍成為省委書記,事跡被載入世界名人錄,活到71歲

他從縣委書記一躍成為省委書記,事跡被載入世界名人錄,活到71歲

搜史君
2026-05-06 19:20:08
湖北一酒店開在公安局大院內 客人:住在這兒 晚上都不用關門了

湖北一酒店開在公安局大院內 客人:住在這兒 晚上都不用關門了

閃電新聞
2026-05-06 19:50:44
2026-05-07 14:47:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15151文章數 66843關注度
往期回顧 全部

科技要聞

凌晨突發!馬斯克租22萬塊GPU給“死敵”

頭條要聞

美國博主自發抵制:不想收錢抹黑中國

頭條要聞

美國博主自發抵制:不想收錢抹黑中國

體育要聞

阿森納巴黎會師歐冠決賽!5月31日開戰

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業照

財經要聞

特朗普:美伊“很有可能”達成協議

汽車要聞

理想為什么不做轎車,有了解釋……

態度原創

本地
教育
旅游
公開課
軍事航空

本地新聞

用青花瓷的方式,打開西溪濕地

教育要聞

新傳考研名詞解釋:社會抗爭行為

旅游要聞

“五一”接待游客252.37萬人次,酉陽文旅市場人氣口碑雙豐收

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊"很可能"達成協議

無障礙瀏覽 進入關懷版