網易首頁 > 網易號 > 正文 申請入駐

你的「龍蝦」真記得你嗎?劍橋發布長期個性化記憶基準ATM-Bench

0
分享至



ATM-Bench 將「個人 AI 助手是否真的記得你」這件事,變成了一個研究的測試基準。結果并不樂觀:專用記憶智能體系統普遍低于 20%,而 OpenClaw、Codex、Claude Code 等通用智能體普遍表現不佳,最高準確率不到 40%。

想象一個場景:媽媽問我:「你上次去日本旅行幫我買的相機,現在還在保修期內嗎?」

對人類來說,這不算難。就算一時記不起來,也可以翻翻收據、照片,或者查一下當時的郵件。大腦會將線索串起來,逐漸定位或是搜索到相關記憶。但對今天的 AI 來說,這類問題遠沒有看上去那么簡單。

最近,來自劍橋大學的團隊開源了面向 AI 個人助理的長期記憶基準測試 ATM-Bench。他們評測一個直接的問題:當 AI 真正面對一個人多年真實生活數據時,它到底能不能「記住你」?

實驗結果并不樂觀。在該 ATM-Bench-Hard 基準上,當前非常熱門的開源智能體「小龍蝦」OpenClaw 僅達到 25.4% 的準確率;而被許多人視為編程智能體標桿、搭載 Claude Opus 4.6 的 Claude Code 也只有 33.8%。至于多數開源專用記憶系統,準確率甚至低于 20%。



  • 論文地址: https://arxiv.org/abs/2603.01990
  • 項目主頁: https://atmbench.github.io



視頻鏈接:https://mp.weixin.qq.com/s/__7ldldfZfyXsNVGHq6AnQ?click_id=136

ATM-Bench:系統評估 AI 長期個性化記憶能力的基準

過去已經有不少工作在評估 AI 的「記憶能力」,例如 LoCoMo、LongMemEval 等,它們大多聚焦于對話歷史,但真實世界中的個人記憶,遠不止聊天記錄。一個人的生活記憶通常分散在:

  • 照片:旅行、聚會、用餐、日常片段
  • 視頻:重要時刻、活動過程、環境變化
  • 郵件:機票、酒店、餐廳預訂、票據、確認函

而且這些記憶往往橫跨幾年,互相之間并不對其。為此,ATM-Bench 提出了首個面向長期、多模態、多來源、個性化指代記憶問答的基準。它的幾個關鍵特征是:

  • 時間跨度約 4 年;
  • 覆蓋圖像、視頻、郵件三類模態,超一萬條記憶數據;
  • 記憶數據來自真實個人生活,而非合成對話;
  • 圖像、視頻數據包含地點、時間等元數據,地點包含 4 大洲;
  • 包含 1000 + 條完全人工標注的問題、答案與證據。

ATM-Bench 考驗了智能體能不能像一個真正的個人助理那樣,找到隱藏在記憶庫深處的正確記憶,并給出可靠答案。

挑戰 AI 的記憶盲區

ATM-Bench 的核心難點包含:

  • 個性化指代:我的寵物貓「Grace」「我們上次那趟葡萄牙旅行」;
  • 多來源拼接:照片時間戳要和郵件確認函對齊;
  • 記憶沖突:預訂金額和最終發票金額不一致;
  • 元數據噪音:GPS 由于定位準確度本身就可能出錯。

這里展示了三種難題的案例。

個性化引用解析 ——Grace 到底是誰?

示例:「我想剪一個視頻發小紅書,幫我把 Grace 偷偷摸摸的照片視頻找出來。」

  • 判斷 Grace 是朋友、家人,還是寵物;
  • 在圖片或視頻里識別這個對象;
  • 再理解「偷偷摸摸」這種帶主觀色彩的描述。



證據沖突怎么選?

示例:「我最近去葡萄牙旅行住酒店花了多少錢?」

這類問題常常對應多份證據:過時的預訂確認郵件,最終結算發票等。

AI 需要理解不同來源之間可能存在沖突,也需要判斷哪條信息更新得更晚、可信度更高。即使是 GPT-5.2 或者是 Opus-4.6,也拿著過時的預訂郵件而不是最終的發票當作答案。



看不見的線索,才最考驗 AI 的長期記憶

示例:「我在 Fancett 餐廳點了什么?」

陷阱在于:「Fancett」這個名字只出現在郵件確認單里,而照片本身并沒有 GPS 標簽。

要回答這個問題,AI 必須先:

  1. 從郵件中找到與 Fancett 相關的預訂信息;
  2. 提取對應時間并鎖定時間窗口;
  3. 再跨模態到相冊中找到同一時段的照片;
  4. 最后從視覺內容中判斷點了什么菜。

這類問題僅靠單一模態無法解決,需在郵件中挖掘文本線索,將時間范圍縮小,找到照片并回答問題。少了任何一環,問題都無法被正確回答。



實驗結果

團隊在 ATM-Bench-Hard 上測試了多種專用記憶系統,包括 A-Mem、HippoRAG2、mem0、MemoryOS。

結果并不理想:最好的系統準確率不到 20%。這些系統本來就是為記憶而設計的,但當任務超過了僅僅是對話歷史,記憶變得真實、長期、個性化、跨模態的生活場景時,它們依然顯得力不從心。

除開源專用記憶系統之外,團隊還測試了當前最強的通用智能體系統。這類智能體具備完整的代碼執行能力、文件系統訪問權限和工具調用能力,具有比專用記憶系統擁有更強的工程能力與搜索能力。



核心發現:

  1. 表現最好的 Codex 也只有 39.7% 的準確率,連及格線都夠不著;
  2. Claude Code + Opus 4.6 作為編程智能體的標桿,也只有 33.8%,盡管明顯優于多數專用記憶系統,但仍難以勝任真實長期記憶 QA;
  3. OpenCode(Kimi K2.5)達到 30.3%,而 OpenClaw(Kimi K2.5)為 25.4%;
  4. Token 開銷非常高:Codex 消耗了 15.46M tokens,OpenClaw 也達到 9.63M,即便投入大量工具調用與上下文預算,效果仍然有限。

這說明,即便給 AI 配齊代碼執行、文件搜索、索引構建等整套工具鏈,長期個性化記憶問答仍然是一個根本性難題。

ATM-Bench 的實驗結果雖然「慘淡」,但作者團隊相信這為未來的長期記憶機制與個性化 AI 助手的研究開辟了新的方向。

OpenClaw、Codex、Claude Code 的集體表現不佳告訴我們:工具鏈再完善、模型再強大,也彌補不了記憶架構上的根本缺陷。

當 AI 真正能夠像人類一樣,在數年的記憶長河中準確檢索、關聯、推理,我們離真正的「個性化 AI」才會更近一步。

在那之前,也許我們不該對智能體的記憶能力期待太高,畢竟,它們連「去年給媽媽買的相機」都記不住,OpenClaw、Codex、Claude Code 都不行。

數據集已開源

ATM-Bench 數據集現已在 HuggingFace 上線:

  • https://huggingface.co/datasets/Jingbiao/ATM-Bench

包含:

  • 完全人工標注的 1069 個 QA 對
  • 多模態證據標注
  • NIAH 大海撈針評估支持
  • 開箱即用的基準測試代碼

作者介紹

梅敬標,劍橋大學機器智能實驗室博士四年級在讀,師從 Bill Byrne 教授,獲劍橋信托基金獎學金資助。本科及碩士均畢業于劍橋大學工程系,主修信息與計算機工程與電子工程。

其主要研究方向為多模態大語言模型的應用,涵蓋多模態檢索、模型安全、強化學習及智能體系統等領域。相關成果已發表于 ACL、NeurIPS、ICLR、NAACL、EMNLP 等國際頂級會議,累計發表論文十余篇。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
楊絳:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包時,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下。因為..

楊絳:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包時,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下。因為..

二胡的歲月如歌
2026-04-26 08:37:16
體壇丑聞!嗜賭只是冰山一角,婚內出軌睡有婦之夫,太毀三觀

體壇丑聞!嗜賭只是冰山一角,婚內出軌睡有婦之夫,太毀三觀

橙星文娛
2026-04-25 11:14:17
賴清德鬧出大笑話、甩鍋大陸!鄭麗文需明白一件事,要警惕盧秀燕

賴清德鬧出大笑話、甩鍋大陸!鄭麗文需明白一件事,要警惕盧秀燕

野史日記
2026-04-25 09:00:15
東體:在上海舉行的懷舊友誼賽原本還想要邀請瓜林和阿爾貝茨

東體:在上海舉行的懷舊友誼賽原本還想要邀請瓜林和阿爾貝茨

懂球帝
2026-04-25 18:30:45
美媒痛哭發現,美國瞎折騰了七八年,中國卻已不可阻擋

美媒痛哭發現,美國瞎折騰了七八年,中國卻已不可阻擋

阿豐聊娛
2026-04-26 08:06:11
中央5臺直播乒乓球時間表:4月25日CCTV5轉播國乒!附乒壇動態

中央5臺直播乒乓球時間表:4月25日CCTV5轉播國乒!附乒壇動態

林子說事
2026-04-25 17:48:24
與10年前南海對峙相比,解放軍實力提升多少?速度連美軍都想不到

與10年前南海對峙相比,解放軍實力提升多少?速度連美軍都想不到

鋒芒點兵
2026-04-19 11:50:21
紀實:浙江女教師突然失蹤6年,13歲兒子憑借一個夢找到母親

紀實:浙江女教師突然失蹤6年,13歲兒子憑借一個夢找到母親

紅豆講堂
2024-10-25 09:45:59
福特CEO把一輛小米SU7運到美國,駕駛半年后,他這樣評價…

福特CEO把一輛小米SU7運到美國,駕駛半年后,他這樣評價…

新浪財經
2026-04-24 07:10:27
唐家三少從2014年的時候,就已經實現了通過寫網絡小說年入五千萬

唐家三少從2014年的時候,就已經實現了通過寫網絡小說年入五千萬

歲月有情1314
2026-04-25 01:49:33
鄭維山本來已交接準備回國,聽聞韓總統不服,掉頭怒殲28000韓軍

鄭維山本來已交接準備回國,聽聞韓總統不服,掉頭怒殲28000韓軍

談古論今歷史有道
2026-04-25 10:55:03
太狠了!3000元招保姆,要求承擔做飯、帶娃并無償試用,引發爭議

太狠了!3000元招保姆,要求承擔做飯、帶娃并無償試用,引發爭議

火山詩話
2026-04-25 16:38:17
陳思誠怎么也沒想到,自己籌備的新片首映禮,被10歲兒子搶了風頭

陳思誠怎么也沒想到,自己籌備的新片首映禮,被10歲兒子搶了風頭

草莓解說體育
2026-04-26 09:11:29
嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

阿訊說天下
2026-04-25 11:15:04
日本網友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

日本網友瘋換中文手機界面,直呼清爽十倍,中國文化悄悄出圈!

行者聊官
2026-04-24 20:48:30
央8新劇4.28登陸黃金檔!實力派集結 都市情感劇再出誠意之!

央8新劇4.28登陸黃金檔!實力派集結 都市情感劇再出誠意之!

動物奇奇怪怪
2026-04-26 10:59:22
第一集就全裸出鏡,女神新劇太生猛了

第一集就全裸出鏡,女神新劇太生猛了

來看美劇
2026-04-24 22:03:11
拿了錢還不放人!19歲花季少女被困柬埔寨56天,綁匪正臉照曝光!

拿了錢還不放人!19歲花季少女被困柬埔寨56天,綁匪正臉照曝光!

今朝牛馬
2026-04-07 22:43:23
黃宗澤牙齦萎縮影響顏值,再帥的港圈男神,也扛不住一口牙毀所有

黃宗澤牙齦萎縮影響顏值,再帥的港圈男神,也扛不住一口牙毀所有

觀魚聽雨
2026-04-24 23:08:32
明查|日本自衛隊坦克炸膛涉“中國制造”?型號搞錯了,且此“中國”非中國

明查|日本自衛隊坦克炸膛涉“中國制造”?型號搞錯了,且此“中國”非中國

澎湃新聞
2026-04-25 07:16:29
2026-04-26 12:03:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12852文章數 142636關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

數碼
本地
親子
房產
公開課

數碼要聞

華為MatePad Mini迭代版:OLED四等邊、5G、NFC全來了,沒短板了

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

親子要聞

媽媽記錄下寶寶的第一次擁抱,最幸福的瞬間

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版