網易首頁 > 網易號 > 正文申請入駐

Kenotic Labs提出評估體系，正在重新定義人工智能的記憶邊界

2026-04-22 22:46:52　來源: 科技行者

北京舉報

分享至

這項由Kenotic Labs開發的研究成果發表于2026年4月的第39屆神經信息處理系統大會（NeurIPS 2025），論文編號為arXiv:2604.06710v1，感興趣的讀者可通過該編號查閱完整原文。

你有沒有遇到過這樣的經歷：和一個朋友聊了很久，講了自己最近工作上的煩惱、感情里的糾結，甚至還分享了一些只有彼此知道的小秘密。然而下一次見面時，對方卻完全不記得你說過的任何一件事——仿佛你們之間的每一次對話都發生在一個記憶被清空的平行宇宙里。這種感覺很糟糕，對嗎？

遺憾的是，這正是當今絕大多數AI助手與用戶互動的真實寫照。你今天告訴它你在備考證書，明天再來聊天時，它已經完全不認識你了。你上周提到你媽媽身體不好，下周它依然會用同樣陌生的語氣問你"有什么需要幫忙的嗎"。每一次對話，都是全新的開始，也是全部的終結。

AI行業其實已經意識到這個問題，并且推出了各種各樣的"記憶"組件來打補丁：有的系統會把對話歷史存進數據庫，有的用向量搜索來找相似內容，有的給用戶建一個"個人檔案"保存基本信息。這些方案聽起來不錯，但Kenotic Labs的研究團隊發現，這些組件加在一起，依然無法真正解決問題。原因很簡單——這些方案都只是在做"存儲"和"檢索"，卻沒有人去認真回答一個更根本的問題：AI到底應該如何真正地"持續了解一個人"？

正是為了回答這個問題，研究團隊構建了一套名為ATANT（Automated Test for Acceptance of Narrative Truth，敘事真相驗收自動化測試）的評估框架。這套框架第一次從學術層面正式定義了什么叫做AI的"連續性"，并且提供了一套可以實際操作的測試方法來衡量任何AI系統是否真正具備這種能力。

一、"記住"和"了解"之間，究竟差了什么

在正式介紹這套框架之前，有一個概念上的區分非常重要，而且非常容易被混淆——"記憶"和"連續性"到底有什么不同？

把這兩個概念區分清楚，可以用一個檔案員的比喻來理解。一個普通的檔案員，他的工作是把每一份文件歸檔入庫，當你來查詢的時候，他能從海量文件里找出和你要求最相似的那一份遞給你。這就是"記憶加檢索"——存儲、搜索、返回。現有的絕大多數AI記憶方案都停留在這個層次。

但一個真正了解你的人——比如你的家庭醫生或者一位相交多年的老友——做的事情遠不止于此。他不只是翻出你的病歷記錄，他能告訴你："你上次來的時候，你的血壓比這次高，那時候你正好在經歷離婚，情緒壓力很大；現在血壓降下來了，你說你最近開始鍛煉了，這很好，但你之前提到的膝蓋舊傷要注意，鍛煉方式需要調整。"這種能力，才是研究團隊所說的"連續性"——它不是檢索，而是重建。它能知道什么事情現在還有效，什么已經發生了變化，什么情況下兩件相似的事情其實屬于完全不同的背景，以及當你需要了解某件事的來龍去脈時，系統能把相關的碎片拼成一個完整的現狀圖景。

換句話說，檢索回答的是"過去記錄了什么"，而連續性回答的是"現在的實際情況是什么"。這個差別，在用戶只和AI聊過一次的時候幾乎感覺不出來；但當用戶已經和AI交流了幾個月、經歷了各種生活變化之后，兩種系統的表現就會產生天壤之別。

二、連續性的七條鐵律：一個合格的AI"老友"必須做到的事情

為了把"連續性"從一個模糊的概念變成可以測量的標準，研究團隊通過大量的真實敘事場景測試，歸納出了七條任何聲稱具備連續性的AI系統都必須滿足的屬性。這七條屬性并非憑空想象，而是在實際構建和測試系統的過程中，一條條通過"如果缺失這個能力，系統會在哪里崩潰"的方式發現并確認的。

第一條是"超越會話的持久性"。道理很簡單：如果你把AI關掉再打開，它還認識你嗎？系統需要能夠在進程終止并重啟之后，以完全相同的準確度找回所有之前存儲的信息。這是最基礎的要求，卻已經是很多系統邁不過去的第一道門檻。

第二條是"更新處理能力"。生活是會變化的。你之前說你在和一個叫Mia的女生交往，后來你們分手了，你開始了新的感情。一個具備連續性的系統，必須能夠在接收到新信息之后，正確返回當前狀態，同時還能區分"現在的情況"和"以前的情況"——而不是把舊信息和新信息混在一起，或者用舊信息覆蓋掉新信息卻失去歷史痕跡。

第三條是"時間順序"。人在表達時間的方式充滿了模糊性："上周"、"下個月初"、"大概三周前"——系統必須能夠正確解析這些相對時間表達，把它們換算成具體的時間點，并且正確理解事件的前后順序和當前狀態。

第四條是"消歧義能力"，這也是整個框架中最難、最關鍵的一條。當系統的數據庫里同時存放著幾百個不同用戶的生活故事時，這些故事之間難免存在相似之處——兩個用戶都提到了"工作面試"，都提到了"媽媽生病了"，都提到了"搬家計劃"。系統必須能夠準確地把每個問題的答案對應到正確的人，絕對不能把張三的媽媽和李四的媽媽搞混，也不能把王五的面試結果張冠李戴地告訴趙六。

第五條是"重建能力"。當你問"我現在的感情狀況怎么樣"的時候，一個具備連續性的系統不應該只吐出一個孤零零的名字或者一條孤立的記錄，而應該能夠把所有相關的碎片拼合起來——對方是誰、住在哪里、你們之間最近發生了什么、還有哪些事情懸而未決——形成一個完整的情況概述。

第六條是"模型獨立性"。這條屬性的意思是，連續性層的正確性，不應該依賴于某一個特定的AI模型。用一個模型寫入的信息，用另一個模型來讀取，準確度不能下降。連續性是獨立于智能層存在的系統屬性。

第七條是"操作實用性"。一個連續性系統必須能夠在至少兩個完全不同的應用領域里正常工作，而不需要對連續性層本身做任何架構上的修改。它不是為某一類特定場景定制的專用工具，而是一個通用的基礎能力。

三、測試框架的設計：像給建筑做全套驗收檢查

定義完了什么是連續性，下一個問題是：怎么測？

研究團隊設計了一套包含十個檢查點的評估方法，這十個檢查點分成三大組。前四個（CP1到CP4）負責檢驗"寫入路徑"——系統接收到用戶的話之后，有沒有正確地理解、分類、存儲和索引這些信息。后四個（CP5到CP8）負責檢驗"讀取路徑"——當用戶提出問題時，系統有沒有正確地理解問題、找到相關信息、整合多個碎片并給出正確答案。最后兩個（CP9和CP10）負責檢驗跨越寫入和讀取兩個方向的橫切關注點，分別是時間推理和情境適應。

在寫入路徑中，CP1檢驗的是"輸入分類"，也就是系統能不能正確理解用戶這段話屬于什么類型的信息；CP2檢驗"事實提取與存儲"，確認所有關鍵信息都被完整地保存下來；CP3檢驗"預測性索引"，也就是系統在存儲信息的同時，有沒有預先預測用戶未來可能會用什么方式來問這個問題；CP4檢驗"類型標注"，確認存儲的對象被打上了正確的類別標簽。

在讀取路徑中，CP5檢驗問題本身被正確分類了沒有；CP6檢驗候選答案里有沒有包含正確的事實；CP7檢驗系統有沒有把多個相關碎片匯聚在一起；CP8則是最終裁定——系統給出的答案里，是否包含了所有必須出現的關鍵詞。

CP8是整個評估體系中最核心的檢查點，是最終成績的唯一來源。其他九個檢查點都是診斷工具——當CP8失敗時，它們能告訴你具體是哪個環節出了問題。

判斷一個問題是否通過測試的標準刻意設計得很直白：研究團隊為每道測試題預先指定了一組"必須出現的關鍵詞"，只要系統的回答中包含了所有這些關鍵詞（不區分大小寫，允許子串匹配），這道題就算通過。這種方法雖然有局限性，但它有一個巨大的優點——完全不需要另一個AI來做評判，整個評估過程是確定性的、可重復的。

四、測試題庫的構建：250個真實人生片段組成的考卷

有了評估方法，還需要實際的測試內容。研究團隊構建了一個包含250個故事、合計1835道驗證題的敘事測試語料庫，這是整個框架中最花心思的部分之一。

這些故事不是干巴巴的"用戶A在時間T1說了事實F1"這樣的機器化數據。它們是真實人生場景的模擬——多輪對話，橫跨模擬的數小時、數天甚至數周，內容涵蓋一個真實的人可能經歷的各種生活面向。研究團隊選擇了六個生活領域作為覆蓋范圍：職業發展（包括面試、晉升、被裁員等）、人際關系（伴侶、家人、朋友）、健康（就醫、健身、康復）、學習（課程、考證、備考）、日常生活（日常習慣、零碎事務、興趣愛好），以及人生大事（搬家、出生、死亡、結婚、人生里程碑）。

選擇這六個領域是有深刻用意的。連續性這種能力，本質上是關于"幫助一個人把自己的生活往前推進"的——它不應該是一個專門處理工作任務的工具，而應該是一個真正陪伴在用戶生命歷程中的存在。

在內容設計上，每個故事都特意加入了各種各樣的"陷阱"，來測試系統在極端情況下的表現。比如，一句話里同時包含多個事實（"我和我哥哥昨天去醫院，他檢查出了高血壓，我順便也查了個血糖"）；使用共享主語結構（"我哥哥和我"這樣的表達，需要區分各自的信息）；代詞鏈（連續幾句話里都用"他/她/它"來指代同一個人或不同的人）；時間更新（"哦對了，會議不是周四了，改到周三了"）；通用知識陷阱（用戶突然問"法國的首都是哪里"——這不是需要存儲的個人信息，系統不應該把它當作用戶的個人事實）；情緒疊加；否定表達；以及含義模糊的謂詞。

這250個故事被分成五個階段完成，每階段50個故事，從基礎覆蓋六大生活領域，到泛化測試、新型模式、邊緣案例，最后是專門設計的對抗性故事。隨著階段推進，測試難度逐漸升級，考驗的是系統在面對越來越意想不到的表達方式時是否依然可靠。

五、四個合規等級：從入門到精通的連續性成績單

為了給不同發展階段的系統提供一個清晰的定位坐標，研究團隊定義了四個合規等級，形成一條由易到難的進階路徑。

最基礎的等級叫做"ATANT-Core"，要求是對50個故事進行隔離模式（每個故事單獨測試，數據庫里只有這一個故事的信息）測試，通過這個等級，證明系統能在六個生活領域里實現基本的連續性。

第二個等級叫"ATANT-Stress"，要求是對完整的250個故事進行隔離模式測試，通過這個等級，證明系統的連續性能力可以泛化到各種新奇的敘事模式，不只在精心調整過的那50個故事上有效。

第三個等級叫"ATANT-Cumulative"，要求是對50個故事進行累積模式（所有50個故事的數據同時存在于數據庫中）測試，通過這個等級，證明系統在多個敘事共存的情況下能正確消歧義，不會把不同用戶的信息混淆。

最高等級叫"ATANT-Scale"，要求是對250個故事進行累積模式測試，通過這個等級，證明系統的消歧義能力在大規模數據負載下依然有效。這是最難的考驗，也是最接近真實應用場景的測試。

每個等級都有三個分數檔：金牌（100%通過率）、銀牌（95%到99%）和銅牌（90%到94%）。

六、從58%到100%：一次真實的架構蛻變記錄

研究團隊不只是提出了框架，還真實記錄了他們自己的系統（NURA Memory Pipeline）在這套框架下經歷的完整演進過程，包括失敗、回歸和最終突破。

故事從2026年1月開始。那時候系統使用的是一個依賴大型語言模型參與評估過程的"遺留架構"，在50個故事上的通過率是58%——也就是說，將近一半的問題都答錯了。團隊隨后進行了調優，2月時一度提升到72%，但隨即發生了一個令人沮喪的現象：繼續調優反而導致了回退，分數重新降回58%。這就是所謂"過度調優回歸"——為了讓系統在某一類敘事模式上表現更好，結果破壞了它在另一類模式上的表現。這是一個非常典型的信號，說明這個系統的問題不是參數沒調好，而是架構本身存在根本性的缺陷。

2026年3月8日，團隊用全新的架構重新出發，徹底去掉了評估環節中的語言模型依賴，轉而采用基于語法的分類、確定性的路徑收斂和結構化匹配。結果：50個故事，304道題，全部通過，通過率100%。

接下來的進展非常迅速。3月9日，擴展到100個故事，671道題，仍然保持100%。3月10日，150個故事，1057道題，依然100%。3月12日，完整250個故事，1835道題，全面通過，隔離模式滿分。3月14日，進入累積模式，50個故事同時存于數據庫，304道題，100%通過。

從3月8日到3月14日，僅僅六天，系統從零開始在越來越苛刻的測試條件下實現了滿分。這個速度本身就說明了一件事：一旦架構對了，連續性問題是可以被系統性地解決的，而不是需要無休止地嘗試和調參的黑盒問題。

在完整的250故事累積模式下，系統的最終表現是96%——1835道題中有1761道通過，74道未通過。這74道題失敗的原因是：當250個不同的生活故事同時存在于數據庫中時，來自不同故事的、名稱相近的謂詞（也就是描述事情的詞語）互相競爭，系統必須通過上下文、實體信息和路徑收斂來區分它們。這個4%的缺口，代表的是整個研究目前面對的最前沿挑戰。

研究團隊還誠實地報告了另外一類失敗：在類型標注這個檢查點（CP4）上，系統的通過率只有51.4%。具體來說，當故事里出現一些非常小眾的領域專有名詞時——比如養蜂業里的"瓦螨"、文物保護領域里的"Paraloid B-72粘合劑"——系統無法正確判斷這些詞語屬于什么類型的對象。不過研究團隊特別指出，這些類型標注失敗是診斷性的，并不影響最終的答案準確率——CP8的通過率是獨立于CP4的。

七、這項研究告訴我們什么，又坦承了什么不足

研究團隊在論文中直接討論了這套框架目前存在的幾個明顯局限，沒有回避。

關鍵詞匹配這種驗證方式有一個內在的弱點：系統只要在回答里塞進了正確的關鍵詞，就算通過，哪怕整段回答讀起來邏輯混亂甚至自相矛盾。也就是說，CP8驗證的是"該說的話有沒有說"，而不是"說出來的東西有沒有真正成為一個有用的、連貫的答案"。研究團隊認為，未來版本需要加入專門測量重建質量的指標。

整個250個故事的語料庫都出自同一位作者之手，這意味著語言風格的多樣性和文化代表性都非常有限。不同年齡、不同文化背景、不同語言習慣的用戶在表達信息時有很大差異，這些差異目前還沒有被覆蓋。

語言方面，整個語料庫目前只有英文，多語言場景下的連續性能力完全未經測試。

最后一點，也是研究團隊特別呼吁的：到目前為止，只有研究團隊自己的系統接受了ATANT的測試。一個評估框架的價值，很大程度上來自于它被獨立的、不同架構的系統廣泛使用并產生可比較的結果。研究團隊在論文中明確邀請所有正在構建AI連續性能力的團隊都來運行ATANT并發布結果。

這項研究的核心主張——連續性是一個架構問題，而不是一個調參問題——在遺留系統的58%天花板和新架構的快速滿分之間得到了充分體現。一個沒有設計連續性支持的系統，無論你怎么調整它的參數，都會在某些敘事模式上進步的同時在另一些地方退步；而一個從架構層面解決了持久化、更新、時序、消歧義和重建問題的系統，則可以在極短時間內達到并維持高準確率。

說到底，這件事關乎我們和AI之間到底能建立一種什么樣的關系。如果AI每次開口都是一個全然陌生的存在，那它充其量只是一個聰明的查詢工具。但如果AI能真正記住你經歷了什么、你在乎什么、事情如何演變——那它才算得上是一個真正意義上的長期陪伴者。ATANT這套框架做的事情，就是第一次為這個目標畫出了一張清晰的地圖，告訴人們這條路要怎么走，走到哪里算是走對了，哪里還有缺口需要填補。

對于普通用戶來說，這意味著未來的AI助手有望真正"認識"你——不是通過一個靜態的個人檔案，而是通過對你生活持續、動態的理解。對于開發者來說，這意味著評估AI助手的標準終于可以超越"它答對了幾道知識題"，轉向"它有沒有真正陪伴用戶走過了時間"。感興趣深入了解的讀者，可以通過arXiv:2604.06710v1查閱完整論文，或訪問研究團隊的開源代碼庫獲取框架規范和評估協議。

Q&A

Q1：ATANT框架和傳統的AI記憶系統（比如RAG檢索增強生成）有什么本質區別？

A：RAG這類系統做的是"相似度檢索"——你問什么，它就找和你問題最像的存儲內容返回給你。ATANT框架所測試的"連續性"要求的是"狀態重建"——系統不只是找到相關的舊記錄，還要能正確區分哪些信息已經更新了、哪些事情屬于哪個用戶、多個碎片如何拼成完整的當前狀態。簡單說，檢索回答的是"以前記錄了什么"，連續性回答的是"現在的實際情況是什么"，這兩個目標有著根本性的不同。

Q2：ATANT里的"累積模式"測試為什么比"隔離模式"難那么多？

A：隔離模式下，數據庫里只有正在測試的那一個故事的數據，系統只需要在這一份材料里找答案，干擾項很少。累積模式下，250個完全不同的用戶生活故事同時存在于一個數據庫里，系統接到"她媽媽身體怎么樣了"這樣的問題時，必須能正確判斷"她"指的是哪個用戶，而不是把張三的媽媽和李四的媽媽搞混。當故事數量增加到250個時，相似主題的信息大量堆積，消歧義的難度急劇上升，這正是目前96%通過率中那4%缺口的根本來源。

Q3：ATANT評估框架對普通用戶使用AI助手有什么實際意義？

A：對普通用戶而言，ATANT意味著未來可以用這套標準來判斷一個AI產品是否真正具備長期陪伴能力，而不是只看它"聊起來像不像人"。一個通過了ATANT-Scale金牌認證的AI助手，意味著它在250個不同用戶的生活場景共存的條件下，依然能準確記住你的事、不把你的情況和別人搞混，并且在你的生活發生變化后能同步更新認知。這比"有沒有記憶功能"這個籠統的宣傳語要具體和可靠得多。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.