![]()
這項由愛丁堡大學與圣安德魯斯大學聯合騰訊LIGHTSPEED團隊完成的研究,以預印本形式發布于2026年4月(arXiv編號:2604.11544),有興趣深入了解的讀者可通過該編號查詢完整論文。
假設你有一個記性極好的助手,他把所有事情都記得一清二楚——奧巴馬是美國總統,特朗普是美國總統,拜登是美國總統。你問他"誰是現任美國總統",他卻把三個答案一股腦兒全報給你,然后一臉茫然地說"這三條都在我的記錄里"。這個荒誕的場景,正是當今大多數AI記憶系統面臨的真實困境。研究者們把它稱為"靜態與動態的兩難困境":同樣的記憶系統,既要記住"奧巴馬出生在夏威夷"這種永恒不變的事實,又要正確處理"誰是總統"這種隨時間變化的信息——而現有系統對這兩類信息一視同仁,結果兩頭都沒做好。
為了徹底解決這個問題,研究團隊創造了一套名為ROMEM的全新系統,其核心思路頗為巧妙:與其費盡心機地刪除舊信息或者每次都叫來一個AI大模型來判斷"這條信息過時了沒有",不如借鑒物理學中的旋轉原理,讓時間本身變成一種幾何上的力量——過時的事實會在數學空間里自然"轉暈",而真實有效的事實則穩穩地"對準"查詢方向。這套系統在多個基準測試上取得了當前最優成績,在處理時間相關問題時的準確率比現有最好方法提升了兩到三倍。
一、那個"把三位總統都當作現任總統"的經典難題
為了理解這個問題的根源,不妨把AI的記憶系統比作一個巨大的檔案館。現有的大多數系統會給每條信息貼上一個"日期標簽",然后按時間先后排列。你想知道誰是現任總統,系統就找出最新的那條記錄——這聽起來很合理,對吧?
然而麻煩接踵而至。檔案館里同時存著"奧巴馬出生于夏威夷"這條從未改變過的事實,以及"拜登是美國總統"這條最新信息。如果系統一律按時間新舊排序,那么"奧巴馬出生于夏威夷"這條幾十年前的舊檔案就會被壓在一堆無關緊要的新信息下面,難以被檢索到——明明這是條永遠有效的事實,卻因為"年代久遠"而遭到埋沒。這就是所謂的靜態與動態兩難困境的第一個癥狀:一旦啟用按時間排序,永久性知識就會被壓制。
反過來,如果不按時間排序,那么三位總統的信息就會同時出現,讓下游的AI大模型徹底困惑。斯坦福大學的研究者曾發現,當AI面對這種"真假混雜"的上下文時,它往往會給出錯誤或自相矛盾的答案——這一現象在學界被稱為"迷失在中間",意思是有用的信息被無關內容淹沒,模型不知道該聽哪個。
現有系統應對這個困境的方式大致分為三種,而每一種都有明顯缺陷。第一種是"破壞性覆寫"——直接把舊信息刪掉,換上新信息。問題在于,歷史記錄就此永久消失,你再也無法問"2009年的總統是誰"了。第二種是"AI仲裁"——每次存入新信息時,都調用一次AI大模型來判斷"這條新信息是否意味著某條舊信息需要被更新或刪除"。這個方法邏輯上說得通,但代價極高:如果你的記憶系統里存著幾百萬條事實,每存入一條新信息就要調用一次大模型,光是這個判斷過程就會消耗巨大的計算資源和時間。第三種是"按時間排序"——也就是前面說的那種方法,會把舊而永久的事實埋沒。
ROMEM的設計者們認為,這三種方案都是在用錯誤的思路解決問題。根本癥結在于:這些系統把時間當作一個"標簽"來處理,而時間本質上應該是一種"物理力量"。
二、時鐘指針與幾何旋轉:用物理直覺解決記憶難題
研究團隊從認知神經科學中找到了靈感。科學家們發現,哺乳動物的海馬體(大腦中負責記憶的核心區域)并不是用離散的時間戳來記錄事件的,而是用連續的幾何軌跡來編碼時間信息——就好像大腦里有一套內置的"時鐘機制",時間的流逝對應著神經活動在空間中的連續運動。
ROMEM將這個生物學發現轉化成了數學語言。每一個知識點,比如"(美國, 總統, 奧巴馬)",都被表示為一個復數向量空間中的向量——你可以把它理解為一根有方向和長度的箭頭。時間的流逝則對應著這根箭頭在空間中的旋轉,就像時鐘的指針隨著時間流轉而不斷轉動。
具體來說,當你在2009年存入"奧巴馬是美國總統"這條信息時,代表這個事實的"箭頭"就被固定在一個特定的角度上——比如指向十二點方向。隨著時間推移到2025年,如果你詢問"現任美國總統是誰",系統會用2025年對應的旋轉角度去"照射"所有相關的知識箭頭。此時,"奧巴馬是總統"這個箭頭已經因為時間流逝而轉到了三點鐘方向,與查詢方向不對齊,得分自然下降。而"特朗普是總統"的信息對應2025年的角度,與查詢方向高度吻合,得分就高。這個過程不需要刪除任何信息——兩條信息都還在檔案館里好好的——只不過舊信息因為"轉偏了"而自然排名靠后,新信息因為"對準了"而自然排名靠前。研究者把這個效應叫做"幾何遮蔽":過時的事實被旋轉到了錯誤的角度,被正確的事實在幾何上自然壓制。
更精妙的是,這個旋轉機制可以進行歷史查詢。如果你明確問"2009年的美國總統是誰",系統就用2009年對應的旋轉角度來檢索,這時"奧巴馬是總統"的箭頭又重新指向了正確方向,而"特朗普是總統"的信息則被轉偏了。整個檔案館從未刪除任何內容,卻能根據查詢的時間點動態地"展現"出不同歷史階段的世界狀態,就像一臺時光機。
相比于此前的同類方法,這個設計還解決了兩個技術上的老大難。其一,過去的一些方法將時間視為疊加在向量上的一個數值偏差(就像在箭頭的長度上加減一個數字),這種"加法模型"有個致命缺陷:如果一個實體本身就非常"受歡迎"(在知識圖譜中和很多其他實體都有關聯),它的箭頭天生就長,時間帶來的懲罰對它影響不大,結果一些"過時但流行"的事實仍然能排名靠前。ROMEM使用的乘法旋轉則不同:不管一個實體多么"受歡迎",只要它的箭頭轉偏了,得分就一定會下降,沒有例外。其二,過去的旋轉類方法(如ChronoR、TeRo等)需要為每一個具體的時間點單獨學習一個向量表示,就好像為1月1日、1月2日、1月3日……各自準備一頁手冊。一旦遇到手冊里沒有收錄的日期(比如某個具體的時刻),系統就完全不知道怎么處理。ROMEM則把時間定義為一個連續的數學函數,就像一個能處理任意角度的指南針,而不是只能處理整點刻度的鬧鐘——任何日期都能無縫處理,包括從未在訓練數據中出現過的日期。
三、"語義速度閥":讓系統自己學會哪些知識會變、哪些永恒不變
幾何旋轉解決了"時間沖突"的問題,但還有一個同樣重要的問題沒有解決:并非所有信息都應該以同樣的速度旋轉。"某人是總統"這類信息隨著選舉而快速變化,而"某人出生于某地"則是永久不變的事實。如果系統對兩類信息施加同樣的旋轉速度,那么"奧巴馬出生于夏威夷"這個永恒事實也會隨著時間旋轉偏移,最終難以被檢索到——這正是我們最想避免的問題。
為此,研究團隊設計了一個叫做"語義速度閥"(Semantic Speed Gate)的組件。這個組件的工作原理可以這樣理解:給每一種"關系類型"配備一個旋轉速度開關,數值在0到1之間。數值接近1,意味著這類關系變化很快,對應的知識會旋轉得很猛;數值接近0,意味著這類關系幾乎永恒不變,對應的知識幾乎不旋轉。
神奇之處在于,這個速度開關的數值不是人工設定的,而是系統通過閱讀關系名稱的文字表述自動學習出來的。研究團隊讓速度閥組件分析大量歷史數據,從中學習"哪類關系在現實中經常發生變化"。學習完成后,當系統遇到"president of(擔任……的總統)"這樣的詞語時,它通過理解這段文字的語義含義,自動判斷這是一種變化頻繁的關系,于是賦予它接近1的速度值;而遇到"born in(出生于)"時,系統理解這是一種極少改變的關系,于是賦予它接近0的速度值。
這個設計帶來了一個極為實用的特性:零樣本泛化。假設訓練數據里出現了"married to(嫁給/娶了)"這個關系,系統學會了它相對穩定的性質(速度值低)。當系統在實際使用中遇到從未見過的關系"wedded to(與……結婚)"時,由于這兩個短語在語義上非常相近,系統能夠自動推斷出"wedded to"也應該有較低的旋轉速度,無需任何額外訓練。同樣,即使系統從未接觸過金融領域的專業術語,它也能通過語義推斷出"has quarterly revenue(具有季度營收)"與"held office(擔任職務)"在語義上的相似性,從而正確地將前者判定為高波動性關系。
從實驗結果來看,速度閥的判斷相當準確。在已見過的政治事件類關系中,"Consult(磋商)"獲得了0.87的高速度值,"Host a visit(接待訪問)"獲得了0.86,而"Cooperate militarily(軍事合作)"和"Cooperate economically(經濟合作)"則分別獲得了0.09和0.16的低速度值——因為國家間的軍事和經濟合作關系通常比較穩定。在從未見過的關系中,"met with(會見)"被正確賦予了0.71的高速度值,"visited(訪問)"為0.64,而"citizen of(是……公民)"和"species(是……物種)"則被正確賦予了0.17和0.22的低速度值。
速度閥對永久性知識的保護效果,在"DMR-MSC"這個專門測試靜態記憶的基準中得到了驗證——該測試中ROMEM的表現與不加任何時間處理的基礎系統基本持平,說明時間旋轉機制確實沒有"誤傷"那些不應該旋轉的永久性事實。
四、分兩步走的學習策略:先學"哪些變化快",再學"變化的節奏"
將速度閥和旋轉機制合并在一起訓練,會產生一個微妙的問題:如果同時學習"哪些關系變化快"和"時間旋轉的具體節奏",這兩件事會相互干擾,導致學習失敗。具體來說,對時間旋轉的訓練需要把不同時間點的信息作為"負樣本",告訴系統"這個時間點是錯的"——但這對于永恒不變的關系來說是不公平的,因為對于"出生于"這類關系,任何時間點都是"正確的",強行把其他時間點當負樣本會誤導系統認為這類關系也需要快速旋轉。
研究團隊因此采用了一個巧妙的兩階段訓練方案。第一階段在正式訓練開始之前單獨完成:專門訓練速度閥,只讓它學習"哪些關系變化得快、哪些變化得慢"。訓練數據來自ICEWS05-15數據集(一個包含2005年到2015年全球政治事件的大型數據庫),訓練方法是觀察歷史上同一個"主語+關系"組合下,賓語(也就是對象)有沒有隨時間改變。比如,"(美國, 總統)"這個組合下,賓語換過好幾次(從克林頓到小布什到奧巴馬),那么"總統"這個關系就被標記為高波動性;而"(奧巴馬, 出生于)"下面的賓語從未改變,那么"出生于"就被標記為低波動性。速度閥通過大量這樣的樣本學習之后,就能理解不同關系的內在時間特性。這個階段訓練完成后,速度閥的參數就被固定下來,不再參與第二階段的調整。
第二階段才是主體訓練:在速度閥參數凍結的前提下,學習知識點在向量空間中的具體位置(也就是"時間旋轉的節奏")。這個階段的損失函數包含三個部分:一是結構性損失,確保知識圖譜中的關系結構被正確表達;二是時間對比損失,通過比較"正確時間點"和"錯誤時間點"來訓練系統的時間判斷能力;三是正則化損失,防止系統過度擬合訓練數據。時間對比損失使用了一個"軟性高斯目標",即系統不必死記正確時間的精確值,只需要知道"越接近正確時間越好",這大大提高了系統對未見時間點的泛化能力。
這種兩階段策略的成效在消融實驗中得到了驗證:如果將兩個階段合并為一步同時訓練,系統要么出現"速度閥崩潰"(所有關系都被賦予相近的速度值,失去區分能力),要么出現永久性關系被錯誤地賦予高速度值的情況,導致靜態知識隨時間旋轉而逐漸無法被檢索。
五、在四個不同的考場上驗證實力
研究團隊用四個完全不同的測試場景來驗證ROMEM的實際效果,分別對應四個層次的挑戰。
第一個測試是時序知識圖譜補全(ICEWS05-15),這是一個純粹考察"知識圖譜嵌入能力"的標準化學術測試,包含2005年到2015年間的大量國際政治事件三元組,系統需要根據歷史數據預測遺漏的信息。ROMEM在這個測試中取得了72.6的MRR分數(MRR是一種綜合衡量排名質量的指標,越高越好),顯著超過了此前的最優方法3DG-TE(69.4),以及作為基礎架構的ChronoR(68.4)。這一結果證明,功能性時間建模和語義速度閥不但沒有損害原有的知識圖譜表達能力,反而有所提升。
第二個測試是MultiTQ,這是一個專門考察復雜時序推理的問答基準,包含近五百道需要精確時間判斷的問題,比如"誰在2009年之后成為某國的總統"或"某事件發生在哪一年"。這個測試最能體現ROMEM處理時間沖突的核心優勢。結果相當驚人:在GPT-5-mini配置下,ROMEM取得了0.337的MRR,而現有最好的圖譜記憶系統HippoRAG只有0.203;在下游答案準確率上,ROMEM達到了0.366,而HippoRAG只有0.112——也就是說,ROMEM的準確率是其三倍多。Mem0、Zep等其他系統的表現也與HippoRAG相近,遠低于ROMEM。這個巨大的差距清晰地展示了幾何遮蔽機制的效力:當多個時間段的矛盾信息同時存在時,ROMEM能夠向下游AI大模型提供一個干凈、無歧義的信息窗口,而其他系統則把所有矛盾信息混在一起傳給大模型,導致大模型困惑不堪。
第三個測試是LoCoMo,這是一個考察長期對話記憶的綜合性基準,既有時間相關問題,也有多跳推理、開放問答等各類型問題,更全面地反映真實使用場景。這個測試的關鍵在于:它不僅考驗系統能否處理時間問題,還考驗時間處理機制是否會"誤傷"非時間性問題。ROMEM以0.857的綜合平均分位居第一,不僅在時間推理子類(0.726)超越了基礎HippoRAG(0.645),在單跳問題(0.768)和開放問答(0.904)上也有明顯提升。Zep在多跳問題上略有優勢,但綜合評分低于ROMEM。這說明速度閥的"選擇性旋轉"機制工作正常:只對動態信息施加旋轉,對靜態信息保持不變,所以整體性能沒有受到任何拖累。
第四個測試是FinTMMBench,這是一個金融領域的時序問答基準,考察系統在全新未知領域的零樣本泛化能力。系統在此前從未接觸過金融專業術語,卻需要正確判斷"季度營收""股價波動"等金融關系的時間波動性。ROMEM以0.728的MRR略微領先A-Mem(0.716)和基礎HippoRAG(0.690)。這個結果驗證了速度閥并非在死記硬背訓練數據中的具體關系,而是真正學到了"關系是否易變"這一普適性語義規律,因此能夠推廣到完全陌生的領域。
六、系統架構的完整圖景:從原始文本到最終答案
完整地了解ROMEM的工作流程,有助于理解它如何作為"即插即用"的模塊與現有系統配合。整個流程分為四個階段,環環相扣。
原始文本進入系統后,首先經過時序開放信息抽取(Temporal OpenIE)階段,一個大模型會從文本中提取結構化的三元組,同時盡可能提取事件發生的時間(文本時間)并記錄當前攝入的時間(觀測時間)。這兩個時間是分開記錄的:前者用于幾何旋轉計算,后者用于基本的元數據管理。如果文本中沒有明確的時間信息,文本時間就留空,系統會退化到純語義檢索模式。
抽取出的三元組以"只增不刪"的方式存入知識圖譜,同時也存入對應的文本段落索引。所有矛盾信息都共存于同一個圖譜中,不做任何刪除或標注。這是ROMEM的關鍵架構特性:它不試圖在存儲階段解決沖突,而是把沖突解決推遲到查詢階段,用幾何方法自然處理。
當查詢到來時,系統首先用語義檢索(基于密集向量相似度和個性化PageRank圖遍歷)找出一批候選事實,然后用時序知識圖譜嵌入模型對這批候選事實進行重新排序。重排序時,系統會根據查詢意圖自動選擇三種模式之一:如果查詢明確指定了時間(比如"2009年的總統是誰"),就嚴格按照該時間點的幾何對齊度排序;如果查詢是在問時間本身(比如"某事件是何時發生的"),就把每條信息的存儲時間作為排序參考;如果查詢沒有時間信息(比如"現任總統是誰"),就默認使用當前時間來排序,依靠幾何遮蔽自然優先顯示最新信息。最終排好序的候選事實被送入下游AI大模型,由大模型生成自然語言答案。
整個過程中,語義檢索和時序重排序以乘法門控的方式結合,確保時序信號只能放大語義上已經相關的信息,而不會讓"時間對得很準但內容完全無關"的信息意外闖入結果。
歸根結底,ROMEM想解決的問題其實非常日常:當你的AI助手告訴你某件事,你怎么確定它說的是"當時有效"的信息,而不是已經過時的舊知識?現有系統基本靠"刷新日期"來應對這個問題,就像操作系統靠文件修改時間來管理文檔——簡單粗暴,但對"時效性本來就不一樣"的不同類型信息來說,這個方法太過粗糙。ROMEM的貢獻在于提出了一套更精細的機制:讓知識本身"知道自己的有效期",并用數學方式把這種有效期編碼進向量空間的幾何結構里,從根本上告別了"要么刪除歷史、要么淹沒在矛盾信息里"的兩難困局。
對于普通用戶而言,這意味著未來的AI助手在處理"最近的新聞"和"歷史上的事情"時,能夠更加準確地區分哪些信息是真正應該優先顯示的,而不是一古腦兒把所有相關內容都丟過來,讓用戶自己去辨別。對于構建企業知識庫或個人知識管理工具的開發者來說,ROMEM提供了一個現成的模塊化方案,理論上可以直接插入任何現有的圖譜記憶系統,無需重建整個架構。當然,這套系統目前仍處于學術研究階段,與真實產品之間還有工程落地的距離,但它所提出的核心思路——用連續幾何旋轉代替離散時間標簽——為整個領域提供了一個清晰可行的方向。對這項研究感興趣的讀者,可以通過arXiv編號2604.11544找到原始論文深入研讀。
Q&A
Q1:ROMEM是什么,它和普通的AI記憶系統有什么區別?
A:ROMEM是一個專門處理"時間沖突"的知識圖譜記憶模塊。普通AI記憶系統把時間當作一個標簽來管理信息,導致要么刪除歷史記錄、要么把矛盾信息混在一起傳給AI。ROMEM則把時間變成一種數學旋轉操作,讓過時的事實在向量空間里自然"轉偏",從而被最新有效的信息自動壓制,同時歷史數據完整保留,支持查詢任意時間點的信息。
Q2:語義速度閥是怎么知道哪些知識會變化、哪些永遠不變的?
A:語義速度閥通過分析關系名稱的文字表述來判斷,它不依賴人工標注,而是從歷史數據中自動學習。它觀察同一類關系下對象實體是否隨時間發生變化:如果"擔任……總統"這類關系的對象經常換人,就被判定為高波動性;如果"出生于"這類關系的對象從未改變,就被判定為低波動性。學習完成后,面對從未見過的新關系,它能通過語義相似性推斷波動性,實現零樣本泛化。
Q3:ROMEM在時序問答測試中比其他系統強多少?
A:在MultiTQ這個專門考察復雜時序推理的基準測試中,ROMEM的下游答案準確率達到0.366,而當前最好的同類系統HippoRAG只有0.112,約為其三倍。MRR指標上ROMEM為0.337,HippoRAG為0.203。這個巨大差距來自于ROMEM能向下游AI大模型提供干凈無歧義的時序上下文,而其他系統會把矛盾信息混在一起,導致AI大模型困惑和答題失誤。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.