无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Mind Lab聯(lián)合NTU、復旦推出δ-mem,參數(shù)僅0.12%

0
分享至



本研究由南洋理工大學、復旦大學、Mind Lab、上海交通大學、香港中文大學、香港科技大學(廣州)聯(lián)合完成。共同第一作者為雷京迪(南洋理工 / Mind Lab)和張迪(復旦 / Mind Lab),通訊作者包括 Soujanya Poria(南洋理工大學)。團隊長期深耕參數(shù)化記憶與體驗智能方向。

不擴上下文窗口、不換骨干架構(gòu)、不做全參數(shù)微調(diào) —— 只需要一個 8×8 的在線狀態(tài)矩陣,就能讓凍結(jié)的 Transformer 擁有真正的長期記憶。

大模型的記憶問題,可能是 2026 年最難啃的硬骨頭之一。隨著 LLM 被部署到長期個性化助手、長周期 Agent 系統(tǒng)等場景,模型的生命周期不再只是簡單的一問一答,而是要在持續(xù)交互中累積、更新、復用歷史信息。

最直接的解決思路是什么?擴上下文窗口

但這條路撞墻了。一方面,標準注意力的成本隨上下文長度呈二次方增長;另一方面,即使把窗口擴到百萬 token,模型也會出現(xiàn) "context rot"—— 即上下文越長,性能反而越差。雖然現(xiàn)在很多產(chǎn)品宣稱有百萬 token 窗口,實際卻并沒有從根本上解決記憶問題。

剛剛,來自南洋理工大學、復旦大學、Mind Lab、上海交大、港中文、港科大(廣州)的聯(lián)合團隊發(fā)布了一項重磅研究 ——δ-mem。他們用一個 8×8 的在線關(guān)聯(lián)記憶狀態(tài),給凍結(jié)的 Transformer 骨干配上了真正的長期記憶能力,在記憶密集型任務上最高提升 1.31×,參數(shù)開銷僅占骨干模型的 0.12%。



  • 論文地址:https://arxiv.org/abs/2605.12357
  • 代碼:https://github.com/MindLab-Research/delta-Mem

現(xiàn)有記憶方案,三條路都有硬傷

研究團隊首先做了一件事:從統(tǒng)一視角梳理現(xiàn)有的記憶機制。

在給定上下文窗口的情況下,所有記憶機制可以從兩個維度刻畫:記憶狀態(tài)(如何存儲歷史信息)和記憶引導(存儲信息如何影響骨干推理)。

按這個框架劃分,現(xiàn)有方法分為三大范式:

文本記憶(TMM)

代表方法:MemGPT、MemoryBank、Mem0、RAG 等。

它們將歷史信息顯式存儲為文本片段,再通過輸入上下文注入模型。這類方法的優(yōu)勢在于靈活且無需修改架構(gòu),但受限于上下文窗口的長度上限,同時伴隨檢索噪聲和信息壓縮損失。

外部通道記憶(OMM)

代表方法:Memorizing Transformers、LongMem、MLP Memory 等。

它們將記憶放置在外部模塊中,通過檢索或編碼器與骨干模型交互。模塊化設(shè)計帶來了工程上的靈活性,但也引入了額外的推理開銷和集成復雜度,且外部記憶的表征可能與骨干的內(nèi)部表征難以對齊。

參數(shù)化記憶(PMM)

代表方法:LoRA、Prefix-Tuning、ROME、MEMIT 等。

這些方法則將記憶編碼到前綴向量或適配器參數(shù)中,與凍結(jié)骨干兼容且高效。但其本質(zhì)是靜態(tài)的 —— 一旦訓練完成,參數(shù)就固定不變,難以適應動態(tài)變化的信息流。

研究團隊指出:這些局限共同指向一個需求 —— 需要一種記憶機制,既能維護緊湊且動態(tài)演化的記憶狀態(tài),又能通過與骨干內(nèi)部注意力計算緊密對齊的路徑來引導推理。δ-mem 就是為這個需求而生。

δ-mem 核心思想:把歷史壓進 8×8 矩陣,直接參與注意力

δ-mem 的設(shè)計思路可以用一句話說清:

不在上下文里塞 token,而是把歷史壓縮進一個固定大小的在線狀態(tài)矩陣,在每次生成時直接產(chǎn)生對注意力計算的低秩修正。



具體來說,在每個位置上,δ-mem 按相同順序執(zhí)行三步操作。第一步是讀?。≧ead):從舊的關(guān)聯(lián)記憶狀態(tài)中讀出與當前輸入相關(guān)的信號。第二步是引導(Steer):利用讀出的信號生成對注意力的低秩修正。第三步是寫入(Write):通過 Delta-rule 學習規(guī)則將當前信息更新進狀態(tài)矩陣。整個過程中骨干模型完全凍結(jié) —— 不做全參微調(diào)、不換架構(gòu)、不擴上下文。

關(guān)鍵技術(shù) 1:Delta-rule 學習的在線狀態(tài)

δ-mem 將記憶建模為一個矩陣 S,充當關(guān)聯(lián)記憶(Associative Memory)的載體。給定當前位置的 key-value 對,狀態(tài)更新遵循如下公式:



這條更新規(guī)則的直覺非常清晰:模型先用當前 key 去查詢舊記憶,得到預測值 St?1;然后只將預測殘差 —— 也就是「模型還沒記住的部分」—— 沿 key 方向?qū)懭?。已?jīng)學好的關(guān)聯(lián)幾乎不引起更新,而預測偏差會動態(tài)修正記憶狀態(tài)。這種選擇性寫入機制使得 δ-mem 的狀態(tài)能夠在持續(xù)交互中穩(wěn)定演化,而非被新信息無差別覆蓋。

關(guān)鍵技術(shù) 2:低秩修正引導注意力

讀出的關(guān)聯(lián)記憶信號,通過兩個輕量的線性映射分別生成 query 側(cè)和 output 側(cè)的修正量:





關(guān)鍵技術(shù) 3:三種寫入粒度

δ-mem 研究了三種寫入策略:



實驗結(jié)果:8×8 矩陣碾壓一眾基線

研究團隊在 Qwen3-4B-Instruct 上進行了系統(tǒng)對比實驗。基線方法覆蓋了三大記憶范式的代表性工作:文本記憶類的 BM25 RAG、LLMLingua-2、MemoryBank,參數(shù)化記憶類的 Context2LoRA、MemGen,以及外部通道記憶類的 MLP Memory。測試基準涵蓋通用能力評估(IFEval、HotpotQA、GPQA-Diamond)和記憶密集型任務(LoCoMo、MemoryAgentBench)。

主結(jié)果:全方位領(lǐng)先



δ-mem 相比骨干模型平均提升 1.10 倍,相比最強非 δ-mem 基線提升 1.15 倍。在記憶密集型任務上的優(yōu)勢尤為突出:MemoryAgentBench 得分從 29.54 提升至 38.85,達到 1.31 倍;LoCoMo 從 40.79 提升至 49.12,達到 1.20 倍;其中 TTL 子任務從 26.14 直接翻倍至 50.50。在通用多跳推理任務 HotpotQA 上,EM/F1 也從 42.35/56.00 提升至 49.41/63.66。

跨骨干驗證:從 3B 到 8B 都 work

δ-mem 在三個不同規(guī)模的骨干模型上都帶來了顯著提升。Qwen3-4B-Instruct 的綜合得分從 46.79 提升至 51.66,Qwen3-8B 從 47.20 提升至 50.86,SmolLM3-3B 從 26.08 提升至 36.96。

值得關(guān)注的是,最優(yōu)寫入策略與模型容量存在交互關(guān)系。對于推理能力更強的 Qwen3-8B,段級寫入(SSW)效果最好 —— 平滑的狀態(tài)更新能有效減少逐 token 的噪聲積累。而對于容量較小的 SmolLM3-3B,多狀態(tài)并行寫入(MSW)帶來了最大提升(+10.88),因為分離的記憶狀態(tài)減少了異質(zhì)信息之間的干擾。這一發(fā)現(xiàn)為不同規(guī)模模型的部署提供了實踐指導。δ-mem 在三個不同規(guī)模的骨干模型上都帶來了顯著提升。Qwen3-4B-Instruct 的綜合得分從 46.79 提升至 51.66,Qwen3-8B 從 47.20 提升至 50.86,SmolLM3-3B 從 26.08 提升至 36.96。

關(guān)鍵消融:8×8 矩陣真的 "記住了" 嗎?

研究團隊設(shè)計了一組特別有說服力的實驗來驗證記憶狀態(tài)的信息承載能力。實驗設(shè)置非常激進:直接刪掉原始歷史上下文,只注入壓縮后的 8×8 記憶狀態(tài),觀察模型能否仍然正確回答問題。

設(shè)置非常激進:直接刪掉原始歷史上下文,只注入壓縮后的 8×8 記憶狀態(tài),看模型還能不能回答問題。



結(jié)果頗為驚人。在 HotpotQA 上,EM 從 0.08% 提升至 6.48%,F(xiàn)1 從 8.27% 提升至 15.20%。在需要多跳推理的 Bridge 子集上,EM 從 0.08% 提升至 3.97%,F(xiàn)1 從 6.25% 提升至 11.05%—— 模型能從壓縮狀態(tài)中恢復部分多跳推理所需的證據(jù)鏈。LoCoMo 上的整體平均得分則從 3.49% 提升至 8.05%,多跳、時序、開放、單跳問題均有提升。這組實驗證實了一個重要結(jié)論:8×8 的在線狀態(tài)確實編碼了與上下文相關(guān)的歷史信號,可以在顯式上下文不可用時被有效復用。

Heads 消融:低秩修正注入哪里最有效?

研究團隊系統(tǒng)對比了在注意力模塊的 q/k/v/o 各分支注入低秩修正的效果。在單分支注入中,output 分支最為有效(47.05)。雙分支組合中,q+o 的表現(xiàn)最好(47.97)。四分支全注入雖然平均分最高(48.05),但相比 q+o 的邊際增益不足以抵消額外的參數(shù)開銷。因此,δ-mem 默認采用 q+o 組合,在性能與效率之間取得了最優(yōu)平衡。



插入深度消融:哪些層最關(guān)鍵?

全層注入效果最佳(47.97),而在部分層注入的實驗中,中間層的貢獻最為顯著 —— 它平衡了語義抽象與任務特定計算之間的關(guān)系。前層注入作用于過于局部的低層表征,難以承載高層語義關(guān)聯(lián);后層注入則留給關(guān)聯(lián)記憶信號傳播和整合的深度不夠。



效率與開銷:極致輕量

δ-mem 的參數(shù)開銷極為緊湊。在 Qwen3-4B-Instruct(3.6B 參數(shù))上僅引入 4.87M 額外參數(shù),占比 0.12%。隨著骨干規(guī)模增大到 Qwen3-8B(8.2B 參數(shù)),額外參數(shù)為 9.65M,占比僅 0.10%。

參數(shù)開銷:



推理效率:

δ-mem 的 GPU 內(nèi)存占用與 Vanilla、Context2LoRA 幾乎相同 —— 即使 prompt 長度擴到 32K,緊湊遞歸狀態(tài)幾乎零額外開銷:



解碼吞吐方面,δ-mem 略慢于 Vanilla(每步需讀寫在線狀態(tài)):



在推理效率方面,δ-mem 的 GPU 顯存占用與原始模型和 Context2LoRA 幾乎相同。即使 prompt 長度擴展到 32K token,由于記憶狀態(tài)是固定大小的緊湊遞歸結(jié)構(gòu),幾乎不引入額外顯存開銷。解碼吞吐量方面,δ-mem 略慢于原始模型 —— 每步需要執(zhí)行讀寫在線狀態(tài)的操作 —— 但差距在工程可接受范圍內(nèi)。

這項研究意味著什么?

δ-mem 提供了一個值得關(guān)注的新視角:有效的長期記憶不一定要靠擴展顯式上下文或部署重型外部檢索模塊。緊湊的在線狀態(tài),當與注意力計算直接耦合時,可以成為凍結(jié) Transformer 骨干進行測試時記憶的可擴展、高效接口。

從學術(shù)角度看,δ-mem 提出的「記憶狀態(tài) × 記憶引導」統(tǒng)一框架為理解和設(shè)計記憶機制提供了清晰的坐標系,而 δ-mem 本身在這個框架下開辟了一條新路徑 —— 緊湊動態(tài)狀態(tài)與低秩注意力修正的結(jié)合。從工程落地角度看,8×8 的狀態(tài)矩陣、4.87M 的參數(shù)量、與現(xiàn)有 Transformer 架構(gòu)的完全兼容性,意味著給已部署的模型「加裝」長期記憶變得切實可行。對于當前快速發(fā)展的 Agent 生態(tài)而言,長期個性化助手和長周期 Agent 的記憶瓶頸一直是核心痛點。δ-mem 在 TTL 子任務上從 26.14 翻倍至 50.50 的結(jié)果,預示著這條路徑具備可觀的工程潛力。

不過,也需要保持審慎。當前的驗證主要集中在數(shù)千到數(shù)萬 token 量級的交互場景,δ-mem 在更長周期(數(shù)十萬 token 甚至跨會話)的持續(xù)學習場景中表現(xiàn)如何,仍有待進一步檢驗。此外,8×8 的固定狀態(tài)維度是否存在信息容量的天花板,以及在更復雜的多輪 Agent 交互中記憶狀態(tài)的退化特性,都是值得后續(xù)研究探索的問題。

值得一提的是,Mind Lab 一直深耕 LoRA 和參數(shù)化記憶方向,此前已完成業(yè)界首個 1T LoRA-RL、修復 MoE 強化學習 Router Replay R3 關(guān)鍵 Bug 等工作。δ-mem 延續(xù)了團隊對「體驗智能」(Experiential Intelligence)的核心愿景 —— 構(gòu)建能從真實交互中持續(xù)學習的 AI 系統(tǒng)。

  • 論文鏈接:https://arxiv.org/abs/2605.12357
  • 代碼倉庫:https://github.com/declare-lab/delta-Mem & https://github.com/MindLab-Research/delta-Mem

對于關(guān)注大模型長期記憶、Agent 持續(xù)學習、參數(shù)高效微調(diào)的研究者和工程師來說,這篇論文值得大家仔細閱讀。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
于東來反思對員工太包容:員工不值6000元工資,一旦離開胖東來就完了

于東來反思對員工太包容:員工不值6000元工資,一旦離開胖東來就完了

頂級大佬思維
2026-06-12 12:42:48
悲哀!48歲媽媽因管教12歲女兒發(fā)生爭執(zhí),母女倆同日先后跳樓身亡

悲哀!48歲媽媽因管教12歲女兒發(fā)生爭執(zhí),母女倆同日先后跳樓身亡

記錄生活日常阿蜴
2026-06-12 15:57:51
53歲裴勇浚帶娃近照太震撼!零皺紋還是帥 韓網(wǎng)熱議:保養(yǎng)很好

53歲裴勇浚帶娃近照太震撼!零皺紋還是帥 韓網(wǎng)熱議:保養(yǎng)很好

ETtoday星光云
2026-06-12 13:06:08
內(nèi)塔尼亞胡:特朗普不打伊朗了,沒提前告訴我

內(nèi)塔尼亞胡:特朗普不打伊朗了,沒提前告訴我

政知新媒體
2026-06-12 19:06:11
謝娜再次翻車,這一次,她踢到鐵板了

謝娜再次翻車,這一次,她踢到鐵板了

桌子的生活觀
2026-06-12 11:58:27
韓國逆轉(zhuǎn)開門紅創(chuàng)7紀錄!黃仁范賽后比心硬漢柔情 韓媒:最大功臣

韓國逆轉(zhuǎn)開門紅創(chuàng)7紀錄!黃仁范賽后比心硬漢柔情 韓媒:最大功臣

顏小白的籃球夢
2026-06-12 12:31:34
美軍開始空襲伊朗

美軍開始空襲伊朗

財聯(lián)社
2026-06-11 05:42:11
國家出手!揚州“毒牙刷”曝光,成本價6分,原材料才是致癌物

國家出手!揚州“毒牙刷”曝光,成本價6分,原材料才是致癌物

姩姩有娛
2026-06-12 15:03:40
高盛跑了2萬場比賽數(shù)據(jù)后發(fā)現(xiàn):2026世界杯冠軍,大概率是它!

高盛跑了2萬場比賽數(shù)據(jù)后發(fā)現(xiàn):2026世界杯冠軍,大概率是它!

虔青
2026-06-12 08:24:15
布達拉宮地下世界復雜得嚇人!
金碧輝煌下藏著1200多個“地壟”

布達拉宮地下世界復雜得嚇人! 金碧輝煌下藏著1200多個“地壟”

西樓知趣雜談
2026-06-12 08:54:44
SpaceX美國IPO首日開盤報150美元

SpaceX美國IPO首日開盤報150美元

界面新聞
2026-06-12 23:49:26
梅西新廣告回應“慌得一批”表情包,梗圖迎來結(jié)局

梅西新廣告回應“慌得一批”表情包,梗圖迎來結(jié)局

娛樂嗑學家.
2026-06-12 16:57:23
葡萄牙6-1血洗加拿大,雷戈梅開二度領(lǐng)跑射手榜,決賽對陣突尼斯

葡萄牙6-1血洗加拿大,雷戈梅開二度領(lǐng)跑射手榜,決賽對陣突尼斯

林子說事
2026-06-12 19:37:51
主犯獲刑12年半罰沒1600萬!含砷“脫酸劑”讓耙耙柑提前一月上市,果肉檢出重金屬

主犯獲刑12年半罰沒1600萬!含砷“脫酸劑”讓耙耙柑提前一月上市,果肉檢出重金屬

紅星新聞
2026-06-05 09:04:20
時隔16年重返世界杯,巴拉圭主帥和球員在賽前發(fā)布會抱頭痛哭

時隔16年重返世界杯,巴拉圭主帥和球員在賽前發(fā)布會抱頭痛哭

懂球帝
2026-06-12 17:51:09
在荷蘭上班的華人感慨:不要信媒體,荷蘭已經(jīng)相當于我國二線城市

在荷蘭上班的華人感慨:不要信媒體,荷蘭已經(jīng)相當于我國二線城市

離離言幾許
2026-06-11 00:12:29
今日未訓練!曝34歲內(nèi)馬爾基本無緣首場小組賽 且可能3場全踢不了

今日未訓練!曝34歲內(nèi)馬爾基本無緣首場小組賽 且可能3場全踢不了

風過鄉(xiāng)
2026-06-12 22:43:31
到底真的假的?網(wǎng)傳幾乎所有大學專業(yè)都在勸退…

到底真的假的?網(wǎng)傳幾乎所有大學專業(yè)都在勸退…

慧翔百科
2026-06-12 17:40:37
魚餌含精神藥品“安定”!日產(chǎn)十噸銷往全國,廠家:魚被麻痹狂咬鉤 利潤率50%

魚餌含精神藥品“安定”!日產(chǎn)十噸銷往全國,廠家:魚被麻痹狂咬鉤 利潤率50%

貓頭鷹視頻
2026-06-12 19:15:43
《劍星:血雨》女主再遭知名外媒抨擊稱其過于性感

《劍星:血雨》女主再遭知名外媒抨擊稱其過于性感

3DM游戲
2026-06-12 09:09:10
2026-06-13 01:48:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13246文章數(shù) 142668關(guān)注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現(xiàn)空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現(xiàn)空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰(zhàn)熱巴最意外

財經(jīng)要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態(tài)度原創(chuàng)

教育
家居
房產(chǎn)
游戲
手機

教育要聞

家長成了“瘋女人”,被女兒作業(yè)搞崩潰,網(wǎng)友:太真實

家居要聞

空間微調(diào) 移形換境

房產(chǎn)要聞

海南最賺錢行業(yè)曝光!最快4年半,??谌钯I三房!

索尼PS國區(qū)運營神了!玩?!逗谂邸?我會玩你的游戲

手機要聞

vivo X Fold6再預熱:天璣9500超能版+OriginOS 6 Fold

無障礙瀏覽 進入關(guān)懷版