賽博腦白金，能治好AI的失憶癥嗎？

2026-04-15 12:19:30　來源: 字母榜

北京舉報(bào)

分享至

小時(shí)候有個(gè)魔性廣告，叫“今年過節(jié)不收禮，收禮只收腦白金”。

于是經(jīng)歷過那個(gè)年代的人，通常把“補(bǔ)腦”和“腦白金”綁定在了一起。至于這玩意兒到底有沒有用？這我不好說。

20多年過去了，AI時(shí)代到來，我突然發(fā)現(xiàn)，現(xiàn)在的AI也開始吃“腦白金”了。

你有沒有類似的經(jīng)歷。比如說跟某個(gè)AI聊到第30輪，它突然“失憶”了。你前面剛說過的需求，它轉(zhuǎn)頭就忘得一干二凈。你用Claude寫了一下午代碼，第二天重新打開，它對昨天的任務(wù)毫無印象，你問它某個(gè)代碼，它只能從頭過一遍代碼庫再回答你。

整個(gè)AI行業(yè)，苦這個(gè)系統(tǒng)性“老年癡呆癥”久矣。

于是，一個(gè)新興產(chǎn)業(yè)誕生了。從外掛層、系統(tǒng)層、模型層給AI喂“賽博腦白金”。

比如在GitHub上已經(jīng)有5萬多顆星的Claude-Mem，還有DeepSeek DSA、阿里的Qwen3-Next這樣的底層架構(gòu)優(yōu)化，整個(gè)產(chǎn)業(yè)都在瘋狂給AI增加記憶力。

AI再聰明，記不住事兒也白搭。

那么2026年，到底都有哪些“賽博腦白金”在給AI補(bǔ)腦，它們各自的配方又是什么？

賽博腦白金產(chǎn)品圖鑒

壓縮式記憶管理是第一種思路，核心邏輯是把長篇大論變成“小作文”。

當(dāng)然和咱們貼吧論壇看到的那些小作文肯定不一樣了，這種“小作文”是給大模型看的，只有上下文中的關(guān)鍵信息。

這類產(chǎn)品不是擴(kuò)大AI的記憶容量，而是讓同樣的空間裝下更多東西。就像你整理行李箱一樣，你把衣服揉成團(tuán)，你可能只塞得下幾件衣服，但你要是疊好了再放進(jìn)去，就能塞很多衣服。

Claude-Mem是這個(gè)領(lǐng)域最火的產(chǎn)品。

這個(gè)項(xiàng)目在2025年底發(fā)布，到現(xiàn)在GitHub上已經(jīng)有5萬多顆星了。它專門為Claude Code設(shè)計(jì)，解決的就是記憶太短的問題。

Claude-Mem的做法很巧妙，它通過5個(gè)生命周期鉤子自動(dòng)捕獲你和AI的所有對話，然后用AI本身來壓縮這些信息。會(huì)話開始時(shí)加載輕量級索引，需要時(shí)再展開詳細(xì)內(nèi)容，模仿人類記憶的工作方式。

這種“漸進(jìn)式披露”的設(shè)計(jì)很聰明。

你不需要一次性把所有歷史對話都塞進(jìn)上下文窗口，而是先看個(gè)目錄，需要哪部分再調(diào)出來。

它這個(gè)做法就像我寫文章講故事，你不能一上來就把事情都說了，你得先說個(gè)時(shí)間線，多少多少年間，然后再說那個(gè)時(shí)間段發(fā)生的事。

類似的技術(shù)還有LongLLMLingua和Acon。

LongLLMLingua通過提示詞壓縮實(shí)現(xiàn)高達(dá)20倍的壓縮率，特別適合那些只能通過API調(diào)用、看不到內(nèi)部結(jié)構(gòu)的黑盒模型。

Acon則更進(jìn)一步，它在自然語言空間里做壓縮優(yōu)化，在AppWorld等基準(zhǔn)測試中把內(nèi)存使用降低了26%到54%，同時(shí)基本不影響任務(wù)表現(xiàn)。

這些工具本質(zhì)上都在做同一件事，用更少的token說更多的話。

但壓縮終究有極限，你再怎么壓縮，到最后至少得保留基本信息。

這時(shí)候就需要第二種思路，外掛式記憶系統(tǒng)。

如果說壓縮是“節(jié)流”，外掛記憶就是“開源”。這類系統(tǒng)不再試圖把所有東西塞進(jìn)AI的上下文窗口，而是在模型外部建立一個(gè)獨(dú)立的記憶倉庫。

需要的時(shí)候，AI可以主動(dòng)去這個(gè)倉庫里翻找相關(guān)信息。

Mem0是這個(gè)方向的代表作品。它采用動(dòng)態(tài)提取、整合和檢索的架構(gòu)，把對話中的關(guān)鍵信息存儲(chǔ)到外部數(shù)據(jù)庫。

需要時(shí)通過語義相似度檢索相關(guān)記憶。實(shí)驗(yàn)數(shù)據(jù)顯示，Mem0在LOCOMO基準(zhǔn)測試中比OpenAI的記憶系統(tǒng)提升了26%，同時(shí)響應(yīng)時(shí)間降低91%, token使用量減少90%以上。

LOCOMO是目前較有代表性的長期對話記憶基準(zhǔn)之一。

它包含單跳問題、時(shí)序問題、多跳問題和開放域問題四大類。單跳問題考驗(yàn)AI能否記住單個(gè)事實(shí)，多跳問題則要求AI綜合多次對話中分散的信息。

Mem0在多跳問題上的F1分?jǐn)?shù)達(dá)到28.64，J分?jǐn)?shù)51.15，明顯超過其他方案。

這說明它不只是能記住零散的事實(shí)，還能把這些事實(shí)串聯(lián)起來。

更有意思的是MemGPT，不過它現(xiàn)在已經(jīng)改叫Letta了。它的工作原理是把LLM視為操作系統(tǒng)，實(shí)現(xiàn)類似計(jì)算機(jī)虛擬內(nèi)存的分層管理。

跟蘋果Mac用的儲(chǔ)存技術(shù)原理一樣，當(dāng)物理內(nèi)存不夠用時(shí)，系統(tǒng)會(huì)把暫時(shí)不用的數(shù)據(jù)挪到硬盤上，需要時(shí)再調(diào)回來。

MemGPT把這套邏輯搬到了AI記憶管理上。它通過顯式的讀寫操作讓模型自主管理內(nèi)存，在工作記憶、短期記憶和長期記憶之間靈活調(diào)度。

這個(gè)設(shè)計(jì)的精妙之處在于，它不是人為規(guī)定什么該記什么該忘，而是讓AI自己決定。AI可以調(diào)用函數(shù)把當(dāng)前不重要的信息寫入外部存儲(chǔ)，也可以在需要時(shí)把舊記憶讀回上下文窗口。

這種自主管理能力讓AI的記憶系統(tǒng)跟我們是一樣的。

我們也不是把所有經(jīng)歷都時(shí)刻記在腦子里，而是需要時(shí)才努力回憶。

還有Zep、Second Me、Cognee等一系列產(chǎn)品，它們各有特色但殊途同歸，都是在模型的固定上下文窗口之外構(gòu)建可擴(kuò)展的外部記憶層。

第三種思路叫做軟提示編碼。

這種方法不存儲(chǔ)文本，而是把提示詞編碼成連續(xù)的可訓(xùn)練嵌入或鍵值對。像是500xCompressor這樣的架構(gòu)，能通過軟提示編碼實(shí)現(xiàn)了高達(dá)480倍的壓縮率。

這個(gè)技術(shù)的本質(zhì)是給AI發(fā)明一套“暗號”。就像“今晚老地方”這句話一樣，這是只有你和你朋友之間才懂的梗，一個(gè)眼神、一個(gè)詞就能想到一塊去。

軟提示編碼也是這樣，用幾個(gè)特殊token就能讓模型回想起大段內(nèi)容。這些特殊token在人類看來毫無意義，但對模型來說，它們是高度濃縮的信息載體。

這種方法的壓縮率遠(yuǎn)超前兩種，但也有明顯的局限。

這些編碼后的“暗號”只對訓(xùn)練過的特定模型有效，換個(gè)模型就不認(rèn)識了。而且編碼過程需要額外的訓(xùn)練成本，不像前兩種方法那樣即插即用。所以軟提示編碼更適合那些長期使用同一個(gè)模型、對壓縮率要求極高的場景。

這三種外掛式的解決方案各有千秋。

壓縮式記憶管理實(shí)現(xiàn)簡單，成本低，但壓縮率有上限。外掛式記憶系統(tǒng)容量幾乎無限，但需要額外的數(shù)據(jù)庫和檢索機(jī)制。軟提示編碼壓縮率最高，但靈活性最差。實(shí)際應(yīng)用中，很多產(chǎn)品會(huì)把這幾種方法結(jié)合起來，在不同場景下選擇最合適的策略。

但這些終究是“打補(bǔ)丁”。它們在模型外部做文章，沒有觸及問題的根源。真正的突破，需要從模型架構(gòu)本身下手。

從架構(gòu)層面動(dòng)刀子

前面說的那些方案，它們能緩解記憶問題，卻無法根治。因?yàn)閱栴}的根源在Transformer架構(gòu)本身是有缺陷的，注意力機(jī)制的計(jì)算復(fù)雜度是序列長度的平方。上下文窗口每擴(kuò)大一倍，計(jì)算成本就翻四倍。

這不是工程優(yōu)化能解決的，需要從數(shù)學(xué)原理上重新設(shè)計(jì)。

DeepSeek Sparse Attention（DSA）是這個(gè)方向的代表性突破。

DSA在2025年隨DeepSeek-V3.2-Exp一起發(fā)布，核心思想是“不是所有token都需要互相看”。傳統(tǒng)的全量注意力機(jī)制里，每個(gè)token都要和序列中的所有其他token計(jì)算注意力分?jǐn)?shù)。

這在短序列里沒問題，但當(dāng)上下文窗口擴(kuò)展到幾十萬token時(shí)，計(jì)算量就變得不可接受了。

DSA采用兩階段設(shè)計(jì)：先用一個(gè)輕量級的“索引器”快速評估哪些token最相關(guān)，然后只對這些精選出來的token做完整的注意力計(jì)算。

核心注意力計(jì)算從對所有token做精算，變成只對top-k候選做精算；索引器仍要掃描候選歷史，但用更輕量的低維/低精度方式降低成本。

關(guān)鍵在于，這種稀疏化是動(dòng)態(tài)的、基于內(nèi)容的。不像有些方法只看固定窗口內(nèi)的token或隨機(jī)采樣，DSA會(huì)根據(jù)實(shí)際內(nèi)容決定哪些token重要。

說白了，就是讓AI先快速掃一遍所有內(nèi)容，找出跟當(dāng)前問題最相關(guān)的那些部分，然后只仔細(xì)看這些重點(diǎn)。就像你看書找資料一樣，你不可能逐字逐句讀，你會(huì)先翻目錄和關(guān)鍵詞，定位到相關(guān)章節(jié)再去仔細(xì)閱讀。

這讓它在大幅降低計(jì)算量的同時(shí)，幾乎不損失模型性能。在各種推理任務(wù)和智能體環(huán)境的測試中，DSA的表現(xiàn)和全量注意力基本持平。

另一個(gè)重要方向是混合注意力架構(gòu)。

這個(gè)思路認(rèn)為，不是所有層都需要昂貴的全量注意力。大部分層可以用更便宜的線性注意力或狀態(tài)空間模型，只在關(guān)鍵位置保留全量注意力。

阿里的Qwen3-Next在2025年9月發(fā)布，核心是Hybrid Attention機(jī)制。它用Gated DeltaNet加Gated Attention替代傳統(tǒng)全量注意力，原生支持256K上下文，理論上可擴(kuò)展到100萬token。

Gated DeltaNet是一種線性注意力變體，計(jì)算復(fù)雜度從平方降到線性。但純粹的線性注意力在某些任務(wù)上表現(xiàn)不如全量注意力，所以Qwen3-Next采用3:1的混合比例。每3層用Gated DeltaNet，1層用Gated Attention。

這個(gè)設(shè)計(jì)很聰明。

線性注意力層負(fù)責(zé)處理大部分的上下文信息，成本低但能力稍弱。全量注意力層則在關(guān)鍵位置做精細(xì)的全局建模，成本高但效果好。兩者配合，既保證了性能，又大幅降低了計(jì)算開銷。

官方數(shù)據(jù)顯示，Qwen3-Next-80B-A3B-Base相比Qwen3-32B-Base，在超過32K上下文時(shí)有10倍推理吞吐優(yōu)勢。

月之暗面的Kimi Linear，采用Kimi Delta Attention加全局MLA，也是3:1比例的混合架構(gòu)。

Kimi Delta Attention本質(zhì)上是對Gated DeltaNet的改進(jìn)。在100萬token場景下，KV cache最多減少75%，解碼吞吐最高提升6倍。

這些混合架構(gòu)的共同點(diǎn)是，他們都把長上下文處理從“每個(gè)token都互相看一遍”改成“多數(shù)層用更便宜的記憶狀態(tài)，少數(shù)層保留全局注意力”。

換個(gè)說法，你開車得用導(dǎo)航吧？

大部分時(shí)間你只需要看著前方道路和路標(biāo)往前走，這是“便宜的記憶狀態(tài)”。但到了復(fù)雜路口，有行人、有電摩托車、可能還有剛才發(fā)生追尾的事故車，這時(shí)候你就得抬頭看整個(gè)路況、回憶來時(shí)的路、判斷該往哪拐，因此你需要“全局注意力”。

不是每一秒都要?jiǎng)佑萌磕X力，而是只在關(guān)鍵節(jié)點(diǎn)才全力思考。

這不是簡單的性能妥協(xié)，這是在對注意力機(jī)制本質(zhì)進(jìn)行重新思考。AI并不需要時(shí)刻記住所有細(xì)節(jié)，只需要在關(guān)鍵決策點(diǎn)做全局審視。

然而當(dāng)下最流行的玩法，還得是硬件與算法協(xié)同優(yōu)化。

再好的算法，如果硬件跟不上，也發(fā)揮不出全部威力。英偉達(dá)在GTC 2026上發(fā)布的BlueField-4 CMX平臺就是這個(gè)方向最具代表性的產(chǎn)品。

這是一個(gè)專門為“百萬級token上下文”時(shí)代設(shè)計(jì)的上下文記憶存儲(chǔ)平臺。

傳統(tǒng)GPU的顯存帶寬雖然高，但容量有限。當(dāng)上下文窗口擴(kuò)展到幾十萬甚至上百萬token時(shí)，KV cache的大小會(huì)超過單張GPU的顯存容量。BlueField-4 CMX通過專用的內(nèi)存擴(kuò)展硬件，在保持高帶寬的同時(shí)大幅擴(kuò)展容量。

它采用分層存儲(chǔ)架構(gòu)，把熱數(shù)據(jù)放在GPU顯存，溫?cái)?shù)據(jù)放在擴(kuò)展內(nèi)存，冷數(shù)據(jù)放在系統(tǒng)內(nèi)存或SSD，通過智能調(diào)度實(shí)現(xiàn)大容量支持。

好比說GPU顯存是你的工作臺，它空間有限。

BlueField-4 CMX就相當(dāng)于在這個(gè)工作臺旁邊加了個(gè)置物架，常用的工具放臺面，偶爾用的放第一層架子，不常用的放更遠(yuǎn)的柜子。

需要時(shí)系統(tǒng)自動(dòng)幫你把東西拿過來，你感覺不到區(qū)別，但實(shí)際上能放的東西多了幾十倍。

像亞馬遜的Trainium芯片，谷歌的TPU，現(xiàn)在AI芯片的開發(fā)商，都會(huì)和大模型廠商共同研發(fā)下一代芯片，其原因就在于能讓芯片專業(yè)對口，滿足模型的各項(xiàng)需求，進(jìn)而達(dá)到更好的訓(xùn)練以及推理效果。

記憶，AGI最后一塊拼圖

當(dāng)前的AI記憶系統(tǒng)缺乏人類記憶的關(guān)鍵特征。

人類記憶有遺忘機(jī)制，不重要的細(xì)節(jié)會(huì)自然淡化。人類記憶有鞏固過程，重要的經(jīng)歷會(huì)在睡眠中被強(qiáng)化。人類記憶有學(xué)習(xí)能力，相似的經(jīng)驗(yàn)會(huì)被歸納成模式。人類記憶有壓縮策略，我們不記得每頓飯吃了什么，但記得那次特別的生日宴會(huì)。

AI的記憶系統(tǒng)沒有這些玩意。

所有記憶都是“平的”，3個(gè)月前的隨口一句話和昨天的重要決定被同等對待。

沒有輕重緩急，沒有遺忘更新，沒有主動(dòng)整理。

結(jié)果就是記憶越多，上下文反而越混亂。就像一個(gè)從不整理的倉庫，堆的東西越多，越難找到需要的那一件。

奧特曼在2025年的采訪中提到記憶是通往AGI很重要的一個(gè)板塊，而這個(gè)判斷也正在成為硅谷的新共識。

真正的智能不僅需要理解當(dāng)下，更需要從過往經(jīng)驗(yàn)中學(xué)習(xí)和積累。一個(gè)每天都“失憶”的AI，無論單次對話多么聰明，也很難稱得上真正的智能。

人類之所以聰明，很大程度上歸功于記憶系統(tǒng)本身的運(yùn)作機(jī)制。

我們能區(qū)分短期記憶和長期記憶，能根據(jù)情感強(qiáng)度和重要性為記憶打上不同標(biāo)簽，能在需要時(shí)快速檢索相關(guān)經(jīng)驗(yàn)，也能主動(dòng)遺忘不重要的細(xì)節(jié)。

這套復(fù)雜的記憶機(jī)制，是幾億年進(jìn)化的結(jié)果。AI想要達(dá)到人類水平的智能，至少也需要類似復(fù)雜度的記憶系統(tǒng)。

從技術(shù)路徑來看，未來可能會(huì)出現(xiàn)多種方案的融合。

應(yīng)用層的外掛記憶系統(tǒng)提供靈活性和可控性，你可以隨時(shí)查看AI記住了什么，也可以手動(dòng)刪除或添加記憶。架構(gòu)層的優(yōu)化提供效率和性能，讓AI能夠原生處理更長的上下文，不需要復(fù)雜的外部系統(tǒng)。認(rèn)知科學(xué)啟發(fā)的記憶機(jī)制設(shè)計(jì)則提供智能性，讓AI知道什么該記，什么該忘，什么該鞏固，什么該壓縮。

這跟我們?nèi)祟惔竽X是一樣的。我們同時(shí)擁有海馬體、前額葉皮層、杏仁核等多個(gè)記憶相關(guān)區(qū)域，它們分工合作，共同構(gòu)成了完整的記憶系統(tǒng)。

海馬體負(fù)責(zé)形成新記憶，前額葉皮層負(fù)責(zé)工作記憶和決策，杏仁核負(fù)責(zé)情緒記憶。未來的AI系統(tǒng)也可能需要多層次、多模態(tài)的記憶架構(gòu)。

有些記憶需要快速訪問，就放在類似工作記憶的地方。

有些記憶需要長期保存，就存入類似長期記憶的倉庫。

有些記憶需要情感標(biāo)簽，就加上重要性權(quán)重。

有些記憶需要定期鞏固，就設(shè)計(jì)主動(dòng)回顧機(jī)制。這些不同類型的記憶，需要不同的存儲(chǔ)和檢索策略。

現(xiàn)在關(guān)于AI記憶的研究，還處于早期階段。大部分方案都在解決“如何記住更多”的問題，很少考慮“如何聰明地遺忘”。

但遺忘和記憶一樣重要。一個(gè)記住所有細(xì)節(jié)的系統(tǒng)，未必比一個(gè)知道什么該記什么該忘的系統(tǒng)更智能。人類大腦每天都在主動(dòng)遺忘，這不是缺陷，這是優(yōu)秀的物種特性。

未來的AI記憶系統(tǒng)，可能需要學(xué)會(huì)遺忘。不是簡單的刪除舊數(shù)據(jù)，而是智能的信息衰減和壓縮。不重要的細(xì)節(jié)逐漸模糊，但核心要點(diǎn)保留下來。

就像你記得童年的某個(gè)夏天很快樂，但不記得那天具體吃了什么、具體玩了哪款游戲。

這種有損壓縮，反而讓記憶更有價(jià)值。

賽博腦白金們的使命，就是在AGI到來之前，先幫AI把“記性”補(bǔ)上來。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.