![]()
小時(shí)候有個(gè)魔性廣告,叫“今年過節(jié)不收禮,收禮只收腦白金”。
于是經(jīng)歷過那個(gè)年代的人,通常把“補(bǔ)腦”和“腦白金”綁定在了一起。至于這玩意兒到底有沒有用?這我不好說。
20多年過去了,AI時(shí)代到來,我突然發(fā)現(xiàn),現(xiàn)在的AI也開始吃“腦白金”了。
你有沒有類似的經(jīng)歷。比如說跟某個(gè)AI聊到第30輪,它突然“失憶”了。你前面剛說過的需求,它轉(zhuǎn)頭就忘得一干二凈。你用Claude寫了一下午代碼,第二天重新打開,它對昨天的任務(wù)毫無印象,你問它某個(gè)代碼,它只能從頭過一遍代碼庫再回答你。
整個(gè)AI行業(yè),苦這個(gè)系統(tǒng)性“老年癡呆癥”久矣。
于是,一個(gè)新興產(chǎn)業(yè)誕生了。從外掛層、系統(tǒng)層、模型層給AI喂“賽博腦白金”。
比如在GitHub上已經(jīng)有5萬多顆星的Claude-Mem,還有DeepSeek DSA、阿里的Qwen3-Next這樣的底層架構(gòu)優(yōu)化,整個(gè)產(chǎn)業(yè)都在瘋狂給AI增加記憶力。
AI再聰明,記不住事兒也白搭。
那么2026年,到底都有哪些“賽博腦白金”在給AI補(bǔ)腦,它們各自的配方又是什么?
01
賽博腦白金產(chǎn)品圖鑒
壓縮式記憶管理是第一種思路,核心邏輯是把長篇大論變成“小作文”。
當(dāng)然和咱們貼吧論壇看到的那些小作文肯定不一樣了,這種“小作文”是給大模型看的,只有上下文中的關(guān)鍵信息。
這類產(chǎn)品不是擴(kuò)大AI的記憶容量,而是讓同樣的空間裝下更多東西。就像你整理行李箱一樣,你把衣服揉成團(tuán),你可能只塞得下幾件衣服,但你要是疊好了再放進(jìn)去,就能塞很多衣服。
Claude-Mem是這個(gè)領(lǐng)域最火的產(chǎn)品。
這個(gè)項(xiàng)目在2025年底發(fā)布,到現(xiàn)在GitHub上已經(jīng)有5萬多顆星了。它專門為Claude Code設(shè)計(jì),解決的就是記憶太短的問題。
Claude-Mem的做法很巧妙,它通過5個(gè)生命周期鉤子自動(dòng)捕獲你和AI的所有對話,然后用AI本身來壓縮這些信息。會(huì)話開始時(shí)加載輕量級索引,需要時(shí)再展開詳細(xì)內(nèi)容,模仿人類記憶的工作方式。
這種“漸進(jìn)式披露”的設(shè)計(jì)很聰明。
你不需要一次性把所有歷史對話都塞進(jìn)上下文窗口,而是先看個(gè)目錄,需要哪部分再調(diào)出來。
它這個(gè)做法就像我寫文章講故事,你不能一上來就把事情都說了,你得先說個(gè)時(shí)間線,多少多少年間,然后再說那個(gè)時(shí)間段發(fā)生的事。
類似的技術(shù)還有LongLLMLingua和Acon。
LongLLMLingua通過提示詞壓縮實(shí)現(xiàn)高達(dá)20倍的壓縮率,特別適合那些只能通過API調(diào)用、看不到內(nèi)部結(jié)構(gòu)的黑盒模型。
Acon則更進(jìn)一步,它在自然語言空間里做壓縮優(yōu)化,在AppWorld等基準(zhǔn)測試中把內(nèi)存使用降低了26%到54%,同時(shí)基本不影響任務(wù)表現(xiàn)。
這些工具本質(zhì)上都在做同一件事,用更少的token說更多的話。
![]()
但壓縮終究有極限,你再怎么壓縮,到最后至少得保留基本信息。
這時(shí)候就需要第二種思路,外掛式記憶系統(tǒng)。
如果說壓縮是“節(jié)流”,外掛記憶就是“開源”。這類系統(tǒng)不再試圖把所有東西塞進(jìn)AI的上下文窗口,而是在模型外部建立一個(gè)獨(dú)立的記憶倉庫。
需要的時(shí)候,AI可以主動(dòng)去這個(gè)倉庫里翻找相關(guān)信息。
Mem0是這個(gè)方向的代表作品。它采用動(dòng)態(tài)提取、整合和檢索的架構(gòu),把對話中的關(guān)鍵信息存儲(chǔ)到外部數(shù)據(jù)庫。
需要時(shí)通過語義相似度檢索相關(guān)記憶。實(shí)驗(yàn)數(shù)據(jù)顯示,Mem0在LOCOMO基準(zhǔn)測試中比OpenAI的記憶系統(tǒng)提升了26%,同時(shí)響應(yīng)時(shí)間降低91%, token使用量減少90%以上。
LOCOMO是目前較有代表性的長期對話記憶基準(zhǔn)之一。
它包含單跳問題、時(shí)序問題、多跳問題和開放域問題四大類。單跳問題考驗(yàn)AI能否記住單個(gè)事實(shí),多跳問題則要求AI綜合多次對話中分散的信息。
Mem0在多跳問題上的F1分?jǐn)?shù)達(dá)到28.64,J分?jǐn)?shù)51.15,明顯超過其他方案。
這說明它不只是能記住零散的事實(shí),還能把這些事實(shí)串聯(lián)起來。
更有意思的是MemGPT,不過它現(xiàn)在已經(jīng)改叫Letta了。它的工作原理是把LLM視為操作系統(tǒng),實(shí)現(xiàn)類似計(jì)算機(jī)虛擬內(nèi)存的分層管理。
跟蘋果Mac用的儲(chǔ)存技術(shù)原理一樣,當(dāng)物理內(nèi)存不夠用時(shí),系統(tǒng)會(huì)把暫時(shí)不用的數(shù)據(jù)挪到硬盤上,需要時(shí)再調(diào)回來。
MemGPT把這套邏輯搬到了AI記憶管理上。它通過顯式的讀寫操作讓模型自主管理內(nèi)存,在工作記憶、短期記憶和長期記憶之間靈活調(diào)度。
這個(gè)設(shè)計(jì)的精妙之處在于,它不是人為規(guī)定什么該記什么該忘,而是讓AI自己決定。AI可以調(diào)用函數(shù)把當(dāng)前不重要的信息寫入外部存儲(chǔ),也可以在需要時(shí)把舊記憶讀回上下文窗口。
這種自主管理能力讓AI的記憶系統(tǒng)跟我們是一樣的。
我們也不是把所有經(jīng)歷都時(shí)刻記在腦子里,而是需要時(shí)才努力回憶。
還有Zep、Second Me、Cognee等一系列產(chǎn)品,它們各有特色但殊途同歸,都是在模型的固定上下文窗口之外構(gòu)建可擴(kuò)展的外部記憶層。
第三種思路叫做軟提示編碼。
這種方法不存儲(chǔ)文本,而是把提示詞編碼成連續(xù)的可訓(xùn)練嵌入或鍵值對。像是500xCompressor這樣的架構(gòu),能通過軟提示編碼實(shí)現(xiàn)了高達(dá)480倍的壓縮率。
這個(gè)技術(shù)的本質(zhì)是給AI發(fā)明一套“暗號”。就像“今晚老地方”這句話一樣,這是只有你和你朋友之間才懂的梗,一個(gè)眼神、一個(gè)詞就能想到一塊去。
軟提示編碼也是這樣,用幾個(gè)特殊token就能讓模型回想起大段內(nèi)容。這些特殊token在人類看來毫無意義,但對模型來說,它們是高度濃縮的信息載體。
這種方法的壓縮率遠(yuǎn)超前兩種,但也有明顯的局限。
這些編碼后的“暗號”只對訓(xùn)練過的特定模型有效,換個(gè)模型就不認(rèn)識了。而且編碼過程需要額外的訓(xùn)練成本,不像前兩種方法那樣即插即用。所以軟提示編碼更適合那些長期使用同一個(gè)模型、對壓縮率要求極高的場景。
這三種外掛式的解決方案各有千秋。
壓縮式記憶管理實(shí)現(xiàn)簡單,成本低,但壓縮率有上限。外掛式記憶系統(tǒng)容量幾乎無限,但需要額外的數(shù)據(jù)庫和檢索機(jī)制。軟提示編碼壓縮率最高,但靈活性最差。實(shí)際應(yīng)用中,很多產(chǎn)品會(huì)把這幾種方法結(jié)合起來,在不同場景下選擇最合適的策略。
但這些終究是“打補(bǔ)丁”。它們在模型外部做文章,沒有觸及問題的根源。真正的突破,需要從模型架構(gòu)本身下手。
02
從架構(gòu)層面動(dòng)刀子
前面說的那些方案,它們能緩解記憶問題,卻無法根治。因?yàn)閱栴}的根源在Transformer架構(gòu)本身是有缺陷的,注意力機(jī)制的計(jì)算復(fù)雜度是序列長度的平方。上下文窗口每擴(kuò)大一倍,計(jì)算成本就翻四倍。
這不是工程優(yōu)化能解決的,需要從數(shù)學(xué)原理上重新設(shè)計(jì)。
DeepSeek Sparse Attention(DSA)是這個(gè)方向的代表性突破。
DSA在2025年隨DeepSeek-V3.2-Exp一起發(fā)布,核心思想是“不是所有token都需要互相看”。傳統(tǒng)的全量注意力機(jī)制里,每個(gè)token都要和序列中的所有其他token計(jì)算注意力分?jǐn)?shù)。
這在短序列里沒問題,但當(dāng)上下文窗口擴(kuò)展到幾十萬token時(shí),計(jì)算量就變得不可接受了。
DSA采用兩階段設(shè)計(jì):先用一個(gè)輕量級的“索引器”快速評估哪些token最相關(guān),然后只對這些精選出來的token做完整的注意力計(jì)算。
核心注意力計(jì)算從對所有token做精算,變成只對top-k候選做精算;索引器仍要掃描候選歷史,但用更輕量的低維/低精度方式降低成本。
關(guān)鍵在于,這種稀疏化是動(dòng)態(tài)的、基于內(nèi)容的。不像有些方法只看固定窗口內(nèi)的token或隨機(jī)采樣,DSA會(huì)根據(jù)實(shí)際內(nèi)容決定哪些token重要。
說白了,就是讓AI先快速掃一遍所有內(nèi)容,找出跟當(dāng)前問題最相關(guān)的那些部分,然后只仔細(xì)看這些重點(diǎn)。就像你看書找資料一樣,你不可能逐字逐句讀,你會(huì)先翻目錄和關(guān)鍵詞,定位到相關(guān)章節(jié)再去仔細(xì)閱讀。
這讓它在大幅降低計(jì)算量的同時(shí),幾乎不損失模型性能。在各種推理任務(wù)和智能體環(huán)境的測試中,DSA的表現(xiàn)和全量注意力基本持平。
另一個(gè)重要方向是混合注意力架構(gòu)。
這個(gè)思路認(rèn)為,不是所有層都需要昂貴的全量注意力。大部分層可以用更便宜的線性注意力或狀態(tài)空間模型,只在關(guān)鍵位置保留全量注意力。
阿里的Qwen3-Next在2025年9月發(fā)布,核心是Hybrid Attention機(jī)制。它用Gated DeltaNet加Gated Attention替代傳統(tǒng)全量注意力,原生支持256K上下文,理論上可擴(kuò)展到100萬token。
Gated DeltaNet是一種線性注意力變體,計(jì)算復(fù)雜度從平方降到線性。但純粹的線性注意力在某些任務(wù)上表現(xiàn)不如全量注意力,所以Qwen3-Next采用3:1的混合比例。每3層用Gated DeltaNet,1層用Gated Attention。
這個(gè)設(shè)計(jì)很聰明。
線性注意力層負(fù)責(zé)處理大部分的上下文信息,成本低但能力稍弱。全量注意力層則在關(guān)鍵位置做精細(xì)的全局建模,成本高但效果好。兩者配合,既保證了性能,又大幅降低了計(jì)算開銷。
官方數(shù)據(jù)顯示,Qwen3-Next-80B-A3B-Base相比Qwen3-32B-Base,在超過32K上下文時(shí)有10倍推理吞吐優(yōu)勢。
月之暗面的Kimi Linear,采用Kimi Delta Attention加全局MLA,也是3:1比例的混合架構(gòu)。
Kimi Delta Attention本質(zhì)上是對Gated DeltaNet的改進(jìn)。在100萬token場景下,KV cache最多減少75%,解碼吞吐最高提升6倍。
這些混合架構(gòu)的共同點(diǎn)是,他們都把長上下文處理從“每個(gè)token都互相看一遍”改成“多數(shù)層用更便宜的記憶狀態(tài),少數(shù)層保留全局注意力”。
換個(gè)說法,你開車得用導(dǎo)航吧?
大部分時(shí)間你只需要看著前方道路和路標(biāo)往前走,這是“便宜的記憶狀態(tài)”。但到了復(fù)雜路口,有行人、有電摩托車、可能還有剛才發(fā)生追尾的事故車,這時(shí)候你就得抬頭看整個(gè)路況、回憶來時(shí)的路、判斷該往哪拐,因此你需要“全局注意力”。
不是每一秒都要?jiǎng)佑萌磕X力,而是只在關(guān)鍵節(jié)點(diǎn)才全力思考。
![]()
這不是簡單的性能妥協(xié),這是在對注意力機(jī)制本質(zhì)進(jìn)行重新思考。AI并不需要時(shí)刻記住所有細(xì)節(jié),只需要在關(guān)鍵決策點(diǎn)做全局審視。
然而當(dāng)下最流行的玩法,還得是硬件與算法協(xié)同優(yōu)化。
再好的算法,如果硬件跟不上,也發(fā)揮不出全部威力。英偉達(dá)在GTC 2026上發(fā)布的BlueField-4 CMX平臺就是這個(gè)方向最具代表性的產(chǎn)品。
這是一個(gè)專門為“百萬級token上下文”時(shí)代設(shè)計(jì)的上下文記憶存儲(chǔ)平臺。
傳統(tǒng)GPU的顯存帶寬雖然高,但容量有限。當(dāng)上下文窗口擴(kuò)展到幾十萬甚至上百萬token時(shí),KV cache的大小會(huì)超過單張GPU的顯存容量。BlueField-4 CMX通過專用的內(nèi)存擴(kuò)展硬件,在保持高帶寬的同時(shí)大幅擴(kuò)展容量。
它采用分層存儲(chǔ)架構(gòu),把熱數(shù)據(jù)放在GPU顯存,溫?cái)?shù)據(jù)放在擴(kuò)展內(nèi)存,冷數(shù)據(jù)放在系統(tǒng)內(nèi)存或SSD,通過智能調(diào)度實(shí)現(xiàn)大容量支持。
好比說GPU顯存是你的工作臺,它空間有限。
BlueField-4 CMX就相當(dāng)于在這個(gè)工作臺旁邊加了個(gè)置物架,常用的工具放臺面,偶爾用的放第一層架子,不常用的放更遠(yuǎn)的柜子。
需要時(shí)系統(tǒng)自動(dòng)幫你把東西拿過來,你感覺不到區(qū)別,但實(shí)際上能放的東西多了幾十倍。
像亞馬遜的Trainium芯片,谷歌的TPU,現(xiàn)在AI芯片的開發(fā)商,都會(huì)和大模型廠商共同研發(fā)下一代芯片,其原因就在于能讓芯片專業(yè)對口,滿足模型的各項(xiàng)需求,進(jìn)而達(dá)到更好的訓(xùn)練以及推理效果。
03
記憶,AGI最后一塊拼圖
當(dāng)前的AI記憶系統(tǒng)缺乏人類記憶的關(guān)鍵特征。
人類記憶有遺忘機(jī)制,不重要的細(xì)節(jié)會(huì)自然淡化。人類記憶有鞏固過程,重要的經(jīng)歷會(huì)在睡眠中被強(qiáng)化。人類記憶有學(xué)習(xí)能力,相似的經(jīng)驗(yàn)會(huì)被歸納成模式。人類記憶有壓縮策略,我們不記得每頓飯吃了什么,但記得那次特別的生日宴會(huì)。
AI的記憶系統(tǒng)沒有這些玩意。
所有記憶都是“平的”,3個(gè)月前的隨口一句話和昨天的重要決定被同等對待。
沒有輕重緩急,沒有遺忘更新,沒有主動(dòng)整理。
結(jié)果就是記憶越多,上下文反而越混亂。就像一個(gè)從不整理的倉庫,堆的東西越多,越難找到需要的那一件。
奧特曼在2025年的采訪中提到記憶是通往AGI很重要的一個(gè)板塊,而這個(gè)判斷也正在成為硅谷的新共識。
真正的智能不僅需要理解當(dāng)下,更需要從過往經(jīng)驗(yàn)中學(xué)習(xí)和積累。一個(gè)每天都“失憶”的AI,無論單次對話多么聰明,也很難稱得上真正的智能。
人類之所以聰明,很大程度上歸功于記憶系統(tǒng)本身的運(yùn)作機(jī)制。
我們能區(qū)分短期記憶和長期記憶,能根據(jù)情感強(qiáng)度和重要性為記憶打上不同標(biāo)簽,能在需要時(shí)快速檢索相關(guān)經(jīng)驗(yàn),也能主動(dòng)遺忘不重要的細(xì)節(jié)。
這套復(fù)雜的記憶機(jī)制,是幾億年進(jìn)化的結(jié)果。AI想要達(dá)到人類水平的智能,至少也需要類似復(fù)雜度的記憶系統(tǒng)。
從技術(shù)路徑來看,未來可能會(huì)出現(xiàn)多種方案的融合。
應(yīng)用層的外掛記憶系統(tǒng)提供靈活性和可控性,你可以隨時(shí)查看AI記住了什么,也可以手動(dòng)刪除或添加記憶。架構(gòu)層的優(yōu)化提供效率和性能,讓AI能夠原生處理更長的上下文,不需要復(fù)雜的外部系統(tǒng)。認(rèn)知科學(xué)啟發(fā)的記憶機(jī)制設(shè)計(jì)則提供智能性,讓AI知道什么該記,什么該忘,什么該鞏固,什么該壓縮。
這跟我們?nèi)祟惔竽X是一樣的。我們同時(shí)擁有海馬體、前額葉皮層、杏仁核等多個(gè)記憶相關(guān)區(qū)域,它們分工合作,共同構(gòu)成了完整的記憶系統(tǒng)。
![]()
海馬體負(fù)責(zé)形成新記憶,前額葉皮層負(fù)責(zé)工作記憶和決策,杏仁核負(fù)責(zé)情緒記憶。未來的AI系統(tǒng)也可能需要多層次、多模態(tài)的記憶架構(gòu)。
有些記憶需要快速訪問,就放在類似工作記憶的地方。
有些記憶需要長期保存,就存入類似長期記憶的倉庫。
有些記憶需要情感標(biāo)簽,就加上重要性權(quán)重。
有些記憶需要定期鞏固,就設(shè)計(jì)主動(dòng)回顧機(jī)制。這些不同類型的記憶,需要不同的存儲(chǔ)和檢索策略。
現(xiàn)在關(guān)于AI記憶的研究,還處于早期階段。大部分方案都在解決“如何記住更多”的問題,很少考慮“如何聰明地遺忘”。
但遺忘和記憶一樣重要。一個(gè)記住所有細(xì)節(jié)的系統(tǒng),未必比一個(gè)知道什么該記什么該忘的系統(tǒng)更智能。人類大腦每天都在主動(dòng)遺忘,這不是缺陷,這是優(yōu)秀的物種特性。
未來的AI記憶系統(tǒng),可能需要學(xué)會(huì)遺忘。不是簡單的刪除舊數(shù)據(jù),而是智能的信息衰減和壓縮。不重要的細(xì)節(jié)逐漸模糊,但核心要點(diǎn)保留下來。
就像你記得童年的某個(gè)夏天很快樂,但不記得那天具體吃了什么、具體玩了哪款游戲。
這種有損壓縮,反而讓記憶更有價(jià)值。
賽博腦白金們的使命,就是在AGI到來之前,先幫AI把“記性”補(bǔ)上來。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.