最近我花了大量時間琢磨一個問題:為什么有些大語言模型智能體(LLM agent)能讓人感覺“很聰明”,而另一些卻像是僅僅換了個更精致提示詞的聊天機(jī)器人?
反復(fù)對比后,答案幾乎總是落在系統(tǒng)處理記憶的方式上。當(dāng)我們把上下文窗口當(dāng)作狀態(tài)的唯一容身之處,能力天花板很快就會壓下來。真的要搭建一個能干活、會進(jìn)化的智能體,就必須從“一個巨大的提示詞”這種思路里抽身,轉(zhuǎn)向分層的記憶架構(gòu)。
![]()
按照功能,智能體記憶可以拆成四個層級,每一層承擔(dān)的角色截然不同。
工作記憶就是當(dāng)前上下文窗口。它像是內(nèi)存,讀寫飛快、隨取隨用,但每次會話結(jié)束后就自動清空。這一層承載著當(dāng)下對話的連貫性,卻也因為窗口長度和成本限制,天然裝不下歷史經(jīng)驗。
語義記憶對應(yīng)的是向量數(shù)據(jù)庫或者知識庫。這里存放的是“世界規(guī)則”和通用規(guī)范,相當(dāng)于智能體為了保持意圖不跑偏而反復(fù)查閱的參考手冊。它不記錄具體事件,而是抽取出的穩(wěn)定常識,比如代碼規(guī)范、公司政策、產(chǎn)品知識等。
程序性記憶是“怎么干”的那一層。與其把所有工具描述、API文檔一股腦塞進(jìn)提示詞里,不如讓智能體維護(hù)一個精簡的技能索引,只在特定任務(wù)觸發(fā)時才拉取完整實現(xiàn)。這樣做最直接的好處,就是把上下文窗口從冗長的工具說明中解放出來,大幅降低干擾和消耗。
情景記憶是最難搞定的一環(huán)。它的本質(zhì)是把過去的一次交互蒸餾成可以復(fù)用的洞察。真正的工程挑戰(zhàn)并不在存儲那一側(cè)——把對話記錄扔進(jìn)數(shù)據(jù)庫誰都會——困難全部壓在“遺忘邏輯”上。如何判斷哪些是噪聲、哪些是值得抽取的核心模式,至今仍然是大多數(shù)開發(fā)框架掙扎的地方。
不同的使用場景,需要搭配不同的記憶組合。最簡單的反射型智能體,只靠工作記憶就能跑,適合那些“一問一答、無需歷史”的任務(wù)。客服類支持型智能體則要加上程序性記憶,用來調(diào)用標(biāo)準(zhǔn)流程和話術(shù)。而像代碼生成、項目協(xié)作這類復(fù)雜的編程型智能體,則必須拉滿全部四層能力。
一個演示版本和一套生產(chǎn)環(huán)境能穩(wěn)定運(yùn)行的智能體之間,那條鴻溝經(jīng)常就等于“一個簡單的檢索增強(qiáng)生成RAG”和“一層能真正運(yùn)轉(zhuǎn)的情景記憶”之間的距離。當(dāng)下,把經(jīng)驗壓縮成可用狀態(tài)仍然是很顯著的瓶頸。那么多團(tuán)隊在做智能體,你們現(xiàn)在落地到了哪一層?在處理情景記憶的“遺忘”邏輯時,又是如何區(qū)分噪聲和模式的?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.