![]()
當“壓縮”與“保真”的底層矛盾鎖死了 AI 的進化,多模態長記憶系統該如何走出“魚的記憶”怪圈?
如果把近幾年計算機視覺的發展放在一個更長的時間尺度上去看,會發現整個領域其實一直在沿著一條非常明確但也非常受限的路徑前進:
當你給一個擁有百萬上下文能力的 AI 發送了一段兩小時的視頻,詢問其中一個極其細微的動作細節,它卻言之鑿鑿地給了你一個錯誤的答案;
當你試圖讓具身智能機器人記住你三天前隨手放在書房角落的鑰匙,它卻在書房轉了三圈后告訴你“鑰匙不存在”;
當多模態大模型(LMM)正朝著 AGI 瘋狂狂奔時,一個尷尬的底層真相浮出水面:AI 依然沒能擁有一套像人類一樣可靠、持久且精準的“長記憶系統”。
在多模態長記憶的真實落地過程中,開發者們正面臨一個的“不可能三角”:看得準、找得到、想得清。絕大多數多模態記憶系統,都掙扎在“壓縮”與“保真”的根本矛盾中。
6月1日(下周一)晚 19:00,GAIR Live 第 031 期,我們邀請到了AI記憶領域的硬科技創業先鋒與學術界的頂尖研究者,共同拆解多模態長記憶落地的“深水區”命題。
01
嘉賓陣容
張源 | 丘腦智能 CEO
硬科技賽道連續創業者,曾任具身智能大腦公司運營合伙人。她曾深度參與自動駕駛與具身智能的拓荒,歷任自動駕駛創業公司聯合創始人 & COO。作為亞杰商會“搖籃計劃”成員及胡潤 U30 創業先鋒,她將從具身智能對“大腦”的極致實時性與準確性需求出發,分享工業界最真實的“踩坑”筆記。
任璽諭 | 香港科技大學(HKUST)博士研究生
自然語言處理與多模態大模型方向青年研究者,獲香港博士研究生獎學金計劃(HKPFS)資助。主導提出了全球首個面向多模態長期記憶能力的評測基準 MEMLENS和 MMLongBench,他將從學術前沿視角,拆解多模態大模型在記憶與可靠性上的真實能力邊界。
02
核心爭議:為什么“暴力壓縮”救不了 AI 的記憶?
在目前的工程實踐中,為了處理海量的多模態數據,我們不得不進行“壓縮”。但壓縮即意味著信息的丟失。
是像視頻檢索一樣,只保留關鍵幀的 Caption(文本描述)?還是通過 Embedding(向量化)將一切卷入隱空間?
學術界最新的診斷框架 MEMLENS 發現,多模態記憶系統的失敗并非偶然,而是一系列“模式化”的崩潰。本場圓桌將從最底層的 “壓縮-保真”Trade-off 出發,深度復盤那些讓 AI 記憶瞬間失效的尷尬場景。
03
三大環節:拆解多模態記憶的“生存法則”
環節一:看得準——AI 是在“理解”還是“刻板記憶”?
為什么 Embedding 總是踩坑?當圖像變成一串向量,AI 是否丟失了時空連續性?我們將討論 Caption 方案中丟失的視覺細節,以及向量化過程中那些由于“刻板印象”導致的檢索偏差。
環節二:找得到——為什么信息越多,AI 反而越“瞎”?
長上下文的“稀釋效應”是真實存在的。當記憶庫從 100 條增長到 100 萬條,跨模態檢索的“對齊坑”如何填平?為什么 AI 會在海量數據中產生“檢索過敏”?
環節三:想得清——如何終結 AI 的“自信胡說”?
狀態更新失敗、拒答能力退化、幻覺的“新形態”……當 AI 記憶了錯誤的信息,它會像滾雪球一樣自我強化。我們該如何構建一套具備“自我修正”能力的記憶系統?
04
論壇議程
開場:診斷 AI 記憶的“先天性缺陷”——壓縮與保真的終極矛盾。
深度對談:
感知層:Embedding 與 Caption 方案的工程血淚史。
檢索層:跨模態對齊中的“信息稀釋”難題。
邏輯層:如何識別并遏制 AI 基于記憶的“高級幻覺”。
未來展望:
如果重新設計多模態記憶系統,哪一層的創新最關鍵?
未來 12 個月,哪個“工程坑”會被填平?哪些仍需基礎研究“移山”?
時間:2026 年 6 月 1 日(周一) 19:00 - 20:30
平臺:AI科技評論視頻號、雷峰網視頻號
![]()
![]()
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.