網易首頁 > 網易號 > 正文 申請入駐

新一代框架MIA:讓智能體告別「失憶式工作」,在持續進化中變強

0
分享至



本文共同一作是上海創智學院博士生喬靜陽、孟煒程,通訊作者是華東師范大學張志忠副教授,項目主導人是國家優青謝源教授。

Never memorize something that you can look up.
  • — Albert Einstein

如今的大多數智能體,仍然活在一種「失憶式工作」模式中:每一次檢索都是從零開始,每一條推理路徑都無法沉淀,每一次失敗也不會轉化為經驗。它們雖能多輪交互,但很難在深度研究中持續變強。

為了解決這個問題,已有工作嘗試基于歷史方案生成執行規劃,但受限于預訓練范式,許多智能體仍陷入新的困境:一個不擅長規劃的「決策器」,從臃腫的記憶中檢索出零散片段,再去驅動一個缺乏規劃執行能力的「執行器」。結果是:記憶在增長,智能卻沒有。

于是,浮現出一個關鍵問題:是否存在將經驗轉化為能力的智能體記憶機制?

上海創智學院和華東師范大學聯合團隊最近提出的 Memory Intelligence Agent (MIA),一個面向深度研究場景的新一代記憶智能體框架,給這一問題帶來了新的答案。



  • 論文地址:https://arxiv.org/abs/2604.04503
  • 代碼倉庫:https://github.com/ECNU-SII/MIA
  • 龍蝦技能:
  • 純凈版:https://clawhub.ai/jingyangqiao/mia
  • 可信版:https://clawhub.ai/sii-yucheng2002/mia-trust

(高效版和可訓練版即將發布)

為了解決這一問題,MIA 構建了一套基于「Planner–Executor–Manager」架構的記憶系統。其中,Planner 是戰術大腦,不僅能夠針對當前問題制定研究計劃,還能通過測試時的持續學習實時調整其策略。Executor 是經過訓練的執行專家,能夠毫無阻礙地解讀并遵循復雜的研究藍圖。Manager 是終極管理員,優化記憶存儲以消除冗余。

與現有方法相比,MIA 的核心亮點在于:

  1. 構建雙記憶機制,非參數記憶負責沉淀經驗,參數記憶負責吸收能力,二者相互轉化,形成持續進化的閉環;
  2. 提出 Manager–Planner–Executor 多智能體結構,將記憶管理、策略規劃與任務執行解耦,并通過交替強化學習驅動 Planner 與 Executor 的協同進化,將「會規劃」和「會執行」對齊;
  3. 引入面向開放世界的自進化機制,結合反思與無監督學習,讓智能體在開放世界的推理過程中持續修正策略、動態更新記憶,實現邊做邊學的在線進化。

在 X 平臺上,該論文已被 DAIR.AI 的創始人,擁有 30 萬粉絲的 AI 論文分享博主 Elvis Saravia 所轉發,并收獲了高度評價與大量關注。與此同時,該論文也入選了 Hugging Face Daily Papers 榜單。





從「逐次推理」到「可積累的研究閉環」



作為一個持續運行的 Planning–Execution–Memory 閉環系統,MIA 在每一次研究任務中,都會經歷:經驗調用 → 協同推理 → 經驗沉淀,并不斷反哺后續決策。

在經驗調用中,MIA 通過三維檢索機制調用歷史經驗,分別是保證相關性的語義相似度,高質量經驗偏好的價值獎勵和激活長尾知識的頻率獎勵。

此外,作者還引入失敗軌跡作為約束,使記憶既能提供參考,又能避免重復錯誤。在協同推理中,MIA 將推理解耦為兩個智能體的協作過程,Planner 負責拆解任務、生成步驟,而 Executor 負責按照步驟執行。二者通過 Reflect–Replan 形成反饋閉環,當執行受阻時自動重規劃,讓智能體具備持續試錯與調整能力。

在經驗沉淀中,MIA 將對兩種記憶同時更新。首先對軌跡進行壓縮與提取,形成結構化非參數記憶。其次在線更新 Planner 參數,將經驗轉化為參數記憶。最后實現從經驗存儲到能力內化的躍遷。



讓「會規劃」和「會執行」學會配合

在傳統記憶系統中,Planner 和 Executor 往往只是拼在一起,并沒有真正學會協作。為此,MIA 提出了一套兩階段交替強化學習和測試時持續學習的進化機制,讓兩個模塊逐步對齊,并在真實任務中不斷變強。首先在兩階段交替強化學習中,MIA 將訓練過程拆分為:

  • 階段一:固定 Planner,讓 Executor 學會理解并嚴格執行規劃;
  • 階段二:固定 Executor,讓 Planner 學習如何利用記憶生成更優計劃與計劃執行失敗時的反思與重規劃能力。

這種「先對齊執行,再優化決策」的方式,解決了「規劃很好,但執行跟不上」的問題。

其次不同于傳統方法「訓練完即凍結」,MIA 在推理階段引入測試時學習,賦能智能體持續進化。其過程包括:執行推理任務同時生成多條候選路徑。從成功與失敗路徑中提取非參數化記憶,基于成功路徑在線更新參數化記憶。推理與訓練幾乎同步完成,形成真正的在線學習閉環。



讓智能體在開放世界中穩定進化

為了將 MIA 能夠真正用在開放環境的深度研究中,作者提出了一套無監督的自進化評估機制,讓智能體在沒有外部反饋的條件下,也能持續優化自身能力。

其核心思路是:用「過程質量」替代「結果標簽」,只要推理嚴謹、證據可靠、結論合理,即使沒有標準答案,也可以作為有效學習信號。

因此,受學術評審的啟發,作者將對結果的判斷拆成多個「專家視角」,包括:

  • 邏輯評審員:檢查推理鏈條是否自洽
  • 事實評審員:驗證信息來源以及是否存在幻覺
  • 結果評審員:評估任務是否真正完成

最終由一個「領域主席」進行綜合決策并給出整體判斷,為 MIA 提供穩定的優化信號,進而助力實時進化。

實驗結論

在多項文本與多模態深度研究任務中,MIA 顯著提升了智能體的穩定性與效率:





  • SOTA 性能再突破 (a & b):在 LiveVQA (多模態在線搜索) 與 HotpotQA (純文本沙盒搜索) 的對比實驗中,MIA 顯著提升了現有最先進 LLMs(GPT-5.4, Gemini-3-Flash, claude-sonnet-4.6)在調用搜索工具下的表現;
  • 實現小尺寸模型的跨級超越 (c):基于 Qwen-2.5-VL-7B 執行器的 MIA 模型在 7 個核心數據集上表現卓越,超越了在不調用工具下的 GPT-5.4,GPT-4o 和 Gemini-2.5-Pro,逼近了 Gemini-3-Flash;
  • 記憶方法的新標桿 (d):在與當前先進智能體記憶方法的橫向評測中,MIA 在 7 個數據集上均取得最佳性能表現。

總結

智能體記憶不應該只是讓智能體記住了「結果是什么」,而是應該讓它學會「該怎么做」。MIA 的出現,傳遞了一個清晰的信號:決定一個智能體上限的,不再僅僅是它接入了多少外部工具,而是它能否在每一次與世界的交互中,將繁雜的「過程信息」壓縮為精煉的「執行本能」。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
難以置信!洛陽某三甲醫院給孩子脫臼復位花1分鐘,收費100元舉報

難以置信!洛陽某三甲醫院給孩子脫臼復位花1分鐘,收費100元舉報

火山詩話
2026-04-26 07:23:48
上海人終于體會到了引進印度人的“快樂”!

上海人終于體會到了引進印度人的“快樂”!

步論天下事
2026-04-25 09:34:47
73歲老人被85歲室友打到大小便失禁,養老院稱未聽到任何異常聲音,巡查頻次符合規定……

73歲老人被85歲室友打到大小便失禁,養老院稱未聽到任何異常聲音,巡查頻次符合規定……

新民周刊
2026-04-25 18:57:53
一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

一張“初三女孩體測”照片,讓家長被數萬網友指責:太不用心了!

川渝視覺
2026-04-25 20:19:24
霍爾木茲海峽,傳來大消息!伊朗總統,最新發聲!比特幣跳水,超9.9萬人爆倉!

霍爾木茲海峽,傳來大消息!伊朗總統,最新發聲!比特幣跳水,超9.9萬人爆倉!

證券時報e公司
2026-04-25 22:11:02
G3裁判報告:漏吹斯馬特進線+詹姆斯出界 火箭本該不打加時贏球?

G3裁判報告:漏吹斯馬特進線+詹姆斯出界 火箭本該不打加時贏球?

羅說NBA
2026-04-26 05:02:11
穆杰塔巴傷情曝光!比想象更重,他用一招終結美以斬首戰術

穆杰塔巴傷情曝光!比想象更重,他用一招終結美以斬首戰術

聞識
2026-04-26 04:59:24
趙心童兩階段9-7領先丁俊暉 “中國德比”今日17時決勝負

趙心童兩階段9-7領先丁俊暉 “中國德比”今日17時決勝負

齊魯壹點
2026-04-26 07:18:18
笑瘋了!西安給失業人員免費培訓,評論區太扎心,一點面子都不留

笑瘋了!西安給失業人員免費培訓,評論區太扎心,一點面子都不留

譚談社會
2026-04-25 22:19:12
那個信了“朋友”去泰國潑水節的19歲女生,再也回不來了

那個信了“朋友”去泰國潑水節的19歲女生,再也回不來了

迷世書童H9527
2026-04-25 09:10:21
豪門狂歡夜:曼城2-1,阿森納1-0,穆帥率隊4-1,巴薩2-0,利物浦3-1

豪門狂歡夜:曼城2-1,阿森納1-0,穆帥率隊4-1,巴薩2-0,利物浦3-1

側身凌空斬
2026-04-26 03:20:46
南京一派出所副所長為完成查處任務,“設計”讓6名未成年人吸毒再查獲,犯欺騙他人吸毒罪一審被判5年

南京一派出所副所長為完成查處任務,“設計”讓6名未成年人吸毒再查獲,犯欺騙他人吸毒罪一審被判5年

大風新聞
2026-04-25 22:34:13
900億歐元貸款烏克蘭無須償還,不要再抹黑歐盟和烏克蘭了

900億歐元貸款烏克蘭無須償還,不要再抹黑歐盟和烏克蘭了

山河路口
2026-04-25 20:59:15
剛給伊朗塞了200萬,轉頭就進美軍死局?這條海路到底誰說了算?

剛給伊朗塞了200萬,轉頭就進美軍死局?這條海路到底誰說了算?

寰球經緯所
2026-04-24 13:44:46
施大畏文革期間的畫作,他會后悔嗎?事實上卻是他最有價值的作品

施大畏文革期間的畫作,他會后悔嗎?事實上卻是他最有價值的作品

文學之私秘
2026-04-25 00:14:26
3-1!利物浦終結對苦主3連敗 3連勝后升第4 領先8分+歐冠席位穩了

3-1!利物浦終結對苦主3連敗 3連勝后升第4 領先8分+歐冠席位穩了

我愛英超
2026-04-26 00:04:14
丑陋的勝利!雷霆3-0太陽,拿到賽點,亞歷山大42分,布克遭暗算

丑陋的勝利!雷霆3-0太陽,拿到賽點,亞歷山大42分,布克遭暗算

老梁體育漫談
2026-04-26 06:08:58
055大驅直插美日菲演習“后心”——呂宋!中國海軍亮出“遠海利刃”

055大驅直插美日菲演習“后心”——呂宋!中國海軍亮出“遠海利刃”

華山穹劍
2026-04-25 19:47:00
秦昊讓整個娛樂圈都笑瘋了!一句:外面有人了還要送啊?

秦昊讓整個娛樂圈都笑瘋了!一句:外面有人了還要送啊?

一盅情懷
2026-04-25 16:25:46
活久見!獨居老人想喝燉瘦肉湯,一業主提出收取5元辛苦費引爭議

活久見!獨居老人想喝燉瘦肉湯,一業主提出收取5元辛苦費引爭議

火山詩話
2026-04-25 17:15:40
2026-04-26 08:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12852文章數 142636關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

2萬海員在霍爾木茲海峽成"活靶子":或隨時被炸成灰燼

頭條要聞

2萬海員在霍爾木茲海峽成"活靶子":或隨時被炸成灰燼

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

房產
親子
手機
本地
藝術

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

親子要聞

總感覺她們兩是上輩子的情人!

手機要聞

停更一年憋大招!小米大折疊攜玄戒O3回歸,系統也是新的

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

藝術要聞

毛澤東寫小字,太瀟灑了

無障礙瀏覽 進入關懷版