无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

ICML 2026 | 北大提出的APEIRIA,打破了3D MLLM黑盒推理困境

0
分享至



本文的第一作者為北京大學王選計算機研究所博士生莫文韜,通訊作者為博士生導師劉洋。團隊近年來在 TPAMI、CVPR、ICCV、ICML 等頂會上有多項代表性成果發表,多次榮獲多模態感知和生成競賽冠軍,和國內外知名高校、科研機構廣泛開展合作。

本文提出了一個面向 3D 空間推理的新框架 ——APEIRIA。

現有 3D 空間推理方法長期面臨一個核心矛盾:3D 多模態大模型(3D MLLM)能夠理解復雜自然語言和開放詞匯概念,但推理過程往往是黑盒的,缺乏可解釋的空間驗證;神經符號 3D 方法雖然能夠通過程序化步驟進行透明推理,卻受限于封閉詞表、固定概念模塊和難以獲取的過程監督,難以擴展到真實世界的復雜指令

因此,本文關注的問題可以概括為:能否讓 3D MLLM 繼承神經符號方法的透明推理,又保留大模型的開放語義能力?

為彌合這一鴻溝,APEIRIA 提出將神經符號程序中的系統化空間推理模式蒸餾進 3D MLLM。本文設計了一個三階段課程學習框架:首先通過3D 感知對齊對齊物體視覺 - 幾何特征與語言空間,使模型具備基本的物體識別、屬性理解和定位能力;隨后通過CoT-SFT,將神經符號程序的可驗證執行軌跡轉換為自然語言思維鏈,作為過程監督信號教會模型進行查詢拆解和逐步空間驗證;最后通過CoT-RL將這種推理模式擴展到開放詞匯概念和復雜嵌套指令。

APEIRIA 在多個 3D 空間推理基準測試上取得了強勁表現,超越了當前主流 3D MLLM 基線方法,展現出良好的開放詞匯泛化能力和 sim-to-real 推理遷移潛力。

此外,APEIRIA 保留了神經符號方法中關鍵的模塊化性質:由于推理過程顯式區分規劃、感知和執行,模型可以在無需重新訓練的情況下接入更強的外部規劃器或感知模塊,實現即插即用的推理與感知增強,展示了該框架在未來具身智能系統中的持續升級潛力。

目前該研究已被 ICML 2026 正式接收,相關代碼與模型已全部開源。



  • 論文標題:Distilling Neuro-Symbolic Programs into 3D Multi-modal LLMs
  • 關鍵詞:3D MLLM、Neuro-Symbolic Reasoning、Chain-of-Thought、3D Spatial Reasoning、Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2606.01215
  • 代碼鏈接:https://github.com/oceanflowlab/APEIRIA
  • 項目主頁:https://matthewdm0816.github.io/Apeiria_Open/

打破黑盒范式:APEIRIA 連接 3D MLLM 與神經符號推理

本文提出一個 3D 空間推理的新框架 APEIRIA,將神經符號程序的推理軌跡蒸餾進 3D MLLM,既能理解開放世界的自然語言,也能給出可解釋的透明空間推理過程。 當前 3D 空間推理方法沿兩條路線發展,各有明顯短板。

3D 多模態大模型(3D MLLM)依托 LLM 的語義能力處理開放詞匯表達,如 「cozy chair」、「messy desk」等真實用戶描述,但推理過程是黑盒式的端到端映射—— 一旦答錯,很難判斷問題出在物體識別、空間關系理解,還是組合推理本身。神經符號 3D 方法將問題拆解為可執行程序,通過 filter、relate 等模塊逐步完成空間驗證,具有良好的可解釋性與組合泛化能力。然而,它們依賴閉集的概念網絡和密集的程序執行過程監督,難以處理開放詞匯,也難以擴展到真實世界的復雜自然語言指令。

APEIRIA 的核心觀察是:神經符號程序中最值得遷移的并非某個具體概念檢測器,而是其中蘊含的空間推理模式,即如何拆解查詢、定位候選物體、逐步驗證空間關系、將中間狀態組合為最終答案。基于這一洞察,本方法提出 APEIRIA,一種神經符號 3D MLLM,將符號程序的可驗證執行軌跡轉換為自然語言思維鏈,讓 3D MLLM 以可讀、可檢查的方式進行空間推理,同時保留大模型原有的開放語義能力。

下面的圖 1 可視化了 APEIRIA 與先前 3D MLLM 和神經符號方法的對比。



圖 1:我們的神經符號 3D MLLM 方法 APEIRIA(下)結合了 3D MLLM(上)與傳統神經符號方法(中)的優勢:相比黑盒 3D MLLM,它保留了透明的 3D CoT 推理過程;相比傳統神經符號方法,它能處理復雜自然語言與開放詞匯概念。

從程序到思維鏈:三階段課程學習框架

APEIRIA 采用三階段課程學習,逐步將神經符號推理模式注入 3D MLLM:

階段一:3D 感知對齊 —— 先教模型「看見」3D 世界。模型通過物體識別、屬性理解、位置預測和描述生成等任務,將 3D 視覺 - 幾何特征對齊到 LLM 的文本空間,建立基本的 3D 場景理解能力。

階段二:符號推理注入 —— 再教模型「按步驟思考」。 從神經符號程序中抽取經過驗證的執行軌跡,序列化為自然語言推理鏈。每一步不僅包含計劃,還包含具體執行結果,例如物體 ID、位置、尺寸、空間關系判斷,從而為模型提供精確的過程監督。

階段三:CoT-RL—— 最后教模型適應真實開放指令。在真實數據中,完整的逐步過程監督通常無法獲得。本方法通過強化學習,僅利用最終的 3D 空間推理結果和格式約束作為獎勵信號,將前一階段習得的推理模式擴展到開放詞匯和更深層嵌套的自然語言指令。



圖 2:APEIRIA 的三階段課程學習流程:3D 感知對齊 → 符號推理注入 → 思維鏈強化學習。

與直接讓模型「自由生成思維鏈」不同,APEIRIA 的 CoT 從可驗證程序軌跡中蒸餾而來,因此具有明確的空間錨點:每個中間步驟都綁定到具體物體 ID、坐標和尺寸。這使得推理過程不僅可讀,還能保持神經符號 3D 推理方法「模塊化」的好性質,從而支持后續的模塊替換和增強,且無需重新訓練模型。

兼具開放語義與透明驗證:APEIRIA 樹立 3D 空間推理新標桿

表 1 的實驗結果顯示,APEIRIA 在多個 3D 空間推理基準上取得了強勁表現,在 ScanRefer 和 Multi3DRefer 上均超過或匹配當前強 3D MLLM 基線方法,結合模塊化感知增強后,性能進一步全面超越現有 3D 空間推理方法。



表 1:ScanRefer / Multi3DRefer 主結果。APEIRIA 在兩個基準上均超越或匹配當前強 3D MLLM 基線,模塊化增強后進一步提升。

此外,如表 2 所示,在只在合成指令上訓練的設置下,本方法可以零樣本遷移到其從未見過的自然語言指令上,表明其學到的是可遷移的推理模式而非封閉詞表內的概念匹配,展現出良好的開放詞匯泛化能力。



表 2:開放詞匯泛化實驗。APEIRIA 僅在合成指令上訓練,即可在自然語言指令上零樣本超越有監督基線

表 3 中的消融實驗進一步驗證了三階段設計的必要性:去掉 CoT-RL 階段,兩個基準上均出現顯著性能下降;若跳過符號推理注入、直接從感知對齊進入 RL,退化更為明顯。這說明符號程序提供的「推理熱啟動」對最終性能有重要貢獻。沒有結構化的推理語法,模型很難僅靠 RL 在巨大搜索空間中探索出穩定的 3D 推理路徑。



表 3:逐步去除 CoT-RL 和符號推理注入階段的消融實驗,驗證三階段課程學習中每一步的必要性

模塊化增強:即插即用的感知與推理升級

APEIRIA 保留了神經符號方法的一個關鍵優勢:模塊化。得益于思維鏈顯式解耦了規劃(planning)與執行(execution),本方法可以在推理時直接替換其中的模塊而無需重訓模型。如表 4 中所示,將感知模塊替換為更強的 SegDINO3D 后,在各個 3D 推理基準測試上都達成了顯著性能提升。這也說明當前性能瓶頸更多來自視覺感知而非推理規劃,而未來更強的 3D 感知模塊可以直接為 APEIRIA 帶來收益而無需重新訓練模型。



表4:模塊化增強實驗。無需重訓模型,獨立替換規劃模塊或感知模塊均可帶來性能提升,驗證了 APEIRIA 推理-感知解耦設計的即插即用特性與持續升級潛力

此外,如圖 3 中所示,定性分析實際推理過程中的思維鏈顯示,APEIRIA 也展現出自然涌現的推理行為。面對「this beige chair is next to the coat rack and to the left of the table and lamp」這類多條件描述,模型會先分別定位各參照物,再自發組合 intersection 與 union 等邏輯操作來篩選同時滿足多個空間約束的目標。這說明模型并非簡單記憶程序模板,而是在一定程度上內化了空間邏輯的組合規則。



圖 3:APEIRIA 的顯式推理鏈示例,展示涌現出的 intersection / union 推理行為

總結:邁向可解釋、可升級的 3D 空間推理智能體

APEIRIA 提供了一條連接 3D MLLM 與神經符號推理的新路徑:通過從符號程序到自然語言思維鏈的推理蒸餾,讓模型兼具開放語義理解與透明的空間推理能力。三階段課程學習的設計使模型逐步從基礎感知走向可驗證推理,再到開放世界泛化,在多個基準上取得了超越黑盒 3D MLLM 和傳統神經符號方法的表現。

這項工作也為具身智能系統提供了啟發:在機器人導航、室內交互等場景中,模型不僅需要給出答案,更需要說明推理依據、定位潛在錯誤,并隨著感知與規劃模塊的升級而能夠持續進化。APEIRIA 正是在這一方向上邁出的堅實一步。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
世界杯太殘酷了:隨著克羅地亞1-0,第5支提前出局的球隊誕生

世界杯太殘酷了:隨著克羅地亞1-0,第5支提前出局的球隊誕生

側身凌空斬
2026-06-24 09:12:43
C羅騙了全世界!偉大一幕:指著腦袋“炫耀” 全隊擁抱他讓人看哭

C羅騙了全世界!偉大一幕:指著腦袋“炫耀” 全隊擁抱他讓人看哭

風過鄉
2026-06-24 05:26:09
廣東高考分數線公布

廣東高考分數線公布

界面新聞
2026-06-24 11:14:00
謊稱陰陽雙修可化煞,江湖假大師性侵女子及其15歲的女兒,法院從重判刑九年

謊稱陰陽雙修可化煞,江湖假大師性侵女子及其15歲的女兒,法院從重判刑九年

揚子晚報
2026-06-24 07:36:38
袁詠儀回應兒子進娛樂圈:我沒看到他的天分!其與張智霖之子身高超1米8,帥氣五官酷似爸媽

袁詠儀回應兒子進娛樂圈:我沒看到他的天分!其與張智霖之子身高超1米8,帥氣五官酷似爸媽

新浪財經
2026-06-23 19:09:28
馮小剛該恨死韓紅了

馮小剛該恨死韓紅了

智識漂流
2026-06-24 01:05:27
聯合國調查委員會:以色列在加沙故意針對兒童實施種族滅絕行為

聯合國調查委員會:以色列在加沙故意針對兒童實施種族滅絕行為

西游日記
2026-06-23 20:03:28
對著鏡頭高喊“我回來了”!C羅幾乎落淚:他們覺得我已經退役了

對著鏡頭高喊“我回來了”!C羅幾乎落淚:他們覺得我已經退役了

風過鄉
2026-06-24 03:37:28
萬店前的“關鍵落子”,為何益禾堂此時官宣王源?

萬店前的“關鍵落子”,為何益禾堂此時官宣王源?

娛樂資本論
2026-06-19 20:36:54
美制武器已抵臺,賴清德后路被斷了,大陸動作很快,先拿美企立威

美制武器已抵臺,賴清德后路被斷了,大陸動作很快,先拿美企立威

近史博覽
2026-06-24 11:34:51
直降3.5萬!特斯拉新車突然降價!

直降3.5萬!特斯拉新車突然降價!

科技堡壘
2026-06-24 10:49:19
奇才狀元簽選迪班薩:隊史第7位狀元 聯手濃眉特雷楊組三巨頭

奇才狀元簽選迪班薩:隊史第7位狀元 聯手濃眉特雷楊組三巨頭

醉臥浮生
2026-06-24 08:31:47
跌到22.5港元,小米股民破防!大罵雷軍:“你是怎么笑得出來的”

跌到22.5港元,小米股民破防!大罵雷軍:“你是怎么笑得出來的”

南財社V
2026-06-24 00:22:14
安切洛蒂:內馬爾可以出戰小組賽末輪,很高興他回來了

安切洛蒂:內馬爾可以出戰小組賽末輪,很高興他回來了

懂球帝
2026-06-24 09:53:35
瀕臨出局!52歲卡納瓦羅或被解雇:我會承擔責任 但踢100次都是輸

瀕臨出局!52歲卡納瓦羅或被解雇:我會承擔責任 但踢100次都是輸

風過鄉
2026-06-24 05:47:27
反超葡萄牙登頂!迪亞斯2球被吹鐵衛建功,哥倫比亞1-0民主剛果

反超葡萄牙登頂!迪亞斯2球被吹鐵衛建功,哥倫比亞1-0民主剛果

釘釘陌上花開
2026-06-24 11:55:45
法國最大露天音樂節268人被捕:2人遇刺多人遭性侵,10多名女性遭注射不明物質

法國最大露天音樂節268人被捕:2人遇刺多人遭性侵,10多名女性遭注射不明物質

新京報
2026-06-23 13:31:53
“運城13歲女孩稱遭男子強奸,警方不予立案” 當地已成立聯合調查組 女孩家屬講述事件前后

“運城13歲女孩稱遭男子強奸,警方不予立案” 當地已成立聯合調查組 女孩家屬講述事件前后

紅星新聞
2026-06-24 10:40:27
一家5口陸續感染,小孩癢得睡不著,醫生強調:傳染性極強

一家5口陸續感染,小孩癢得睡不著,醫生強調:傳染性極強

南方都市報
2026-06-24 11:40:17
新疆小伙撞臉耶穌,老外歧視后滑跪道歉?戴王冠化身判官,笑瘋外網!

新疆小伙撞臉耶穌,老外歧視后滑跪道歉?戴王冠化身判官,笑瘋外網!

英國報姐
2026-06-24 01:12:14
2026-06-24 13:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13345文章數 142680關注度
往期回顧 全部

科技要聞

豆包專業版上線:定價68-500元每月

頭條要聞

內塔尼亞胡:執政30年 沒服過任何一個美國總統

頭條要聞

內塔尼亞胡:執政30年 沒服過任何一個美國總統

體育要聞

字母哥,會把凱爾特人拆了嗎?

娛樂要聞

向佐向佑兄弟合體直播!母子終于和解

財經要聞

爆料人:如果我錯了,賠償坐牢都接受

汽車要聞

施鵬澤:為什么奧迪E7X強調座艙氣味安全?

態度原創

健康
房產
手機
藝術
公開課

同樣是中風,急救方向竟完全相反?

房產要聞

這個海南地王,可能是今年豪宅的分水嶺!

手機要聞

小米:電池升級服務預計今年第四季度增小米14、14 Pro手機支持

藝術要聞

Ui?ART|新展首發|第二次抵抗:跨世紀以來的另一種藝術

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版