![]()
本文的第一作者為北京大學王選計算機研究所博士生莫文韜,通訊作者為博士生導師劉洋。團隊近年來在 TPAMI、CVPR、ICCV、ICML 等頂會上有多項代表性成果發表,多次榮獲多模態感知和生成競賽冠軍,和國內外知名高校、科研機構廣泛開展合作。
本文提出了一個面向 3D 空間推理的新框架 ——APEIRIA。
現有 3D 空間推理方法長期面臨一個核心矛盾:3D 多模態大模型(3D MLLM)能夠理解復雜自然語言和開放詞匯概念,但推理過程往往是黑盒的,缺乏可解釋的空間驗證;神經符號 3D 方法雖然能夠通過程序化步驟進行透明推理,卻受限于封閉詞表、固定概念模塊和難以獲取的過程監督,難以擴展到真實世界的復雜指令
因此,本文關注的問題可以概括為:能否讓 3D MLLM 繼承神經符號方法的透明推理,又保留大模型的開放語義能力?
為彌合這一鴻溝,APEIRIA 提出將神經符號程序中的系統化空間推理模式蒸餾進 3D MLLM。本文設計了一個三階段課程學習框架:首先通過3D 感知對齊對齊物體視覺 - 幾何特征與語言空間,使模型具備基本的物體識別、屬性理解和定位能力;隨后通過CoT-SFT,將神經符號程序的可驗證執行軌跡轉換為自然語言思維鏈,作為過程監督信號教會模型進行查詢拆解和逐步空間驗證;最后通過CoT-RL將這種推理模式擴展到開放詞匯概念和復雜嵌套指令。
APEIRIA 在多個 3D 空間推理基準測試上取得了強勁表現,超越了當前主流 3D MLLM 基線方法,展現出良好的開放詞匯泛化能力和 sim-to-real 推理遷移潛力。
此外,APEIRIA 保留了神經符號方法中關鍵的模塊化性質:由于推理過程顯式區分規劃、感知和執行,模型可以在無需重新訓練的情況下接入更強的外部規劃器或感知模塊,實現即插即用的推理與感知增強,展示了該框架在未來具身智能系統中的持續升級潛力。
目前該研究已被 ICML 2026 正式接收,相關代碼與模型已全部開源。
![]()
- 論文標題:Distilling Neuro-Symbolic Programs into 3D Multi-modal LLMs
- 關鍵詞:3D MLLM、Neuro-Symbolic Reasoning、Chain-of-Thought、3D Spatial Reasoning、Reinforcement Learning
- 論文鏈接:https://arxiv.org/abs/2606.01215
- 代碼鏈接:https://github.com/oceanflowlab/APEIRIA
- 項目主頁:https://matthewdm0816.github.io/Apeiria_Open/
打破黑盒范式:APEIRIA 連接 3D MLLM 與神經符號推理
本文提出一個 3D 空間推理的新框架 APEIRIA,將神經符號程序的推理軌跡蒸餾進 3D MLLM,既能理解開放世界的自然語言,也能給出可解釋的透明空間推理過程。 當前 3D 空間推理方法沿兩條路線發展,各有明顯短板。
3D 多模態大模型(3D MLLM)依托 LLM 的語義能力處理開放詞匯表達,如 「cozy chair」、「messy desk」等真實用戶描述,但推理過程是黑盒式的端到端映射—— 一旦答錯,很難判斷問題出在物體識別、空間關系理解,還是組合推理本身。神經符號 3D 方法將問題拆解為可執行程序,通過 filter、relate 等模塊逐步完成空間驗證,具有良好的可解釋性與組合泛化能力。然而,它們依賴閉集的概念網絡和密集的程序執行過程監督,難以處理開放詞匯,也難以擴展到真實世界的復雜自然語言指令。
APEIRIA 的核心觀察是:神經符號程序中最值得遷移的并非某個具體概念檢測器,而是其中蘊含的空間推理模式,即如何拆解查詢、定位候選物體、逐步驗證空間關系、將中間狀態組合為最終答案。基于這一洞察,本方法提出 APEIRIA,一種神經符號 3D MLLM,將符號程序的可驗證執行軌跡轉換為自然語言思維鏈,讓 3D MLLM 以可讀、可檢查的方式進行空間推理,同時保留大模型原有的開放語義能力。
下面的圖 1 可視化了 APEIRIA 與先前 3D MLLM 和神經符號方法的對比。
![]()
圖 1:我們的神經符號 3D MLLM 方法 APEIRIA(下)結合了 3D MLLM(上)與傳統神經符號方法(中)的優勢:相比黑盒 3D MLLM,它保留了透明的 3D CoT 推理過程;相比傳統神經符號方法,它能處理復雜自然語言與開放詞匯概念。
從程序到思維鏈:三階段課程學習框架
APEIRIA 采用三階段課程學習,逐步將神經符號推理模式注入 3D MLLM:
階段一:3D 感知對齊 —— 先教模型「看見」3D 世界。模型通過物體識別、屬性理解、位置預測和描述生成等任務,將 3D 視覺 - 幾何特征對齊到 LLM 的文本空間,建立基本的 3D 場景理解能力。
階段二:符號推理注入 —— 再教模型「按步驟思考」。 從神經符號程序中抽取經過驗證的執行軌跡,序列化為自然語言推理鏈。每一步不僅包含計劃,還包含具體執行結果,例如物體 ID、位置、尺寸、空間關系判斷,從而為模型提供精確的過程監督。
階段三:CoT-RL—— 最后教模型適應真實開放指令。在真實數據中,完整的逐步過程監督通常無法獲得。本方法通過強化學習,僅利用最終的 3D 空間推理結果和格式約束作為獎勵信號,將前一階段習得的推理模式擴展到開放詞匯和更深層嵌套的自然語言指令。
![]()
圖 2:APEIRIA 的三階段課程學習流程:3D 感知對齊 → 符號推理注入 → 思維鏈強化學習。
與直接讓模型「自由生成思維鏈」不同,APEIRIA 的 CoT 從可驗證程序軌跡中蒸餾而來,因此具有明確的空間錨點:每個中間步驟都綁定到具體物體 ID、坐標和尺寸。這使得推理過程不僅可讀,還能保持神經符號 3D 推理方法「模塊化」的好性質,從而支持后續的模塊替換和增強,且無需重新訓練模型。
兼具開放語義與透明驗證:APEIRIA 樹立 3D 空間推理新標桿
表 1 的實驗結果顯示,APEIRIA 在多個 3D 空間推理基準上取得了強勁表現,在 ScanRefer 和 Multi3DRefer 上均超過或匹配當前強 3D MLLM 基線方法,結合模塊化感知增強后,性能進一步全面超越現有 3D 空間推理方法。
![]()
表 1:ScanRefer / Multi3DRefer 主結果。APEIRIA 在兩個基準上均超越或匹配當前強 3D MLLM 基線,模塊化增強后進一步提升。
此外,如表 2 所示,在只在合成指令上訓練的設置下,本方法可以零樣本遷移到其從未見過的自然語言指令上,表明其學到的是可遷移的推理模式而非封閉詞表內的概念匹配,展現出良好的開放詞匯泛化能力。
![]()
表 2:開放詞匯泛化實驗。APEIRIA 僅在合成指令上訓練,即可在自然語言指令上零樣本超越有監督基線
表 3 中的消融實驗進一步驗證了三階段設計的必要性:去掉 CoT-RL 階段,兩個基準上均出現顯著性能下降;若跳過符號推理注入、直接從感知對齊進入 RL,退化更為明顯。這說明符號程序提供的「推理熱啟動」對最終性能有重要貢獻。沒有結構化的推理語法,模型很難僅靠 RL 在巨大搜索空間中探索出穩定的 3D 推理路徑。
![]()
表 3:逐步去除 CoT-RL 和符號推理注入階段的消融實驗,驗證三階段課程學習中每一步的必要性
模塊化增強:即插即用的感知與推理升級
APEIRIA 保留了神經符號方法的一個關鍵優勢:模塊化。得益于思維鏈顯式解耦了規劃(planning)與執行(execution),本方法可以在推理時直接替換其中的模塊而無需重訓模型。如表 4 中所示,將感知模塊替換為更強的 SegDINO3D 后,在各個 3D 推理基準測試上都達成了顯著性能提升。這也說明當前性能瓶頸更多來自視覺感知而非推理規劃,而未來更強的 3D 感知模塊可以直接為 APEIRIA 帶來收益而無需重新訓練模型。
![]()
表4:模塊化增強實驗。無需重訓模型,獨立替換規劃模塊或感知模塊均可帶來性能提升,驗證了 APEIRIA 推理-感知解耦設計的即插即用特性與持續升級潛力
此外,如圖 3 中所示,定性分析實際推理過程中的思維鏈顯示,APEIRIA 也展現出自然涌現的推理行為。面對「this beige chair is next to the coat rack and to the left of the table and lamp」這類多條件描述,模型會先分別定位各參照物,再自發組合 intersection 與 union 等邏輯操作來篩選同時滿足多個空間約束的目標。這說明模型并非簡單記憶程序模板,而是在一定程度上內化了空間邏輯的組合規則。
![]()
圖 3:APEIRIA 的顯式推理鏈示例,展示涌現出的 intersection / union 推理行為
總結:邁向可解釋、可升級的 3D 空間推理智能體
APEIRIA 提供了一條連接 3D MLLM 與神經符號推理的新路徑:通過從符號程序到自然語言思維鏈的推理蒸餾,讓模型兼具開放語義理解與透明的空間推理能力。三階段課程學習的設計使模型逐步從基礎感知走向可驗證推理,再到開放世界泛化,在多個基準上取得了超越黑盒 3D MLLM 和傳統神經符號方法的表現。
這項工作也為具身智能系統提供了啟發:在機器人導航、室內交互等場景中,模型不僅需要給出答案,更需要說明推理依據、定位潛在錯誤,并隨著感知與規劃模塊的升級而能夠持續進化。APEIRIA 正是在這一方向上邁出的堅實一步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.