網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

arXiv：面向具身智能的世界模型綜述

2026-06-10 14:35:46　來源: 集智俱樂部

北京舉報(bào)

分享至

導(dǎo)語

機(jī)器人自主操作、自動(dòng)駕駛預(yù)判、智能體想象式?jīng)Q策的背后，是世界模型，具身人工智能的內(nèi)部模擬器。它賦予智能體感知、預(yù)測與規(guī)劃能力，是下一代通用人工智能的核心基石。這篇工作首次提出功能-時(shí)間-空間三軸統(tǒng)一分類框架，系統(tǒng)梳理世界模型從決策專用到通用模擬的演進(jìn)脈絡(luò)，量化對(duì)比全球頂尖模型性能，深度剖析領(lǐng)域核心挑戰(zhàn)與未來方向，為學(xué)術(shù)界構(gòu)建了全景式知識(shí)圖譜，也為工業(yè)界技術(shù)落地指明了清晰路徑。

關(guān)鍵詞：世界模型（World Models），具身人工智能（Embodied AI），時(shí)間建模，空間表示，自主智能體（Autonomous Agents）

王璇丨作者

趙思怡丨審校

論文題目：A Comprehensive Survey on World Models for Embodied AI 論文鏈接：https://arxiv.org/html/2510.16732v1 發(fā)表時(shí)間：2025 年 10 月 19 日論文來源：arXiv

從認(rèn)知科學(xué)到通用模擬器：世界模型的進(jìn)化之路

世界模型的思想根植于認(rèn)知科學(xué)，人類通過大腦內(nèi)部模型整合感官、預(yù)判事件、指導(dǎo)行動(dòng)。受此啟發(fā)，早期AI將其引入基于模型的強(qiáng)化學(xué)習(xí)，通過學(xué)習(xí)環(huán)境狀態(tài)轉(zhuǎn)移提升樣本效率與規(guī)劃能力。2018年Ha與Schmidhuber的開創(chuàng)性工作正式確立"世界模型"概念，證明循環(huán)神經(jīng)網(wǎng)絡(luò)可編碼環(huán)境狀態(tài)、模擬未來軌跡以驅(qū)動(dòng)策略優(yōu)化，直接催生了經(jīng)典的Dreamer系列模型。

大規(guī)模生成式與多模態(tài)學(xué)習(xí)的爆發(fā)，推動(dòng)世界模型從任務(wù)專用的決策輔助工具，進(jìn)化為高保真通用環(huán)境模擬器。OpenAI Sora、Meta V-JEPA 2等模型不僅能生成長時(shí)序連貫視頻，更能捕捉復(fù)雜物理規(guī)律與物體交互，為跨領(lǐng)域具身智能奠定了通用基礎(chǔ)。

但領(lǐng)域的快速發(fā)展也導(dǎo)致術(shù)語混亂、分類體系割裂，現(xiàn)有綜述多局限于功能視角或自動(dòng)駕駛等單一應(yīng)用，缺乏覆蓋全主流方法的統(tǒng)一框架。本次綜述提出的功能-時(shí)間-空間三軸分類法，正是為解決這一痛點(diǎn)而生，從三個(gè)核心維度構(gòu)建了邏輯自洽的分類體系，為領(lǐng)域研究提供了標(biāo)準(zhǔn)化分析工具。

三軸統(tǒng)一框架：拆解世界模型的核心設(shè)計(jì)維度

三軸分類框架是該綜述的核心貢獻(xiàn)，它從功能耦合性、時(shí)間建模方式、空間表示策略三個(gè)相互關(guān)聯(lián)的核心維度，厘清了世界模型的設(shè)計(jì)邏輯與技術(shù)路線。

圖1. 該綜述的結(jié)構(gòu)。沿三個(gè)軸對(duì)全球模型進(jìn)行分類，并展示每種方法的代表性方案，為該領(lǐng)域提供了統(tǒng)一的視角

功能維度上，世界模型呈現(xiàn)決策耦合與通用目的的分野。決策耦合模型與下游任務(wù)深度綁定，在特定領(lǐng)域數(shù)據(jù)上訓(xùn)練，以實(shí)時(shí)高效的控制為目標(biāo)，代表如覆蓋800+任務(wù)的DreamerV3、自動(dòng)駕駛MILE、機(jī)器人操作ManiGaussian。通用目的模型則在大規(guī)模無標(biāo)注數(shù)據(jù)上預(yù)訓(xùn)練通用物理規(guī)律，以跨域泛化為核心優(yōu)勢，典型如Sora、V-JEPA 2，但存在訓(xùn)練成本高、通用表示與具體決策銜接難的問題。

時(shí)間建模維度，核心是序列模擬與全局預(yù)測的權(quán)衡。序列模擬采用自回歸方式逐幀推演，結(jié)構(gòu)緊湊、樣本效率高且天然支持閉環(huán)控制，從早期RNN到如今的Transformer 狀態(tài)空間模型（TSSM）、狀態(tài)空間模型（SSM）如 Mamba均屬此類，但存在長時(shí)序誤差累積的致命缺陷。全局差異預(yù)測并行估計(jì)完整未來序列，通過全局約束緩解誤差，以JEPA系列為代表，卻難以適配需要逐步?jīng)Q策的控制場景，當(dāng)前研究正朝著融合兩者優(yōu)勢的方向推進(jìn)。

空間表示維度，呈現(xiàn)從低維抽象到高維幾何的進(jìn)化路徑。全局隱向量計(jì)算高效但丟失細(xì)粒度空間信息，是早期模型的主流選擇。令牌特征序列依托Transformer與LLM技術(shù)，成為當(dāng)前跨模態(tài)建模的主流。空間隱網(wǎng)格憑借BEV、體素等幾何先驗(yàn)，在自動(dòng)駕駛領(lǐng)域廣泛應(yīng)用；分解渲染表示則基于3D 高斯濺射（3DGS）和神經(jīng)輻射場（NeRF）等技術(shù)，通過可微渲染實(shí)現(xiàn)視角一致、物理可信的高保真預(yù)測，是當(dāng)前最前沿的研究方向。

數(shù)據(jù)、評(píng)估與領(lǐng)域核心挑戰(zhàn)

數(shù)據(jù)與評(píng)估是世界模型發(fā)展的核心基礎(chǔ)設(shè)施，基于統(tǒng)一框架的量化對(duì)比則清晰呈現(xiàn)了領(lǐng)域進(jìn)展與現(xiàn)存瓶頸。將數(shù)據(jù)資源劃分為四類：仿真平臺(tái)（MuJoCo、CARLA等）提供可控可擴(kuò)展的虛擬環(huán)境，交互式基準(zhǔn)（DMC、RLBench等）建立標(biāo)準(zhǔn)化性能標(biāo)尺，百萬級(jí)軌跡的OXE等離線數(shù)據(jù)集支撐跨具身預(yù)訓(xùn)練，F(xiàn)ranka、Unitree系列等真實(shí)機(jī)器人平臺(tái)完成物理世界驗(yàn)證。評(píng)估體系呈三層遞進(jìn)：像素級(jí)質(zhì)量（FID、FVD等）、狀態(tài)級(jí)理解（mIoU、mAP等）、任務(wù)級(jí)性能（成功率、樣本效率等），但當(dāng)前指標(biāo)過度側(cè)重像素保真度，忽視了物理一致性與因果推理等具身核心能力。

表1. nuScenes驗(yàn)證集上開環(huán)規(guī)劃的性能對(duì)比

基于統(tǒng)一框架的量化對(duì)比顯示，DrivePhysica、MiLA分別領(lǐng)跑自動(dòng)駕駛視頻生成的視覺保真度與時(shí)間一致性，COME在4D占用預(yù)測中表現(xiàn)最優(yōu)，基于逆動(dòng)力學(xué)的VidMan在機(jī)器人操作任務(wù)中成功率領(lǐng)先，SSR則在開環(huán)規(guī)劃中實(shí)現(xiàn)最低碰撞率。盡管進(jìn)展顯著，領(lǐng)域仍面臨三大核心挑戰(zhàn)：一是數(shù)據(jù)與評(píng)估碎片化，缺乏跨域統(tǒng)一數(shù)據(jù)集與物理導(dǎo)向的評(píng)估標(biāo)準(zhǔn)；二是計(jì)算效率瓶頸，Transformer、擴(kuò)散模型的推理成本難以滿足實(shí)時(shí)控制需求；三是建模策略的固有矛盾，自回歸的誤差累積、全局預(yù)測的交互性不足、空間表示的效率與表達(dá)性失衡，共同限制了長時(shí)序復(fù)雜任務(wù)的落地。

未來展望：走向統(tǒng)一、高效、物理可信的世界模型

針對(duì)上述挑戰(zhàn)，綜述指出了未來的研究方向。在數(shù)據(jù)與評(píng)估方面，需要構(gòu)建統(tǒng)一的多模態(tài)跨域數(shù)據(jù)集，并發(fā)展能夠評(píng)估物理一致性、因果推理和長時(shí)序動(dòng)態(tài)的新型指標(biāo)。在計(jì)算效率方面，模型壓縮技術(shù)和新型架構(gòu)是重要的突破點(diǎn)，它們有望在保持性能的同時(shí)，實(shí)現(xiàn)實(shí)時(shí)推理。在建模策略方面，融合自回歸和全局預(yù)測的優(yōu)勢、引入顯式 3D 幾何先驗(yàn)和物理約束、結(jié)合大語言模型的推理能力，將是構(gòu)建下一代通用世界模型的關(guān)鍵路徑。

世界模型作為具身 AI 的核心，正在經(jīng)歷從專用到通用、從 2D 到 3D、從像素到物理的深刻變革。這篇綜述提出的三軸統(tǒng)一框架，不僅為學(xué)術(shù)界梳理了清晰的研究脈絡(luò)，也為工業(yè)界的技術(shù)落地提供了重要參考。隨著數(shù)據(jù)、算法和算力的持續(xù)進(jìn)步，我們有理由相信，未來的世界模型將能夠像人類大腦一樣，構(gòu)建出物理可信、因果一致的內(nèi)部世界，真正實(shí)現(xiàn)感知、預(yù)測與決策的統(tǒng)一，為通用人工智能的到來奠定堅(jiān)實(shí)基礎(chǔ)。

具身智能讀書會(huì)

集智俱樂部聯(lián)合上海交通大學(xué)助理教授李永露、銀河通用機(jī)器人合伙人史雪松、南京大學(xué)LAMDA組博士生陳雄輝、香港大學(xué)在讀博士生穆堯，共同發(fā)起首季。讀書會(huì)計(jì)劃采用“自下而上”的層級(jí)結(jié)構(gòu)，探討四個(gè)核心模塊：硬件系統(tǒng)（機(jī)器人本體設(shè)計(jì)），數(shù)據(jù)、仿真環(huán)境與Benchmark，機(jī)器人學(xué)習(xí)，具體場景任務(wù)。希望通過重點(diǎn)討論經(jīng)典、前沿的重要文獻(xiàn)，幫助大家更好地學(xué)習(xí)機(jī)器人與具身智能技術(shù)前沿技術(shù)，為相關(guān)領(lǐng)域的研究和應(yīng)用提供洞見。讀書會(huì)已完結(jié)，現(xiàn)在報(bào)名可加入社群并解鎖回放視頻權(quán)限。

詳情請(qǐng)見：

#速遞

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.