![]()
導(dǎo)語
機(jī)器人自主操作、自動(dòng)駕駛預(yù)判、智能體想象式?jīng)Q策的背后,是世界模型,具身人工智能的內(nèi)部模擬器。它賦予智能體感知、預(yù)測與規(guī)劃能力,是下一代通用人工智能的核心基石。這篇工作首次提出功能-時(shí)間-空間三軸統(tǒng)一分類框架,系統(tǒng)梳理世界模型從決策專用到通用模擬的演進(jìn)脈絡(luò),量化對(duì)比全球頂尖模型性能,深度剖析領(lǐng)域核心挑戰(zhàn)與未來方向,為學(xué)術(shù)界構(gòu)建了全景式知識(shí)圖譜,也為工業(yè)界技術(shù)落地指明了清晰路徑。
關(guān)鍵詞:世界模型(World Models),具身人工智能(Embodied AI),時(shí)間建模,空間表示,自主智能體 (Autonomous Agents)
王璇丨作者
趙思怡丨審校
![]()
論文題目:A Comprehensive Survey on World Models for Embodied AI 論文鏈接:https://arxiv.org/html/2510.16732v1 發(fā)表時(shí)間:2025 年 10 月 19 日 論文來源:arXiv
從認(rèn)知科學(xué)到通用模擬器:世界模型的進(jìn)化之路
世界模型的思想根植于認(rèn)知科學(xué),人類通過大腦內(nèi)部模型整合感官、預(yù)判事件、指導(dǎo)行動(dòng)。受此啟發(fā),早期AI將其引入基于模型的強(qiáng)化學(xué)習(xí),通過學(xué)習(xí)環(huán)境狀態(tài)轉(zhuǎn)移提升樣本效率與規(guī)劃能力。2018年Ha與Schmidhuber的開創(chuàng)性工作正式確立"世界模型"概念,證明循環(huán)神經(jīng)網(wǎng)絡(luò)可編碼環(huán)境狀態(tài)、模擬未來軌跡以驅(qū)動(dòng)策略優(yōu)化,直接催生了經(jīng)典的Dreamer系列模型。
大規(guī)模生成式與多模態(tài)學(xué)習(xí)的爆發(fā),推動(dòng)世界模型從任務(wù)專用的決策輔助工具,進(jìn)化為高保真通用環(huán)境模擬器。OpenAI Sora、Meta V-JEPA 2等模型不僅能生成長時(shí)序連貫視頻,更能捕捉復(fù)雜物理規(guī)律與物體交互,為跨領(lǐng)域具身智能奠定了通用基礎(chǔ)。
但領(lǐng)域的快速發(fā)展也導(dǎo)致術(shù)語混亂、分類體系割裂,現(xiàn)有綜述多局限于功能視角或自動(dòng)駕駛等單一應(yīng)用,缺乏覆蓋全主流方法的統(tǒng)一框架。本次綜述提出的功能-時(shí)間-空間三軸分類法,正是為解決這一痛點(diǎn)而生,從三個(gè)核心維度構(gòu)建了邏輯自洽的分類體系,為領(lǐng)域研究提供了標(biāo)準(zhǔn)化分析工具。
三軸統(tǒng)一框架:拆解世界模型的核心設(shè)計(jì)維度
三軸分類框架是該綜述的核心貢獻(xiàn),它從功能耦合性、時(shí)間建模方式、空間表示策略三個(gè)相互關(guān)聯(lián)的核心維度,厘清了世界模型的設(shè)計(jì)邏輯與技術(shù)路線。
![]()
圖1. 該綜述的結(jié)構(gòu)。沿三個(gè)軸對(duì)全球模型進(jìn)行分類,并展示每種方法的代表性方案,為該領(lǐng)域提供了統(tǒng)一的視角
功能維度上,世界模型呈現(xiàn)決策耦合與通用目的的分野。決策耦合模型與下游任務(wù)深度綁定,在特定領(lǐng)域數(shù)據(jù)上訓(xùn)練,以實(shí)時(shí)高效的控制為目標(biāo),代表如覆蓋800+任務(wù)的DreamerV3、自動(dòng)駕駛MILE、機(jī)器人操作ManiGaussian。通用目的模型則在大規(guī)模無標(biāo)注數(shù)據(jù)上預(yù)訓(xùn)練通用物理規(guī)律,以跨域泛化為核心優(yōu)勢,典型如Sora、V-JEPA 2,但存在訓(xùn)練成本高、通用表示與具體決策銜接難的問題。
時(shí)間建模維度,核心是序列模擬與全局預(yù)測的權(quán)衡。序列模擬采用自回歸方式逐幀推演,結(jié)構(gòu)緊湊、樣本效率高且天然支持閉環(huán)控制,從早期RNN到如今的Transformer 狀態(tài)空間模型(TSSM)、狀態(tài)空間模型(SSM)如 Mamba均屬此類,但存在長時(shí)序誤差累積的致命缺陷。全局差異預(yù)測并行估計(jì)完整未來序列,通過全局約束緩解誤差,以JEPA系列為代表,卻難以適配需要逐步?jīng)Q策的控制場景,當(dāng)前研究正朝著融合兩者優(yōu)勢的方向推進(jìn)。
空間表示維度,呈現(xiàn)從低維抽象到高維幾何的進(jìn)化路徑。全局隱向量計(jì)算高效但丟失細(xì)粒度空間信息,是早期模型的主流選擇。令牌特征序列依托Transformer與LLM技術(shù),成為當(dāng)前跨模態(tài)建模的主流。空間隱網(wǎng)格憑借BEV、體素等幾何先驗(yàn),在自動(dòng)駕駛領(lǐng)域廣泛應(yīng)用;分解渲染表示則基于3D 高斯濺射(3DGS)和神經(jīng)輻射場(NeRF)等技術(shù),通過可微渲染實(shí)現(xiàn)視角一致、物理可信的高保真預(yù)測,是當(dāng)前最前沿的研究方向。
數(shù)據(jù)、評(píng)估與領(lǐng)域核心挑戰(zhàn)
數(shù)據(jù)與評(píng)估是世界模型發(fā)展的核心基礎(chǔ)設(shè)施,基于統(tǒng)一框架的量化對(duì)比則清晰呈現(xiàn)了領(lǐng)域進(jìn)展與現(xiàn)存瓶頸。將數(shù)據(jù)資源劃分為四類:仿真平臺(tái)(MuJoCo、CARLA等)提供可控可擴(kuò)展的虛擬環(huán)境,交互式基準(zhǔn)(DMC、RLBench等)建立標(biāo)準(zhǔn)化性能標(biāo)尺,百萬級(jí)軌跡的OXE等離線數(shù)據(jù)集支撐跨具身預(yù)訓(xùn)練,F(xiàn)ranka、Unitree系列等真實(shí)機(jī)器人平臺(tái)完成物理世界驗(yàn)證。評(píng)估體系呈三層遞進(jìn):像素級(jí)質(zhì)量(FID、FVD等)、狀態(tài)級(jí)理解(mIoU、mAP等)、任務(wù)級(jí)性能(成功率、樣本效率等),但當(dāng)前指標(biāo)過度側(cè)重像素保真度,忽視了物理一致性與因果推理等具身核心能力。
![]()
表1. nuScenes驗(yàn)證集上開環(huán)規(guī)劃的性能對(duì)比
基于統(tǒng)一框架的量化對(duì)比顯示,DrivePhysica、MiLA分別領(lǐng)跑自動(dòng)駕駛視頻生成的視覺保真度與時(shí)間一致性,COME在4D占用預(yù)測中表現(xiàn)最優(yōu),基于逆動(dòng)力學(xué)的VidMan在機(jī)器人操作任務(wù)中成功率領(lǐng)先,SSR則在開環(huán)規(guī)劃中實(shí)現(xiàn)最低碰撞率。盡管進(jìn)展顯著,領(lǐng)域仍面臨三大核心挑戰(zhàn):一是數(shù)據(jù)與評(píng)估碎片化,缺乏跨域統(tǒng)一數(shù)據(jù)集與物理導(dǎo)向的評(píng)估標(biāo)準(zhǔn);二是計(jì)算效率瓶頸,Transformer、擴(kuò)散模型的推理成本難以滿足實(shí)時(shí)控制需求;三是建模策略的固有矛盾,自回歸的誤差累積、全局預(yù)測的交互性不足、空間表示的效率與表達(dá)性失衡,共同限制了長時(shí)序復(fù)雜任務(wù)的落地。
未來展望:走向統(tǒng)一、高效、物理可信的世界模型
針對(duì)上述挑戰(zhàn),綜述指出了未來的研究方向。在數(shù)據(jù)與評(píng)估方面,需要構(gòu)建統(tǒng)一的多模態(tài)跨域數(shù)據(jù)集,并發(fā)展能夠評(píng)估物理一致性、因果推理和長時(shí)序動(dòng)態(tài)的新型指標(biāo)。在計(jì)算效率方面,模型壓縮技術(shù)和新型架構(gòu)是重要的突破點(diǎn),它們有望在保持性能的同時(shí),實(shí)現(xiàn)實(shí)時(shí)推理。在建模策略方面,融合自回歸和全局預(yù)測的優(yōu)勢、引入顯式 3D 幾何先驗(yàn)和物理約束、結(jié)合大語言模型的推理能力,將是構(gòu)建下一代通用世界模型的關(guān)鍵路徑。
世界模型作為具身 AI 的核心,正在經(jīng)歷從專用到通用、從 2D 到 3D、從像素到物理的深刻變革。這篇綜述提出的三軸統(tǒng)一框架,不僅為學(xué)術(shù)界梳理了清晰的研究脈絡(luò),也為工業(yè)界的技術(shù)落地提供了重要參考。隨著數(shù)據(jù)、算法和算力的持續(xù)進(jìn)步,我們有理由相信,未來的世界模型將能夠像人類大腦一樣,構(gòu)建出物理可信、因果一致的內(nèi)部世界,真正實(shí)現(xiàn)感知、預(yù)測與決策的統(tǒng)一,為通用人工智能的到來奠定堅(jiān)實(shí)基礎(chǔ)。
具身智能讀書會(huì)
集智俱樂部聯(lián)合上海交通大學(xué)助理教授李永露、銀河通用機(jī)器人合伙人史雪松、南京大學(xué)LAMDA組博士生陳雄輝、香港大學(xué)在讀博士生穆堯,共同發(fā)起首季。讀書會(huì)計(jì)劃采用“自下而上”的層級(jí)結(jié)構(gòu),探討四個(gè)核心模塊:硬件系統(tǒng)(機(jī)器人本體設(shè)計(jì)),數(shù)據(jù)、仿真環(huán)境與Benchmark,機(jī)器人學(xué)習(xí),具體場景任務(wù)。希望通過重點(diǎn)討論經(jīng)典、前沿的重要文獻(xiàn),幫助大家更好地學(xué)習(xí)機(jī)器人與具身智能技術(shù)前沿技術(shù),為相關(guān)領(lǐng)域的研究和應(yīng)用提供洞見。讀書會(huì)已完結(jié),現(xiàn)在報(bào)名可加入社群并解鎖回放視頻權(quán)限。
詳情請(qǐng)見:
1.
2.
3.
4.
5.
6.
7.
8.
9.
![]()
#速遞
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.