无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

arXiv:面向具身智能的世界模型綜述

0
分享至


導(dǎo)語

機(jī)器人自主操作、自動(dòng)駕駛預(yù)判、智能體想象式?jīng)Q策的背后,是世界模型,具身人工智能的內(nèi)部模擬器。它賦予智能體感知、預(yù)測與規(guī)劃能力,是下一代通用人工智能的核心基石。這篇工作首次提出功能-時(shí)間-空間三軸統(tǒng)一分類框架,系統(tǒng)梳理世界模型從決策專用到通用模擬的演進(jìn)脈絡(luò),量化對(duì)比全球頂尖模型性能,深度剖析領(lǐng)域核心挑戰(zhàn)與未來方向,為學(xué)術(shù)界構(gòu)建了全景式知識(shí)圖譜,也為工業(yè)界技術(shù)落地指明了清晰路徑。

關(guān)鍵詞:世界模型(World Models),具身人工智能(Embodied AI),時(shí)間建模,空間表示,自主智能體 (Autonomous Agents)

王璇丨作者

趙思怡丨審校


論文題目:A Comprehensive Survey on World Models for Embodied AI 論文鏈接:https://arxiv.org/html/2510.16732v1 發(fā)表時(shí)間:2025 年 10 月 19 日 論文來源:arXiv

從認(rèn)知科學(xué)到通用模擬器:世界模型的進(jìn)化之路

世界模型的思想根植于認(rèn)知科學(xué),人類通過大腦內(nèi)部模型整合感官、預(yù)判事件、指導(dǎo)行動(dòng)。受此啟發(fā),早期AI將其引入基于模型的強(qiáng)化學(xué)習(xí),通過學(xué)習(xí)環(huán)境狀態(tài)轉(zhuǎn)移提升樣本效率與規(guī)劃能力。2018年Ha與Schmidhuber的開創(chuàng)性工作正式確立"世界模型"概念,證明循環(huán)神經(jīng)網(wǎng)絡(luò)可編碼環(huán)境狀態(tài)、模擬未來軌跡以驅(qū)動(dòng)策略優(yōu)化,直接催生了經(jīng)典的Dreamer系列模型。

大規(guī)模生成式與多模態(tài)學(xué)習(xí)的爆發(fā),推動(dòng)世界模型從任務(wù)專用的決策輔助工具,進(jìn)化為高保真通用環(huán)境模擬器。OpenAI Sora、Meta V-JEPA 2等模型不僅能生成長時(shí)序連貫視頻,更能捕捉復(fù)雜物理規(guī)律與物體交互,為跨領(lǐng)域具身智能奠定了通用基礎(chǔ)。

但領(lǐng)域的快速發(fā)展也導(dǎo)致術(shù)語混亂、分類體系割裂,現(xiàn)有綜述多局限于功能視角或自動(dòng)駕駛等單一應(yīng)用,缺乏覆蓋全主流方法的統(tǒng)一框架。本次綜述提出的功能-時(shí)間-空間三軸分類法,正是為解決這一痛點(diǎn)而生,從三個(gè)核心維度構(gòu)建了邏輯自洽的分類體系,為領(lǐng)域研究提供了標(biāo)準(zhǔn)化分析工具。

三軸統(tǒng)一框架:拆解世界模型的核心設(shè)計(jì)維度

三軸分類框架是該綜述的核心貢獻(xiàn),它從功能耦合性、時(shí)間建模方式、空間表示策略三個(gè)相互關(guān)聯(lián)的核心維度,厘清了世界模型的設(shè)計(jì)邏輯與技術(shù)路線。


圖1. 該綜述的結(jié)構(gòu)。沿三個(gè)軸對(duì)全球模型進(jìn)行分類,并展示每種方法的代表性方案,為該領(lǐng)域提供了統(tǒng)一的視角

功能維度上,世界模型呈現(xiàn)決策耦合與通用目的的分野。決策耦合模型與下游任務(wù)深度綁定,在特定領(lǐng)域數(shù)據(jù)上訓(xùn)練,以實(shí)時(shí)高效的控制為目標(biāo),代表如覆蓋800+任務(wù)的DreamerV3、自動(dòng)駕駛MILE、機(jī)器人操作ManiGaussian。通用目的模型則在大規(guī)模無標(biāo)注數(shù)據(jù)上預(yù)訓(xùn)練通用物理規(guī)律,以跨域泛化為核心優(yōu)勢,典型如Sora、V-JEPA 2,但存在訓(xùn)練成本高、通用表示與具體決策銜接難的問題。

時(shí)間建模維度,核心是序列模擬與全局預(yù)測的權(quán)衡。序列模擬采用自回歸方式逐幀推演,結(jié)構(gòu)緊湊、樣本效率高且天然支持閉環(huán)控制,從早期RNN到如今的Transformer 狀態(tài)空間模型(TSSM)、狀態(tài)空間模型(SSM)如 Mamba均屬此類,但存在長時(shí)序誤差累積的致命缺陷。全局差異預(yù)測并行估計(jì)完整未來序列,通過全局約束緩解誤差,以JEPA系列為代表,卻難以適配需要逐步?jīng)Q策的控制場景,當(dāng)前研究正朝著融合兩者優(yōu)勢的方向推進(jìn)。

空間表示維度,呈現(xiàn)從低維抽象到高維幾何的進(jìn)化路徑。全局隱向量計(jì)算高效但丟失細(xì)粒度空間信息,是早期模型的主流選擇。令牌特征序列依托Transformer與LLM技術(shù),成為當(dāng)前跨模態(tài)建模的主流。空間隱網(wǎng)格憑借BEV、體素等幾何先驗(yàn),在自動(dòng)駕駛領(lǐng)域廣泛應(yīng)用;分解渲染表示則基于3D 高斯濺射(3DGS)和神經(jīng)輻射場(NeRF)等技術(shù),通過可微渲染實(shí)現(xiàn)視角一致、物理可信的高保真預(yù)測,是當(dāng)前最前沿的研究方向。

數(shù)據(jù)、評(píng)估與領(lǐng)域核心挑戰(zhàn)

數(shù)據(jù)與評(píng)估是世界模型發(fā)展的核心基礎(chǔ)設(shè)施,基于統(tǒng)一框架的量化對(duì)比則清晰呈現(xiàn)了領(lǐng)域進(jìn)展與現(xiàn)存瓶頸。將數(shù)據(jù)資源劃分為四類:仿真平臺(tái)(MuJoCo、CARLA等)提供可控可擴(kuò)展的虛擬環(huán)境,交互式基準(zhǔn)(DMC、RLBench等)建立標(biāo)準(zhǔn)化性能標(biāo)尺,百萬級(jí)軌跡的OXE等離線數(shù)據(jù)集支撐跨具身預(yù)訓(xùn)練,F(xiàn)ranka、Unitree系列等真實(shí)機(jī)器人平臺(tái)完成物理世界驗(yàn)證。評(píng)估體系呈三層遞進(jìn):像素級(jí)質(zhì)量(FID、FVD等)、狀態(tài)級(jí)理解(mIoU、mAP等)、任務(wù)級(jí)性能(成功率、樣本效率等),但當(dāng)前指標(biāo)過度側(cè)重像素保真度,忽視了物理一致性與因果推理等具身核心能力。


表1. nuScenes驗(yàn)證集上開環(huán)規(guī)劃的性能對(duì)比

基于統(tǒng)一框架的量化對(duì)比顯示,DrivePhysica、MiLA分別領(lǐng)跑自動(dòng)駕駛視頻生成的視覺保真度與時(shí)間一致性,COME在4D占用預(yù)測中表現(xiàn)最優(yōu),基于逆動(dòng)力學(xué)的VidMan在機(jī)器人操作任務(wù)中成功率領(lǐng)先,SSR則在開環(huán)規(guī)劃中實(shí)現(xiàn)最低碰撞率。盡管進(jìn)展顯著,領(lǐng)域仍面臨三大核心挑戰(zhàn):一是數(shù)據(jù)與評(píng)估碎片化,缺乏跨域統(tǒng)一數(shù)據(jù)集與物理導(dǎo)向的評(píng)估標(biāo)準(zhǔn);二是計(jì)算效率瓶頸,Transformer、擴(kuò)散模型的推理成本難以滿足實(shí)時(shí)控制需求;三是建模策略的固有矛盾,自回歸的誤差累積、全局預(yù)測的交互性不足、空間表示的效率與表達(dá)性失衡,共同限制了長時(shí)序復(fù)雜任務(wù)的落地。

未來展望:走向統(tǒng)一、高效、物理可信的世界模型

針對(duì)上述挑戰(zhàn),綜述指出了未來的研究方向。在數(shù)據(jù)與評(píng)估方面,需要構(gòu)建統(tǒng)一的多模態(tài)跨域數(shù)據(jù)集,并發(fā)展能夠評(píng)估物理一致性、因果推理和長時(shí)序動(dòng)態(tài)的新型指標(biāo)。在計(jì)算效率方面,模型壓縮技術(shù)和新型架構(gòu)是重要的突破點(diǎn),它們有望在保持性能的同時(shí),實(shí)現(xiàn)實(shí)時(shí)推理。在建模策略方面,融合自回歸和全局預(yù)測的優(yōu)勢、引入顯式 3D 幾何先驗(yàn)和物理約束、結(jié)合大語言模型的推理能力,將是構(gòu)建下一代通用世界模型的關(guān)鍵路徑。

世界模型作為具身 AI 的核心,正在經(jīng)歷從專用到通用、從 2D 到 3D、從像素到物理的深刻變革。這篇綜述提出的三軸統(tǒng)一框架,不僅為學(xué)術(shù)界梳理了清晰的研究脈絡(luò),也為工業(yè)界的技術(shù)落地提供了重要參考。隨著數(shù)據(jù)、算法和算力的持續(xù)進(jìn)步,我們有理由相信,未來的世界模型將能夠像人類大腦一樣,構(gòu)建出物理可信、因果一致的內(nèi)部世界,真正實(shí)現(xiàn)感知、預(yù)測與決策的統(tǒng)一,為通用人工智能的到來奠定堅(jiān)實(shí)基礎(chǔ)。

具身智能讀書會(huì)

集智俱樂部聯(lián)合上海交通大學(xué)助理教授李永露、銀河通用機(jī)器人合伙人史雪松、南京大學(xué)LAMDA組博士生陳雄輝、香港大學(xué)在讀博士生穆堯,共同發(fā)起首季。讀書會(huì)計(jì)劃采用“自下而上”的層級(jí)結(jié)構(gòu),探討四個(gè)核心模塊:硬件系統(tǒng)(機(jī)器人本體設(shè)計(jì)),數(shù)據(jù)、仿真環(huán)境與Benchmark,機(jī)器人學(xué)習(xí),具體場景任務(wù)。希望通過重點(diǎn)討論經(jīng)典、前沿的重要文獻(xiàn),幫助大家更好地學(xué)習(xí)機(jī)器人與具身智能技術(shù)前沿技術(shù),為相關(guān)領(lǐng)域的研究和應(yīng)用提供洞見。讀書會(huì)已完結(jié),現(xiàn)在報(bào)名可加入社群并解鎖回放視頻權(quán)限。

詳情請(qǐng)見:

1.

2.

3.

4.

5.

6.

7.

8.

9.


#速遞

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣東局地出現(xiàn)特大暴雨,最大降雨量超400毫米

廣東局地出現(xiàn)特大暴雨,最大降雨量超400毫米

齊魯壹點(diǎn)
2026-06-14 18:40:18
52歲大媽:旅游時(shí)偶遇大學(xué)同學(xué),兩人做了錯(cuò)事,要跟老公坦白嗎?

52歲大媽:旅游時(shí)偶遇大學(xué)同學(xué),兩人做了錯(cuò)事,要跟老公坦白嗎?

熱心柚子姐姐
2026-06-13 14:18:59
特朗普親自攤牌內(nèi)塔尼亞胡:戰(zhàn)爭該結(jié)束了,伊朗核協(xié)議“很棒”

特朗普親自攤牌內(nèi)塔尼亞胡:戰(zhàn)爭該結(jié)束了,伊朗核協(xié)議“很棒”

趕山的姑娘
2026-06-14 17:45:57
李想承認(rèn)判斷失誤,中國車企不會(huì)只剩5家,爆款打法過時(shí)了

李想承認(rèn)判斷失誤,中國車企不會(huì)只剩5家,爆款打法過時(shí)了

路咖汽車
2026-06-14 16:25:04
2026年高考本科分?jǐn)?shù)線預(yù)測!特控線有望下降,今年的考生很幸運(yùn)

2026年高考本科分?jǐn)?shù)線預(yù)測!特控線有望下降,今年的考生很幸運(yùn)

教育導(dǎo)向分享
2026-06-14 12:00:51
再次提醒:不要吃!不要購買,里面含大量防腐劑,損害肝腎

再次提醒:不要吃!不要購買,里面含大量防腐劑,損害肝腎

健康科普365
2026-06-11 21:00:14
下周上班時(shí)間有變:連休3天,不調(diào)休

下周上班時(shí)間有變:連休3天,不調(diào)休

江西晨報(bào)
2026-06-14 11:11:17
滅世級(jí)災(zāi)難來臨?專家預(yù)測:富士山隨時(shí)可能噴發(fā),對(duì)中國有何影響

滅世級(jí)災(zāi)難來臨?專家預(yù)測:富士山隨時(shí)可能噴發(fā),對(duì)中國有何影響

史智文道
2026-06-13 09:38:56
3國分5金!國羽奪3冠2亞:男雙翻身,黑馬惜敗,山口茜拒絕3連亞

3國分5金!國羽奪3冠2亞:男雙翻身,黑馬惜敗,山口茜拒絕3連亞

劉姚堯的文字城堡
2026-06-14 16:51:37
我能接受趙文瑄結(jié)婚生子,
也能接受他退圈,
但我實(shí)在接受不了

我能接受趙文瑄結(jié)婚生子, 也能接受他退圈, 但我實(shí)在接受不了

歲月有情1314
2026-06-12 11:21:53
變天了!國家隊(duì)1.6萬億大撤退!A股“躺贏”的時(shí)代徹底翻篇了

變天了!國家隊(duì)1.6萬億大撤退!A股“躺贏”的時(shí)代徹底翻篇了

啟迪你的思維
2026-06-14 13:08:54
被美國逼成“通勤隊(duì)”的伊朗,踢出了這屆“世界杯”最硬的骨氣

被美國逼成“通勤隊(duì)”的伊朗,踢出了這屆“世界杯”最硬的骨氣

小許論事
2026-06-14 09:59:48
中東那個(gè)惡霸終于死了,不是被打死的,而是被特朗普的談判拖死的

中東那個(gè)惡霸終于死了,不是被打死的,而是被特朗普的談判拖死的

夢(mèng)史
2026-06-14 09:49:02
天津這里已達(dá)大暴雨級(jí)別!明日全市還有降雨,局地中雨!連續(xù)7天高溫30℃+

天津這里已達(dá)大暴雨級(jí)別!明日全市還有降雨,局地中雨!連續(xù)7天高溫30℃+

天津人
2026-06-14 18:52:34
高考500分左右,推薦報(bào)考這3所大學(xué),50%以上畢業(yè)生都能進(jìn)央國企

高考500分左右,推薦報(bào)考這3所大學(xué),50%以上畢業(yè)生都能進(jìn)央國企

高三倒計(jì)時(shí)
2026-06-14 18:12:28
國家一級(jí)演員何政軍,為啥結(jié)婚多年無緋聞?看他妻子是誰就明白了

國家一級(jí)演員何政軍,為啥結(jié)婚多年無緋聞?看他妻子是誰就明白了

探源歷史
2026-06-14 12:22:18
172分鐘!諾蘭A級(jí)大片,7.17上映!

172分鐘!諾蘭A級(jí)大片,7.17上映!

草莓解說體育
2026-06-13 14:43:05
葡萄牙全隊(duì)將佩戴總理贈(zèng)送的特制手環(huán)比賽,上面有若塔的名字

葡萄牙全隊(duì)將佩戴總理贈(zèng)送的特制手環(huán)比賽,上面有若塔的名字

懂球帝
2026-06-14 17:58:00
不查不知道一查嚇一跳,掌管少林寺38年的釋永信,私下到底多享受

不查不知道一查嚇一跳,掌管少林寺38年的釋永信,私下到底多享受

賤議你讀史
2026-06-10 18:00:44
一場2-0爆冷讓D組洗牌,最新積分出爐,亞足聯(lián)球隊(duì)攪局,美國不穩(wěn)

一場2-0爆冷讓D組洗牌,最新積分出爐,亞足聯(lián)球隊(duì)攪局,美國不穩(wěn)

球盲百小易
2026-06-14 17:02:59
2026-06-14 21:59:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識(shí)技能
5885文章數(shù) 4678關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

金價(jià)跌至900元關(guān)口 北京大媽豪擲11萬給兒媳備五金

頭條要聞

金價(jià)跌至900元關(guān)口 北京大媽豪擲11萬給兒媳備五金

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級(jí) 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

教育
親子
數(shù)碼
手機(jī)
公開課

教育要聞

不留遺憾,高考再戰(zhàn)!綿陽多校2027屆復(fù)讀班招生信息出爐

親子要聞

去小院看爺爺奶奶,一見面就親的不行,還得是大孫子隔輩親啊!

數(shù)碼要聞

攜手生態(tài)伙伴共譜新篇 HDC 2026鴻蒙電腦開啟新征程

手機(jī)要聞

三星擬為寬折疊機(jī)型引入與傳聞中 iPhone Fold 類似技術(shù) 以降低折痕、提升耐用性

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版