網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

世界模型的GPT時刻：距離物理AGI出圈，還有多遠？

2026-06-18 12:36:06　來源: AI前線

北京舉報

分享至

作者 | AICon 全球人工智能開發(fā)與應(yīng)用大會

策劃 | 李忠良

編輯 | 宇琪

世界模型在 2025 到 2026 年陡然升溫，成為 AI 領(lǐng)域最熱的方向之一。但它究竟是什么？Sora 算不算世界模型？從視頻生成到真正理解物理世界，中間還缺什么？

近日，InfoQ《極客有約》X AICon 直播欄目特別邀請大曉機器人副總裁開悟世界模型負責人王飛擔任主持人，和極佳視界聯(lián)合創(chuàng)始人 & 首席科學家朱政、騰訊 3D 世界模型負責人王騰飛一起，在AICon 全球人工智能開發(fā)與應(yīng)用大會 2026 上海站即將召開之際，共同探討物理 AI 的下一個戰(zhàn)場。

部分精彩觀點如下：

世界模型不管是 to C 帶物理理解的內(nèi)容生成還是具身場景，都還處在學術(shù)界和工業(yè)界內(nèi)部的小圈子里，遠沒到出圈的時候。
生成加重建是目前一個很好的折中探索，重建技術(shù)可以大幅彌補甚至規(guī)避純生成的幻覺。
數(shù)據(jù)量足夠大的時候隱空間學習上限更高，這很像語言模型界那句"苦澀的教訓"，少做人工先驗，讓模型自己學。但現(xiàn)階段數(shù)據(jù)就幾十萬小時，顯示地提取手部和腕部的骨骼關(guān)鍵點還是有現(xiàn)實必要性的。
純視頻生成最大的命門是算力消耗，做數(shù)據(jù)生成引擎可以靠尺度定律慢慢堆，但做具身大腦，需要實時推理來控制機器人，效率瓶頸就很致命了。

在 6 月 26-27 日將于上海舉辦的 AICon 全球人工智能開發(fā)與應(yīng)用大會 2026 上海站上，我們特別設(shè)置了【世界模型與多模態(tài)智能突破】專題。該專題將聚焦世界模型、多模態(tài)智能、視頻生成的技術(shù)交匯、產(chǎn)業(yè)落地、在多場景中的量產(chǎn)實踐。

查看大會日程解鎖更多精彩內(nèi)容：
https://aicon.infoq.cn/2026/shanghai/schedule

以下內(nèi)容基于直播速記整理，經(jīng) InfoQ 刪減。

什么是世界模型？

王飛：世界模型到底是什么？Sora 算不算世界模型？OpenAI 說它是"物理世界模擬器的雛形"，但也有人說能生成好看的視頻和真正理解物理是兩件完全不同的事。在各位看來，從"視頻生成"到"真正的世界模型"，中間缺的那一環(huán)是什么？

朱政：世界模型這個概念從去年開始被討論得越來越多，尤其是李飛飛教授和楊立昆教授創(chuàng)業(yè)之后，他們的公司都跟世界模型有關(guān)。從李飛飛最新一篇博客來看，世界模型大概在做三件事。第一是渲染器，指的是視頻生成——不管用純生成還是生成加重建的方式，最終產(chǎn)出內(nèi)容、影視、游戲。比如 World Labs 可以根據(jù)單張圖片創(chuàng)建一個 3D 或 4D 世界，你可以在里面自由漫游。一些帶 camera control 的視頻生成模型也具備了類似功能。

第二塊是仿真器，主要針對強化學習，作為一個仿真環(huán)境和 agent 進行交互，這一塊我們也可以認為是世界模型。

第三是現(xiàn)在討論最熱烈的 world action model，也就是規(guī)劃器，它本身可以產(chǎn)生 policy、可以產(chǎn)生 action。很多人認為它可能是 VLA 的下一代，或者會和 VLA 走向融合。現(xiàn)在大家講的世界模型，我認為主要是這三塊，這樣劃分比較明確，不會把不同的事情混在一起討論。

王騰飛：Sora 是一個很好的視頻生成模型，但它很難算世界模型。視頻生成和世界模型關(guān)注的東西完全不一樣。前者關(guān)心畫面質(zhì)感、美學、敘事感；后者最核心的能力是可交互性——根據(jù)動作指令去影響未來的演變。

Sora 視覺效果極好，但它缺少世界狀態(tài)，所以生成時間一長就會漂移、穿模、違反各種物理規(guī)律。這不是模型參數(shù)夠不夠大的工程問題，而是這個范式本身就缺了世界狀態(tài)這個核心。世界模型一個是要能交互，另一個是需要維護世界狀態(tài)。

它不只是在擬合像素，而是能識別空間里有幾個物體、是什么形狀、帶有什么物理量。你才能去問它：這東西離我多遠、多重、我推它會怎樣？世界狀態(tài)可以是顯示的 3D 形式，也可以是隱空間的 feature。交互性，就是區(qū)分視頻生成和世界模型的那道線。

王飛：開悟的定義比較直接：基于對現(xiàn)實世界的觀測，結(jié)合交互指令，最終實現(xiàn)像素級場景還原和物理狀態(tài)的精準預(yù)測。舉個例子，地球繞太陽公轉(zhuǎn)，視頻生成模型能還原你看到的一切表觀現(xiàn)象，但看不到背后的萬有引力規(guī)律——質(zhì)量、速度、加速度這些物理量，才是世界模型真正要輸出的東西。

王飛：世界模型不是新概念，為什么 2025 到 2026 年突然變成了最熱的方向？

王騰飛：這個概念幾十年前就有了，但最近一輪熱度是從 2023 年啟動的。兩個關(guān)鍵變化。第一是以 DiT 為代表的生成模型技術(shù)的重大突破，擴散模型能從海量互聯(lián)網(wǎng)數(shù)據(jù)中學到物理直覺和一些時空動態(tài)規(guī)律。

第二是大語言模型帶來的資源溢出效應(yīng)——語言模型這一波吸引了海量資金和人才，把算力、infra、數(shù)據(jù)基建都做到了很高的水平，溢出的資源自然而然流向其它 AI 模態(tài)。這兩股力量疊加，把世界模型重新推到了風口上。

朱政：我們 23 年開始做世界模型，最早切入的是自動駕駛這個垂類。當時自動駕駛從 BEV 感知到分段式端到端再到 VLA，數(shù)據(jù)需求很明確，但 corner case 數(shù)據(jù)的收集極其困難——真實路采成本高、周期不可控，世界模型恰好是解決這個痛點的好方案。

借助開源基模——Stable Diffusion、Stable Video Diffusion——做預(yù)訓練，再加自動駕駛后訓練數(shù)據(jù)，就能得到一個不錯的閉環(huán)仿真器或數(shù)據(jù)生成器。后來隨自動駕駛方向逐步收斂，大家的目光轉(zhuǎn)向了具身。具身數(shù)據(jù)目前遠不足以從頭預(yù)訓練一個模型，還得依賴多模態(tài)和視頻模型的進展。

具身場景現(xiàn)在還沒到討論 corner case 的階段，更緊迫的是泛化數(shù)據(jù)生成和與強化學習結(jié)合的混合訓練，也就是 world action model 這條線。VLA 最近很火但缺點明顯，大家希望用世界模型來補位，目前整體還在探索過程中。

王飛：從需求側(cè)看，驅(qū)動力主要是兩個。一是數(shù)據(jù)生成引擎，具身場景數(shù)據(jù)缺口巨大，互聯(lián)網(wǎng)數(shù)據(jù)、仿真數(shù)據(jù)、真機數(shù)據(jù)三層金字塔里，世界模型的合成數(shù)據(jù)是很好的結(jié)構(gòu)性補充。尤其在具身當前的發(fā)展階段，數(shù)據(jù)是最大的瓶頸。二是具身大腦，VLA 從 23 年到現(xiàn)在進入了落地瓶頸，泛化性不夠，沒見過場景的成功率偏低。

世界模型從海量互聯(lián)網(wǎng)視頻里學到了千奇百怪的時空模式，天然泛化能力更強，正好彌補 VLA 的短板，這就是 VLA 當前滿足不了落地需求而世界模型能補位的地方。

王飛：語言模型有 ChatGPT 這個清晰的 milestone，世界模型有沒有對應(yīng)的技術(shù)節(jié)點？

朱政：語言模型有兩個爆點，聊天和 Coding，Agent 還沒形成并駕齊驅(qū)的局面。世界模型不管是 to C 帶物理理解的內(nèi)容生成還是具身場景，都還處在學術(shù)界和工業(yè)界內(nèi)部的小圈子里，遠沒到出圈的時候。

大家心目中的標桿是一個通用世界模型，而不是只能做自動駕駛或只能做具身的垂類模型。現(xiàn)在可能還是處在學術(shù)圈和工業(yè)界討論比較多、但大眾還沒感知到的階段，朝通用這個目標還需要一些時間。

王騰飛：我覺得現(xiàn)在就是一個很好的節(jié)點。我們今年發(fā)現(xiàn)，混元訓練出的視頻生成模型，生成的視頻直接喂給 3D 重建模型，可以得到幾何自洽的三維場景——生成到重建的閉環(huán)已經(jīng)打通了。去年我們?nèi)ド梢曨l，它對物理規(guī)則的理解還比較弱，3D 一致性也比較差。

但今年模型靠數(shù)據(jù)規(guī)模就能學到一定的物理規(guī)律，雖然還不夠強，但只要它學到了，后續(xù)通過強化學習去增強是完全可行的。所以我覺得現(xiàn)在就是一個合適的可以去做的時間窗口。

王飛：其實我們已經(jīng)非常接近于 GPT 時刻了，但是對于世界模型而言，當前還是在處于一個尺度定律的發(fā)展階段。開悟從去年下半年完整跑了一遍預(yù)訓練到后訓練。我們發(fā)現(xiàn)從 100 兆訓練數(shù)據(jù)到 300 兆再到 500 兆的時候，精度曲線確實在明顯提升，視頻加文本再加物理狀態(tài)的聯(lián)合訓練，效果是持續(xù)變好的。

但像語言模型那樣出現(xiàn)"智能涌現(xiàn)"，模型突然自己理解了物理規(guī)律之間的深層聯(lián)系，目前在世界模型上還沒觀察到。它還處于"學會了生成世界、能預(yù)測簡單狀態(tài)變化"的階段，尚未達到自主理解和推理物理因果的程度。這個物理 AGI 的 milestone 還需要大家一起推。

具身數(shù)據(jù)的結(jié)構(gòu)問題

王飛：行業(yè)對具身數(shù)據(jù)已形成金字塔共識——底層互聯(lián)網(wǎng)視頻、中層仿真數(shù)據(jù)、頂層遙操作真機數(shù)據(jù)。世界模型在這三層里分別能做什么、不能做什么？它最大的價值是替代某一層，還是打通各層之間的壁壘？

王飛：世界模型作為數(shù)據(jù)生成引擎，對金字塔是很好的補充，絕非替代關(guān)系。智能駕駛到深水區(qū)之后，長尾場景數(shù)據(jù)采集周期長、成本高，世界模型快速生成場景數(shù)據(jù)是很好的方案。仿真里最難的是流體模擬和柔性物體模擬，但對世界模型反而更自然，ROI 很高。零售場景里海量 SKU，真機采集成本高、周期長，世界模型做快速替換和增廣就游刃有余。在具身場景下，它的主要作用還是數(shù)據(jù)內(nèi)容的增廣。

朱政：大家對數(shù)據(jù)金字塔本身認知比較一致，但虛擬世界模型自身的數(shù)據(jù)配比應(yīng)該怎么定，有沒有自己的金字塔結(jié)構(gòu)，我們還在探索。目前市面上開源的最大世界模型真機數(shù)據(jù)大概只有一兩萬小時，遠遠不夠做高質(zhì)量的二次預(yù)訓練，容易過擬合到特定機型或特定場景。

各家的基模收集了幾十萬甚至上百萬小時的數(shù)據(jù)，但這些能不能無縫移植來訓世界模型，還不確定。在數(shù)據(jù)供給方面，針對特定場景和已知任務(wù)做泛化數(shù)據(jù)生成沒問題，甚至可以結(jié)合真機做強化學習。但跨任務(wù)、跨機型泛化的幻覺還比較嚴重——換了沒見過的機型、不同的自由度配置和機械臂形態(tài)，它就暴露了沒完全學會物理規(guī)律的短板。

王飛：如果說一個訓好的世界模型，它可以反過來像給 VLA/World Action Model，提供一些什么樣的燃料呢？

朱政：現(xiàn)在看起來的話，我們針對特定場景，比如說工業(yè)場景或者泛服務(wù)場景，因為大概率情況下，VLA 在這種場景下只需要做一種任務(wù)或者幾種任務(wù)，而且這一種任務(wù)或者幾種任務(wù)你是提前知道的。所以你可以產(chǎn)生海量的泛化數(shù)據(jù)，針對某種機型或者某種 task 而言，這個是沒問題的。

甚至更進一步，我們可以基于某些公開的數(shù)據(jù)集或者自采的數(shù)據(jù)集，針對某種平臺、某幾種任務(wù)，做一個閉環(huán)模擬器，在里邊結(jié)合你的真機強化學習，結(jié)合世界模型加真機做強化學習，這一點也是沒有問題的。

但是我們現(xiàn)在看起來，跨任務(wù)或者跨機型的泛化可能還是有一些問題，它的幻覺還是比較嚴重的。比如說換了任務(wù)，在訓練的時候，所謂 OD 的場景，或者說訓練時沒有見過的機型，一種新的機型，它的自由度、它的機械臂可能長得不太一樣。在這樣的情況下，它可能還是沒有完全學會背后的物理規(guī)律，還是容易出現(xiàn)比較多的幻覺。這是我們目前觀察到的一個現(xiàn)象。

王飛：那您覺得這種幻覺，或者說這種生成數(shù)據(jù)，真的在現(xiàn)在 VLA/World Action Model 當中起到一個很大的作用嗎？或者說它能夠給下游任務(wù)提點嗎？

朱政：所謂的泛化數(shù)據(jù)，在集群里邊情況還是比較復(fù)雜的。你看像最常見的，表觀的泛化，比如說顏色、紋理、光照，它其實不影響動作空間，也不影響視角這些變化，它僅僅做這種表觀的泛化，這個肯定就非常成熟了，大家也做了非常多的工作。然后第二塊，可能更進一步，比如說我要做各種視角的泛化，當然也得益于之前的 MVS 還有新視角合成的一些成果，現(xiàn)在視角泛化基本上被大家解決了。

當然最難的就是所謂動作的泛化，包括各種反事實的、各種動作空間的組合，包括我讓強化學習去探索，不僅要讓它去探索正確的軌跡，還要去探索失敗的軌跡。失敗的軌跡就牽扯到各種因果推理，還有一些反事實的東西，我覺得這一塊相對來說還是比較難的。

王騰飛：世界模型的核心價值在于把海量互聯(lián)網(wǎng)視頻知識內(nèi)化到模型里，去放大仿真和真機數(shù)據(jù)的價值。傳統(tǒng)仿真資產(chǎn)靠手搓，量小，而且和真實世界有明顯 gap。

混元世界模型用 AI 生成外觀真實、場景多樣、幾何自洽的合成數(shù)據(jù)，能顯著縮小 Sim-to-Real gap。關(guān)于真機數(shù)據(jù)，目標不是替代而是擴充——比如給一段遙操作視頻生成多視角渲染，圍繞真實樣本產(chǎn)生大量變體，把有限的高質(zhì)量數(shù)據(jù)充分放大。

王飛：頂層遙操作數(shù)據(jù)公認質(zhì)量最高、成本也最貴，世界模型到底能不能合成出這個質(zhì)量？還是說有些東西在本質(zhì)上就不可能被合成？

王騰飛：視覺效果可以逼近，物理層面非常困難。人抓一個軟包裝的瞬間，手指能感受形變和阻力，大腦實時調(diào)整力度——這些力學信息攝像頭根本記錄不了，合成更是另一回事。包覆力反饋和操作者的實時決策鏈是合成數(shù)據(jù)很難跨越的障礙。但從頭合成難不代表擴充數(shù)據(jù)的路走不通，對真實樣本做變體增廣這條路徑反而是清晰的。

朱政：生成加重建是目前一個很好的折中探索，重建技術(shù)可以大幅彌補甚至規(guī)避純生成的幻覺。純生成的上限當然更高，通過海量數(shù)據(jù) scaling 理論上能消除幻覺。但重建作為一條中間路徑，在解決新視角一致性、大場景探索上更穩(wěn)健。剛體交互大家解決得比較好了，可變形物體也有了一定進展，流體這類最難的，可能還得回歸到結(jié)合 CG 的進展，計算機圖形學那邊現(xiàn)在也有不少突破。

王騰飛：我們做得比較聚焦，現(xiàn)在只做仿真資產(chǎn)生成，包括場景和 3D 物體資產(chǎn)，帶物理碰撞和材質(zhì)屬性——金屬的、透明的、粗糙的、光滑的。生成之后導入仿真引擎，物理仿真的任務(wù)交給成熟的物理引擎來處理。

王飛：Ego 數(shù)據(jù)天然攜帶"意圖—動作—結(jié)果"這條因果鏈，是第三視角數(shù)據(jù)永遠無法捕獲的。這兩種數(shù)據(jù)在模型能力上會產(chǎn)生什么本質(zhì)差異？

王騰飛：第一人稱學習泛化性更強。不同主體的形狀外觀各不相同，第三人稱視角還要學習主體和背景的相關(guān)性，這部分消耗了大量模型能力。第一人稱和本體幾乎無關(guān)，能更純粹地處理"看到了什么、怎么因果推理"的問題。

朱政：第三人稱數(shù)據(jù)大多從互聯(lián)網(wǎng)視頻中洗出來的，跟互聯(lián)網(wǎng)數(shù)據(jù)的分布自然接近。第一人稱，不管是頭戴、眼鏡還是腕戴攝像頭，跟真機數(shù)據(jù)天然對齊，價值明顯更高。但采集的麻煩事很多：單目還是雙目？帶不帶 IMU？SLAM 算法能到什么精度？這些變量決定了數(shù)據(jù)的噪聲水平和可用性，而且噪聲會隨著數(shù)據(jù)量的增加等比例放大。

增加數(shù)據(jù)帶來的收益能不能覆蓋噪聲成本，目前沒有明確結(jié)論。至于學習范式，數(shù)據(jù)量足夠大的時候隱空間學習上限更高，這很像語言模型界那句"苦澀的教訓"，少做人工先驗，讓模型自己學。但現(xiàn)階段數(shù)據(jù)就幾十萬小時，顯示地提取手部和腕部的骨骼關(guān)鍵點還是有現(xiàn)實必要性的。

王飛：期待行業(yè)里能有些工作互相指引一下。最近這種高精度多模態(tài)異構(gòu)數(shù)據(jù)的積累，對行業(yè)牽引很關(guān)鍵。你們世界模型的架構(gòu)是怎么設(shè)計的，去學這些異構(gòu)的具身數(shù)據(jù)？

朱政：我們現(xiàn)在是拿一個很強的視頻生成基模，在上面做第二次預(yù)訓練，混合自動駕駛數(shù)據(jù)、異構(gòu)數(shù)據(jù)加上一部分真機數(shù)據(jù)，再針對特定場景做后訓練。訓練時聯(lián)合預(yù)測未來的 action 和視頻，但會隨機 mask 掉一些生成視頻的分支，這樣推理的時候可以只出 action。我們的 WAM 大概就長這樣。

王騰飛：我們沒有針對 ego 做特殊設(shè)計，還是希望世界模型盡可能通用。

王飛：從交互的角度呢，像騰訊發(fā)的 3D 交互世界模型，架構(gòu)上怎么去滿足物理世界的交互動態(tài)？

王騰飛：長視頻生成必須考慮 memory 機制，前后不能沖突。其實人類空間記憶就是異構(gòu)的、以自我為中心的，你會記得樓下左轉(zhuǎn) 30 米有個咖啡店，而不是記經(jīng)緯度。所以我們用相當 local 的 memory，以 agent 為中心的局部表示，全局 memory 反而是用一個比較模糊的單一 embedding。

王飛：所以 memory 在交互世界模型里確實很關(guān)鍵。那前面那個理解模塊，現(xiàn)在行業(yè)里通用做法是用 VLM 做前置，編碼成 token 或 embedding，它的重要性各位怎么看？

朱政：理解模塊很重要。我們做世界模型，不管是生成數(shù)據(jù)還是 World Action Model，都希望能把互聯(lián)網(wǎng)學到的大量知識繼承下來，帶到具身或自動駕駛里。這個模塊就是我們保留這些知識的一個最大的抓手。

王騰飛：現(xiàn)在理解可能還是單獨的，但在多模態(tài)領(lǐng)域，生圖生視頻已經(jīng)在走向統(tǒng)一理解和生成的模型了，我覺得未來世界模型也會慢慢把理解和生成統(tǒng)一到一個范式里。

王飛：我們也觀察到，理解得越好、描述越細致，生成視頻和動作交互的質(zhì)量分數(shù)就越高。可能一百字的理解和五百字的細致描述，差距非常大。所以要想把狀態(tài)預(yù)測和視頻生成做到一個比較好的水平，理解、生成、預(yù)測一體化的框架，未來還是非常有必要的。

世界模型的技術(shù)范式

王飛：從生成式、表征式到神經(jīng)-物理混合，現(xiàn)有這幾條技術(shù)路線走到今天，你認為它們各自能走多遠？有沒有哪條路線，你覺得它在范式層面就有天花板——不是工程問題，而是這條路本身走不到「真正理解物理世界」這個目標？

王騰飛：三條路線各有利弊，目前都沒有收斂。純視頻生成做的是像素擬合，沒有持久狀態(tài)，生成時長一上去就漂移。JEPA 這類表征模型理論上非常優(yōu)雅合理，如果只運行在機器人內(nèi)部、不需要給人看，還湊合。但大量應(yīng)用場景需要輸出人眼可讀的像素——游戲、短劇、生成內(nèi)容的質(zhì)量檢查和可解釋性。

我們騰訊做的是混合式路線：顯示 3D 加物理引擎注入，再結(jié)合生成模型的想象力。有顯示狀態(tài)、物理可控、天然可交互、比純生成多了幾何約束。這是我們當前押注的方向，未來可能還會把接觸力學、物理材質(zhì)也編碼進去，但需要仿真、渲染、大規(guī)模數(shù)據(jù)三個方向同時突破。

朱政：我們基本走視頻生成路線，可以直接利用現(xiàn)成的視頻生成基模和 VLA 訓練數(shù)據(jù)，基建成熟度和數(shù)據(jù)可得性都更有優(yōu)勢。楊立昆那條路我們也在探索，它更接近人類認知機制——我們開車或者行動的時候，大腦不會先渲染一幀 RGB 畫面再決策，更多是在隱空間里高效推理。上限可能更高，但現(xiàn)階段還不能下結(jié)論。

王飛：純視頻生成最大的命門是算力消耗，做數(shù)據(jù)生成引擎可以靠尺度定律慢慢堆，但做具身大腦，需要實時推理來控制機器人，效率瓶頸就很致命了。

朱政：目前比較實用的方案是訓練時聯(lián)合預(yù)測 action 和視頻，推理時只輸出 action，類似 VLA 的做法，算是一種折中。如果實時視頻生成通過蒸餾或原生方案得到解決，這個推理效率的問題就不是根本障礙。

王飛：但折中方案可能丟掉了世界模型相比 VLA 最大的差異化優(yōu)勢，推理時同步輸出狀態(tài)演變的視頻畫面，從而能判斷任務(wù)是成功還是失敗。我個人判斷，未來大概率走向表征和生成的融合。純表征式能預(yù)測狀態(tài)但不會渲染外觀變化，純生成式容易穿模且物理理解偏弱。Cosmos 3 就是表征、生成、理解一體化的架構(gòu)，效果很好，說明融合路線是走得通的。

王騰飛：我們已經(jīng)落地了一個實用方案：用 3D 重建模型做 reward model——給指令生成視頻后重建出運動軌跡，和輸入指令做對比，通過強化學習反饋去校準模型的指令跟隨能力。這也是混合路線在當前階段的一種實踐。

王飛：現(xiàn)在世界模型大多用的是模仿學習，如果用強化學習，會不會帶來一些質(zhì)的飛躍？

王騰飛：監(jiān)督學習要設(shè)計損失函數(shù)，自監(jiān)督要設(shè)計訓練任務(wù)，強化學習也要設(shè)計獎勵函數(shù)。我們觀察到長視頻生成之后，對指令的遵循程度會下降，發(fā)生漂移。所以在混元模型里，我們就拿 3D 感知與重建的模型來做 reward model。生成完視頻之后，用 3D 重建把軌跡重新建出來，用這個軌跡跟輸入指令做比較，作為一個 reward model，通過強化學習來校準模型對指令的執(zhí)行能力。

王飛：世界模型和 VLA 是否最終會融合成一體？但融合這件事，是生成式路線能做到、表征式路線能做到，還是只有神經(jīng)-物理混合路線才能真正實現(xiàn)？跨本體泛化這個目標，在你們押注的技術(shù)范式下，路徑是什么？

朱政：我非常傾向于會。理想中的那個終極模型，應(yīng)該既能預(yù)測 action，又能隱式或顯示地預(yù)測未來 state，可以是 RGB 空間的 state，也可以是隱空間的 state，甚至還能像人一樣預(yù)測 reward：你做了這個動作之后，會收到獎勵還是懲罰？

現(xiàn)在 VLA 已經(jīng)在吸收世界模型的稠密監(jiān)督和視頻監(jiān)督思路，比如加更豐富的監(jiān)督信號；世界模型也在用 VLM 做自動化的 reward 設(shè)計。本質(zhì)上，做 VLA 和做世界模型的是同一批人、同一個社區(qū)，只是切入點不同。這兩個概念會越來越統(tǒng)一，可能今年大家還為這兩個名詞爭論，再過一段時間就不再是話題了。

王飛：殊途同歸。一個以語言為核心，一個以視覺為核心，最終都是對世界的建模和狀態(tài)表征。在一個統(tǒng)一架構(gòu)下，兩者的長處應(yīng)該能被同時容納。今年的爭論，也許再過一段時間就不再是話題了。

王飛：今天大家都在做世界模型，但行業(yè)還沒有形成類似 MMLU、ImageNet 這樣的統(tǒng)一評測標準。如果一個模型能夠生成逼真的視頻，它就算好的世界模型嗎？你認為真正有價值的世界模型，應(yīng)該被哪些能力維度衡量？

王騰飛：最被系統(tǒng)性忽略的維度是可交互性。現(xiàn)在幾乎所有人都在用視頻生成的標準來評測世界模型，看看畫質(zhì)好不好、細節(jié)精不精細。但對世界模型來說，視覺質(zhì)量未必是第一位的事。可交互性的評測必須在實際交互過程中才能完成：模型能撐多少秒不崩？做出的每個動作是否符合預(yù)期和物理規(guī)律？沒有這類評測，scaling 就是盲目的。

目前交互時長大概是分鐘級，一兩分鐘就算很不錯了。真正跑出來，需要實時可控加開放世界三個維度同時達標。但好消息是最近已經(jīng)有不少評測工作開始聚焦這個方向了，雖然到底測什么，是畫面不崩還是符合所有物理定律，共識還在形成中。

朱政：世界模型的評測還非常間接。不管是做數(shù)據(jù)生成、閉環(huán)模擬器還是自己出 policy，最終都要靠下游任務(wù)，比如 VLA 的精度漲點，來間接證明價值。這個反饋鏈路長、延遲高，需要大量訓練數(shù)據(jù)和 rollout，遠不是即時的。這是評測這塊天然比較難的地方。

王飛：開悟內(nèi)部用三個字定義好的世界模型：快、準、穩(wěn)。快是效率，推理慢的話經(jīng)濟賬算不過來，生成一萬條 clip 要幾百張 A800 跑一天，根本沒有落地的可能性，蒸餾和架構(gòu)輕量化是必須的。準是精度，policy 和視頻生成的質(zhì)量要絕對達標。穩(wěn)是可復(fù)現(xiàn)，視頻生成最讓工程側(cè)頭疼的就是"抽卡"，同樣的輸入每次產(chǎn)出不一樣，這對下游是災(zāi)難性的。

最被低估的挑戰(zhàn)與展望

王飛：世界模型領(lǐng)域，有沒有一個大家都在回避、但遲早要面對的硬骨頭——不是最難的挑戰(zhàn)，而是最被低估的那一個？

朱政：最關(guān)鍵的還是自進化。展開講至少兩個方向。一是視頻生成的強化學習后訓練——打破純監(jiān)督學習框架，讓模型從失敗案例里也提取出有用的信號，實現(xiàn)模型的自我迭代，而不僅僅依賴人類標注的正確軌跡。二是和 agentic 系統(tǒng)結(jié)合——現(xiàn)在的世界模型和 VLA 都只能執(zhí)行十幾秒的短程任務(wù)，要讓一個機器人 24 小時持續(xù)工作、隨時響應(yīng)各種指令，上面必須有一套 agentic 調(diào)度層，把各種模型串成一個實時響應(yīng)、持續(xù)運行的完整系統(tǒng)。這可能是比單模型能力提升更迫切的事情。

王騰飛：最被低估的就是評測本身。很多人覺得評測沒什么技術(shù)含量，但評測維度和模型能力是互為因果的。沒有好的評測，你根本不知道模型到底進步在哪里、短板在哪里。反過來說，如果評測維度和指標設(shè)計得好，這些東西本身就可以拿來當強化學習的獎勵函數(shù)，直接驅(qū)動模型能力定向提升。

王飛：開悟覺得最被低估的是世界模型自己的基模型問題。現(xiàn)在大家都在用視頻生成的開源基模當起點，它們確實展現(xiàn)了不錯的物理直覺，但它們終究是為"拍好畫面"而設(shè)計的——訓練數(shù)據(jù)的物理一致性、長程時空約束、推理效率需求，都和世界模型的核心訴求有錯配。尺度定律要繼續(xù)往前走，遲早需要專門面向物理世界的基模型預(yù)訓練。這是我們內(nèi)部重點布局的方向。

王飛：三年后，世界模型是少數(shù)通用大模型通吃，還是場景化專用模型各占山頭？如果算力成本再降一個數(shù)量級，你的判斷會改變嗎？

王騰飛：格局應(yīng)該跟現(xiàn)在的語言模型類似。少數(shù)幾家做出通用基模型，大量參與者在基模型上面做垂類精調(diào)，游戲、內(nèi)容創(chuàng)作、自動駕駛、機器人，各有各的主場。垂類場景非常豐富，每個細分領(lǐng)域都有自己獨特的需求和數(shù)據(jù)分布。

朱政：垂類模型的量會非常大，物理世界場景的復(fù)雜度遠超數(shù)字世界，自動駕駛和具身的每一個細分領(lǐng)域情況都千差萬別。但通用世界模型因為資金投入和人才密度要求極高，最終應(yīng)該會收斂到少數(shù)幾款，這個判斷即使算力成本再降一個數(shù)量級應(yīng)該也不會改變。

王飛：物理世界的多樣性決定了垂類模型會有獨立生存空間，尤其工業(yè)、物流等特定場景，垂類模型的 ROI 可能反而更高。通用基模型大概率走向收斂，但通用和垂類的均衡線在哪里，未來變數(shù)很大，這是從業(yè)者需要持續(xù)關(guān)注的核心問題。

會議推薦

AICon 上海站 9折限時返場，立減580，截止618！更多詳情可掃碼或聯(lián)系票務(wù)經(jīng)理 13269078023 進行咨詢。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.