網易首頁 > 網易號 > 正文申請入駐

星源智發布全球首個具身交互世界模型ω-EVA：世界模型首次進入行動決策閉環 | 前沿在線

2026-06-16 00:05:25　來源: 前沿在線

北京舉報

分享至

編輯：前沿在線編輯部

在2026智源大會現場，星源智用一塊被隨機打亂的華容道棋盤，展示了具身世界模型進入機器人行動決策的可能。

華容道看似是邏輯推理題，但對機器人而言，它更接近一次連續決策：每一步移動都會改變當前局面，也會影響后續路徑是否可達。機器人需要理解的不只是“現在看到什么”，還包括“如果這樣移動，接下來會發生什么？”——這正是星源智具身交互世界模型 ω-EVA 試圖回答的問題。

圖：星源智聯合創始人、智源研究院具身交互世界模型研究中心負責人孫振國

“具身智能不僅要會看、會聽、會生成動作，還需要在行動之前理解交互后果，并在真實反饋到來之前繼續修正自己。”基于這一判斷，星源智在本屆智源大會上正式發布ω-EVA，推動世界模型從“預測世界”走向“行動反饋”。

ω-EVA：從終點反推行動，讓機器人在執行前完成一次驗證

ω-EVA的命名，本身也對應了這一技術邏輯。

EVA來自Envision、Verify、Act，分別對應“預演、驗證、行動”。這不是一個簡單的命名縮寫，而是 ω-EVA 的核心控制閉環：機器人先生成候選動作，再預演這一動作可能帶來的后果，隨后基于后果反饋修正動作并執行。

Envision意味著，機器人在行動前并不直接執行第一版動作，而是在潛在空間中預演該動作可能造成的狀態變化。

Verify是讓想象后果參與動作判斷：候選動作是否可能導致偏差、碰撞、失衡、遺漏，或影響后續任務流程。

Act則意味著，機器人最終執行的不是未經檢查的初始動作，而是經過后果反饋修正后的動作序列。

而ω取自希臘字母Omega，代表終極與結局，并于World Model的W形成視覺孿生。它指向的是一種“以終為始”的動作生成方式：機器人不只是從當前狀態直接生成動作，而是在行動前先預演動作可能導向的結果，再反過來修正當前動作。

因此，ω-EVA 想表達的并不是一個抽象的世界模型概念，而是一種更接近真實機器人控制的技術范式：從預想后果出發，反向校正當前行動。

圖：ω-EVA發布會現場

從 Cardiac Copilot 到 DECO：兩條研究線的交匯

ω-EVA的誕生并非一蹴而就。星源智聯合創始人、智源研究院具身交互世界模型研究中心負責人孫振國在演講中回顧，團隊此前有兩條重要研究線索：一條來自醫療機器人場景，一條來自雙臂靈巧操作場景。

第一條線索來自心臟超聲導航項目Cardiac Copilot。在這一項目中，團隊發現，有經驗的超聲醫生并不是盲目移動探頭，而是會在腦中形成一種對動作后果的預期：如果探頭這樣移動，接下來可能看到什么切面，是否更接近目標視圖，是否需要調整方向。

基于這一觀察，團隊設計了Cardiac Dreamer，即一個能夠在隱空間中預測探頭移動后心臟切面狀態的模型。實驗顯示，這種“預演—修正”的機制能夠有效降低導航誤差。這一研究回答了一個關鍵問題：機器人系統能否在行動前，對自身動作可能帶來的感知后果進行預判。

第二條線索來自雙臂靈巧操作項目DECO。在該項目中，團隊進一步發現，視覺、本體狀態、觸覺等多模態信息不應只是被簡單拼接，而應以不同結構路徑參與動作生成。最終，DECO通過對多模態信息的結構化組織，在雙臂靈巧操作中實現了相對基線的顯著提升，其中觸覺模塊僅使用較小參數占比，卻貢獻了關鍵性能增益。

如果說Cardiac Copilot回答的是“如何理解交互后果”，那么DECO回答的是“如何組織多模態信息參與決策”。ω-EVA正是在這兩條研究線索的基礎上進一步發展而來：一方面，它繼承了對“動作后果預演”的關注；另一方面，它將當前狀態、想象后果和動作提案組織為一個顯式交互結構，使世界模型真正進入動作生成過程。

世界模型的共識：不同技術路線，正在指向同一個問題

隨著具身智能從單點動作走向復雜任務執行，世界模型正在成為行業共識中的關鍵能力。原因在于，機器人面對的是一個連續變化的物理世界：物體會移動，接觸會改變，環境狀態也會因為機器人的動作而持續演化。

機器人要穩定完成任務，不能只理解“現在看到什么”，還需要理解“如果這樣行動，接下來會發生什么？”

圍繞這一問題，當前具身世界模型主要形成了幾類技術路線。

其中，第一類方向是“未來生成增強策略學習（Future Generation for policy Learning）”。

這類方法通過生成未來視頻或未來狀態，為模型預訓練、聯合訓練以及策略蒸餾提供額外監督信號，從而提策略的學習效率和泛化能力。

Motus、DreamZero、LingBot-VA以及 Fast-WAM等工作均屬于這一技術脈絡。不同的是，測試時是否要建模清晰的未來，可根據實際部署的推理效率與策略成功率的要求進行權衡

第二類方向是“面向表征學習的隱空間預測（Latent Prediction for Representation）”。

與顯式生成未來畫面不同，這類方法更多在隱空間中預測未來狀態，通過學習未來embedding 來構建對環境動態更敏感、更具物理一致性的表征能力。

VLA-JEPA、DINO-World、WoG、BeingH0.7等代表性工作均表明，未來預測不僅能夠生成內容，更能夠幫助模型形成對世界運行規律的深層理解，從而提升決策基礎能力。

第三類方向則聚焦于“Rollout、Simulator 與Data Engine”。

這類方法將世界模型作為數據生產和環境模擬平臺，通過可控軌跡生成、大規模仿真以及數據閉環持續提升模型能力。

其中，World-Env、Ctrl-World、PlayWorld等工作強調可控Rollout和模擬能力，而GigaWorld-0則進一步向數據引擎（Data Engine）演進，為具身智能提供規模化的數據供給體系。

這些探索共同推動了世界模型技術的發展，并展現出重要價值。然而，在現有研究體系中，仍存在一個尚未被充分挖掘的關鍵接口：世界模型與策略模型在單次決策過程中的實時交互機制。

為此，星源智團隊提出了“Interactive Action Feedback（交互式動作反饋）”框架。在這一框架下，策略模型（Policy）不再只是生成最終動作，而是首先提出具體行動方案（Action Proposal）；

世界模型則即時評估該方案可能帶來的潛在后果（Latent Consequence），并將反饋結果返回給動作生成模塊，在同一次決策循環內完成修正與優化。

這一機制補上了具身世界模型走向真實控制所需要的關鍵接口：candidate action→imagined consequence base on action-conditioned world model→corrected action。

通過這種閉環交互，世界模型從傳統意義上的訓練輔助工具，進一步演進為實時參與決策過程的“思考伙伴”，使機器人能夠在行動之前預見后果、調整策略，從而實現更高質量、更可靠的決策能力。

ω-EVA：讓策略與自己的想象后果交互

ω-EVA的完整名稱是Envision, Verify, and Act with Latent Interactive World Models。它提出的是一種 latent interactive world modeling范式：策略不再直接從當前觀察映射到最終動作，而是在執行前先提出動作、想象后果，再根據后果修正動作。

這一范式可以概括為三個步驟：Proposal→Latent Consequence→Refinement，對應到機器人行為中，就是：動作提議→后果預演→動作修正。

首先，機器人基于當前視覺觀察與語言指令生成一個初始action proposal。這個proposal并不是最終動作，而是一個需要被驗證的候選動作片段。

隨后，action-conditioned latent world model會以該proposal為條件，在潛在特征空間中預測它可能誘導出的未來視覺狀態。

這里的“未來”并不是被解碼成完整視頻，而是以 latent consequence的形式參與后續動作決策。

最后，imagined-interaction action refiner會聯合當前狀態、想象未來與原始proposal，對候選動作進行重寫，輸出 refined action chunk。

這一設計改變了世界模型在具身策略中的角色。它不再只是一個被動預測器，也不是一個獨立于策略之外的模擬器，而是在action generation內部成為active feedback module。換句話說，ω-EVA讓世界模型不只是回答“未來會怎樣”，而是進一步回答：

如果執行這個動作，未來會怎樣？如果后果不理想，動作應該如何被改寫？

這正是ω-EVA與一般潛空間世界模型的關鍵差異。潛空間預測解決的是“未來如何被表征”；ω-EVA進一步解決的是“未來如何反過來修正當前動作”。

三階段閉環：讓世界模型從“預測未來”進入“修正動作”

ω-EVA并不是在既有策略后面簡單增加一個預測模塊，而是通過三階段訓練，將潛在世界模型、動作生成器和后果反饋機制逐步耦合起來。

ω-EVA 總體架構圖

第一階段是Action-conditioned Latent World Model。模型給定當前視覺特征和動作片段，預測對應未來視覺特征，并同時學習一個dynamics-aware current representation。

由于模型必須預測“在某個動作條件下，場景將如何變化”，它被迫關注與動力學相關的視覺結構，例如末端執行器、被操作物體、接觸區域、空間關系和任務相關區域。

這一階段的核心并不是復原像素，而是學習action-conditioned latent dynamics。模型一方面預測未來特征，另一方面形成對當前狀態中“哪些部分與未來變化有關”的表示。

第二階段是World-aware Action Generator。

在第一階段形成的dynamics-aware表征之上，系統訓練一個語言條件化的flow policy，用于生成初始action proposal。與普通視覺語言動作策略不同，這一proposal已經建立在世界模型塑造出的當前狀態表征之上，因此動作生成并不是完全脫離動力學結構的直接映射。

但到這里為止，世界模型仍主要以表征和訓練信號的形式影響動作生成。真正構成ω-EVA差異的，是第三階段。

第三階段是Imagined-interaction Action Refiner。

系統凍結前兩階段的世界模型和proposal policy，將policy 自己生成的proposal重新送回世界模型，得到由這一具體proposal誘導出的latent consequence。隨后，refiner同時接收當前狀態、想象未來和原始 proposal，通過三分支交互推理，直接輸出refined action chunk。

ω-EVA 模型結構細節圖

這個refiner并不預測一個顯式verification score，也不是簡單預測residual offset。它做的是更直接的事情：基于想象后果，重寫完整動作片段。

因此，Stage 3的意義不在于“再加一個head”，而在于第一次真正閉合了proposal–imagination–refinement 的局部交互回路。世界模型也由此從“學習更好的表示”，變成“與具體動作候選交互，并幫助修正動作”。

Envision–Verify–Act：一次控制決策內完成后果推理

在推理階段，ω-EVA執行的是一個完整的Envision–Verify–Act回路。

首先，系統接收當前視覺觀察和語言指令，生成初始動作proposal。

隨后，凍結的潛在世界模型以這個 proposal為條件，預測其latent consequence。最后，refiner將當前狀態、想象后果與proposal聯合起來，輸出最終動作片段。

這一過程的關鍵在于：ω-EVA并不需要真實future observation，也不需要將latent future解碼為未來視頻；它的consequence reasoning始終停留在緊湊的特征空間中完成。

這使ω-EVA同時具備兩個特征：一方面，它在推理時保留了顯式的后果推理；另一方面，它避免了像素級視頻生成或多輪rollout planning帶來的高成本，使這一交互回路有可能進入端側控制。

因此，ω-EVA中的Verify并不是傳統意義上的外部打分或獎勵評估，而是一種consequence-aware refinement。系統不是在執行后判斷動作是否正確，而是在執行前讓候選動作接受一次由世界模型提供的后果反饋。

從這個意義上說，ω-EVA的核心判斷是：未來不是生成給人看的，而是反饋給動作生成過程的。

可反饋、可重寫、可部署：面向真實機器人的世界模型

對于真實機器人系統而言，世界模型的工程價值并不只取決于它是否能夠學習物理規律，還取決于這些規律能否在控制鏈路中被使用。

ω-EVA的第一點價值是可反饋。

許多世界模型能夠形成對未來狀態的隱式預測，但如果預測結果沒有進入動作生成過程，那么未來信息仍然停留在模型內部。ω-EVA將proposal-conditioned latent consequence顯式暴露給refiner，使世界模型成為一次控制決策中的反饋來源。

第二點價值是可重寫。

機器人動作不是文本token，可以隨時撤回重寫；動作一旦執行，就會改變真實世界。因此，僅僅生成一個看似合理的action chunk并不充分。ω-EVA的refiner不只是評估 proposal，而是直接產生新的 action chunk，使后果推理落實到動作改寫上。

第三點價值是可部署。

由于后果推理始終在latent feature space中完成，ω-EVA 避免了推理階段的完整未來視頻生成，也不依賴額外的像素級模擬器或多輪規劃搜索。這使得世界模型不只是離線訓練工具，而更接近端側實時控制中的內部反饋模塊。

也正因為如此，ω-EVA的先進性并不體現在“預測更多未來”，而體現在“讓未來信息以更低成本、更短鏈路、更明確接口參與當前動作生成”。

實驗驗證：閉環機制，而非單一模塊，帶來穩定增益

在實驗部分，ω-EVA 在 LIBERO、LIBERO-PLUS 和 RoboTwin 2.0 三類仿真基準上進行了驗證，這些任務覆蓋單臂操作、雙臂協同、長時序復雜的操作任務，以及視覺、語言和環境等不同條件的擾動測試。

ω-EVA 在沒有任何預訓練數據的情況下僅依賴task-specific data training，就在三個benchmark達到或超過現有SOTA的水平。在libero和libero plus上，ω-EVA分別取得了98.6%和83.4%的平均成功率。

在robotwin上，經過refiner修正后將stage2的成功率從88.9%提升到了90.3%，并且值得注意的是ω-EVA的殘數量僅為1.2B。

這些結果的意義，不在于單純展示一個更高的絕對分數，而在于證明完整交互管線相較于同一 proposal policy 具有穩定增益。

換句話說，Stage 3 的價值來自 proposal-conditioned imagined consequence，而不是簡單增加模型規模。

更重要的是消融實驗。實驗中分別移除了 imagined future 和 action proposal 兩個分支。結果顯示，去掉 imagined future 后，模型表現下降；去掉 action proposal 后，下降更加明顯。

前者說明，單純依賴當前狀態和proposal的通用 refiner 并不能解釋Stage 3的提升；后者說明，即使保留想象未來，如果refiner不知道“是哪一個動作導致了這個后果”，也無法完成有效修正。

這說明ω-EVA的關鍵并不是“有一個未來預測模塊”，而是當前狀態、候選動作和想象后果之間的三方交互。imagined future提供評估反饋，proposal提供修正錨點，current state提供真實上下文。三者缺一，完整的行動反饋閉環就無法成立。

此外，ω-EVA 的結果是在約 1.2B 參數規模、沒有額外 robot-data pretraining 的條件下取得的。

這一點也構成了其方法論價值：它并非主要依賴更大規模的預訓練策略，而是通過更有效的交互結構，實現compact and competitive的性能、規模與數據權衡。

表征分析與消融：為什么不是“多加一個模塊”

除了成功率提升，ω-EVA 還通過表征分析與消融實驗進一步說明：Stage 3的增益并非來自簡單增加參數，而是來自結構化的交互閉環。

在當前表征分析中，經過Stage 1未來預測訓練后，模型的空間激活更多集中到末端執行器、操作物體以及二者之間的鄰近區域。

這說明future-prediction objective并不是抽象地預測未來，而是在反向塑造當前狀態表征，使其更關注對動作后果有意義的動力學區域。

與此同時，團隊也驗證了current representation的action-invariant特性。固定同一張當前圖像，分別輸入專家動作、dummy 動作、隨機動作和 batch-shuffled 動作，得到的 current representation 數值完全一致。

這說明current branch 并沒有“偷看”訓練動作標簽；動作信息并未泄露到當前狀態表征中，未來后果仍然由 action-conditioned future branch 來承擔。

在 latent future fidelity 分析中，團隊使用同一 diagnostic decoder 將預測 latent 可視化。

結果顯示，Stage 3 refined action 對應的未來結構，相比 Stage 2 proposal 更接近真實未來。這說明動作被修正后，其誘導出的未來狀態在結構上更接近目標結果。

這些分析共同指向同一個結論：ω-EVA 的提升不是來自簡單堆疊模塊，而是來自一個明確的結構性機制——當前狀態、想象后果和原始提案之間的聯合交互。

世界模型的下一場競爭，是行動決策閉環

具身智能正在從“能不能動”走向“能否穩定完成任務”。與之對應，世界模型的價值也在發生轉移。

在第一階段，世界模型幫助 AI 建立對物理世界變化的理解。

在下一階段，世界模型需要進入行動決策，使機器人能夠在動作發生之前，與自己的候選動作后果交互，并據此做出修正。

如果說過去的世界模型更多回答“世界會如何變化”，那么 ω-EVA 試圖回答的是一個更接近機器人本體的問題：

我的動作會如何改變世界？

以及更進一步：在行動之前，我該如何修正這個動作？

這也意味著，具身世界模型的下一場競爭，或許不再只是看見更多未來，而是在行動發生之前，讓機器人做出更穩妥的選擇。

正如星源智在現場所總結的，世界模型不應該只在訓練時預測未來，而應該真正參與動作生成；多模態也不是簡單增加輸入，而是讓每種感知以合適的結構參與決策。

具身模型最終應從一次性的預測和動作生成，走向持續感知、想象、修正，并從真實交互中更新自己。

讓模型持續感知、想象、修正，并從真實反饋中更新自己，或許正是 ω-EVA 希望開啟的具身智能下一階段。

前沿動態前沿大會
前沿人物

點「在看」，給前前加雞腿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.