![]()
![]()
編輯:前沿在線 編輯部
在2026智源大會現場,星源智用一塊被隨機打亂的華容道棋盤,展示了具身世界模型進入機器人行動決策的可能。
華容道看似是邏輯推理題,但對機器人而言,它更接近一次連續決策:每一步移動都會改變當前局面,也會影響后續路徑是否可達。機器人需要理解的不只是“現在看到什么”,還包括“如果這樣移動,接下來會發生什么?”——這正是星源智具身交互世界模型 ω-EVA 試圖回答的問題。
![]()
圖:星源智聯合創始人、智源研究院具身交互世界模型研究中心負責人 孫振國
“具身智能不僅要會看、會聽、會生成動作,還需要在行動之前理解交互后果,并在真實反饋到來之前繼續修正自己。”基于這一判斷,星源智在本屆智源大會上正式發布ω-EVA,推動世界模型從“預測世界”走向“行動反饋”。
![]()
ω-EVA:從終點反推行動,讓機器人在執行前完成一次驗證
ω-EVA的命名,本身也對應了這一技術邏輯。
EVA來自Envision、Verify、Act,分別對應“預演、驗證、行動”。這不是一個簡單的命名縮寫,而是 ω-EVA 的核心控制閉環:機器人先生成候選動作,再預演這一動作可能帶來的后果,隨后基于后果反饋修正動作并執行。
Envision意味著,機器人在行動前并不直接執行第一版動作,而是在潛在空間中預演該動作可能造成的狀態變化。
Verify是讓想象后果參與動作判斷:候選動作是否可能導致偏差、碰撞、失衡、遺漏,或影響后續任務流程。
Act則意味著,機器人最終執行的不是未經檢查的初始動作,而是經過后果反饋修正后的動作序列。
而ω取自希臘字母Omega,代表終極與結局,并于World Model的W形成視覺孿生。它指向的是一種“以終為始”的動作生成方式:機器人不只是從當前狀態直接生成動作,而是在行動前先預演動作可能導向的結果,再反過來修正當前動作。
因此,ω-EVA 想表達的并不是一個抽象的世界模型概念,而是一種更接近真實機器人控制的技術范式:從預想后果出發,反向校正當前行動。
![]()
圖:ω-EVA發布會現場
![]()
從 Cardiac Copilot 到 DECO:兩條研究線的交匯
ω-EVA的誕生并非一蹴而就。星源智聯合創始人、智源研究院具身交互世界模型研究中心負責人孫振國在演講中回顧,團隊此前有兩條重要研究線索:一條來自醫療機器人場景,一條來自雙臂靈巧操作場景。
第一條線索來自心臟超聲導航項目Cardiac Copilot。在這一項目中,團隊發現,有經驗的超聲醫生并不是盲目移動探頭,而是會在腦中形成一種對動作后果的預期:如果探頭這樣移動,接下來可能看到什么切面,是否更接近目標視圖,是否需要調整方向。
![]()
基于這一觀察,團隊設計了Cardiac Dreamer,即一個能夠在隱空間中預測探頭移動后心臟切面狀態的模型。實驗顯示,這種“預演—修正”的機制能夠有效降低導航誤差。這一研究回答了一個關鍵問題:機器人系統能否在行動前,對自身動作可能帶來的感知后果進行預判。
第二條線索來自雙臂靈巧操作項目DECO。在該項目中,團隊進一步發現,視覺、本體狀態、觸覺等多模態信息不應只是被簡單拼接,而應以不同結構路徑參與動作生成。最終,DECO通過對多模態信息的結構化組織,在雙臂靈巧操作中實現了相對基線的顯著提升,其中觸覺模塊僅使用較小參數占比,卻貢獻了關鍵性能增益。
![]()
如果說Cardiac Copilot回答的是“如何理解交互后果”,那么DECO回答的是“如何組織多模態信息參與決策”。ω-EVA正是在這兩條研究線索的基礎上進一步發展而來:一方面,它繼承了對“動作后果預演”的關注;另一方面,它將當前狀態、想象后果和動作提案組織為一個顯式交互結構,使世界模型真正進入動作生成過程。
![]()
世界模型的共識:不同技術路線,正在指向同一個問題
隨著具身智能從單點動作走向復雜任務執行,世界模型正在成為行業共識中的關鍵能力。原因在于,機器人面對的是一個連續變化的物理世界:物體會移動,接觸會改變,環境狀態也會因為機器人的動作而持續演化。
機器人要穩定完成任務,不能只理解“現在看到什么”,還需要理解“如果這樣行動,接下來會發生什么?”
圍繞這一問題,當前具身世界模型主要形成了幾類技術路線。
其中,第一類方向是“未來生成增強策略學習(Future Generation for policy Learning)”。
這類方法通過生成未來視頻或未來狀態,為模型預訓練、聯合訓練以及策略蒸餾提供額外監督信號,從而提策略的學習效率和泛化能力。
Motus、DreamZero、LingBot-VA以及 Fast-WAM等工作均屬于這一技術脈絡。不同的是,測試時是否要建模清晰的未來,可根據實際部署的推理效率與策略成功率的要求進行權衡
第二類方向是“面向表征學習的隱空間預測(Latent Prediction for Representation)”。
與顯式生成未來畫面不同,這類方法更多在隱空間中預測未來狀態,通過學習未來embedding 來構建對環境動態更敏感、更具物理一致性的表征能力。
VLA-JEPA、DINO-World、WoG、BeingH0.7等代表性工作均表明,未來預測不僅能夠生成內容,更能夠幫助模型形成對世界運行規律的深層理解,從而提升決策基礎能力。
第三類方向則聚焦于“Rollout、Simulator 與Data Engine”。
這類方法將世界模型作為數據生產和環境模擬平臺,通過可控軌跡生成、大規模仿真以及數據閉環持續提升模型能力。
其中,World-Env、Ctrl-World、PlayWorld等工作強調可控Rollout和模擬能力,而GigaWorld-0則進一步向數據引擎(Data Engine)演進,為具身智能提供規模化的數據供給體系。
這些探索共同推動了世界模型技術的發展,并展現出重要價值。然而,在現有研究體系中,仍存在一個尚未被充分挖掘的關鍵接口:世界模型與策略模型在單次決策過程中的實時交互機制。
為此,星源智團隊提出了“Interactive Action Feedback(交互式動作反饋)”框架。在這一框架下,策略模型(Policy)不再只是生成最終動作,而是首先提出具體行動方案(Action Proposal);
世界模型則即時評估該方案可能帶來的潛在后果(Latent Consequence),并將反饋結果返回給動作生成模塊,在同一次決策循環內完成修正與優化。
這一機制補上了具身世界模型走向真實控制所需要的關鍵接口:candidate action→imagined consequence base on action-conditioned world model→corrected action。
通過這種閉環交互,世界模型從傳統意義上的訓練輔助工具,進一步演進為實時參與決策過程的“思考伙伴”,使機器人能夠在行動之前預見后果、調整策略,從而實現更高質量、更可靠的決策能力。
![]()
ω-EVA:讓策略與自己的想象后果交互
ω-EVA的完整名稱是Envision, Verify, and Act with Latent Interactive World Models。它提出的是一種 latent interactive world modeling范式:策略不再直接從當前觀察映射到最終動作,而是在執行前先提出動作、想象后果,再根據后果修正動作。
這一范式可以概括為三個步驟:Proposal→Latent Consequence→Refinement,對應到機器人行為中,就是:動作提議→后果預演→動作修正。
![]()
首先,機器人基于當前視覺觀察與語言指令生成一個初始action proposal。這個proposal并不是最終動作,而是一個需要被驗證的候選動作片段。
隨后,action-conditioned latent world model會以該proposal為條件,在潛在特征空間中預測它可能誘導出的未來視覺狀態。
這里的“未來”并不是被解碼成完整視頻,而是以 latent consequence的形式參與后續動作決策。
最后,imagined-interaction action refiner會聯合當前狀態、想象未來與原始proposal,對候選動作進行重寫,輸出 refined action chunk。
這一設計改變了世界模型在具身策略中的角色。它不再只是一個被動預測器,也不是一個獨立于策略之外的模擬器,而是在action generation內部成為active feedback module。換句話說,ω-EVA讓世界模型不只是回答“未來會怎樣”,而是進一步回答:
如果執行這個動作,未來會怎樣?如果后果不理想,動作應該如何被改寫?
這正是ω-EVA與一般潛空間世界模型的關鍵差異。潛空間預測解決的是“未來如何被表征”;ω-EVA進一步解決的是“未來如何反過來修正當前動作”。
![]()
三階段閉環:讓世界模型從“預測未來”進入“修正動作”
ω-EVA并不是在既有策略后面簡單增加一個預測模塊,而是通過三階段訓練,將潛在世界模型、動作生成器和后果反饋機制逐步耦合起來。
![]()
ω-EVA 總體架構圖
第一階段是Action-conditioned Latent World Model。模型給定當前視覺特征和動作片段,預測對應未來視覺特征,并同時學習一個dynamics-aware current representation。
由于模型必須預測“在某個動作條件下,場景將如何變化”,它被迫關注與動力學相關的視覺結構,例如末端執行器、被操作物體、接觸區域、空間關系和任務相關區域。
這一階段的核心并不是復原像素,而是學習action-conditioned latent dynamics。模型一方面預測未來特征,另一方面形成對當前狀態中“哪些部分與未來變化有關”的表示。
第二階段是World-aware Action Generator。
在第一階段形成的dynamics-aware表征之上,系統訓練一個語言條件化的flow policy,用于生成初始action proposal。與普通視覺語言動作策略不同,這一proposal已經建立在世界模型塑造出的當前狀態表征之上,因此動作生成并不是完全脫離動力學結構的直接映射。
但到這里為止,世界模型仍主要以表征和訓練信號的形式影響動作生成。真正構成ω-EVA差異的,是第三階段。
第三階段是Imagined-interaction Action Refiner。
系統凍結前兩階段的世界模型和proposal policy,將policy 自己生成的proposal重新送回世界模型,得到由這一具體proposal誘導出的latent consequence。隨后,refiner同時接收當前狀態、想象未來和原始 proposal,通過三分支交互推理,直接輸出refined action chunk。
![]()
ω-EVA 模型結構細節圖
這個refiner并不預測一個顯式verification score,也不是簡單預測residual offset。它做的是更直接的事情:基于想象后果,重寫完整動作片段。
因此,Stage 3的意義不在于“再加一個head”,而在于第一次真正閉合了proposal–imagination–refinement 的局部交互回路。世界模型也由此從“學習更好的表示”,變成“與具體動作候選交互,并幫助修正動作”。
![]()
Envision–Verify–Act:一次控制決策內完成后果推理
在推理階段,ω-EVA執行的是一個完整的Envision–Verify–Act回路。
![]()
首先,系統接收當前視覺觀察和語言指令,生成初始動作proposal。
隨后,凍結的潛在世界模型以這個 proposal為條件,預測其latent consequence。最后,refiner將當前狀態、想象后果與proposal聯合起來,輸出最終動作片段。
這一過程的關鍵在于:ω-EVA并不需要真實future observation,也不需要將latent future解碼為未來視頻;它的consequence reasoning始終停留在緊湊的特征空間中完成。
這使ω-EVA同時具備兩個特征:一方面,它在推理時保留了顯式的后果推理;另一方面,它避免了像素級視頻生成或多輪rollout planning帶來的高成本,使這一交互回路有可能進入端側控制。
因此,ω-EVA中的Verify并不是傳統意義上的外部打分或獎勵評估,而是一種consequence-aware refinement。系統不是在執行后判斷動作是否正確,而是在執行前讓候選動作接受一次由世界模型提供的后果反饋。
從這個意義上說,ω-EVA的核心判斷是:未來不是生成給人看的,而是反饋給動作生成過程的。
![]()
可反饋、可重寫、可部署:面向真實機器人的世界模型
對于真實機器人系統而言,世界模型的工程價值并不只取決于它是否能夠學習物理規律,還取決于這些規律能否在控制鏈路中被使用。
ω-EVA的第一點價值是可反饋。
許多世界模型能夠形成對未來狀態的隱式預測,但如果預測結果沒有進入動作生成過程,那么未來信息仍然停留在模型內部。ω-EVA將proposal-conditioned latent consequence顯式暴露給refiner,使世界模型成為一次控制決策中的反饋來源。
第二點價值是可重寫。
機器人動作不是文本token,可以隨時撤回重寫;動作一旦執行,就會改變真實世界。因此,僅僅生成一個看似合理的action chunk并不充分。ω-EVA的refiner不只是評估 proposal,而是直接產生新的 action chunk,使后果推理落實到動作改寫上。
第三點價值是可部署。
由于后果推理始終在latent feature space中完成,ω-EVA 避免了推理階段的完整未來視頻生成,也不依賴額外的像素級模擬器或多輪規劃搜索。這使得世界模型不只是離線訓練工具,而更接近端側實時控制中的內部反饋模塊。
也正因為如此,ω-EVA的先進性并不體現在“預測更多未來”,而體現在“讓未來信息以更低成本、更短鏈路、更明確接口參與當前動作生成”。
![]()
實驗驗證:閉環機制,而非單一模塊,帶來穩定增益
在實驗部分,ω-EVA 在 LIBERO、LIBERO-PLUS 和 RoboTwin 2.0 三類仿真基準上進行了驗證,這些任務覆蓋單臂操作、雙臂協同、長時序復雜的操作任務,以及視覺、語言和環境等不同條件的擾動測試。
ω-EVA 在沒有任何預訓練數據的情況下僅依賴task-specific data training,就在三個benchmark達到或超過現有SOTA的水平。在libero和libero plus上,ω-EVA分別取得了98.6%和83.4%的平均成功率。
在robotwin上,經過refiner修正后將stage2的成功率從88.9%提升到了90.3%,并且值得注意的是ω-EVA的殘數量僅為1.2B。
這些結果的意義,不在于單純展示一個更高的絕對分數,而在于證明完整交互管線相較于同一 proposal policy 具有穩定增益。
換句話說,Stage 3 的價值來自 proposal-conditioned imagined consequence,而不是簡單增加模型規模。
更重要的是消融實驗。實驗中分別移除了 imagined future 和 action proposal 兩個分支。結果顯示,去掉 imagined future 后,模型表現下降;去掉 action proposal 后,下降更加明顯。
前者說明,單純依賴當前狀態和proposal的通用 refiner 并不能解釋Stage 3的提升;后者說明,即使保留想象未來,如果refiner不知道“是哪一個動作導致了這個后果”,也無法完成有效修正。
這說明ω-EVA的關鍵并不是“有一個未來預測模塊”,而是當前狀態、候選動作和想象后果之間的三方交互。imagined future提供評估反饋,proposal提供修正錨點,current state提供真實上下文。三者缺一,完整的行動反饋閉環就無法成立。
此外,ω-EVA 的結果是在約 1.2B 參數規模、沒有額外 robot-data pretraining 的條件下取得的。
這一點也構成了其方法論價值:它并非主要依賴更大規模的預訓練策略,而是通過更有效的交互結構,實現compact and competitive的性能、規模與數據權衡。
![]()
表征分析與消融:為什么不是“多加一個模塊”
除了成功率提升,ω-EVA 還通過表征分析與消融實驗進一步說明:Stage 3的增益并非來自簡單增加參數,而是來自結構化的交互閉環。
![]()
在當前表征分析中,經過Stage 1未來預測訓練后,模型的空間激活更多集中到末端執行器、操作物體以及二者之間的鄰近區域。
這說明future-prediction objective并不是抽象地預測未來,而是在反向塑造當前狀態表征,使其更關注對動作后果有意義的動力學區域。
與此同時,團隊也驗證了current representation的action-invariant特性。固定同一張當前圖像,分別輸入專家動作、dummy 動作、隨機動作和 batch-shuffled 動作,得到的 current representation 數值完全一致。
這說明current branch 并沒有“偷看”訓練動作標簽;動作信息并未泄露到當前狀態表征中,未來后果仍然由 action-conditioned future branch 來承擔。
在 latent future fidelity 分析中,團隊使用同一 diagnostic decoder 將預測 latent 可視化。
結果顯示,Stage 3 refined action 對應的未來結構,相比 Stage 2 proposal 更接近真實未來。這說明動作被修正后,其誘導出的未來狀態在結構上更接近目標結果。
這些分析共同指向同一個結論:ω-EVA 的提升不是來自簡單堆疊模塊,而是來自一個明確的結構性機制——當前狀態、想象后果和原始提案之間的聯合交互。
![]()
世界模型的下一場競爭,是行動決策閉環
具身智能正在從“能不能動”走向“能否穩定完成任務”。與之對應,世界模型的價值也在發生轉移。
在第一階段,世界模型幫助 AI 建立對物理世界變化的理解。
在下一階段,世界模型需要進入行動決策,使機器人能夠在動作發生之前,與自己的候選動作后果交互,并據此做出修正。
如果說過去的世界模型更多回答“世界會如何變化”,那么 ω-EVA 試圖回答的是一個更接近機器人本體的問題:
我的動作會如何改變世界?
以及更進一步:在行動之前,我該如何修正這個動作?
![]()
這也意味著,具身世界模型的下一場競爭,或許不再只是看見更多未來,而是在行動發生之前,讓機器人做出更穩妥的選擇。
正如星源智在現場所總結的,世界模型不應該只在訓練時預測未來,而應該真正參與動作生成;多模態也不是簡單增加輸入,而是讓每種感知以合適的結構參與決策。
具身模型最終應從一次性的預測和動作生成,走向持續感知、想象、修正,并從真實交互中更新自己。
讓模型持續感知、想象、修正,并從真實反饋中更新自己,或許正是 ω-EVA 希望開啟的具身智能下一階段。
![]()
前沿動態前沿大會
前沿人物
點「在看」,給前前加雞腿
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.