網易首頁 > 網易號 > 正文申請入駐

智元登頂 WorldArena：具身智能不需要 "發(fā)布會演員" | 前沿在線

2026-06-16 00:04:51　來源: 前沿在線

北京舉報

分享至

編輯：前沿在線編輯部

最近跑了好幾場具身智能的會，有個特別直觀的感受：整個行業(yè)好像都陷入了一種 “展示競賽” 的怪圈。

這邊剛發(fā)布的人形機器人，自由度又多了 2 個，電機扭矩漲了 1 牛米，現(xiàn)場跳個舞、翻個跟頭，臺下一片掌聲；

那邊的新聞稿剛出來，又拿下了某個工廠的落地訂單，“商業(yè)化突破”的標題刷遍了行業(yè)群；

還有的公司在卷世界模型，比誰生成的視頻更長、更清晰，仿佛 4K 視頻做出來，機器人就真的能理解世界了。

但看了這么多熱鬧，我心里一直有個疑問：這些看起來很酷炫的機器人，真的能走進我們的生活嗎？

直到最近的 CVPR 2026 ，看到 WorldArena 世界模型賽道的最終榜單 ——智元的 Genie Envisioner 2.0 拿了總分第一，我才終于找到這個問題的答案。

比起 “又一個行業(yè)第一” 的頭銜，更重要的是：智元這次拿出的不是一個單點技術，而是一整套完整的閉環(huán)—— 從開源失敗數(shù)據集，到做能預判因果的動作模型，再到能讓機器人在里面練技能的虛擬世界，他們走了一條完全不一樣的路：不做給人看的花活，沉下心來給機器人打底層的基礎。

這不是一次普通的迭代，是整個具身智能行業(yè)的一個分水嶺。

我們不需要會畫畫的機器人

先聊一個很多人都搞錯的問題：世界模型到底是用來干嘛的？

過去兩年，Sora 帶火了世界模型的概念，所有人都在卷視頻生成：誰能生成更長的視頻，誰的畫面更真實，誰的分辨率更高。

仿佛世界模型的終極目標，就是做一個更厲害的視頻剪輯工具。

但這真的是機器人需要的世界模型嗎？

當然不是。

機器人不需要會畫咖啡灑出來的視頻，它需要知道：我伸手碰杯子的力度多大，咖啡會灑？灑了之后我該怎么調整手的位置？

一個能生成以假亂真視頻的大模型，根本解決不了機器人端咖啡不灑的問題。

通用視頻生成模型和機器人用的世界模型，從根上就是兩個東西，前者是給人看的，畫面真實就行，背后的物理邏輯對不對不重要；

后者是給機器人用的，不需要好看，但必須精準——我做了這個動作，世界會怎么變？這個變化會怎么影響我下一步該做什么？

這就是為什么很多機器人在發(fā)布會上表現(xiàn)完美，一到真實場景就頻頻翻車：它們的世界模型只學會了 “描述世界長什么樣”，卻沒學會 “怎么和世界打交道”。

智元從一開始就沒走視頻生成的路。

他們的世界模型從誕生起，就沿著兩條完全不同的線走：

一條是世界動作模型（WAM），搞懂動作和世界的因果關系，給機器人裝一個會思考的大腦；

另一條是世界模擬器（GE-Sim），造一個機器人能在里面練技能的虛擬訓練場。一個負責想，一個負責練，這才是機器人真正需要的世界模型。

給機器人裝一個腦子里的 “物理沙盤”

先聊WAM，這是我覺得智元最厲害的一個認知突破。

之前的世界模型，都只做 “狀態(tài)建模”：它知道桌子上有個杯子，杯子是紅色的，離機器人 30 厘米。

但它從來不關心 “動作” 這個最核心的變量 ——機器人伸手去拿杯子，這個動作會怎么改變杯子的狀態(tài)？拿歪了會不會倒？用力太大會不會碎？

這就像一個學開車的人，背下來了所有的交通標志，卻不知道踩油門車會走，踩剎車車會停。這樣的人，哪怕考了滿分，也根本開不了車。

機器人也是一樣。

智元做的 WAM，就是徹底跳出了這個框架，把 “動作” 當成了核心變量，把 “當前環(huán)境→我做什么動作→環(huán)境怎么變→我該怎么調整” 整個閉環(huán)全部建模了。

說人話就是，給機器人腦子里裝了一個小沙盤。

它不用真的伸手去碰杯子，自己在腦子里就能推演：我用這個力度伸手，手指碰到杯子的這個位置，杯子會往哪邊倒？倒了我該怎么收手？

它能記住前面好幾步的動作結果，然后調整后面的決策，支撐一整個長鏈條的任務，而不是做一步錯一步。

之前的機器人為什么做不了長任務？為什么一有意外就卡殼？就是因為沒有這個沙盤 ——它們只會按預設的程序走，環(huán)境稍微變一點，動作稍微偏一點，整個系統(tǒng)就崩了。

而有了 WAM 的機器人，是會 “想” 的。

就拿端咖啡舉例子，傳統(tǒng)機器人只會按預設的軌跡抬手、移動、放下，桌子晃一下，杯子偏一點，咖啡直接灑，任務失敗；

裝了 WAM 的機器人會全程在腦子里推演，發(fā)現(xiàn)杯子晃了就微調力度，發(fā)現(xiàn)手歪了就調整角度，路上碰到點小障礙，也能實時改路線，穩(wěn)穩(wěn)把咖啡放到桌上。

一個是只會執(zhí)行命令的機械臂，一個是會思考、會調整的智能體，這就是本質的區(qū)別。

這次 GE 2.0 能登頂 WorldArena，核心就是 WAM 在動作預測、環(huán)境推演、長時序決策這三個維度，得分都遠超第二名。

當大家都在比機器人能做什么動作的時候，智元已經在解決 “機器人怎么才能穩(wěn)定做好動作” 的問題了。

機器人終于不用在真實世界里摔跟頭了

光有腦子里的沙盤還不夠，總不能永遠只在腦子里推演，總得真刀真槍練吧？

但練技能這個事，對機器人來說太燒錢了。

一臺人形機器人樣機幾十萬上百萬，讓它練端咖啡，練 100 次灑 99 次，灑一次不僅要修機器人，還要收拾現(xiàn)場，時間、人力、硬件成本都是天文數(shù)字。更別說很多危險場景，根本不可能用真機去試。

之前的解決方案是用工業(yè)仿真器，但這個東西有個天生的毛病：它是人工寫規(guī)則的，和真實世界永遠有差距。

你可以在仿真器里寫 “杯子受 5 牛的力移動 10 厘米”，但真實世界里，杯子的材質、桌面的摩擦力、機器人手指的軟硬度，甚至空氣濕度，都會影響結果。

仿真器里練到 100% 成功的策略，放到真實世界里可能連 30% 都達不到。

這就是著名的 “仿真鴻溝”，也是這么多年機器人一直沒法大規(guī)模落地的核心原因之一。

智元這次推出的 GE-Sim 2.0，就是來填這個鴻溝的。它不是人工寫規(guī)則的仿真器，是用真實數(shù)據訓練出來的神經模擬器 —— 不是 “模擬” 世界，是 “復刻” 世界。

為了做到這一點，智元搭了一整套完整的技術體系：先靠 EnerVerse-AC 引入動作條件化的世界建模，讓模型能基于動作精準推演未來的環(huán)境變化；

再用 EWMBench 從場景一致性、動作正確性、語義對齊三個維度系統(tǒng)評估模擬精度，把虛擬世界和真實世界的偏差控制在極小范圍；

同時搭配 Fidelity-Aware 數(shù)據組合方法，把真實采集的數(shù)據和模型生成的數(shù)據精細調配，讓訓練出來的模擬器既有真實世界的保真度，又有足夠的泛化能力；

最后通過 Real2Edit2Real 流程，把原本靜態(tài)的真實數(shù)據變成可擴展、可編輯、可重構的活數(shù)據，1 份原始數(shù)據就能衍生出百份千份多樣化的訓練素材，從根源上解決高質量交互數(shù)據稀缺的問題。

最終打磨出來的 GE-Sim 2.0，是一個真正能跑、能交互、能訓練的數(shù)字平行世界：機器人在里面做出的每一個動作，得到的物理反饋都和真實世界幾乎沒有差別；

它可以在里面反復練上萬次端咖啡，灑了不用修硬件、不用收拾現(xiàn)場，練成熟的策略能直接遷移到真機上；

甚至地面濕滑、桌面晃動、外力干擾這類極端場景，也能在虛擬世界里反復模擬，讓機器人提前學會怎么應對各種意外。

這就是世界模型最本質的躍遷：從 “用來描述世界的模型”，變成了 “機器人能真正使用的世界本身”。

以前的世界模型是給人看的，生成漂亮的畫面供人欣賞；現(xiàn)在的世界模型是給機器人用的，變成了機器人可以在里面學習、試錯、進化的虛擬訓練場。

這個變化的價值有多大？

算一筆賬就知道：之前練一個新技能，要 3 個月，10 臺樣機，5 個工程師，成本上百萬；現(xiàn)在 90% 的訓練都在 GE-Sim 里做，只用 1 臺樣機做驗證，1 周就能搞定，成本不到原來的十分之一。

沒有低成本的訓練方式，再好的硬件，再好的算法，都不可能真正規(guī)模化落地。

失敗，才是機器人最好的老師

所有的模型，所有的模擬器，最后都要落到一個東西上：數(shù)據。

但整個行業(yè)在數(shù)據這件事上，一直有個特別大的誤區(qū)：所有人都在搶 “成功數(shù)據”，沒人在乎 “失敗數(shù)據”。

之前所有的具身數(shù)據集，都是 “專家示范數(shù)據集”：找個專家完美完成任務，把成功的動作錄下來給機器人學。

仿佛機器人學會了所有的成功動作，就會做事了。但這根本不符合智能成長的規(guī)律啊。

你小時候學走路，是看別人完美走路的視頻學會的嗎？

不是，你是摔了無數(shù)次，從每一次摔倒里學會怎么保持平衡的。你學騎自行車，是看別人完美騎車學會的嗎？不是，你是摔了無數(shù)次，從每一次失衡里學會怎么握把的。

人類的智能，從來都是從失敗里學來的，不是從成功里學來的。

機器人也是一樣。只學過成功動作的機器人，就像一個只看過別人騎車，自己從來沒摔過的人，一上車就倒。它只知道怎么做是對的，不知道怎么做會錯，錯了該怎么辦。

這就是為什么很多機器人在預設場景里完美，一有意外就崩了：它從來沒見過失敗，也沒學過怎么應對失敗。

智元這次開源的 AGIBOT WORLD 2026 “多樣交互” 數(shù)據集，就是打破了這個慣性。

這是行業(yè)第一個專門記錄失敗的具身數(shù)據集：抓取失敗、東西掉了、碰撞、液體飛濺…… 所有其他數(shù)據集里會被刪掉的 “壞數(shù)據”，在這里都是核心資產。

在大家都把數(shù)據當核心壁壘的今天，智元把最稀缺的失敗數(shù)據開放出來，相當于給整個行業(yè)補上了最關鍵的一塊拼圖。

智元想做的，是具身智能的 “水電煤”

現(xiàn)在把這三塊拼起來，你就能看懂智元的布局了。

很多人看智元，只看到他們做人形機器人，拿了很多第一。

但其實智元從來不是在做一個機器人產品，他們是在做整個具身智能行業(yè)的底層基礎設施。

最底層，他們開源數(shù)據集，給全行業(yè)提供 “燃料”；中間層，他們做 WAM 模型，給全行業(yè)提供 “引擎”；

最上層，他們做 GE-Sim 模擬器，給全行業(yè)提供 “訓練場”。數(shù)據喂給模型，模型支撐模擬器，模擬器產出更多數(shù)據，整個飛輪轉起來，所有的從業(yè)者都能受益。

具身智能這個賽道足夠大，容得下不同的路線：有的公司專注做硬件，把機器人的身體做得更好；

有的公司專注做落地，把機器人放到更多場景里；而智元選擇做底層，把數(shù)據、模型、仿真這些基礎設施做好，開放給所有人用。

沒有哪條路更好，只是大家的選擇不同。

但底層基礎設施的價值是通用的：未來不管是什么形態(tài)的機器人，不管用在什么場景，都需要好的數(shù)據，好的模型，好的訓練平臺。

就像當年微軟做 Windows，谷歌做安卓，不是為了自己做電腦做手機，是給全行業(yè)做通用的底座。

智元現(xiàn)在做的，就是具身智能時代的通用底座。

技術最終的意義，是讓人生活得更好

聊了這么多技術，最后說點實在的：我們做具身智能，到底是為了什么？

不是為了讓機器人在發(fā)布會上翻跟頭，不是為了讓機器人在工廠擰螺絲，是為了讓它們真的能幫到我們。

是讓行動不便的老人，能在家喝到一杯熱乎的水；是讓加班到深夜的父母，不用拖著疲憊的身體給孩子熱牛奶；

是讓在危險崗位的工人，不用再面對高溫和有毒的環(huán)境。

而這些場景，都需要機器人能真正理解這個不完美的、充滿意外的真實世界。

它不能是一個只能在實驗室里工作的精密儀器，它必須能應對各種意外，能從錯誤里學習，能和這個世界友好相處。

這就是智元所有技術的終極意義。

當機器人能在虛擬世界里練會一萬次端咖啡不灑，它就能在真實世界里給老人端一杯水；

當機器人能在腦子里的沙盤里預判所有意外，它就能在真實世界里照顧孩子和老人；

當所有開發(fā)者都能用開源的數(shù)據集和模型，做出更便宜、更聰明的機器人，具身智能才能真正走進千家萬戶。

2026 年是具身智能的 “部署元年”，越來越多的機器人開始走出實驗室。

但我們都知道，這只是開始。

從看懂世界，到構筑世界，再到改變世界，這條路還有很長。但幸運的是，有智元這樣的公司，愿意慢下來，沉下心，把底層的基礎打牢，給整個行業(yè)鋪路。

在所有人都追求快、追求流量、追求短期成果的今天，愿意做難而正確的事，愿意做長期主義的事，本身就足夠值得尊敬。

和智元的團隊聊到最后，他們說：具身智能是一場馬拉松，沒人知道終點在哪，也沒人知道哪條路一定對，但我們愿意先把路鋪好，讓后面的人走得更穩(wěn)一點。

是啊，做技術和做人一樣，慢一點，穩(wěn)一點，才能走得更遠。

具身智能的故事，才剛剛開始。

前沿動態(tài)前沿大會
前沿人物

點「在看」，給前前加雞腿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.