![]()
![]()
編輯:前沿在線 編輯部
最近跑了好幾場具身智能的會,有個特別直觀的感受:整個行業(yè)好像都陷入了一種 “展示競賽” 的怪圈。
這邊剛發(fā)布的人形機器人,自由度又多了 2 個,電機扭矩漲了 1 牛米,現(xiàn)場跳個舞、翻個跟頭,臺下一片掌聲;
那邊的新聞稿剛出來,又拿下了某個工廠的落地訂單,“商業(yè)化突破”的標題刷遍了行業(yè)群;
還有的公司在卷世界模型,比誰生成的視頻更長、更清晰,仿佛 4K 視頻做出來,機器人就真的能理解世界了。
![]()
但看了這么多熱鬧,我心里一直有個疑問:這些看起來很酷炫的機器人,真的能走進我們的生活嗎?
直到最近的 CVPR 2026 ,看到 WorldArena 世界模型賽道的最終榜單 ——智元的 Genie Envisioner 2.0 拿了總分第一,我才終于找到這個問題的答案。
![]()
比起 “又一個行業(yè)第一” 的頭銜,更重要的是:智元這次拿出的不是一個單點技術,而是一整套完整的閉環(huán)—— 從開源失敗數(shù)據集,到做能預判因果的動作模型,再到能讓機器人在里面練技能的虛擬世界,他們走了一條完全不一樣的路:不做給人看的花活,沉下心來給機器人打底層的基礎。
這不是一次普通的迭代,是整個具身智能行業(yè)的一個分水嶺。
![]()
我們不需要會畫畫的機器人
先聊一個很多人都搞錯的問題:世界模型到底是用來干嘛的?
過去兩年,Sora 帶火了世界模型的概念,所有人都在卷視頻生成:誰能生成更長的視頻,誰的畫面更真實,誰的分辨率更高。
![]()
仿佛世界模型的終極目標,就是做一個更厲害的視頻剪輯工具。
![]()
但這真的是機器人需要的世界模型嗎?
當然不是。
機器人不需要會畫咖啡灑出來的視頻,它需要知道:我伸手碰杯子的力度多大,咖啡會灑?灑了之后我該怎么調整手的位置?
![]()
一個能生成以假亂真視頻的大模型,根本解決不了機器人端咖啡不灑的問題。
通用視頻生成模型和機器人用的世界模型,從根上就是兩個東西,前者是給人看的,畫面真實就行,背后的物理邏輯對不對不重要;
后者是給機器人用的,不需要好看,但必須精準——我做了這個動作,世界會怎么變?這個變化會怎么影響我下一步該做什么?
![]()
這就是為什么很多機器人在發(fā)布會上表現(xiàn)完美,一到真實場景就頻頻翻車:它們的世界模型只學會了 “描述世界長什么樣”,卻沒學會 “怎么和世界打交道”。
智元從一開始就沒走視頻生成的路。
他們的世界模型從誕生起,就沿著兩條完全不同的線走:
![]()
一條是世界動作模型(WAM),搞懂動作和世界的因果關系,給機器人裝一個會思考的大腦;
另一條是世界模擬器(GE-Sim),造一個機器人能在里面練技能的虛擬訓練場。一個負責想,一個負責練,這才是機器人真正需要的世界模型。
![]()
給機器人裝一個腦子里的 “物理沙盤”
先聊WAM,這是我覺得智元最厲害的一個認知突破。
![]()
之前的世界模型,都只做 “狀態(tài)建模”:它知道桌子上有個杯子,杯子是紅色的,離機器人 30 厘米。
但它從來不關心 “動作” 這個最核心的變量 ——機器人伸手去拿杯子,這個動作會怎么改變杯子的狀態(tài)?拿歪了會不會倒?用力太大會不會碎?
![]()
這就像一個學開車的人,背下來了所有的交通標志,卻不知道踩油門車會走,踩剎車車會停。這樣的人,哪怕考了滿分,也根本開不了車。
機器人也是一樣。
智元做的 WAM,就是徹底跳出了這個框架,把 “動作” 當成了核心變量,把 “當前環(huán)境→我做什么動作→環(huán)境怎么變→我該怎么調整” 整個閉環(huán)全部建模了。
![]()
說人話就是,給機器人腦子里裝了一個小沙盤。
它不用真的伸手去碰杯子,自己在腦子里就能推演:我用這個力度伸手,手指碰到杯子的這個位置,杯子會往哪邊倒?倒了我該怎么收手?
它能記住前面好幾步的動作結果,然后調整后面的決策,支撐一整個長鏈條的任務,而不是做一步錯一步。
之前的機器人為什么做不了長任務?為什么一有意外就卡殼?就是因為沒有這個沙盤 ——它們只會按預設的程序走,環(huán)境稍微變一點,動作稍微偏一點,整個系統(tǒng)就崩了。
而有了 WAM 的機器人,是會 “想” 的。
![]()
就拿端咖啡舉例子,傳統(tǒng)機器人只會按預設的軌跡抬手、移動、放下,桌子晃一下,杯子偏一點,咖啡直接灑,任務失敗;
裝了 WAM 的機器人會全程在腦子里推演,發(fā)現(xiàn)杯子晃了就微調力度,發(fā)現(xiàn)手歪了就調整角度,路上碰到點小障礙,也能實時改路線,穩(wěn)穩(wěn)把咖啡放到桌上。
一個是只會執(zhí)行命令的機械臂,一個是會思考、會調整的智能體,這就是本質的區(qū)別。
![]()
這次 GE 2.0 能登頂 WorldArena,核心就是 WAM 在動作預測、環(huán)境推演、長時序決策這三個維度,得分都遠超第二名。
當大家都在比機器人能做什么動作的時候,智元已經在解決 “機器人怎么才能穩(wěn)定做好動作” 的問題了。
![]()
![]()
機器人終于不用在真實世界里摔跟頭了
光有腦子里的沙盤還不夠,總不能永遠只在腦子里推演,總得真刀真槍練吧?
但練技能這個事,對機器人來說太燒錢了。
一臺人形機器人樣機幾十萬上百萬,讓它練端咖啡,練 100 次灑 99 次,灑一次不僅要修機器人,還要收拾現(xiàn)場,時間、人力、硬件成本都是天文數(shù)字。更別說很多危險場景,根本不可能用真機去試。
![]()
之前的解決方案是用工業(yè)仿真器,但這個東西有個天生的毛病:它是人工寫規(guī)則的,和真實世界永遠有差距。
你可以在仿真器里寫 “杯子受 5 牛的力移動 10 厘米”,但真實世界里,杯子的材質、桌面的摩擦力、機器人手指的軟硬度,甚至空氣濕度,都會影響結果。
![]()
仿真器里練到 100% 成功的策略,放到真實世界里可能連 30% 都達不到。
這就是著名的 “仿真鴻溝”,也是這么多年機器人一直沒法大規(guī)模落地的核心原因之一。
智元這次推出的 GE-Sim 2.0,就是來填這個鴻溝的。它不是人工寫規(guī)則的仿真器,是用真實數(shù)據訓練出來的神經模擬器 —— 不是 “模擬” 世界,是 “復刻” 世界。
![]()
為了做到這一點,智元搭了一整套完整的技術體系:先靠 EnerVerse-AC 引入動作條件化的世界建模,讓模型能基于動作精準推演未來的環(huán)境變化;
再用 EWMBench 從場景一致性、動作正確性、語義對齊三個維度系統(tǒng)評估模擬精度,把虛擬世界和真實世界的偏差控制在極小范圍;
同時搭配 Fidelity-Aware 數(shù)據組合方法,把真實采集的數(shù)據和模型生成的數(shù)據精細調配,讓訓練出來的模擬器既有真實世界的保真度,又有足夠的泛化能力;
最后通過 Real2Edit2Real 流程,把原本靜態(tài)的真實數(shù)據變成可擴展、可編輯、可重構的活數(shù)據,1 份原始數(shù)據就能衍生出百份千份多樣化的訓練素材,從根源上解決高質量交互數(shù)據稀缺的問題。
![]()
最終打磨出來的 GE-Sim 2.0,是一個真正能跑、能交互、能訓練的數(shù)字平行世界:機器人在里面做出的每一個動作,得到的物理反饋都和真實世界幾乎沒有差別;
它可以在里面反復練上萬次端咖啡,灑了不用修硬件、不用收拾現(xiàn)場,練成熟的策略能直接遷移到真機上;
![]()
甚至地面濕滑、桌面晃動、外力干擾這類極端場景,也能在虛擬世界里反復模擬,讓機器人提前學會怎么應對各種意外。
這就是世界模型最本質的躍遷:從 “用來描述世界的模型”,變成了 “機器人能真正使用的世界本身”。
以前的世界模型是給人看的,生成漂亮的畫面供人欣賞;現(xiàn)在的世界模型是給機器人用的,變成了機器人可以在里面學習、試錯、進化的虛擬訓練場。
這個變化的價值有多大?
算一筆賬就知道:之前練一個新技能,要 3 個月,10 臺樣機,5 個工程師,成本上百萬;現(xiàn)在 90% 的訓練都在 GE-Sim 里做,只用 1 臺樣機做驗證,1 周就能搞定,成本不到原來的十分之一。
![]()
沒有低成本的訓練方式,再好的硬件,再好的算法,都不可能真正規(guī)模化落地。
![]()
失敗,才是機器人最好的老師
所有的模型,所有的模擬器,最后都要落到一個東西上:數(shù)據。
但整個行業(yè)在數(shù)據這件事上,一直有個特別大的誤區(qū):所有人都在搶 “成功數(shù)據”,沒人在乎 “失敗數(shù)據”。
![]()
之前所有的具身數(shù)據集,都是 “專家示范數(shù)據集”:找個專家完美完成任務,把成功的動作錄下來給機器人學。
仿佛機器人學會了所有的成功動作,就會做事了。但這根本不符合智能成長的規(guī)律啊。
你小時候學走路,是看別人完美走路的視頻學會的嗎?
不是,你是摔了無數(shù)次,從每一次摔倒里學會怎么保持平衡的。你學騎自行車,是看別人完美騎車學會的嗎?不是,你是摔了無數(shù)次,從每一次失衡里學會怎么握把的。
![]()
人類的智能,從來都是從失敗里學來的,不是從成功里學來的。
機器人也是一樣。只學過成功動作的機器人,就像一個只看過別人騎車,自己從來沒摔過的人,一上車就倒。它只知道怎么做是對的,不知道怎么做會錯,錯了該怎么辦。
![]()
這就是為什么很多機器人在預設場景里完美,一有意外就崩了:它從來沒見過失敗,也沒學過怎么應對失敗。
智元這次開源的 AGIBOT WORLD 2026 “多樣交互” 數(shù)據集,就是打破了這個慣性。
這是行業(yè)第一個專門記錄失敗的具身數(shù)據集:抓取失敗、東西掉了、碰撞、液體飛濺…… 所有其他數(shù)據集里會被刪掉的 “壞數(shù)據”,在這里都是核心資產。
![]()
在大家都把數(shù)據當核心壁壘的今天,智元把最稀缺的失敗數(shù)據開放出來,相當于給整個行業(yè)補上了最關鍵的一塊拼圖。
![]()
智元想做的,是具身智能的 “水電煤”
現(xiàn)在把這三塊拼起來,你就能看懂智元的布局了。
![]()
很多人看智元,只看到他們做人形機器人,拿了很多第一。
但其實智元從來不是在做一個機器人產品,他們是在做整個具身智能行業(yè)的底層基礎設施。
最底層,他們開源數(shù)據集,給全行業(yè)提供 “燃料”;中間層,他們做 WAM 模型,給全行業(yè)提供 “引擎”;
最上層,他們做 GE-Sim 模擬器,給全行業(yè)提供 “訓練場”。數(shù)據喂給模型,模型支撐模擬器,模擬器產出更多數(shù)據,整個飛輪轉起來,所有的從業(yè)者都能受益。
![]()
具身智能這個賽道足夠大,容得下不同的路線:有的公司專注做硬件,把機器人的身體做得更好;
有的公司專注做落地,把機器人放到更多場景里;而智元選擇做底層,把數(shù)據、模型、仿真這些基礎設施做好,開放給所有人用。
沒有哪條路更好,只是大家的選擇不同。
但底層基礎設施的價值是通用的:未來不管是什么形態(tài)的機器人,不管用在什么場景,都需要好的數(shù)據,好的模型,好的訓練平臺。
![]()
就像當年微軟做 Windows,谷歌做安卓,不是為了自己做電腦做手機,是給全行業(yè)做通用的底座。
智元現(xiàn)在做的,就是具身智能時代的通用底座。
![]()
技術最終的意義,是讓人生活得更好
聊了這么多技術,最后說點實在的:我們做具身智能,到底是為了什么?
不是為了讓機器人在發(fā)布會上翻跟頭,不是為了讓機器人在工廠擰螺絲,是為了讓它們真的能幫到我們。
是讓行動不便的老人,能在家喝到一杯熱乎的水;是讓加班到深夜的父母,不用拖著疲憊的身體給孩子熱牛奶;
是讓在危險崗位的工人,不用再面對高溫和有毒的環(huán)境。
![]()
而這些場景,都需要機器人能真正理解這個不完美的、充滿意外的真實世界。
它不能是一個只能在實驗室里工作的精密儀器,它必須能應對各種意外,能從錯誤里學習,能和這個世界友好相處。
這就是智元所有技術的終極意義。
當機器人能在虛擬世界里練會一萬次端咖啡不灑,它就能在真實世界里給老人端一杯水;
當機器人能在腦子里的沙盤里預判所有意外,它就能在真實世界里照顧孩子和老人;
當所有開發(fā)者都能用開源的數(shù)據集和模型,做出更便宜、更聰明的機器人,具身智能才能真正走進千家萬戶。
2026 年是具身智能的 “部署元年”,越來越多的機器人開始走出實驗室。
![]()
但我們都知道,這只是開始。
從看懂世界,到構筑世界,再到改變世界,這條路還有很長。但幸運的是,有智元這樣的公司,愿意慢下來,沉下心,把底層的基礎打牢,給整個行業(yè)鋪路。
在所有人都追求快、追求流量、追求短期成果的今天,愿意做難而正確的事,愿意做長期主義的事,本身就足夠值得尊敬。
和智元的團隊聊到最后,他們說:具身智能是一場馬拉松,沒人知道終點在哪,也沒人知道哪條路一定對,但我們愿意先把路鋪好,讓后面的人走得更穩(wěn)一點。
![]()
是啊,做技術和做人一樣,慢一點,穩(wěn)一點,才能走得更遠。
具身智能的故事,才剛剛開始。
![]()
![]()
前沿動態(tài)前沿大會
前沿人物
點「在看」,給前前加雞腿
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.