網易首頁 > 網易號 > 正文 申請入駐

剛剛,國產AI雙冠王!黑馬世界模型打破全球紀錄,一鏡到底封神

0
分享至


新智元報道

編輯:KingHZ Aeneas

【新智元導讀】世界模型黑馬橫空出世!就在剛剛,生數科技的MotuBrain零宣發登頂雙榜,直接打通「看懂世界+執行行動」,而且不同的是,他們把World Action Model適配多個頭部機器人本體,完成多個長程任務,這是國產AI的硬核突圍!從此,具身智能徹底邁入新紀元。

就在剛剛,世界模型圈又闖出一匹黑馬!

悄無聲息地,它就拿下了兩個世界第一。

WorldArena中,總體EWM Score達到63.77,排名第一(截至本月中旬左右)。


在RoboTwin2.0的Clean和Randomized兩個場景下,它分別拿下了95.8和96.1,同樣排名第一。



而且,它是百分百的零宣發。

這些榮譽,屬于同一個模型——MotuBrain。

它出現得極其反常:沒有Logo、沒有發布會、沒有融資稿,連X賬號都是新注冊的。

就這么一聲不響地,同時爬上了兩個國際權威榜單的頂端。

更離譜的是,這兩個榜單彼此根本不挨著——一個考「你能不能真正看懂世界」,一個考「你能不能在世界里穩定干活」。

過去幾年,行業把它們叫作「兩個極點」:做世界模型的看得懂、動不了;做VLA的能動手、想不遠。

同時拿下兩個第一,業內前所未有。

具身圈猜測刷屏:這是阿里「快樂生蠔」翻版?字節憋的大招?或者華為的暗手?還是李飛飛World Labs的中國分舵?

直到謎底揭開,所有人都沒想到——國產生成式AI公司生數科技

而且他們沒有止步與此,現在已經把world action model適配多個頭部機器人本體,應對多種任務、建模多個長程任務。

這是工業級的demo,和其他的刷榜模型絕對不一樣。

神秘面紗揭開

國產AI領先硅谷巨頭

事情得從去年12月說起。

那時候,生數科技聯合清華大學開源了一款叫Motus的大一統世界模型。


論文鏈接:https://arxiv.org/abs/2512.13030

項目主頁:https://motus-robotics.github.io/motus

Motubrain官網:https://www.shengshu.com/zh/motubrain

才剛剛發布,Motus就已經在圈內小小震動了一下。

因為它在架構上把五種本來彼此割裂的具身智能范式,擰成了一個「看-想-動」的閉環:

VLA(視覺-語言-動作)、世界模型、視頻生成、逆動力學、視頻-動作聯合預測。


這種統一世界-動作建模,通過一個模型統一建模視頻「video」與動作「action」,使之前彼此割裂的5種方法都成為同一建模框架下的不同推理模式。

與以往方法不同,Motus聯合建!敢曨l」和「動作」,學到的不再是機械反應,而是任務目標、環境變化、以及動作會帶來什么后果這三者之間的深層世界知識。這讓它更能適應新環境和新任務。

Motus引入「潛動作」機制,能從無標簽的互聯網視頻、人類操作視頻中提取通用的「運動規律」。


潛動作變分自編碼器 (Latent Action VAE)。這是一種基于光流的表征方式,通過變分自編碼器架構將視覺動力學(visual dynamics)與控制信號相銜接

這讓它可以利用近乎無限的海量數據來預訓練,極大豐富了先驗知識。


具身數據金字塔。展示了從互聯網數據(第一層)到目標機器人演示數據(第六層)的六級數據層級結構,其任務相關性和數據質量隨層級逐級提升。

基于「專家混合」,Motus引入了混合Transformer (Mixture-of-Transformer, MoT) 架構,巧妙融合了視頻生成、語義理解、動作生成三個已有的高性能基座模型。

這相當于讓模型同時擁有了「想象力」、「理解力」和「執行力」。

Motus表現出了正向的規模效應,即學習的任務越多、數據越豐富,模型掌握的可遷移世界知識就越多,在新任務上的平均成功率反而越高。


這是它學到了通用規律而非死記硬背的有力證據。

在50項通用任務測試中,Motus的平均成功率高達88%,在當時的RoboTwin2.0上直接霸榜。


但Motus還是起點,MotuBrain才是它進化后的「完全體」——

一個面向真實世界的通用世界行動模型(World Action Model,WAM),具備多本體、多任務、長程執行能力。

在Motus的基礎上,MotuBrain更上了一層樓。

  • 視覺統一:支持任意數量/任意視角的視覺建模,不再依賴固定的相機配置。

  • 語言融合:獨立的語言理解通路直達底層控制,讓指令遵循直接融入動作生成。

  • 本體泛化:統一的動作表征打通不同機器人本體,學到的是可遷移的行動規律。

  • 長程執行:自回歸+擴散與語言-動作-視頻三流MoT,直接用超過10個原子動作的長序列完成任務,擺脫對上層任務拆解的完全依賴。

  • 實時推理:超大參數規模的具身基座模型通過云邊端協同實現實時閉環控制。

簡單說:Motus證明了「路走得通」,MotuBrain證明了「我已經在這條路上跑出了世界第一」。

在Motus的基礎上,MotuBrain作為商用模型版本,進一步面向真實機器人場景完成系統升級,將World Action Models從技術驗證推向更通用、更可落地的具身智能大腦。

為什么這件事讓具身圈如此震動?因為在過去一年里,這條賽道擠滿了頂級玩家。

大家都在搶同一個高地:怎么把「預測世界」和「驅動行動」放進同一個大腦。

結果,生數科技搶先做到了。

MotuBrain

理解世界,預測世界,行動于世界

下面的demo,詳細展示了全球第一的世界模型已經進化到了多么強大的地步,全部任務一鏡到底。

裝上MotuBrain的機器人給我們演示了一把這個操作:把花插入花瓶中,然后開始用噴壺噴灑清水。

這個操作難度在哪里?

傳統機器人方案通常需要一個昂貴的「上層大腦(VLM)」負責拆解指令,再由底層驅動去執行,這種「拼湊感」往往導致動作斷檔。

而MotuBrain實現了一腦貫通:它無需額外視覺語言模型的輔助,僅憑自身即可直接建模復雜的長程任務,讓「從插花到澆水」的邏輯轉換如同人類本能般絲滑。

另一位機器人,則在插花機器人的身后整理沙發。

它先將沙發上的衣物放入洗衣籃,然后將靠枕擺回原位,過程中還要彎腰撿東西,這都體現了全身動作的協調性。


接下來,還有更上難度的操作!

只見機器人大廚從鍋中舀出了一份丸子放入碗中,同時還倒了一杯果汁。

這個過程人做起來很容易,但對機器人來說,要克服一系列難關。


對人類而言,勺子沒撈到東西就再試一次是常識;但對機器人,這涉及極其復雜的閉環感知。

比如,它需要理解當前勺子的空的,通過物理推演意識到「目標未達成」,然后還要預測自己需要重新執行撈取動作。

甚至,機器人的左右手還要同時執行不同的任務。

這種「一腦預見」能力,本質上是機器人對真實物理世界的深度建!粌H在看,更在預測物理世界的走向,并以此驅動行動。

下面這個調酒機器人,使用了基酒和牛奶調制了一杯雞尾酒,然后嫻熟地放在了托盤上,這是一個極其復雜的長程任務。

另外,機器人還能整理洗漱臺。只見它將牙刷準確地放入杯中,還把肥皂放回原位。


這些操作對于很多機器人來說,都難度很大。

液體流變、精細抓取,包括疊衣服過程中的織物形變……每一個動作背后的物理反饋邏輯迥然不同。

以往,業內需要為每個場景單獨訓練模型,但MotuBrain卻展示出了卓越的「一腦多能」能力,只要一個模型,就可以應對多種任務。

更令人驚喜的是,MotuBrain還能做到一腦多型,一個模型就能適配不同的機器人。

這意味著它不是某個特定硬件的專屬,而是一個通用的「數字靈魂」。

同一個模型,可以瞬間適配各種形態、各種自由度的機器人硬件,讓AGI真正走入現實物理世界。


雙榜第一,到底意味著什么?

讓我們認真看看這兩個榜單的含金量。

WorldArena:機器人看得懂世界嗎?

這個榜單測的是「機器人對真實物理世界的理解到不到位」。

MotuBrain在這里拿下63.77的EWM Score,排名第一,超過了國內外的同類模型。

更值得玩味的是它領跑的幾個細分維度:

  • Motion Quality第一——動作真的「在動」,絕非看起來像動的視覺特效

  • Flow Score第一——前一秒和后一秒能絲滑銜接,而非逐幀拼接的PPT

  • Motion Smoothness第一——動作符合真實物理規律,不會突然抖一下、突然加速

這三個指標都和「運動」直接相關。

對一個未來要服務機器人的世界模型來說,這才是真本事——畫面再美,機器人執行時一抖手湯就灑了,等于零。

RoboTwin2.0:機器人能在世界里干活嗎?

如果說WorldArena考「理論」,RoboTwin2.0就是考「實操」。

在Clean(干凈)和Randomized(隨機擾動)兩個場景下,MotuBrain分別拿到95.8和96.1——是榜單上唯一一個在隨機環境下平均分超過95的模型。

在接近一半的具體任務里,它都達到了100或接近100的成績。

跟誰比?JEPA-VLA、Pi-0.5——這些都是行業內大家熟悉的硬茬。

結果,MotuBrain在RoboTwin上的表現,用一個詞形容就是「碾壓」。

把兩份成績放在一起看,意思就很清楚了:MotuBrain既看得懂世界,又能在世界里穩定干活。

這不是單點強,而是一種系統級的、接近「通用機器人大腦」的能力特征。

MotuBrain:為行動而生

過去兩年,具身智能走了幾條不同的路:

  • VLA路線:把視覺、語言、動作塞進一個模型(如Pi系列)。

  • 「先想象,再行動」:用視頻模型預測未來,再指導動作。

  • 「邊推演邊行動」:同步生成未來狀態與當前動作(如Motus和英偉達DreamZero)。

各有亮點,但都有同一個天花板——局部統一。

VLA學動作模式,世界模型學預測能力,彼此拼接、對齊,終究是五個?漆t生會診。

MotuBrain走的是另一條路:真正的大一統。


它基于自研UniDiffuser架構,將視頻和動作兩個連續模態從底層統一建模。

一次訓練,同時學會五種能力:VLA、世界模型、視頻生成、逆動力學、視頻-動作聯合預測。

正因為大一統,MotuBrain能吸收多模態異構數據——課本、視頻、生活觀察、跨學科交流。而VLA只能從特定機器人的純任務軌跡里學習。長期看,差距是數量級的。

通過MoT架構,MotuBrain融合了視覺、語言、動作三種模態。

VLA只有「靜態理解」,看到一個杯子,知道「這是杯子」。

MotuBrain還能預判:「如果我推它一下,它會怎么倒、湯會怎么灑。」

一腦多能:一個大腦,應對多種任務

很多機器人模型沒法同時做多個任務。

任務一多,成功率就容易下降。

MotuBrain 的目標是讓同一個模型處理更多任務。

更重要的是,隨著任務數量增加,模型在不同任務之間學習共享的世界知識。

比如抓取、移動、放置、組合、連續操作,看起來是不同任務。但背后都有共同規律:物體會受力,動作有先后,而且環境會變化,錯誤需要調整。

這些規律被模型學到之后,就能遷移到新任務里。

這就是多任務泛化能力。

實驗證明:隨著任務數量增加,Pi-0.5成功率持續下降(過擬合任務軌跡),而MotuBrain成功率持續上升——這說明它學到了跨任務的通用世界知識。而且上升的曲線越陡峭,說明模型泛化性越高,這是 MotuBrain 相比Motus的進一步跨越。


一腦多型:一個大腦,適配多種機器人

現實世界里,機器人有很多形態,比如雙臂機器人、移動機器人、人形機器人、機械臂。


它們的身體結構不同,動作格式也不同。

然而,傳統方法常常是「一個機器人,一個模型」。換了本體,就要重新適配;換了硬件,又要重新訓練。

MotuBrain,就是想要打破這個模式。

它通過統一action表征,把不同機器人本體的動作數據放進同一個框架里學習。

這樣,模型學到的就不只是某一臺機器人的動作格式,而是更通用的行動規律。

生態里的機器人種類越多,場景越豐富,數據越多,模型能力還可以繼續提升。反過來,模型能力提升后,又能幫助更多機器人提升表現。這會形成一個正循環。

一腦貫通:長程任務,一路到底

不過,在現實世界中,真實任務很少只有一步。

機器人要做的不僅僅是「拿起杯子」,它可能要先找到杯子—>再避開障礙—>再抓起杯子—>再移動到指定位置—>最后放穩。


這是一條完整的任務鏈。

傳統方法往往需要上層規劃器先拆任務,再讓不同模型分別執行,但任務越長,中間出錯的概率越高。

MotuBrain的特點就是,可以直接學習完整任務鏈路。

它不完全依賴上層規劃、快慢雙系統或多個模型拼接,可完成超過10個原子動作級別的復雜長程任務,遠遠超過在2到3個原子動作的Demo展示。

這一點非常關鍵。

因為真實機器人要服務真實世界,就必須能持續推進任務,不能做一步,停一下。

實驗證明:隨著數據總量增加,MotuBrain穩壓Pi-0.5一頭。


一腦預見:預測世界,驅動行動

此外,機器人執行動作,最怕的就是只看眼前。

人類拿杯子時,會自然預判:手碰到杯子后,杯子會不會滑?桌面有沒有水?杯子會不會被推倒?旁邊有沒有障礙物?

這些判斷,決定了動作是否穩定。

而MotuBrain的目標,就是讓模型具備類似的預見能力。

它不只是執行指令,還要理解世界。它會預測環境變化,再根據預測結果調整動作路徑。

所以,它的能力可以總結成一句話:預測世界,也驅動行動。

生數的世界模型大局觀

從數字世界,到物理世界

理解MotuBrain,光看技術參數還不夠。它背后是生數科技整個通用世界模型戰略的一塊重要拼圖。

去年三月,生數科技創始人朱軍教授,拋出了一個大判斷:「通用世界模型是連接數字世界與物理世界的橋梁。」

這句話不是空話。

它對應的是生數科技正在搭建的一個完整體系——以通用世界模型(Foundation World Model)為核心底層,基于全球首創的U-ViT架構(早于Sora的DiT架構),不斷積累視覺、聽覺、觸覺等多模態信息,形成對世界的統一認知。

在這個底座之上,生數科技走出了兩條腿。


數字空間:Vidu——在屏幕里「生成世界」

基于世界生成模型(WGM),生數科技打造了視頻大模型產品Vidu,服務全球200多個國家地區的數千萬用戶,合作方包括好萊塢工作室Aura Productions(用Vidu制作50集動畫短劇)。

這條線解決的是「數字內容怎么被高效生成」的問題。

物理空間:Motus/MotuBrain——在現實里「行動于世界」

基于世界行動模型(WAM),生數科技構建了Motus和MotuBrain,目標是給真實世界的機器人安上一個統一的大腦,解決傳統具身智能鏈路割裂、數據稀缺、泛化能力弱的痛點,實現真實世界下的零樣本泛化與跨本體適配。

兩條線一加,生數科技形成了一個完整的閉環——預測世界、生成世界、行動于世界

MotuBrain雙榜第一,只是這個戰略圖譜里的一次「亮劍」,證明物理空間這條線已經走通了。

最近,生數科技在產業側也動作不斷。先后與無界動力、深樸智能、星塵智能達成戰略合作,把MotuBrain從「實驗室SOTA」推進到「機器人本體適配+真實場景落地」。

總之,MotuBrain回答的是「通用機器人大腦能不能成立」,而生態合作回答的是「這個大腦怎么真正進入工廠、家庭、商業場景」。

從「造身體」到「造大腦」的產業拐點

過去幾年,機器人產業一直在比拼「身體」——電機更精準、傳感器更豐富、整機成本更低。

但真正卡住所有人的,一直是大腦。

資本已經率先用真金白銀投出了答案:近一年具身智能的大額融資,幾乎都砸向了「做大腦」的公司。

這是一場關于下一代「機器人操作系統」入口的卡位戰,誰先建立起world+action的統一架構,誰就拿到了未來十年的船票。

MotuBrain的雙榜第一,更像是給整個行業遞交了一份證據:通用機器人大腦這件事,中國團隊已經走在了第一梯隊。

更讓人感慨的是這股力量的來源——生數科技,在沒有動用什么「營銷大招」的情況下,用代碼和數據正面把硅谷標桿Pi-0.5撂倒了40個百分點。

未來的故事還很長。

當「預測世界」和「驅動行動」被裝進同一顆大腦,機器人才真正配得上「具身智能」四個字。

而這件事,中國團隊已經在領跑。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
香奈兒發布無底綁帶鞋,網友:太抽象了!

香奈兒發布無底綁帶鞋,網友:太抽象了!

都市快報橙柿互動
2026-04-29 15:43:37
人到中年才發現一個飯局定律:酒桌上,那個不喝酒、不說話、只埋頭吃菜的人,往往是這兩種

人到中年才發現一個飯局定律:酒桌上,那個不喝酒、不說話、只埋頭吃菜的人,往往是這兩種

心理觀察局
2026-04-29 15:46:18
五一將至,濟南、青島兩市紀委監委發布關于違反中央八項規定精神典型問題的通報

五一將至,濟南、青島兩市紀委監委發布關于違反中央八項規定精神典型問題的通報

魯中晨報
2026-04-29 20:59:33
林志玲自爆和公婆住一塊,丈夫每天準時回家,自己凌晨3點未睡

林志玲自爆和公婆住一塊,丈夫每天準時回家,自己凌晨3點未睡

白面書誏
2026-04-28 19:34:08
后續!岳陽高三水杯投毒案:施害者停課,受害者卻可能無緣高考

后續!岳陽高三水杯投毒案:施害者停課,受害者卻可能無緣高考

許三歲
2026-04-29 07:39:34
10倍牛股將被*ST !一天16家公司宣布“戴帽”

10倍牛股將被*ST !一天16家公司宣布“戴帽”

每日經濟新聞
2026-04-29 13:39:40
2026年全面禁麻將?公安部劃定紅線,不超這個金額全合法!

2026年全面禁麻將?公安部劃定紅線,不超這個金額全合法!

筆墨V
2026-04-28 14:08:20
郭濤全家拍婚紗照,倆兒女太驚艷,兒子1米85很帥,女兒神似父親

郭濤全家拍婚紗照,倆兒女太驚艷,兒子1米85很帥,女兒神似父親

一娛三分地
2026-04-29 19:14:50
小米推出“米家燃氣灶3C 5200W”:適用于天然氣,首發價699元

小米推出“米家燃氣灶3C 5200W”:適用于天然氣,首發價699元

IT之家
2026-04-29 15:12:47
男子曝入職全球頂尖科技公司時突然被降薪20萬,拒offer后被嘲諷:你的愛國情懷不值20萬嗎

男子曝入職全球頂尖科技公司時突然被降薪20萬,拒offer后被嘲諷:你的愛國情懷不值20萬嗎

爆角追蹤
2026-04-27 14:54:06
被指控“賣黨求榮”后,韓國瑜正式發聲,季麟連回應,不簡單

被指控“賣黨求榮”后,韓國瑜正式發聲,季麟連回應,不簡單

愛下廚的阿釃
2026-04-29 19:19:48
中國男人在非洲有多歡迎?我在非洲創業十年,娶了三個老婆

中國男人在非洲有多歡迎?我在非洲創業十年,娶了三個老婆

千秋文化
2026-04-27 20:01:18
為什么失業集中發生在2026年?揭露4個扎心真相

為什么失業集中發生在2026年?揭露4個扎心真相

慧翔百科
2026-04-28 11:50:58
官方:山東泰山U20主教練崔鵬因試圖沖擊主裁判被禁賽6場

官方:山東泰山U20主教練崔鵬因試圖沖擊主裁判被禁賽6場

懂球帝
2026-04-29 19:33:37
乒羽是一家,張軍落馬顯現連鎖反應!對劉國梁有罪推論純屬陰謀論

乒羽是一家,張軍落馬顯現連鎖反應!對劉國梁有罪推論純屬陰謀論

中國足球的那些事兒
2026-04-29 20:21:00
單依純演唱會氛圍詭異,穿的像馬桶刷,歌曲獨白疑暗懟硬剛李榮浩

單依純演唱會氛圍詭異,穿的像馬桶刷,歌曲獨白疑暗懟硬剛李榮浩

一娛三分地
2026-04-28 19:26:23
最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
5月1日嚴查正式開啟,退休三類事別亂做,人情往來也會被追責

5月1日嚴查正式開啟,退休三類事別亂做,人情往來也會被追責

芳姐侃社會
2026-04-29 12:07:06
官方:廣州龍獅與西班牙籃球俱樂部Lucentum Alicante達成合作

官方:廣州龍獅與西班牙籃球俱樂部Lucentum Alicante達成合作

懂球帝
2026-04-29 17:54:19
一個多月的親身感受,AI的接入全面顛覆傳統研發流程

一個多月的親身感受,AI的接入全面顛覆傳統研發流程

人人都是產品經理社區
2026-04-28 07:48:37
2026-04-29 22:59:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15095文章數 66819關注度
往期回顧 全部

科技要聞

今晨庭審紀實|馬斯克當庭講述OpenAI被偷走

頭條要聞

院長兒子被指"吃空餉"涉百萬獎金 醫院調查稱其拿2萬

頭條要聞

院長兒子被指"吃空餉"涉百萬獎金 醫院調查稱其拿2萬

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節目組2小時

財經要聞

蘇州,率先進入牛市

汽車要聞

技術天花板再摸高 全能型的奕境X9首秀

態度原創

藝術
數碼
教育
時尚
房產

藝術要聞

這些女神,竟然都是攝影師切爾尼亞季耶夫的復古作品!

數碼要聞

追覓推出空氣炸鍋F20:6L容量、1700W上下雙熱源,299元

教育要聞

還得是青羊區!兩年官宣6所新高中,個個來頭不小

除了“薄底鞋”,今年最流行這5雙鞋,怎么搭都好看!

房產要聞

80億投資!浙商總部基地+?诒闭荆鹕碁尺@是要起飛。

無障礙瀏覽 進入關懷版