網易首頁 > 網易號 > 正文 申請入駐

認領神秘登頂模型:生數拿出工業級Demo,跨本體跑通復雜長程任務

0
分享至

田晏林 發自 凹非寺
量子位 | 公眾號 QbitAI

一家做視頻的公司,造了個機器人通用大腦。

這不是段子,是真事。

區別于傳統的專用機器人大腦,這個“大腦”既具備世界模型的預測推演能力,又能輸出行動指令,真正做到“知行合一”。

大腦模型名叫MotuBrain,4月中旬悄悄登頂兩個國際benchmark,卻無人知曉來歷,讓具身圈大佬們猜了三周。

剛剛,生數科技主動認領了。

沒錯,是那個做了Vidu、讓央視動漫用AI拍西游的公司。

兩個國際benchmark,一個測試“能不能看懂物理世界”,一個考驗“能不能真的動手干活”。

就像一個人一邊參加物理競賽,一邊考叉車實操證,4月中旬,MotuBrain兩門都拿了全場最高分。

成績單亮出來,還是實打實的登頂:

  • 在WorldArena上,MotuBrain運動質量第一、動作平滑度第一;
  • 在RoboTwin2.0上,它也是唯一一個在隨機環境下,平均分超過95的模型。

這是什么概念?過去幾年,能把其中一個測試做到極致已屬不易。

同時登頂?之前還沒人做到過。

但現在,生數科技告訴你:一個MotuBrain模型就夠了。



視頻公司跨界指揮機器人,聽起來蠻有趣。

實際內里也是大有乾坤:具身智能的未來需要World Action Model(世界動作模型),而后者必須建立在視頻模型對物理世界的理解之上。

一段汽車漂移的視頻,模型要看懂車為什么拐彎、輪胎為什么冒煙、下一秒會往哪走。

這也不難理解視頻公司闖入具身世界背后的邏輯了。

雙榜吊打,這個機器人大腦有多強?

MotuBrain悄無聲息地同時登頂WorldArenaRoboTwin2.0,不少具身大佬都被這個神秘模型勾起好奇心,瘋狂打聽到底是誰家做的。

有媒體扒出X平臺上倒是有個賬號,但剛注冊,簡介空空。

“子彈”飛了快三周,4月29日,生數科技主動跑出來認領:是我。

回頭來看,線索其實早就埋下了。

2025年12月,生數科技正式開源通用基座世界模型Motus,這是其在物理世界智能方向的一次試水。

四個月時間不到,生數又進化了。

MotuBrain作為全面升級的商業模型版本,繼承了Motus完整核心技術架構,并完成關鍵能力突破。

驗證實力的第一站:WorldArena。這是業界公認的World Model能力測試場。

它不看你模型生成的視頻好不好看,而是看你的模型能不能真正理解物理世界:

一個物體被推一下會朝哪個方向運動?兩個物體碰撞后會發生什么?連續動作的軌跡是否平滑、是否符合真實物理規律?

EWM Score是這個榜單的綜合評分,Motion Quality、Flow Score、Motion Smoothness這些維度分別考察動作的真實性、連續性和平滑度。


△數據統計截至4月21日

在這三個直接對應“動作質量”的維度上,MotuBrain全部拿下第一。

這意味著它不是靠某個單項指標刷分,而是在物理規律的理解和模擬上做到了全面領先。

RoboTwin2.0則是Action Model的硬核考場。

它給模型設置了50個不同的任務,覆蓋抓取、放置、推、拉、旋轉等多種操作類型,還分兩種環境進行測試:

一是Clean場景,標準實驗室環境,物體位置、光線、背景都是固定的;

二是Randomized場景,會引入隨機的擾動,比如物體位置隨機偏移,燈光顏色隨機變化,甚至桌子角度都可能微調。這考驗的是模型能不能泛化到沒見過的條件。

MotuBrain在兩個場景下,分別達到95.8和96.1,均排名第一。

它也是該榜單上唯一一個在隨機環境下,平均分超過95的模型。

拆開50個具體任務看,MotuBrain九成任務超過90分,一半任務更是拿到了滿分100分。這已經不是領先了,這叫斷崖式領先。



兩個頂級榜單,一個測“理解世界”,一個測“在世界中行動”。

想要同時取得成績,業內默認這是“統一場”級別的難題。

因為兩邊的技術棧和評估方式完全不同,能把其中一個做到極致就已經是頂級水平。

但MotuBrain雙榜吊打,至少在benchmark層面驗證了一件事:

預測世界和驅動行動統一在同一個模型里,這條路是走得通的。

真機演示:AI干活開始“帶腦子”了

從榜單成績看,MotuBrain擁有更接近通用機器人大腦的能力特征,它不是單項任務的“偶然強”,而是跨任務、跨場景的泛化能力都強。

一段真機演示足以直觀印證。

從生數科技發布的Demo看,沒有復雜的上層VLM加持,也沒有預設動作腳本,卻將MotuBrain的4個核心能力完整呈現,看完只剩震撼!

這段不足3分鐘視頻,用3臺不同型號的仿人形機器人,演示了5種任務:插花、整理沙發、服務一場火鍋局、調酒、整理洗漱臺。

沒錯,MotuBrain的第一個能力就是一腦多型,它不是為某一種機器人量身定制,而是面向多機器人本體設計的統一智能底座。

它在不同形態、不同自由度、不同傳感器的機器人上都能跑,而且接入的機器人種類越多,數據和場景越豐富,模型表現越好。

僅從Demo展示的這三臺機器人身上,我們也能看到一個模型是怎么拿捏全場景任務的。

插花、整理沙發,別看在這幾項任務里算“簡單”的,恰恰是最考驗長程任務建模能力的操作。

我們能看到,機器人精準抓取三支花,分別穩穩插入花瓶后,順勢拿起澆水壺,對著花枝均勻噴灑清水,整個過程非常絲滑,沒有停頓。



也能看到它精準識別出散落的衣物和錯位的靠枕,先將衣物逐一拾起、規整放入洗衣籃,再將歪歪扭扭的靠枕擺回原位。

全程動作輕柔且高效,沒有出現衣物掉落、靠枕擺放歪斜的情況。



這就是MotuBrain一腦貫通能力的體現。

不同于傳統機器人僅能完成2-3個原子動作的Demo展示,MotuBrain的一個World Action Model可完成10個原子動作級別復雜長程任務。

無論是插花還是整理沙發,機器人面對的不再是一個個孤立動作,而是一項需要持續推進的完整任務。

如果你以為這就夠了,先別急著叫好,大招還在后面。

最讓人眼前一亮的,當屬服務一場火鍋局。機器人被要求從鍋中舀取一份丸子放入碗中,同時倒一杯果汁。

這一次,它左右手同時“開工”,互不干擾、配合默契。

一個小細節是,起初勺子放在鍋里,機器人用左手握住勺柄,沒有立刻撈取,而是先判斷了一下漏勺中有沒有物體,然后重新伸向鍋中舀取丸子,盛入面前的碗中。



別小瞧這個不起眼的動作,需要機器人「理解」勺子是空的,同時能自主「預測」并重新執行撈取動作。

多數機器人是“看到什么就做什么”。而在這個取丸子場景里,如果換成傳統指令式機器人,它只會按腳本執行“舀→放”的動作。

一旦勺子初始是空的,它要么卡住,要么盲目重復,卻不知道“為什么空”。

但MotuBrain能做到:像人一樣“察言觀色”,握住勺柄的瞬間就通過視覺判斷出“勺里沒東西”,緊接著自主規劃新路徑,重新伸回鍋中精準舀取丸子。

直到確認勺子里有食材,它再穩穩端起,送入碗中,全程行云流水,無需人工干預或重新下指令。

理解世界、預測變化,并據此驅動更合理的行動,這就是MotuBrain的一腦預見能力。

不過此時,真機演示還未到高潮。



調配飲料的任務,才是細節拉滿。

只見「硅基調酒師」右手拿起飲料,精準倒入盎司杯中定容,放下飲料瓶后,左手迅速拿起牛奶瓶,將牛奶緩緩注入中間的玻璃空杯,動作輕柔且精準,全程沒有一滴灑漏。

待牛奶倒完,右手再次拿起盎司杯,將里面的飲料緩緩倒入牛奶杯中,最后還不忘取一片薄荷葉,輕輕放在飲品表面做點綴。

完成造型后,它還俏皮地了一下身邊的塑料小黃鴨,仿佛在向圍觀者“報喜”:雞尾酒做好啦!

一系列操作,展現了MotuBrain的一腦多能。

這一能力讓模型能夠在多任務場景中保持穩定表現,不依賴單一任務訓練。

相比于傳統做法,比如搬箱子用一個模型、開門用一個,疊衣服又一個……任務越多越臃腫。

MotuBrain直接把大量不同類型任務混在一起學,從抓取到多步操作全扔進去。

這樣做的好處是,隨著任務數量持續增加,任務之間的共享世界知識越多,MotuBrain的平均任務成功率也會同步提升。

因為它學到的是“操作的本質”,不是肌肉記憶。



這四個能力疊在一起,MotuBrain就有了為連續、智能、真實世界的行動而設計的機器人通用大腦。

把推演和行動揉進同一個模型

為什么MotuBrain能讓機器人有這樣的干活能力?答案藏在底層技術設計里。

過去一年,圍繞World Model和Action Model,行業已逐步形成幾條有代表性的技術路線:

一是直接行動派,也就是訓練一個VLA直接進行感知理解和執行。

二是先看后動派,先訓練一個視頻預測模型用來想象未來,再把想象的結果作為決策依據。聽起來有點像人類先在大腦里模擬一遍再動手。



MotuBrain走的是第三條路線——邊看邊動派,也就是World Action Model。

它把推演和行動融合在同一個模型里,沒有先后順序,決策的同時就在推演,推演的結果直接影響決策。

這三條路線沒有絕對的對錯,但World Action Model有兩個關鍵優勢

它不需要等待機器人“想象”后再行動,響應速度更快;同時因為推演和行動共享同一個表征空間,預測的偏差和執行的偏差不會相互放大。

打個通俗的比方。人類司機開車,不是靠肌肉記憶去踩剎車。

你看到前車剎車燈亮起的那一剎那,大腦已經在預測“0.5秒后我離前車還有多遠”“現在踩剎車重了會不會追尾”“輕了會不會剎不住”。

這個預測和決策是同時發生的,不是反復琢磨路況,再踩剎車(那就來不及了……)



MotuBrain做的就是這件事。如果只用一個詞形容它,那就是:為行動而生。

傳統AI模型更像是“觀看者”或“分析者”,給它一張小貓的圖片,它能認出來;給它一段視頻,它能描述發生了什么。

但這類模型從不真正“行動”,也不需要對自己的判斷負責。

MotuBrain要解決的,也不是“機器人會不會做一個動作”,而是“機器人能不能連續完成一個任務”。

而想要做到這點,要求機器人必須真正理解真實世界中的運動和物理變化。它的行動必須是連續的、能適應變化的、可以跨本體、跨任務的。

在WorldArena評測中,MotuBrain在三個與“運動”直接相關的維度上全部拿下第一:

  • Motion Quality:動作真實,不是“擺姿勢”。
  • Flow Score:連續動作絲滑銜接,理解軌跡變化。
  • Motion Smoothness:符合物理規律,無突兀跳變、急加速或抖動。

從技術層面看,MotuBrain的設計并不復雜,卻很有章法。每一步都像在給機器人“換腦子、塑認知”。

其技術根基源自Motus在去年12月確立的World Action Models

核心思路很簡單:先給機器人的“視覺”(視頻)和“動作”(機械運動)做一套“統一翻譯系統”,徹底打通多模態信息壁壘。

也就是用UniDiffuser實現Video和Action的統一建模與調度。

一旦語言統一了,機器人只需訓練一次,就能自動學會五種本事:

舉個最直觀的例子,讓機器人取桌邊水杯。

  • VLA模態:視覺識別目標+解析語言指令,完成感知到動作的初始觸發;
  • 世界模型模態:觀測水杯邊緣位置與姿態,結合機器人動作輸入,預判物體位移、滑落等環境動態演化趨勢;
  • 視頻生成模態:基于手部靠近水杯的前置幀,自主補全整個抓取動作的時序過程;
  • 逆動力學模態:由“水杯從桌面轉移至手中”的結果,反向推演機械臂最優運動軌跡;
  • 視頻動作聯合預測模態:執行抓取的同時,實時預判水杯下一時刻位置,動態微調手部姿態與發力邏輯。

這五種本事都來自同一套底層邏輯,不用分開訓練。



而且,相比傳統VLA只能吃特定本體上的純任務數據,Motus「不忌口」,能同時消化各種數據(純視頻、無標簽數據、機器人運動軌跡)。

它吃的數據越雜越多,機器人對真實世界的理解會越深,行動也就更靠譜。

因為它掌握的是跨任務的通用規律,不是單一動作的“模板”。

在此基礎上,MotuBrain做了更實用的升級,解決了機器人落地的核心痛點:

  • 不挑相機:不管機器人裝了多少個攝像頭、角度如何,都能正常識別;
  • 聽懂人話:把“指令”融入動作生成的核心,不是簡單“湊活執行”,而是真的理解指令意圖;
  • 跨機器人通用:學會的本事能遷移到不同機器人身上,不用換一臺機器人就重新訓練;
  • 能做復雜任務:它搭了一個視頻?動作?語言三流MoT架構,不用拆分步驟,讓模型可以完成10個以上連貫動作。



從左圖可以看出,隨著任務數量增加,Pi-0.5成功率持續下降,而MotuBrain成功率持續上升。

這說明它學到了跨任務的通用世界知識,這是VLA不具有的能力。

右圖呢?是MotuBrain在數據量上的Scaling Law曲線。

相比其他模型更陡峭,說明其數據效率非常高,僅用少量數據就可以取得很好的結果。

此外,任務數量的scaling law曲線比數據量更為陡峭,說明對于MotuBrain這種數據效率極高的模型來說,相比于增加數據量,增加任務的多樣性對成功率的提升效果更為顯著。

真機演示里,我們也能看出來,該模型已在多款仿人形機器人上驗證過,大模型運行不卡頓,不用額外輔助工具,僅憑自身能力,就能高成功率完成長程任務,還能左右手同時做不同事。

總結下來,MotuBrain真正厲害之處,不在于多復雜的技術堆砌,而在于用“統一建模”打通了機器人的“感知、理解、行動”,讓機器人真正從“機械執行”,走向“智能決策”。

左手Vidu,右手MotuBrain

如果只看MotuBrain這一個點,可能會覺得生數科技是突然殺進了具身智能賽道。

但如果把視線拉遠,會發現這是一條早有預謀的暗線。

今年4月,阿里領投,生數科技完成了近20億元人民幣的B輪融資。

這不是一筆小錢,投資機構看中的不是“又一家做視頻模型的公司”,而是一個更大的敘事:打通數字世界與物理世界的通用世界模型。

生數科技的布局是雙軌并行。模型的底層是其全球首創的U-ViT架構

這個架構也是該公司整個戰略的技術基座,它做的事情很底層,也很關鍵:統一處理視覺、聽覺、觸覺等多模態信息。



不同類型的感知數據被塞進同一個模型框架里訓練,模型逐漸建立起對世界的統一認知:什么是物體,什么是運動,什么是因果關系。

就像人類嬰兒的大腦,不是分別長出一個視覺皮層和一個運動皮層,而是兩者協同發育、互相促進。

在這個基座之上,生數科技兵分兩路。

一條通往數字世界,另一條路通往物理世界。



先看第一條路,生數科技走的是世界生成模型(WGM)路線,產品就是大家熟悉的視頻大模型Vidu。

Vidu的能力不只是在給定提示詞后生成一段好看的視頻。在生成視頻的過程中,模型必須學會物理規律:水怎么流、光怎么反射、物體怎么碰撞。

一個生成“水滴落下”視頻的模型,如果它連重力加速度都不懂,生成的畫面就會很假。

所以,Vidu本質上是一個被訓練來“理解并生成物理世界”的模型。


△Vidu布局

它已經在商業化上證明了這一點:漫威《毒液3》的水墨風格宣傳片,完全基于Vidu生成;AI漫劇《明日周一》10人團隊45天產出50集,上線5天播放量破500萬。

通往物理世界的路,MotuBrain正在鋪。

Vidu和MotuBrain,一個是數字空間的產出,一個是物理空間的執行,兩套產品,同一條根

這套雙軌結構有一個天然的護城河:

絕大多數做機器人大腦的公司沒有視頻大模型的基礎,數據來源主要是仿真環境和真實機器人采集的數據,成本高、規模小。

而絕大多數做視頻模型的公司沒有機器人動作數據的積累,輸出可以很美,但無法驅動實體。

生數科技是極少數同時擁有這兩塊拼圖的玩家。



也因此,這些技術積累會直接反映在前述MotuBrain的成績單上。

當然,光有數據還不夠,模型層面的突破還需要場景驗證。目前,生數科技已經與無界動力、深樸智能、星塵智能達成戰略合作。

這些合作伙伴有的主攻工業制造與商業服務場景,有些瞄準類家庭商業場景與合作住宿場景。

合作內容不只是“把MotuBrain裝上去試試”,而是技術層面的聯合優化、數據層面的雙向飛輪、應用層面的規;涞。

除了上述商業伙伴,更多戰略合作已在路上。

One more thing

具身智能行業的共識變了,大家已經不在意誰造出更靈巧的機器人,更關心誰先做出真正通用的機器人大腦。

資本正在密集涌向做“大腦”的公司,這就是最好的說明。

他們爭奪的不是一兩個爆款應用,而是下一代的操作系統入口,甚至更底層——通用物理世界的入口。

這個節骨眼上,剛完成近20億元B輪融資的生數科技,帶著雙榜第一的MotuBrain出現了。

當別人還在糾結該走World Model還是VLA時,生數科技用同一個模型同時做到了行業第一。

這至少說明了一件事:通用物理智能這條路,有人已經開始跑通了。

如果說視頻是理解世界的起點,那么讓AI真正走進物理世界才是所有玩家的終點。

Vidu畫出了一個虛擬世界,而MotuBrain正在奔向后者。

官網鏈接:https://www.shengshu.com/zh/motubrain

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“福特”號航母將于近日撤離中東返美,美軍已要求42艘商船掉頭或返港,稱正在中東部署“史上最強”軍力,伊朗海軍司令發出警告

“福特”號航母將于近日撤離中東返美,美軍已要求42艘商船掉頭或返港,稱正在中東部署“史上最強”軍力,伊朗海軍司令發出警告

每日經濟新聞
2026-04-30 07:41:07
騎士天王山:哈登、莫布里和……施羅德?

騎士天王山:哈登、莫布里和……施羅德?

張佳瑋寫字的地方
2026-04-30 10:52:40
美媒:霍爾木茲海峽部分被困船員已遇難,聯合國呼吁緊急營救,目前仍有數百艘船舶、約兩萬名海員滯留波斯灣

美媒:霍爾木茲海峽部分被困船員已遇難,聯合國呼吁緊急營救,目前仍有數百艘船舶、約兩萬名海員滯留波斯灣

魯中晨報
2026-04-29 21:59:02
山西澤州警方:重大刑案嫌犯已被抓獲

山西澤州警方:重大刑案嫌犯已被抓獲

界面新聞
2026-04-30 13:14:49
62歲天津大爺,“chua一下”就火了

62歲天津大爺,“chua一下”就火了

中國新聞周刊
2026-04-30 11:20:55
女子約會情夫時,情夫翻墻頭摔斷腿,2010年讓丈夫照顧情夫釀慘案

女子約會情夫時,情夫翻墻頭摔斷腿,2010年讓丈夫照顧情夫釀慘案

漢史趣聞
2026-04-29 14:38:01
常住人口220多萬的馬鞍山市,一季度只有914名新生兒,同比暴跌67.4%

常住人口220多萬的馬鞍山市,一季度只有914名新生兒,同比暴跌67.4%

小蘿卜絲
2026-04-29 17:08:19
上海一顧客稱購買羅森玉米汁喝出十多只螞蟻,重新制作后仍有螞蟻;店員:螞蟻可能是從地面爬到杯里的,機器已全部消毒檢查,有專員跟進

上海一顧客稱購買羅森玉米汁喝出十多只螞蟻,重新制作后仍有螞蟻;店員:螞蟻可能是從地面爬到杯里的,機器已全部消毒檢查,有專員跟進

瀟湘晨報
2026-04-30 11:34:13
現在,我們消費降級已經很嚴重了

現在,我們消費降級已經很嚴重了

細說職場
2026-04-30 10:32:04
上海地鐵互毆乘客徹底社死!處罰結果公布,拘留只是“開胃菜”

上海地鐵互毆乘客徹底社死!處罰結果公布,拘留只是“開胃菜”

奇思妙想草葉君
2026-04-29 23:46:29
股價暴跌97%,市值僅剩12億,愛奇藝為何成互聯網 “最慘選手”?

股價暴跌97%,市值僅剩12億,愛奇藝為何成互聯網 “最慘選手”?

青眼財經
2026-04-29 17:39:07
大瓜!公募總經理和99年的美女財經記者!

大瓜!公募總經理和99年的美女財經記者!

挖掘機007
2026-04-30 11:17:46
沉默45年后,中國第二輪“嚴打”終于來了!但這次的目標變了。

沉默45年后,中國第二輪“嚴打”終于來了!但這次的目標變了。

李博世財經
2026-04-30 10:04:09
真相大白!趙心童輸球原因曝光,真不是打不過墨菲吳宜澤10-6晉級

真相大白!趙心童輸球原因曝光,真不是打不過墨菲吳宜澤10-6晉級

曹說體育
2026-04-30 01:07:22
一字之差,男子誤將100萬元轉到在非洲打工的劉女士賬戶中,劉女士以為遇到網絡詐騙,多次掛斷民警電話,拉黑微信;經半個多月溝通終追回

一字之差,男子誤將100萬元轉到在非洲打工的劉女士賬戶中,劉女士以為遇到網絡詐騙,多次掛斷民警電話,拉黑微信;經半個多月溝通終追回

魯中晨報
2026-04-30 10:11:12
西交大學生周凱旋被判死刑,行刑前拒見家屬,孤身赴死!

西交大學生周凱旋被判死刑,行刑前拒見家屬,孤身赴死!

深度報
2026-04-29 22:43:03
景區大門越修越遠:從誰最先開始的?為什么會成標配?

景區大門越修越遠:從誰最先開始的?為什么會成標配?

謠談鄉村振興
2026-04-29 10:43:59
電視臺主播,170cm大長腿,42歲H級曲線知性美人正式出道!

電視臺主播,170cm大長腿,42歲H級曲線知性美人正式出道!

吃瓜黨二號頭目
2026-04-30 09:59:44
首進世錦賽四強!小將吳宜澤轟2桿破百,13-8鎖定半決賽席位

首進世錦賽四強!小將吳宜澤轟2桿破百,13-8鎖定半決賽席位

全景體育V
2026-04-30 05:34:11
革命衛隊襲擊阿聯酋,阿大怒退出歐佩克并公開倒向以色列

革命衛隊襲擊阿聯酋,阿大怒退出歐佩克并公開倒向以色列

高博新視野
2026-04-30 07:30:30
2026-04-30 13:52:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12560文章數 176458關注度
往期回顧 全部

科技要聞

四巨頭財報齊發:AI已經不只是風口

頭條要聞

"上海最通透爸爸"去世 女兒:他退休20多年這輩子不虧

頭條要聞

"上海最通透爸爸"去世 女兒:他退休20多年這輩子不虧

體育要聞

騎士天王山:哈登、莫布里和……施羅德?

娛樂要聞

孫楊媽媽被曝!過往言行被扒大開眼界

財經要聞

安世之亂,聞泰帝國近黃昏?

汽車要聞

上汽一季報出爐 在低增長周期里守住基本盤

態度原創

手機
游戲
家居
親子
旅游

手機要聞

報告稱美國三星手機投保維修費用比蘋果iPhone高60%

國產大作與質量獨占壓陣!九月PS5游戲陣容炸裂

家居要聞

靈動實用 生活藝術場

親子要聞

助孕人群高齡化趨勢日益突出!建設生育友好型社會,婦產科專家這樣說……

旅游要聞

春假遇“五一” 心動在濟寧|楷木生處見“楷! 五一孔林訪圣跡

無障礙瀏覽 進入關懷版