網易首頁 > 網易號 > 正文 申請入駐

自變量WALL-B :以世界統一模型架構,解鎖進入家庭能力

0
分享至



作者:呂鑫燚

出品:具身研習社

鮮少有人意識到,具身智能不是在模仿人,而是對人類行為的精準解構和復現。

更具體一點來說,人形機器人從來不是在逐幀模仿人類的動作軌跡,更不是靠海量示教、視頻投喂訓練出來的 “動作復刻機器”。它真正要完成的核心命題,是拆解人類完成一個行為背后的完整決策閉環。就像你不會專門去訓練把桌子邊緣的盤子往里推推這個動作,但這件事情則是機器人融入生活中一定會遇到的問題。

從環境的多模態感知、任務的意圖判斷、全局的動作規劃,到末端的微調、實時的誤差修正、突發狀況的應急應對,把人類憑借本能和經驗就能下意識完成的動作,拆解成可被算法理解、可被硬件執行、可在不同場景中自由遷移的邏輯單元。

而我們所說的復現,從來不是在固定場景、固定條件下完成一次嚴絲合縫的動作復刻,而是讓機器人擁有和人類同源的 “行為通用能力”。就像人類學會了 “端取” 這個動作,就能端紙杯、玻璃杯、易碎的陶瓷碗,能在平穩的桌面端、在顛簸的移動場景中端,能給自己喂水、也能精準地給他人遞物。具身智能要實現的,正是這種基于底層行為邏輯的、跨場景的能力遷移,而不是永遠困在預設指令里的 “提線木偶”。

因此,具身智能不應陷在模仿人類的陷阱,而是找到屬于自身的“Born this way”

自變量機器人前不久發布的新模型WALL-B正是對這一困局的精準解剖。



WALL-B是全球首個基于世界統一模型架構(WorldUnifiedModel,WUM)的具身智能基礎模型,是一次從底層架構到訓練范式的全面重寫,標志著具身基礎模型從VLA架構向原生多模態融合架構的重大跨越。通俗而言,這意味著機器人從 “基因層面” 就具備了理解物理世界、解讀行為意圖的能力,能夠由內而外地構建起與真實世界相匹配的認知邏輯,而非停留在 “照貓畫虎” 式的表面模仿,只知其然不知其所以然。

只有機器人基因里就更貼合人類的行為模式與認知邏輯,具身智能才能真正無縫融入人類社會。

而這一愿景的實現,既非遙不可及的未來,也不是孤立的技術驗證:它將在 30 多天后成為現實。



我們習以為常的「下意識」動作,是人類智能最精妙的體現。不妨用「做一碗番茄炒蛋」這個最普通的家務來拆解問題。

一個普通人做飯時,是多感官全開的狀態:眼睛要分辨番茄的成熟度、雞蛋的新鮮度,還要留意灶臺的火候;手要感受菜刀的重量、番茄的軟硬,顛勺時能精準感知鍋里食材的分量;耳朵要聽油燒熱的聲音,判斷什么時候下雞蛋最合適;甚至皮膚能感覺到窗外吹進來的風,順手把快要被吹到鍋里的廚房紙挪開。整個過程行云流水,所有信息是同步輸入、同步處理、同步輸出的。

我們從來不會把一個完整的動作拆成「識別物體→理解目標→生成軌跡」三個孤立的步驟,而是讓視覺、觸覺、聽覺、本體感在大腦中瞬間融合,形成對當下場景的整體判斷,然后自然而然地做出反應。

但長期以來,機器人恰恰缺少這種「下意識」。

基于 VLA(視覺 - 語言 - 動作)架構的機器人,做這件事就像三個互不認識的人在接力:視覺模塊先識別出「這是番茄」「這是菜刀」,把結果傳給語言模塊;語言模塊理解「把番茄切成塊」的指令,再翻譯成動作語言傳給動作模塊;動作模塊最后生成一條預設的切菜軌跡。

數據在這三個模塊之間每傳遞一次,就會發生一次信息損耗,這就是為什么我們總看到機器人切菜要么太輕切不動,要么太重把菜剁爛。它根本沒有「看到」完整的世界,只是在執行一串翻譯過來的命令。

自變量機器人剛剛發布的世界統一模型 WALL-B,第一次真正試圖解決這個問題。它沒有在 VLA 架構上修修補補,而是從底層重構了機器人的「大腦」,采用了全球首個世界統一模型架構。



這個思路其實很像蘋果當年推出 M1 芯片時的革命。在 M1 之前,電腦的 CPU、GPU、內存各自獨立,數據需要在不同部件之間來回搬運,產生大量延遲和損耗;而統一內存架構讓所有處理單元共享同一塊內存,數據不需要再搬家,性能直接躍升了一個量級。

在機器人領域,VLA 架構就像是 M1 之前的電腦,視覺、語言、動作三個模塊各自為政,就像三個只會說自己方言的人,需要層層翻譯才能溝通。而 WUM 架構的核心理念,就是把視覺、語言、動作、物理預測等所有能力整合,徹底消除模塊之間的邊界和數據搬運的損耗。

這意味著WALL-B 第一次實現了真正的「多模態進、多模態出」。它不再是「先看、再想、再動」,而是整個動作執行過程沒有任何延遲,就像人類的「下意識」一樣自然。



WALL-B 因此擁有了「原生本體感」。它不需要盯著自己的手臂,也不需要依賴外部傳感器,就能內在地知道自己的身高、臂展,知道自己能不能夠到書架頂層的書,能不能穿過廚房的窄門。這種內生的空間感知能力,是之前所有機器人都不具備的。

更重要的是,WALL-B 和所有之前的機器人最大的不同,在于它理解這個世界運行的基本規律。它知道重力會讓懸空的物體掉下來,知道摩擦力會讓推出去的箱子慢慢停下,知道慣性會讓裝滿水的杯子在移動時灑出來。當它看到一個盤子一半露在桌沿外,不需要見過一模一樣的場景,就能預測到「這個盤子會掉下來摔碎」,然后主動伸手把它推回去。

這種對物理規律的理解,才是機器人能在真實家庭中生存的關鍵。家庭環境是世界上最隨機、最碎片化的場景:今天孩子把玩具扔在沙發上,明天貓把水杯打翻在地毯上,后天你買了一個新形狀的碗。你不可能把所有可能的情況都放進訓練數據里,但物理規律是永遠不變的。

WALL-B 正是抓住了這一點。它不需要針對每個家庭重新訓練,只要掌握了基本的物理常識,就能在任何一個從未去過的家庭里應對新場景。就像一個第一次去朋友家做客的人,不需要別人教,也知道不能把熱水杯放在木質茶幾上,知道開門時要注意后面有沒有人。



更符合人類行為本質的是 WUM 架構不會害怕失敗,目前主流機器人在任務失敗后通常直接停止,而WALL-B 的行為模式則完全不同:它在失敗后會調整策略再次嘗試。成功后會將經驗直接更新到模型參數中。它會從錯誤中學習,會在和世界的交互中自我進化。

人類的「下意識」,是幾百萬年進化刻在基因里的本能。而機器人的「下意識」,才剛剛邁出第一步,當機器人走上發布會舞臺上,撿起王潛隨意丟落的紙團,或許正是具身智能真正走進我們生活的開始。



所有醫生在剛上崗的時候,都會面臨一個轉折點:知識是從課本里學的,但人不會照著教科書生病。

這個現象和機器人進入真實世界如出一轍。在絕對完美的實驗室環境里用標準化數據喂養,永遠訓練不出一個能解決實際問題的機器人。

自變量把這種數據形象地稱為 "糖水數據"干凈、可控、量大,就像糖水一樣甜,但除了甜沒有太高營養價值。用這類數據訓練出的模型,能精準完成實驗室里預設的每一個動作,卻無法應對真實家庭中隨時變化的自然光、隨意擺放的物品、孩子和寵物的隨機動作。

與之相對的是 "牛奶數據"。真實家庭環境中采集的嘈雜、多變、充滿隨機性的數據。這種數據采集成本高、獲取難度大,但卻是真正能讓機器人 "長身體、更聰明" 的營養來源。

自變量機器人選擇了這條看似最難的道路,團隊進入了數百個真實家庭進行模型訓練。有的家庭地面散落著拖鞋、快遞箱、玩具和襪子;有的家庭中貓會突然跳上桌子;有的家庭廚房燈光偏暖色而客廳偏冷色。

這涉及到的是不規則光照變化、無規律的人類運動軌跡、各式各樣的動線和操作物體,在這種高度不可控的環境中訓練、學習,是模型必須學會應對的真實條件。畢竟,實驗室中無法模擬無規律的變量,但這就是我們家庭環境中的日常,因此牛奶數據對于訓練模型而言,是真正訓練出具備零樣本泛化能力的具身智能基礎模型必然要走的路徑。

但這還不足以還原WALL-B的完整圖景,其數據策略為“實驗室數據打底、真實環境數據提質”。其中,實驗室數據用于建立基本能力,類似于人類的「通識教育」識別常見物體、執行基礎動作。真實家庭數據則讓模型學會在不確定環境中生存,在高動態環境中一次又一次完成沒有劇本的任務。

更為重要的是,自變量 CTO 王昊在群訪中進一步提到,WALL-B在做推理或者是執行任務的同時一直在做數據的回流,所以并不會有所謂迭代周期的概念,它是實現在線式的學習。



當機器人在真實家庭中完成每一次任務、應對每一個突發狀況時,都會產生新的高質量數據反哺模型,形成一個由真實隨機、不可預測的現實數據所驅動的正向飛輪。這個飛輪一旦轉動起來,就會成為難以復制的核心壁壘,隨著時間的推移復制窗口期也會逐步擴大。

這種迭代方式也正是具身企業長久競爭力的關鍵。



一個家庭成員的誕生,這是自變量機器人這場發布會的主題,也是一個極易被行業忽略的本質定義 ,機器人在家庭場景中首先是「成員」,而非「保姆」。

我們當然有理由期待,未來的家庭機器人能媲美甚至超越一個優秀的保姆。

但回歸客觀現實,當下所有走進家庭的機器人,本質上都只是一個 “新來的成員”。



它會像每一個初入陌生家庭的人一樣,需要一點點摸清家里的動線,記住每個人的作息習慣,慢慢讀懂你的情緒與偏好。它會犯錯,會手忙腳亂,會做出讓人哭笑不得的舉動,但也會在一次次與家人的磨合中持續進化,越來越懂這個家。

這正是自變量科技堅持的進家庭初心。王潛在發布會上直言,自變量從創立之初就沒想過要打造一個 “無所不能的完美保姆”,而是要做一個能真正扎根家庭、與家人共同成長的 “新成員”。

5 月 25 日,自變量機器人將開啟進入家庭的腳步,從擺鞋子、疊衣服到覆蓋家庭里那些零散卻耗時的長尾需求。但自變量機器人也在現場坦誠表示,這并不意味著機器人能實現百分之百的全自主運行,會有人工為安全和體驗兜底。

很多人會問,既然還不完美,為什么要急著走進家庭?答案藏在具身智能的迭代邏輯里。不應該為機器人預設 “要做多少次才能學會某件事” 的條條框框,最好的方式就是讓它直接去做、去嘗試,在真實的人機交互中收集數據、修正不足。

如果因為恐懼 “不行” 就按下前進的暫停鍵,機器人永遠只能停留在實驗室的預設場景里,永遠無法真正理解復雜多變的真實家庭生活。

從產業演進的視角看,這一步的意義遠不止于一款產品的落地。它標志著通用機器人終于走出了實驗室的 “溫室”,開始直面最開放、最復雜的家庭場景。這是具身智能發展史上的一個巨大轉折,當機器人開始在千萬個真實家庭中邊做邊學、持續迭代,那個屬于物理世界的 “Aha moment”,或許真的比我們想象中來得更快。

從 “工具” 到 “成員”,這是改寫人與機器的關系瞬間,也重新定義了未來家庭的形態。這條路注定漫長,但每一步堅定的邁進,都在為這個時代寫下新的注腳。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
SSD價格再漲10%!2TB SSD價格已對標RTX 5080

SSD價格再漲10%!2TB SSD價格已對標RTX 5080

3DM游戲
2026-04-24 17:38:02
中國游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

中國游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

芳姐侃社會
2026-04-21 16:37:18
突發!又一金融機構董事長被查,上任不到一年!

突發!又一金融機構董事長被查,上任不到一年!

新浪財經
2026-04-24 00:06:59
中信銀行兩度出擊,向汕頭前首富追債80億

中信銀行兩度出擊,向汕頭前首富追債80億

湘財Plus
2026-04-24 13:55:50
全網唱衰的下嫁!嫁普通人5年,前任是法拉利總裁,終究還是輸了

全網唱衰的下嫁!嫁普通人5年,前任是法拉利總裁,終究還是輸了

橙星文娛
2026-04-18 16:42:58
趕緊給菲律賓送油送糧送化肥

趕緊給菲律賓送油送糧送化肥

安安說
2026-04-23 11:44:51
醫療反腐常態高壓之下,整個行業會走向何處?

醫療反腐常態高壓之下,整個行業會走向何處?

細說職場
2026-04-24 14:16:33
算命大師不敢給郭晶晶看相,說她破了相書定律。

算命大師不敢給郭晶晶看相,說她破了相書定律。

TVB的四小花
2026-04-24 16:53:39
拜合拉木談安東尼奧:沒有他選我進國青,可能我還在內蒙踢

拜合拉木談安東尼奧:沒有他選我進國青,可能我還在內蒙踢

懂球帝
2026-04-23 23:24:51
外媒:中國將076型兩棲攻擊艦部署至南海,重塑印太地區力量平衡

外媒:中國將076型兩棲攻擊艦部署至南海,重塑印太地區力量平衡

零度Military
2026-04-24 18:35:23
2009年孔東梅偶遇蔣孝嚴,面對祖墳被挖的半世紀世仇,毛蔣后人僅用四字破局震驚全場!

2009年孔東梅偶遇蔣孝嚴,面對祖墳被挖的半世紀世仇,毛蔣后人僅用四字破局震驚全場!

寄史言志
2026-04-23 22:43:11
胡錫進以安全代言沃爾沃,是整個社會的恥辱

胡錫進以安全代言沃爾沃,是整個社會的恥辱

黔有虎
2026-04-19 17:34:12
羅馬諾:若瓜帥離任,馬雷斯卡將成為曼城主帥首選接班人

羅馬諾:若瓜帥離任,馬雷斯卡將成為曼城主帥首選接班人

懂球帝
2026-04-24 19:08:07
吃相越來越難看,終于引起公憤了!

吃相越來越難看,終于引起公憤了!

胖胖說他不胖
2026-04-23 09:00:33
兒子早戀被叫家長!必須形象管理,畢竟第一次見親家,評論區炸鍋

兒子早戀被叫家長!必須形象管理,畢竟第一次見親家,評論區炸鍋

夜深愛雜談
2026-04-21 20:06:20
國際原油短線跳水 抹去之前漲幅

國際原油短線跳水 抹去之前漲幅

每日經濟新聞
2026-04-24 19:17:05
民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
不裝了?馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

不裝了?馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

大衛聊科技
2026-04-23 12:13:36
浙江漁民東海捕獲巨型龍躉:長1.8米、重215斤,兩個壯漢才抬動,估價約3萬,老漁民直呼“開眼”

浙江漁民東海捕獲巨型龍躉:長1.8米、重215斤,兩個壯漢才抬動,估價約3萬,老漁民直呼“開眼”

臺州交通廣播
2026-04-24 12:16:27
賴清德無法竄訪,盧秀燕表態后,日本也發聲了,非常不簡單

賴清德無法竄訪,盧秀燕表態后,日本也發聲了,非常不簡單

凡知
2026-04-24 17:17:02
2026-04-24 19:51:00
具身研習社
具身研習社
記錄具身智能浪潮迭代。
145文章數 1關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

參與英國研究的50萬名患者信息在中國售賣 外交部回應

頭條要聞

參與英國研究的50萬名患者信息在中國售賣 外交部回應

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

教育
健康
家居
公開課
軍事航空

教育要聞

最新!北京市第八屆講述育人故事活動正式啟動

干細胞如何讓燒燙傷皮膚"再生"?

家居要聞

自然肌理 溫潤美學

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進入關懷版