![]()
上周末在北京亦莊舉辦的機器人馬拉松比賽證明了一件事:跑得最快的人形機器人,速度已經可以把人類最頂尖的馬拉松選手甩在身后了。但這事兒之所以沒有引起太多的轟動,還是大家對機器人,或者具身智能行業有非常高的預期。
榮耀的人形機器人半馬只用 50 分鐘完成,宇樹的機器人能在春晚舞臺上完成人類極難完成的武術動作,這仿佛就是應該的事兒,并且,人們還有疑問,具身智能機器人別整這些活了,干點真正的活兒吧,比如把碗洗了,把衣服收了疊了,把地掃了......
但這些普通人能做的家務活,卻遠比跑馬拉松做武術動作難得多,也比進廠在流水線打工難得多。
機器人什么時候,才能真正幫人收拾家里那一地狼藉?4 月 21 日,自變量機器人舉行發布會,正式發布新一代具身智能基礎模型 WALL-B,并宣布 35 天后,搭載該模型的新一代機器人將進入首批真實家庭。
在這家公司看來,機器人行業真正的決賽場,不在舞臺,也不在實驗室,而在家庭。因為家庭環境遠比工廠復雜,也遠比公開演示更難預測:拖鞋可能被踢到沙發底下,孩子把書包扔在地上,貓隨時跳上餐桌,剛拖完的地面又被打翻一杯水。這些看似瑣碎的小事,恰恰是機器人至今最難解決的問題。
![]()
從 WALL-A 到 WALL-B,機器人模型為什么要重寫一遍?
發布會上,自變量創始人兼 CEO 王潛用一個普通清晨開場:「早上七點,鬧鐘響了。你走到客廳,拖鞋不見了,廚房碗沒洗,孩子書包扔在地上,貓又打翻了一杯水。」
這段描述背后的核心判斷是:家庭是一個隨機、碎片化、持續變化的環境。
而過去大量機器人能力展示,并不發生在這樣的場景里。舞臺上的后空翻、寫毛筆字、跳舞,多數依賴預設軌跡與固定動作流程;工廠里的工業機器人,則建立在高重復、低變量的標準化環境中。
但家庭恰好相反。每一次動作都可能不同,每一個障礙都可能臨時出現,每一秒都可能有新變量加入。
自變量認為,當前機器人行業的瓶頸,已經不再是硬件本體,而是「大腦」。雙足、靈巧手、力控關節都在快速成熟,但如何理解環境、判斷風險、處理意外、持續學習,仍然是機器人進入家庭前最大的門檻。
自變量此前已經推出過第一代具身模型 WALL-A,采用行業常見的 VLA(視覺-語言-動作)架構。
這類模型的基本邏輯是:
- 攝像頭看見東西(V,Vision)
- 模型理解語言指令(L,Language)
- 再生成動作軌跡執行任務(A,Action)
聽起來合理,但問題也很明顯:這些能力往往來自不同模塊,再拼接到一起。
自變量聯合創始人兼 CTO 王昊解釋稱:
視覺模塊負責識別物體,語言模塊理解指令,動作模塊生成軌跡。信息在模塊之間逐級傳遞,每經過一次邊界,就會出現損耗和延遲。
更關鍵的是,這類模型擅長模仿,卻不一定理解世界。機器人可以學會「拿杯子」,但未必知道杯子為什么會掉下來;它知道把盤子放桌上,卻未必知道半個盤子懸空意味著即將摔碎。
![]()
這也是 WALL-B 出現的原因。如果用更容易理解的話來說,它想做的事情是:讓機器人不再分模塊思考,而是像一個整體那樣感知和行動。官方用 Apple Silicon 的統一內存架構做類比。過去 CPU、GPU、內存彼此獨立,數據搬運本身就會拖慢效率;統一架構后,所有能力共享同一套資源,性能明顯提升。
機器人也是類似邏輯。
在 WUM 架構(世界統一模型架構)下,視覺、語言、動作、觸覺、物理預測等能力被放進同一個網絡里聯合訓練,不是拆開后再組合。這帶來一些重要變化,傳統機器人常常是「先識別,再行動」,WALL-B 的目標是同步完成感知與決策。
自變量稱,模型從訓練第一天起,就讓視覺、聽覺、語言、觸覺、動作數據同時參與訓練,實現「多模態輸入、多模態輸出」。簡單來說:它看到杯子的同時,就已經在計算如何抓取;感受到重量時,也會同步調整力度。
王昊表示,模型開始學習重力、慣性、摩擦力、速度等基本物理規律。例如桌邊有一個半懸空盤子,即便機器人從未見過這個具體場景,也能推斷盤子可能掉落,從而主動把它推回安全位置。這意味著機器人未來不必為每一個家庭重新訓練。因為房間布局不同,但物理規律是相同的。
過去很多機器人任務失敗后,只會停止執行,等待人工介入,WALL-B 的設想是:失敗后重新嘗試,成功后把經驗直接寫進模型。王昊將其比作人類學用筷子的過程:
筷子掉了無數次,但每一次失敗都在修正控制方式,最后才形成穩定技能。
如果這一機制真正跑通,機器人迭代速度將不再完全依賴實驗室訓練,而是來自真實世界持續反饋。
![]()
35 天后,機器人真的要住進用戶家里了
在訓練數據上,自變量提出了一個很形象的說法:實驗室數據像「糖水」,真實家庭數據像「牛奶」。前者干凈、穩定、量大,但營養有限;后者復雜、嘈雜,卻更接近真實世界。
王昊透露,為獲取這些數據,團隊進入了數百個志愿者家庭采集環境樣本,而且,每個家庭都不同:燈光冷暖不同,地面材質不同,玩具和拖鞋亂放,貓會突然跳上桌子,孩子會制造新的混亂......
這些變量在實驗室里很難完整模擬,卻是機器人進入家庭后每天都會面對的現實。
![]()
這也是具身智能行業正在形成的新共識:誰擁有真實場景數據,誰就更可能建立長期壁壘。比模型發布更具體的,是自變量給出的時間表。這家公司宣布,35 天后,新一代機器人將進入首批用戶家庭。這意味著,它不再只是演示機,也不是封閉測試設備,而是真正開始面向 C 端環境落地。
當然,自變量并沒有把這件事說得過于完美。王潛坦言,當前機器人仍處于「實習生階段」。它會犯錯,可能把拖鞋放進廚房,擦桌子擦到一半停下來思考,也仍然需要遠程協助。但另一方面,它可以 24 小時持續工作,并在每天運行中積累新經驗。這種「邊服務、邊成長」的邏輯,和今天的軟件產品迭代方式很像,只是這次載體變成了機器人。
過去幾年,機器人行業最擅長制造驚艷時刻。但真正改變生活的產品,往往不是最會表演的那個,而是最能解決瑣事的那個。
自變量這次發布 WALL-B,本質上是在回答一個更現實的問題:機器人能不能先把家務做好,再談未來。
35 天后,答案會開始進入第一批用戶的客廳。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.