網易首頁 > 網易號 > 正文申請入駐

具身智能公司自變量發布了機器人模型 WALL-B，35 天后進入真實家庭

2026-04-21 18:35:13　來源: 愛范兒

廣東舉報

分享至

上周末在北京亦莊舉辦的機器人馬拉松比賽證明了一件事：跑得最快的人形機器人，速度已經可以把人類最頂尖的馬拉松選手甩在身后了。但這事兒之所以沒有引起太多的轟動，還是大家對機器人，或者具身智能行業有非常高的預期。

榮耀的人形機器人半馬只用 50 分鐘完成，宇樹的機器人能在春晚舞臺上完成人類極難完成的武術動作，這仿佛就是應該的事兒，并且，人們還有疑問，具身智能機器人別整這些活了，干點真正的活兒吧，比如把碗洗了，把衣服收了疊了，把地掃了......

但這些普通人能做的家務活，卻遠比跑馬拉松做武術動作難得多，也比進廠在流水線打工難得多。

機器人什么時候，才能真正幫人收拾家里那一地狼藉？4 月 21 日，自變量機器人舉行發布會，正式發布新一代具身智能基礎模型 WALL-B，并宣布 35 天后，搭載該模型的新一代機器人將進入首批真實家庭。

在這家公司看來，機器人行業真正的決賽場，不在舞臺，也不在實驗室，而在家庭。因為家庭環境遠比工廠復雜，也遠比公開演示更難預測：拖鞋可能被踢到沙發底下，孩子把書包扔在地上，貓隨時跳上餐桌，剛拖完的地面又被打翻一杯水。這些看似瑣碎的小事，恰恰是機器人至今最難解決的問題。

從 WALL-A 到 WALL-B，機器人模型為什么要重寫一遍？

發布會上，自變量創始人兼 CEO 王潛用一個普通清晨開場：「早上七點，鬧鐘響了。你走到客廳，拖鞋不見了，廚房碗沒洗，孩子書包扔在地上，貓又打翻了一杯水。」

這段描述背后的核心判斷是：家庭是一個隨機、碎片化、持續變化的環境。

而過去大量機器人能力展示，并不發生在這樣的場景里。舞臺上的后空翻、寫毛筆字、跳舞，多數依賴預設軌跡與固定動作流程；工廠里的工業機器人，則建立在高重復、低變量的標準化環境中。

但家庭恰好相反。每一次動作都可能不同，每一個障礙都可能臨時出現，每一秒都可能有新變量加入。

自變量認為，當前機器人行業的瓶頸，已經不再是硬件本體，而是「大腦」。雙足、靈巧手、力控關節都在快速成熟，但如何理解環境、判斷風險、處理意外、持續學習，仍然是機器人進入家庭前最大的門檻。

自變量此前已經推出過第一代具身模型 WALL-A，采用行業常見的 VLA（視覺-語言-動作）架構。

這類模型的基本邏輯是：

攝像頭看見東西（V，Vision）
模型理解語言指令（L，Language）
再生成動作軌跡執行任務（A，Action）

聽起來合理，但問題也很明顯：這些能力往往來自不同模塊，再拼接到一起。

自變量聯合創始人兼 CTO 王昊解釋稱：

視覺模塊負責識別物體，語言模塊理解指令，動作模塊生成軌跡。信息在模塊之間逐級傳遞，每經過一次邊界，就會出現損耗和延遲。

更關鍵的是，這類模型擅長模仿，卻不一定理解世界。機器人可以學會「拿杯子」，但未必知道杯子為什么會掉下來；它知道把盤子放桌上，卻未必知道半個盤子懸空意味著即將摔碎。

這也是 WALL-B 出現的原因。如果用更容易理解的話來說，它想做的事情是：讓機器人不再分模塊思考，而是像一個整體那樣感知和行動。官方用 Apple Silicon 的統一內存架構做類比。過去 CPU、GPU、內存彼此獨立，數據搬運本身就會拖慢效率；統一架構后，所有能力共享同一套資源，性能明顯提升。

機器人也是類似邏輯。

在 WUM 架構（世界統一模型架構）下，視覺、語言、動作、觸覺、物理預測等能力被放進同一個網絡里聯合訓練，不是拆開后再組合。這帶來一些重要變化，傳統機器人常常是「先識別，再行動」，WALL-B 的目標是同步完成感知與決策。

自變量稱，模型從訓練第一天起，就讓視覺、聽覺、語言、觸覺、動作數據同時參與訓練，實現「多模態輸入、多模態輸出」。簡單來說：它看到杯子的同時，就已經在計算如何抓取；感受到重量時，也會同步調整力度。

王昊表示，模型開始學習重力、慣性、摩擦力、速度等基本物理規律。例如桌邊有一個半懸空盤子，即便機器人從未見過這個具體場景，也能推斷盤子可能掉落，從而主動把它推回安全位置。這意味著機器人未來不必為每一個家庭重新訓練。因為房間布局不同，但物理規律是相同的。

過去很多機器人任務失敗后，只會停止執行，等待人工介入，WALL-B 的設想是：失敗后重新嘗試，成功后把經驗直接寫進模型。王昊將其比作人類學用筷子的過程：

筷子掉了無數次，但每一次失敗都在修正控制方式，最后才形成穩定技能。

如果這一機制真正跑通，機器人迭代速度將不再完全依賴實驗室訓練，而是來自真實世界持續反饋。

35 天后，機器人真的要住進用戶家里了

在訓練數據上，自變量提出了一個很形象的說法：實驗室數據像「糖水」，真實家庭數據像「牛奶」。前者干凈、穩定、量大，但營養有限；后者復雜、嘈雜，卻更接近真實世界。

王昊透露，為獲取這些數據，團隊進入了數百個志愿者家庭采集環境樣本，而且，每個家庭都不同：燈光冷暖不同，地面材質不同，玩具和拖鞋亂放，貓會突然跳上桌子，孩子會制造新的混亂......

這些變量在實驗室里很難完整模擬，卻是機器人進入家庭后每天都會面對的現實。

這也是具身智能行業正在形成的新共識：誰擁有真實場景數據，誰就更可能建立長期壁壘。比模型發布更具體的，是自變量給出的時間表。這家公司宣布，35 天后，新一代機器人將進入首批用戶家庭。這意味著，它不再只是演示機，也不是封閉測試設備，而是真正開始面向 C 端環境落地。

當然，自變量并沒有把這件事說得過于完美。王潛坦言，當前機器人仍處于「實習生階段」。它會犯錯，可能把拖鞋放進廚房，擦桌子擦到一半停下來思考，也仍然需要遠程協助。但另一方面，它可以 24 小時持續工作，并在每天運行中積累新經驗。這種「邊服務、邊成長」的邏輯，和今天的軟件產品迭代方式很像，只是這次載體變成了機器人。

過去幾年，機器人行業最擅長制造驚艷時刻。但真正改變生活的產品，往往不是最會表演的那個，而是最能解決瑣事的那個。

自變量這次發布 WALL-B，本質上是在回答一個更現實的問題：機器人能不能先把家務做好，再談未來。

35 天后，答案會開始進入第一批用戶的客廳。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.