![]()
來源:獵云網
當雙足機器人在舞臺上完成后空翻、在馬拉松賽道上完成長距離奔跑,大眾總會驚嘆于具身智能的飛速發展。
但回到真實的家庭場景,這些看似先進的機器人,卻連收拾散落的拖鞋、整理雜亂的客廳這些最基礎的家務都無法完成。正如自變量CEO王潛所言:硬件已經到位了——雙足、靈巧手、力控關節都很好。但大腦沒有跟上。
但這種痛點,即將迎來顛覆性變革。
4月21日,自變量機器人發布全球首個世界統一模型(WUM)架構下的具身基礎模型WALL-B,宣布35天后搭載該模型的新一代機器人將正式入駐真實家庭。
這場從VLA拼接架構到世界統一模型的底層革命,讓家務機器人真正走出實驗室,更標志著具身智能迎來了物理世界的ChatGPT式拐點。
硬件狂歡背后,家務機器人的三重壁壘
過去數年,中國具身智能行業迎來了爆發式的硬件迭代,雙足機器人的運動能力、靈巧手的操作精度都已達到世界領先水平。
但尷尬的現實是,這些在實驗室表現驚艷的機器人,始終無法真正走進普通家庭,其背后是三重無法突破的核心壁壘。
首先是賽道認知的錯位。行業內普遍將馬拉松機器人、舞蹈機器人作為技術標桿,卻忽略了這兩類產品與家庭機器人是完全不同的賽道。
王潛直言:“馬拉松機器人和我們是兩個完全不同的領域,跟做語言模型的公司距離可能還要更近一點,跟跑馬拉松的公司可能還要更遠一點。”
![]()
馬拉松機器人的核心挑戰是下肢平衡與硬件工程,本質是在恒定重力場下的固定運動模式優化;而家庭機器人的核心是上肢精細操作與通用智能,需要應對完全隨機、不可預測的開放場景——地毯的摩擦力、物體的非線性摩擦、寵物與孩子的隨機動作,哪怕0.1毫米的操作偏差都會導致任務失敗。
這種認知錯位讓行業陷入了硬件參數的無效內卷,卻始終沒有解決機器人大腦的核心問題。
其次是技術架構的天花板。
目前市面上幾乎所有的具身模型都采用視覺-語言-動作(VLA)的三段式拼接架構。視覺模塊識別物體,語言模塊理解指令,動作模塊生成軌跡。
王昊指出:“VLA架構本質上是三個獨立模塊的拼接,數據在這三個模塊之間逐級傳遞,每經過一次模塊邊界就會發生信息損耗和延遲。更致命的是,它不理解杯子為什么會掉,不理解為什么盤子懸在桌邊需要推回去。它只是在重復見過的東西。”
這種知其然,不知其所以然的缺陷,讓機器人在實驗室表現完美,一進入真實家庭就徹底失效。
最后一重壁壘是數據訓練的陷阱。
行業內絕大多數具身模型的訓練數據,都來自實驗室環境下的標準化采集:固定的光照、固定的物體位置、無干擾的環境,自變量將這類數據形象地稱為糖水數據——干凈、可控,卻與真實世界相去甚遠。
而家庭場景中的數據,是嘈雜、多變、充滿隨機性的牛奶數據:不同家庭的裝修布局、物品擺放千差萬別,散落的玩具、突然跳上桌面的寵物,這些變量在實驗室中無法完全模擬。
王昊強調:“用糖水數據訓練出的模型,在真實環境中會迅速失效,實驗室數據是糖水,真實家庭數據是牛奶。”
世界統一模型重構底層智能
面對這些行業固有難題,自變量機器人選擇了一條完全相反的路:徹底拋棄行業通用的 VLA 拼接架構,從零開始訓練原生的世界統一模型(WUM),為家務機器人打造了一個真正能理解物理世界的 “大腦”。
這場從底層架構開始的范式革命,不僅破解了行業長期無法突破的技術壁壘,更構建了家務機器人賽道真正不可復制的核心競爭壁壘。
世界統一模型的核心突破,是用一體化架構徹底解決了VLA的先天缺陷。
WUM架構的設計邏輯與蘋果M系列芯片的統一內存架構有異曲同工之妙:將所有能力放在同一個網絡中,從零開始聯合訓練、融為一體,徹底消除模塊間的邊界與數據搬運損耗。
王潛說道:“模型在看到杯子的同時,就已經在準備伸手的動作;在觸碰到物體的瞬間,就已經通過觸覺反饋調整了握持力度。這種原生多模態的融合能力,讓機器人第一次擁有了類似人類的同步感知與決策能力。”
更重要的是,WALL-B還首次具備了原生本體感——無需外部傳感器即可內知自身空間尺寸,王昊指出這一點甚至許多動物都不具備。
更具顛覆性的是,世界統一模型讓機器人真正擁有了物理世界觀。WALL-B在訓練過程中,將重力、慣性、摩擦力、速度等基本物理規律融入了模型底層。
王潛以手指摩擦為例:“輕搓的時候很聽話,緊一點的時候會一跳一跳——這是可變性物體加上非線性摩擦,出現高度隨機性。這在自動駕駛、馬拉松機器人里從未遇到過,但卻是上肢操作中最復雜最困難的事。”
正是這種對物理世界的內生理解,讓WALL-B在從未見過的家庭場景中也能實現零樣本泛化,無需針對每個家庭重新訓練。
與此同時,世界統一模型構建了數據-模型-迭代的閉環。自變量放棄了先采數據、再訓模型、最后部署的離線模式,開創了在線進化模式。
王昊類比:“就像人類學習用筷子——筷子掉了無數次,但每一次失敗都在調整控制,最終形成穩定技能。WALL-B在失敗后會調整策略再次嘗試,成功后將經驗直接更新到模型參數中。”
畢竟機器人沒法像語言大模型那樣通過蒸餾快速實現,這是二者當下最大的不同。
而這種全鏈路工程體系,讓自變量在家庭機器人賽道擁有了三年以上的技術領先窗口期。
機器人進入家庭拐點已至
自變量世界統一模型的發布與家庭落地計劃的啟動,從來都不只是一款新品的上市,而是具身智能行業從實驗室炫技走向真實場景落地的關鍵拐點。
首先,世界統一模型的落地將推動具身智能迎來物理世界的Aha時刻。
王潛明確表示:“我們希望在兩到三年的時間里實現真正意義上的物理世界Aha moment,就像當年ChatGPT所做的事一樣。5月25日機器人入駐真實家庭正是這個拐點的起點。”
王昊描述了家庭場景的真實需求:“人們在家里沒有特別高頻的需求,但有很多很多小需求——擺鞋、疊衣服、鏟貓砂、遛狗——合在一起就是大的需求。過去沒有機器人能干多件事情,現在我們要解決這些長尾任務。”
當機器人能在普通家庭中完成這些日常家務,具身智能就將徹底擺脫花瓶式炫技的標簽。
其次,這場底層模型革命將徹底重構家務機器人賽道的競爭邏輯。
硬件在中國從來都是沒有壁壘的,今天有圖紙,明天供應鏈全都被你整出來了。真正的壁壘是模型與數據的全鏈路閉環。
王潛舉例說:“谷歌擁有遠超OpenAI的資源,卻在兩年時間里都沒能完成追趕。在機器人領域,技術本身的壁壘能帶來三年以上的領先。”
更重要的是,自變量已經構建了從數據采集到模型迭代的完整閉環。王昊透露:我們2024年初就自建了數據工廠,到現在仍然是全國乃至全世界規模最大的工廠之一。這種全鏈路能力,讓自變量在大廠紛紛下場的競爭中保持了獨特優勢。
而且最大的作用是,家務機器人的規模化落地,將激活一個十萬億級的隱性市場。
王潛算了一筆賬,家務勞動占GDP的比重大概在20%左右。人類每天花1-2小時做家務,8小時工作,差不多1/4到1/5的比例。
在中國,4.02億職工每天都要花費大量時間處理家務,這些隱性的勞動付出構成了一個尚未被數字化改造的巨大市場。
自變量希望機器人真正造福大家,替代人去做自己不想做的事,而且比人做得更好。
自變量發布會主題“一個新的家庭成員的誕生”,就是希望它是一種新的生活方式:當通用家務機器人實現規模化普及,它將像當年的洗衣機、冰箱一樣成為家庭必備的終端產品,打開一個遠超家電、汽車的全新終端市場。
結語:
從舞臺上的精準表演到家庭里的柴米油鹽,具身智能的終極價值從來都不是完成高難度的炫技動作,而是融入普通人的日常生活,解決真實的生活痛點。
王潛說:“盡管進入家庭的機器人現在還很笨,走得很慢,經常犯錯。人類從嬰兒時期邁出的第一步也是如此。每一個偉大的旅程,都是從踉踉蹌蹌的第一步開始的。”
自變量世界統一模型的出現,不僅為家務機器人裝上了真正能理解世界的大腦,更推開了具身智能走進真實世界的大門。
回望技術發展史,每一次通用技術的拐點都始于一個看似微小的場景突破——ChatGPT用對話交互打開了數字世界通用智能的大門,而搭載世界統一模型的家務機器人,正在用家庭場景的落地,開啟物理世界通用智能的全新時代。
隨著機器人真正走進千家萬戶,這場始于底層模型的革命,終將改寫整個具身智能產業的未來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.