上周末,人形機器人在馬拉松上的出色表現,讓外界感嘆一年時間具身智能的高速進化。但對于大眾來說,除了跳舞、打拳和跑步,何時能夠走進家庭,才是最為關心的事情。
“我們和跑馬拉松的機器人,是兩個完全不同的賽道”,自變量CEO王潛指出,“他們更偏硬件,但其實中國硬件供應鏈沒有長期壁壘。我們做的是‘基礎模型+軟硬一體’全鏈路,更像大模型邏輯,只是多了硬件載體。”
就在前幾日,自變量宣布完成了由小米戰投領投的B輪融資。至此,其也成為國內唯一一家同時拿到字節、美團、阿里以及小米四家大廠投資的具身智能公司。根據公開信息顯示,自成立以來,自變量在不到三年的時間里,已經完成了13輪融資。
![]()
在王潛看來,對比當年的移動互聯網、自動駕駛這種級別的歷史性機會,這個賽道還沒有達到它應有的熱度,甚至是偏冷的。而在宣布完成B輪融資的同時,在商業化路徑上,自變量也給出了一個新的路徑,一個月后的機器人,將搭載新一代自研具身智能基礎模型WALL-B,入駐真實家庭。
“實驗室里的東西,必須和真實世界碰撞。先把技術做到‘Aha Moment’,再談大模型變現,邏輯沒變。WALL-B還是一個處在嬰兒時期的實習生,我們在做的事情很簡單,核心是為了讓一個硅基智能體學會在你的家里生活。”
硬件到位,大腦沒有跟上
具身智能的商業化元年,如果說過去大家還能憑借著PPT去講故事融資,那么今年則將成為分水嶺,不僅要去說服投資人,更要去說服市場,去進行商業化落地。
場景,作為嫁接技術與產業的核心樞紐,正成為推動具身智能落地的關鍵突破口。從當前的應用來看,多數具身智能機器人仍在跳舞、打拳這些有些審美疲勞的場景施展,更多的驚喜也僅限于能夠做出更酷炫的動作,或者是跑得更快。
“看起來很酷,視覺沖擊力強,但它其實不知道自己在做什么。”王潛直指當前頻上熱搜的人形機器人的痛點,“本質上它們其實都是命令行機器人,絕大部分是有背后遙控操作的。這很正常,并且它也是機器人發展必須經歷的過程。”
至于在工業場景中,看似規模化的應用,背后也并沒有真正發揮出具身智能應有的價值。在王潛看來,真正的智能機器人難點不在于單一動作的重復,而在于能不能在隨機環境下做出新的、沒有被訓練過的動作,家庭場景才是具身智能真正的“考場”。
“機器人在工廠和在家里完全是兩件事,這是兩個極端場景。工廠里一個動作重復一萬次,每次都一樣。家庭里一萬個動作,可能每個做一次,每次都不一樣。目前全球沒有任何一臺機器人可以在無遙控操作的情況下獨立完成隨機、碎片、不斷變化場景中的綜合整理任務。”
![]()
當下,機器人的硬件已經到位,雙足、靈巧手、力控關節都很好,核心的問題就在于大腦沒有跟上。對于復雜多變的家庭場景來說,對機器人不是單一能力的考驗,而是必須要像人一樣去理解真實的世界。
值得注意的是,在對自身的定義上,王潛一直在強調一件事,那就是區別于跑馬和跳舞的機器人,自變量與做語言模型的公司距離更近。從成立的第一天開始,就在做一件事,即端到端的具身智能基礎模型,就是給機器人造一個真正的大腦,并且能夠直接控制動作。
“我們做的本質是技術模型,它是一個系統性壁壘,不只在單一維度。例如OpenAI當年領先Google約兩年,我認為在機器人領域這個時間窗口會更長,可能超過三年。”
用世界統一模型,從0訓練一個原生大腦
物理世界模型的挑戰是獨特的,不僅需要處理動態視覺、2D到3D的推理,還要應對物理交互中的復雜隨機性,這些在數字世界模型中從未遇到過。在2024年年底,自變量曾發布了基于 VLA(視覺-語言-動作)架構的第一代具身基礎模型 WALL-A,25年9月,將同樣思路架構下的輕量化模型版本WALL-OSS開源。
但是,在實際家庭場景的應用中,自變量發現了原有架構的限制,數據在視覺、語言、動作這三個模塊之間逐級傳遞,每經過一次模塊邊界就會發生信息損耗和延遲。“更根本的問題在于,VLA模型只能模仿訓練數據中的軌跡,無法真正理解物理世界的規律。它不理解杯子為什么會掉,不理解為什么盤子懸在桌邊需要推回去。它只是在重復見過的東西。”自變量CTO王昊說道。
而對于當前業界的主流路線,王潛認為都有問題,稱它們并非為物理交互任務而生,本質上還是在貼標簽。在全新的認知體系下,自變量在日前推出了自研具身智能基礎模型WALL-B,既不是傳統意義的世界模型,也是VLA,而是被稱之為世界統一模型架構(World Unified Model,WUM) 的具身智能基礎模型。
為了方便理解,王昊將WUM類比于Apple Silicon的統一內存架構,蘋果通過統一內存架構讓所有處理單元共享同一塊內存,WUM則將視覺、語言、動作、物理預測等所有能力,放在同一個網絡中從零開始聯合訓練,消除模塊間的邊界和數據搬運損耗。
王昊指出,基于這一架構,WALL-B實現了三項區別于行業現有模型的核心技術特征:第一,原生多模態,模型具備“原生本體感”的能力;
第二,物理世界的“世界觀”。 WALL-B能夠感知并預測重力、慣性、摩擦力、速度等基本物理規律,在任何一個它從未去過的家庭中,都能利用對基本物理常識的理解來應對新場景,不需要針對每個家庭重新訓練;
第三,與世界交互并自我進化。它在失敗后會調整策略再次嘗試,如果成功,則將這次成功的經驗直接更新到模型參數中。這種機制使模型在真實環境中完成自我迭代,無需工程師重新訓練、無需人工注入新數據、無需返回實驗室。
“想要跨越這個感知理解的鴻溝,必須學會像人一樣去理解這個世界。我們必須做原生模型,從頭訓練,以捕捉物理世界的復雜規律。繼承已有模型,會在語義理解、物理規律理解上存在問題。”
入駐真實家庭,“Aha Moment”很快到來
物理世界的基礎模型,必須從頭原生訓練,這是自變量想要傳遞出的信息。與此同時,王潛認為,行業發展速度遠超大眾直覺,真正的“Aha Moment”就在近兩年,會比大家想象的更近。在發布了全新的模型后,自變量的商業化落地時間表也已經明確,5月,新一代搭載WALL-B的機器人將入駐真實家庭。
![]()
關于家庭場景的特殊性,上文已經提及,相關數據也指出,家務是巨大的未被滿足的市場,大概占整體GDP的20%,是巨大的隱性經濟。只是,不同于多數廠商的商業邏輯,自變量選擇在實際場景中去提升能力,而非先在實驗室訓練完善后再推向市場。對此,王潛則表示,技術依舊是第一性,現階段商業化也是為技術突破服務。
在自變量的判斷下,數據是這個行業最大的秘密。目前,行業內大多數訓練模型的數據來自實驗室,這類“糖水數據”干凈、可控、量大,但與真實世界差距顯著。王昊指出,用這類數據訓練出的模型,在真實環境中會迅速失效。真實家庭環境中采集的嘈雜、多變、充滿隨機性的“牛奶數據”,是自變量選擇的數據道路。
“家庭是最高質量、最開放的數據場景,不進家庭,就不知道物理限制和模型漏洞。實驗室里的東西,必須和真實世界碰撞,商業化是最高效的路徑,希望在2-3年內,實現物理世界的‘Aha moment’。”
以實驗數據打底,真實場景提質,這是自變量在未來要做的事情。當然,從理論上來看,自變量機器人可以處理家庭中的各項任務,但作為“實習生”,現階段必然是不完美的,卡殼、執行錯誤以及效率等都是會遇到的問題以及挑戰,必要時還是需要人進行遠程兜底監管,以保證安全。
不怕任務失敗,也不怕當前的效率低,更重要的是是否能通過每一次的經驗數據去變得更聰明。大眾可以容忍機器人一開始的踉踉蹌蹌,但不會永遠一個實習生持續性犯錯誤,這是自變量接下來需要給市場交出的答卷。(文 | 志讀科技,作者 | 杜志強,編輯 | 楊林)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.