5月28日,自變量機器人開源了具身基礎模型Wall-OSS-0.5。該模型屬于VLA即視覺-語言-動作模型范疇,其核心特點是聲稱無需針對下游任務進行后訓練,預訓練完成后直接部署到真實機器人上即可完成多種操作任務。
目前業(yè)內(nèi)大多數(shù)VLA模型都遵循預訓練加后訓練的基本范式。所謂微調(diào),就是模型先在大規(guī)模通用數(shù)據(jù)上學習,再針對搬運、分揀等具體任務進行專項訓練。
這種做法雖然行之有效,但也讓一個問題變得模糊不清模型學到的通用能力,和死記硬背特定任務的程度之間,邊界在哪里。
自變量機器人這次的選擇是把那個“專項訓練”環(huán)節(jié)直接拿掉,看看預訓練模型單憑自身積累到底能做什么。
Wall-OSS-0.5在超過20種機器人形態(tài)、每輪超過100萬條軌跡的數(shù)據(jù)上完成預訓練,同時混入了約9000萬條多模態(tài)語料。
自變量團隊隨后將模型直接部署到真實機器人上,測試了涵蓋語義理解、剛性物體操作、柔性物體操作、精細化操作和長程多步操作等17個任務,不做任何針對性的任務微調(diào)。在4個任務中得分超過80分滿分100分,其中一個從未在預訓練中出現(xiàn)過的柔性物體任務繩子收緊得分為82分。
除了零樣本測試,團隊還對模型進行了微調(diào)實驗。據(jù)稱,Wall-OSS-0.5在同等數(shù)據(jù)預算下,與行業(yè)參考模型π0.5相比,平均任務進度領先17.5分。
這項嘗試在技術(shù)上展示了一個可行的方向,但也有幾個事實需要看清,首先,模型的零樣本能力目前只在有限的任務集上得到驗證,距離真實世界開放場景的泛化還有相當距離。
其次,17個測試任務中仍有相當部分表現(xiàn)不算理想,零樣本部署的實際可用門檻還遠未達到。此外,模型權(quán)重雖然開源,但預訓練數(shù)據(jù)集的完整性和透明度并未詳細披露,這對復現(xiàn)工作構(gòu)成了一定的障礙。
從公司背景來看,自變量機器人成立于2023年12月,核心團隊來自清華大學、北京大學等高校,創(chuàng)始人王潛本碩畢業(yè)于清華大學,CTO王昊曾在IDEA研究院領導封神榜大模型團隊。
2026年以來,公司先后完成A++輪10億元融資和B輪近20億元融資,投資方包括字節(jié)跳動、阿里、美團、小米、紅杉中國等,是目前國內(nèi)唯一一家同時獲得四家互聯(lián)網(wǎng)大廠投資的具身智能企業(yè)。
此前,公司已推出量子一號、量子二號兩款機器人本體,并逐步進入工業(yè)制造、物流、養(yǎng)老等領域,近期也與58到家合作將機器人送入家庭保潔場景。
再看同行的做法,目前國內(nèi)VLA路線至少分成幾個不同的技術(shù)取向。智元機器人更傾向于強調(diào)后訓練的價值,其提出的SOP系統(tǒng)是一種面向真實世界部署的在線后訓練方案,實驗數(shù)據(jù)顯示3小時在線后訓練帶來的能力提升約為30%,而單純增加80小時離線數(shù)據(jù)僅能帶來4%的提升。
智元還提出了ACoT-VLA框架,讓機器人在動作空間直接做推理,在基準測試中取得一定成績,但ACoT的推理速度瓶頸和早期版本在長程任務中的穩(wěn)定性問題也有待持續(xù)解決。
銀河通用機器人則深耕場景落地,發(fā)布了聚焦零售場景的端到端VLA大模型GroceryVLA,已經(jīng)在無人藥店等場景中實際部署。但問題同樣明顯,場景高度定制化的路線難以橫向復制,泛化邊界清晰,技術(shù)通用性受限。
此外,今年上半年地平線開源了全棧VLA基座模型HoloBrain-0,智源研究院也推出了世界模型+VLA框架VISTA,開源生態(tài)正在快速形成,但不同方案之間的兼容性、標準統(tǒng)一問題也成為新的行業(yè)難題。
從行業(yè)角度看,Wall-OSS-0.5這次開源的意義或許不在于預訓練加后訓練誰更重要,而是把具身智能領域中一個真實存在的問題擺上了臺面我們是否需要重新思考模型訓練路徑的分配比例。
自變量在這件事情上做出了一個不太常見的公開表態(tài),把未經(jīng)微調(diào)的模型直接拿出來測試,意味著團隊愿意接受零樣本泛化不夠完善的現(xiàn)實,而不是只公布微調(diào)后的成績。這種做法本身對行業(yè)透明度和技術(shù)比較是有價值的。
一個理性的判斷是,Wall-OSS-0.5的零樣本能力在部分簡單任務上達到可用水平,但距離復雜真實場景的大規(guī)模部署還有明顯距離。模型參數(shù)規(guī)模0.5B在VLA模型中屬于中小級別,相比OpenVLA的7B等主流開源模型仍有較大差距,這意味著其復雜場景下的語義理解和長程推理能力天然受限。
自變量團隊的技術(shù)報告中明確提及,消融實驗顯示去掉Gradient-bridge監(jiān)督支路后真機任務成功率會出現(xiàn)兩位數(shù)百分點的下降,這恰恰說明該方案對特定訓練配方的敏感性,而非架構(gòu)的通用性勝利。
對于自動化程度要求較高的工業(yè)場景,零樣本部署的可能性仍然有限。具身智能的競爭才剛剛開始,任何一種技術(shù)方案的真實驗證,最終還是要看真實世界中的落地效果。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.