![]()
編輯|panda、+0
2026 年初,國內具身智能賽道掀起了一波開源潮,越來越多團隊開始公開自己的視覺-語言-動作(VLA)模型、數據集與訓練框架。與此同時,行業競爭也逐漸集中到 benchmark 成績、任務成功率以及跨任務泛化能力上,尤其是在標準化或已訓練任務中的表現。
這股競賽背后藏著一個行業里心照不宣的困境。大多數 VLA 模型的評測,都是在針對特定任務微調之后才進行的。說白了,就是先技術細節,而是關乎整條技術路線的根本問題:我們是在訓練「通用機器人大腦」,還是在為每臺機器人定制一套任務腳本?
就在這場關于泛化能力的追問中,自變量機器人(X Square Robot)選擇了一種更直接的回答方式:直接把沒有經過任何任務微調的預訓練模型搬上真實機器人,在 17 個任務上公開測試。這個模型叫Wall-OSS-0.5
![]()
- 項目鏈接:https://x2robot.com/oss#resources
- 論文地址:https://x2robot.com/api/files/file/wall_oss_05.pdf
- 代碼倉庫:https://github.com/X-Square-Robot/wall-x
- 模型權重:WALL-OSS-FLOW / WALL-OSS-FAST(Hugging Face)
要理解這項研究成果的意義,需要先知道機器人策略模型是怎么被訓練出來的。
一個典型的 VLA 模型會先吸收大量的視覺和語言數據,形成對世界的基礎認知,就像一個剛從大學畢業、學過很多理論的新人。但要讓它真正上手操作,還需要針對具體崗位進行「在職培訓」:給它看幾百條這個任務的示范軌跡,讓它學會「怎么擰螺絲」或者「怎么折疊毛巾」。
問題在于,這種「考前培訓」模式讓人很難判斷:是大學課程(預訓練)起了作用,還是培訓班(微調)解決了問題?過去的多數論文都是在微調之后才匯報成績,讓預訓練階段的真實貢獻始終藏在迷霧里。
Wall-OSS-0.5 提出的問題是:如果不允許微調,預訓練的模型能干什么?
答案出乎意料地樂觀。
預訓練即可部署
Wall-OSS-0.5 是一個 VLA 模型,在超過 20 種機器人形態、每輪超過 100 萬條軌跡的數據上完成預訓練,同時混入了約 9000 萬條多模態語料。
![]()
Wall-OSS-0.5 能力概覽:涵蓋預訓練真實機器人行為、下游適配、仿真遷移及具身多模態理解。
自變量團隊隨后把這個完全沒有任務特定微調的預訓練 checkpoint,直接放到真實機器人上跑了 17 個任務,涵蓋語義理解、剛性物體操作、柔性物體操作、精細操作和長程多步操作五大類別。
結果非常亮眼!400k 預訓練步數的 checkpoint 在 17 個零樣本任務中,4 個任務的得分超過 80 分(滿分 100 分):
![]()
400k 預訓練 checkpoint 達到了及格分數的任務(零樣本)。
- 積木分揀(Block Sorting):100 分(已見任務)
- 水果分揀(Fruit Sorting):96 分(已見任務)
- 套環疊放(Ring Stacking):86 分(已見任務)
- 繩子收緊(Rope Tightening):82 分(未見任務,柔性操作)
![]()
視頻鏈接:https://mp.weixin.qq.com/s/N8WlG3OydsmcV_o9lIvaxw
需要特別注意的是「繩子收緊」這個任務。它是一個完全沒有在預訓練集中出現過的柔性物體任務,屬于 17 個任務中最難的類型之一——不僅需要雙臂協調,還要感知繩子的松緊狀態并動態調整力度。
能以 82 分的成績完成,是這次實驗最有說服力的數據點之一:模型不是「背過」這道題,而是真的遷移了某種可復用的操作能力。
從訓練進度來看,這些能力并非一開始就有。隨著預訓練步數增加(從 50k 步到 400k 步),見過的任務平均得分從 26.1 升至 50.0,沒見過的任務平均得分從 24.2 升至 53.6——兩條曲線幾乎并排上升。這意味著模型積累的能力確實在向新任務遷移,而不只是記住了訓練分布里的任務樣板。
![]()
不同的預訓練 checkpoint 的零樣本評估趨勢。
論文稱這種現象為能力的階梯式涌現(staircase emergence):積木分揀從大約 50 分跳躍到 100 分,套環疊放從 73 分跳躍到 100 分,都發生在訓練中后期的某個臨界點。這像極了大語言模型中觀察到的涌現現象。更重要的是,到 400k 步時,整體平均任務進度還在上升,尚未飽和,這意味著更長的預訓練有望能帶來更多提升。我們也期待進一步的研究為我們揭示具身智能預訓練的 Scaling Law。
當然,零樣本并非萬能。毛巾折疊(10 分)、餐桌擺設(9 分)、充電器插接(9 分)這三個任務幾乎無法完成,它們涉及柔性形變和精細對準,是對精度要求最高的類別,單靠預訓練還遠遠不夠。
![]()
不同預訓練步數的 checkpoint 在不同已見和未見任務上的零樣本表現。
這些任務清晰地描繪出當前能力邊界:一旦任務的「語義理解」成分占主導,預訓練就能發揮;一旦涉及精度等更多要求,就需要微調來補足。
不僅學得快,還越動越聰明?
如果說零樣本測試證明了 Wall-OSS-0.5 擁有「物理直覺」,那么在需要針對特定任務進行微調的場景下,它則展現出了作為基座模型的「先驗優勢」。
微調階段的大幅領先
在包含 15 項真實機器人任務的微調評估中,Wall-OSS-0.5 展現了極高的學習效率與上限。對比行業標桿 π0.5,在同樣的微調數據預算下,Wall-OSS-0.5 的平均任務進度達到了 60.5,不僅領先前者 17.5 分,更是在涵蓋抽屜整理、碗中放勺等 10 項核心操作任務的子集上,將領先優勢擴大到了 26 個百分點。
![]()
這種優勢在主流仿真基準測試中同樣表現穩健:
- 高難度操作:在 RoboCasa 廚房模擬環境的精密插入(Insertion)任務中,Wall-OSS-0.5 的成功率達到了 39.6%,而 π0.5 僅為 4.0%,在強約束任務的處理上實現了近乎一個數量級的提升。
![]()
在 RoboCasa 廚房操控任務中的分項對比。Wall-OSS-0.5 在 articulated(關節)及 insertion(插入)等精細操控任務中優勢極為明顯。
- 適配效率:在 LIBERO 單臂操控基準上,Wall-OSS-0.5 僅需 20k 步微調即達到 97.5% 的平均成功率,不僅成績超越了 π0.5 經過 30k 步訓練的成績,更直接節省了約三分之一的算力與適配時間。
![]()
- 場景魯棒性:在包含 50 個雙臂協作任務的 RoboTwin 平臺中,面對充滿光照與背景干擾的隨機化場景,Wall-OSS-0.5 依然保持了 80.9% 的高成功率,展現出極強的域外泛化能力。
動作訓練還能倒逼感知能力進化
在以往的具身智能研發中,讓模型「肢體發達」(學會操作)往往伴隨著「頭腦簡單」(視覺-語言理解能力退化)的代價。但 Wall-OSS-0.5 在接受高強度的動作訓練后,其基礎圖文理解能力不僅沒有崩壞,反而迎來了對機器人至關重要的「能力重塑」。
測試顯示,該模型在具身視覺定位任務上的能力暴漲了 21.8 分,在 Placement reasoning(放置推理)任務中提升了 11.0 分。這標志著模型并沒有因為學習動作而變成一個只會輸出坐標的「盲目機器」,而是主動將自身龐大的通用視覺算力,傾斜到了「尋找目標、判斷方位、推理落點」這些操控任務最急需的感知能力上。
![]()
多模態感知能力的「能力重塑」。通過協同訓練,模型將通用視覺算力轉化為機器人更急需的具身感知能力,在 Grounding 和 Where2Place 等任務上表現出顯著的性能躍遷。
這種「魚與熊掌兼得」的特性,證明了其協同訓練方案不僅有效,而且在物理世界的感知與操作之間建立了一種良性的互補關系。
Wall-OSS-0.5 為什么這么強?
從結果來看,Wall-OSS-0.5 著實相當強,甚至可以說有點反常:一個從未見過這些任務的預訓練模型,零樣本就能完成柔性雙臂操作;微調后更是在多個任務上將 π0.5 甩開 30 個百分點以上。這種級別的領先,不像是某個超參數調得更好的結果,而更像是底層訓練邏輯上的系統性差異。
那么,它到底做對了什么?
答案其實隱藏在一個被很多人忽視的差異中:大語言模型輸出文本是「一截一截」的離散狀態,而機器人的物理動作必須是「絲滑連貫」的連續曲線。如果把動作直接以連續信號灌入主干,這股信號對習慣了文字接龍的 VLM 來說太微弱,根本無法撼動其底層認知。論文數據也印證了這一點:訓練穩定后,流匹配損失對主干的梯度貢獻僅剩約 5%。
換句話說,要想讓連續動作直接「教會」主干大腦,幾乎是徒勞的。自變量團隊的解法是:既然連續信號太弱,那就借道離散,把梯度強行送進去。以下四項設計,共同支撐起這套「用離散路徑傳梯度、用連續路徑做執行」的訓練框架。
梯度橋接:讓動作反向塑造主干大腦
當前主流的 VLA 訓練大多采取「分層隔離」策略:先用海量視覺-語言數據預訓練主干,再在其頂部掛一個動作專家單獨訓練。這種做法雖然安全,但代價是主干模型本身永遠學不會「動作」,它只是在為動作專家提供特征,并不真正理解物理世界的可操作結構。
Wall-OSS-0.5 的方法是:梯度橋接協同訓練。團隊將動作離散化為特殊的「字符 Token」,與文本 Token 拼接到同一條自回歸序列中,用大模型最原生、最強烈的交叉熵損失進行訓練。
這一支路就像在 VLM 大腦中架起了一座「梯度橋」,強迫主干在預訓練階段就把「看、說、動」統一在同一套表征空間里。同時,模型保留流匹配損失用于生成連續動作,并輔以多模態交叉熵損失作為錨點防止視覺語言能力退化。三路信號協同開火,消融實驗證明:一旦砍掉這座「橋」,真實機器人任務成功率會出現斷崖式下降。
![]()
梯度橋接效應驗證。實驗證明,將動作監督通過「梯度橋」直接引入主干,遠勝于簡單的分層隔離策略。
視覺對齊的動作 Tokenizer:傳遞語義,而非數字
梯度橋建好了,但跑在橋上的是什么貨?如果離散 Token 只是對動作做機械的數值壓縮,那傳進主干大腦的只是一串沒有物理意義的編號,主干學到的也只是統計學上的共現。業界廣泛使用的 FAST Tokenizer 就存在這個問題:它能還原動作,但并不知道這個動作「對應畫面里發生了什么」。
Wall-OSS-0.5 訓練了一個視覺對齊的殘差向量量化 Tokenizer。它在量化動作的同時,強制 Token 的表征與對應時刻的視覺特征對齊,并要求其預測下一幀的視覺變化。這樣一來,每一個動作 Token 都同時承載了「電機怎么轉」和「畫面怎么變」兩層信息。它和視覺、語言進入了同一個語義空間,主干網絡在預測下一個動作時,其實就是在腦海里進行高維度的時空推演。
![]()
視覺對齊動作 Tokenizer 的工作流。模型不僅壓縮動作,更強制動作表征與視覺特征對齊,賦予 Token 真正的「物理含義」。
動作空間監督:把好鋼用在刀刃上
主干懂了語義,但最終指揮機器人軀體干活的,還得靠連續分支輸出的軌跡。流匹配的標準做法是預測「速度」(噪聲到目標的瞬時方向)。然而,機器人的物理動作軌跡有一個特性:整體形狀(低頻結構)決定任務能否完成,而高頻細節幾乎不影響成敗。如果在速度空間里算損失,模型會像強迫癥一樣,把大量算力浪費在擬合無關的高頻抖動上。
自變量團隊直接修改了底層邏輯:把損失從「預測速度」改寫為「預測重建出來的最終動作」。這在數學上等價于對動作軌跡成型初期(高噪聲階段)進行了自動加權。這就好比讓畫師先集中精力把人體的骨架打準,再去描繪衣服的褶皺,讓模型在仿真中跑出了遠超前人的收斂速度和穩定性。
![]()
動作空間監督 vs 速度空間監督。通過將學習重心調整至軌跡結構的塑造,模型在訓練效率和成功率上均表現更優。
DMuon:掃除異構計算的系統工程路障
上述極其精妙的多源監督架構,帶來了一個工程層面的副作用:模型內部參數尺度與梯度強度高度異構:VLM 骨干來自大規模預訓練,動作頭則是從頭初始化,三路損失反傳的梯度量級系統性失配。
這是 Muon 優化器的用武之地:通過 Newton-Schulz 迭代對更新矩陣做正交化,能有效緩解這種異構困難。但原生的 Muon 單步開銷大得離譜。
為此,團隊實現了DMuon(分布式 Muon)。結合基于 LPT 的專屬所有權調度以及回收迭代冗余計算的 CuteDSL 內核,他們把引入 Muon 的整體開銷從 2x 降至 0.02x,縮減了約 100 倍。這種即插即用的系統級優化,讓這套龐雜的訓練配方在大規模集群上真正成為現實。
四項設計,各有側重,但指向同一個目標:讓主干網絡在預訓練階段就真正「經歷」過動作,而不只是「見過」動作數據。梯度橋確保動作監督能穿透進主干;語義 Tokenizer 確保穿透進去的是有物理意義的信號;動作空間監督確保連續執行路徑把好鋼用在刀刃上;DMuon 則確保這套精密配方在真實的大規模訓練中跑得起來。
開放,是通向通用機器人的唯一密碼
自變量機器人(X Square Robot)成立于 2023 年 12 月,是國內較早押注「端到端通用具身智能大模型」路線的創業公司之一。
在商業模型之外,自變量一直將開源作為推動行業進步的重要方式。此前發布的 WALL-OSS 系列模型已開放給開發者社區,配套提供訓練代碼與技術文檔,并通過「具亮計劃 2026」黑客松活動鼓勵開發者在真實機器人上復現與創新。
Wall-OSS-0.5 是這一系列的最新版本,在前代基礎上將評估標準推進到了「預訓練 checkpoint 直接上真機」的更高維度,并且模型權重、訓練配方、消融實驗與底層優化器實現一并公開。
當然,具身智能還有很長的路要走。毛巾折疊和充電器插接還在 10 分以下,長程任務仍依賴單幀視覺輸入……這些未解決的問題,論文里寫得很清楚,團隊也沒有回避。
整體而言,Wall-OSS-0.5 為具身智能研究提供了一套經過真機驗證、可以被復現和挑戰的基線,可以成為關注這個方向的研究者和開發者進一步探索開拓的起點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.