網易首頁 > 網易號 > 正文申請入駐

剛剛，國產預訓練具身大模型開源了，讓后訓練不再是必選項！

2026-05-28 14:22:25　來源: 機器之心Pro

河北舉報

分享至

編輯｜panda、+0

2026 年初，國內具身智能賽道掀起了一波開源潮，越來越多團隊開始公開自己的視覺-語言-動作（VLA）模型、數據集與訓練框架。與此同時，行業競爭也逐漸集中到 benchmark 成績、任務成功率以及跨任務泛化能力上，尤其是在標準化或已訓練任務中的表現。

這股競賽背后藏著一個行業里心照不宣的困境。大多數 VLA 模型的評測，都是在針對特定任務微調之后才進行的。說白了，就是先技術細節，而是關乎整條技術路線的根本問題：我們是在訓練「通用機器人大腦」，還是在為每臺機器人定制一套任務腳本？

就在這場關于泛化能力的追問中，自變量機器人（X Square Robot）選擇了一種更直接的回答方式：直接把沒有經過任何任務微調的預訓練模型搬上真實機器人，在 17 個任務上公開測試。這個模型叫Wall-OSS-0.5

項目鏈接：https://x2robot.com/oss#resources
論文地址：https://x2robot.com/api/files/file/wall_oss_05.pdf
代碼倉庫：https://github.com/X-Square-Robot/wall-x
模型權重：WALL-OSS-FLOW / WALL-OSS-FAST（Hugging Face）

要理解這項研究成果的意義，需要先知道機器人策略模型是怎么被訓練出來的。

一個典型的 VLA 模型會先吸收大量的視覺和語言數據，形成對世界的基礎認知，就像一個剛從大學畢業、學過很多理論的新人。但要讓它真正上手操作，還需要針對具體崗位進行「在職培訓」：給它看幾百條這個任務的示范軌跡，讓它學會「怎么擰螺絲」或者「怎么折疊毛巾」。

問題在于，這種「考前培訓」模式讓人很難判斷：是大學課程（預訓練）起了作用，還是培訓班（微調）解決了問題？過去的多數論文都是在微調之后才匯報成績，讓預訓練階段的真實貢獻始終藏在迷霧里。

Wall-OSS-0.5 提出的問題是：如果不允許微調，預訓練的模型能干什么？

答案出乎意料地樂觀。

預訓練即可部署

Wall-OSS-0.5 是一個 VLA 模型，在超過 20 種機器人形態、每輪超過 100 萬條軌跡的數據上完成預訓練，同時混入了約 9000 萬條多模態語料。

Wall-OSS-0.5 能力概覽：涵蓋預訓練真實機器人行為、下游適配、仿真遷移及具身多模態理解。

自變量團隊隨后把這個完全沒有任務特定微調的預訓練 checkpoint，直接放到真實機器人上跑了 17 個任務，涵蓋語義理解、剛性物體操作、柔性物體操作、精細操作和長程多步操作五大類別。

結果非常亮眼！400k 預訓練步數的 checkpoint 在 17 個零樣本任務中，4 個任務的得分超過 80 分（滿分 100 分）：

400k 預訓練 checkpoint 達到了及格分數的任務（零樣本）。

積木分揀（Block Sorting）：100 分（已見任務）
水果分揀（Fruit Sorting）：96 分（已見任務）
套環疊放（Ring Stacking）：86 分（已見任務）
繩子收緊（Rope Tightening）：82 分（未見任務，柔性操作）

視頻鏈接：https://mp.weixin.qq.com/s/N8WlG3OydsmcV_o9lIvaxw

需要特別注意的是「繩子收緊」這個任務。它是一個完全沒有在預訓練集中出現過的柔性物體任務，屬于 17 個任務中最難的類型之一——不僅需要雙臂協調，還要感知繩子的松緊狀態并動態調整力度。

能以 82 分的成績完成，是這次實驗最有說服力的數據點之一：模型不是「背過」這道題，而是真的遷移了某種可復用的操作能力。

從訓練進度來看，這些能力并非一開始就有。隨著預訓練步數增加（從 50k 步到 400k 步），見過的任務平均得分從 26.1 升至 50.0，沒見過的任務平均得分從 24.2 升至 53.6——兩條曲線幾乎并排上升。這意味著模型積累的能力確實在向新任務遷移，而不只是記住了訓練分布里的任務樣板。

不同的預訓練 checkpoint 的零樣本評估趨勢。

論文稱這種現象為能力的階梯式涌現（staircase emergence）：積木分揀從大約 50 分跳躍到 100 分，套環疊放從 73 分跳躍到 100 分，都發生在訓練中后期的某個臨界點。這像極了大語言模型中觀察到的涌現現象。更重要的是，到 400k 步時，整體平均任務進度還在上升，尚未飽和，這意味著更長的預訓練有望能帶來更多提升。我們也期待進一步的研究為我們揭示具身智能預訓練的 Scaling Law。

當然，零樣本并非萬能。毛巾折疊（10 分）、餐桌擺設（9 分）、充電器插接（9 分）這三個任務幾乎無法完成，它們涉及柔性形變和精細對準，是對精度要求最高的類別，單靠預訓練還遠遠不夠。

不同預訓練步數的 checkpoint 在不同已見和未見任務上的零樣本表現。

這些任務清晰地描繪出當前能力邊界：一旦任務的「語義理解」成分占主導，預訓練就能發揮；一旦涉及精度等更多要求，就需要微調來補足。

不僅學得快，還越動越聰明？

如果說零樣本測試證明了 Wall-OSS-0.5 擁有「物理直覺」，那么在需要針對特定任務進行微調的場景下，它則展現出了作為基座模型的「先驗優勢」。

微調階段的大幅領先

在包含 15 項真實機器人任務的微調評估中，Wall-OSS-0.5 展現了極高的學習效率與上限。對比行業標桿 π0.5，在同樣的微調數據預算下，Wall-OSS-0.5 的平均任務進度達到了 60.5，不僅領先前者 17.5 分，更是在涵蓋抽屜整理、碗中放勺等 10 項核心操作任務的子集上，將領先優勢擴大到了 26 個百分點。

這種優勢在主流仿真基準測試中同樣表現穩健：

高難度操作：在 RoboCasa 廚房模擬環境的精密插入（Insertion）任務中，Wall-OSS-0.5 的成功率達到了 39.6%，而 π0.5 僅為 4.0%，在強約束任務的處理上實現了近乎一個數量級的提升。

在 RoboCasa 廚房操控任務中的分項對比。Wall-OSS-0.5 在 articulated（關節）及 insertion（插入）等精細操控任務中優勢極為明顯。

適配效率：在 LIBERO 單臂操控基準上，Wall-OSS-0.5 僅需 20k 步微調即達到 97.5% 的平均成功率，不僅成績超越了 π0.5 經過 30k 步訓練的成績，更直接節省了約三分之一的算力與適配時間。

場景魯棒性：在包含 50 個雙臂協作任務的 RoboTwin 平臺中，面對充滿光照與背景干擾的隨機化場景，Wall-OSS-0.5 依然保持了 80.9% 的高成功率，展現出極強的域外泛化能力。

動作訓練還能倒逼感知能力進化

在以往的具身智能研發中，讓模型「肢體發達」（學會操作）往往伴隨著「頭腦簡單」（視覺-語言理解能力退化）的代價。但 Wall-OSS-0.5 在接受高強度的動作訓練后，其基礎圖文理解能力不僅沒有崩壞，反而迎來了對機器人至關重要的「能力重塑」。

測試顯示，該模型在具身視覺定位任務上的能力暴漲了 21.8 分，在 Placement reasoning（放置推理）任務中提升了 11.0 分。這標志著模型并沒有因為學習動作而變成一個只會輸出坐標的「盲目機器」，而是主動將自身龐大的通用視覺算力，傾斜到了「尋找目標、判斷方位、推理落點」這些操控任務最急需的感知能力上。

多模態感知能力的「能力重塑」。通過協同訓練，模型將通用視覺算力轉化為機器人更急需的具身感知能力，在 Grounding 和 Where2Place 等任務上表現出顯著的性能躍遷。

這種「魚與熊掌兼得」的特性，證明了其協同訓練方案不僅有效，而且在物理世界的感知與操作之間建立了一種良性的互補關系。

Wall-OSS-0.5 為什么這么強？

從結果來看，Wall-OSS-0.5 著實相當強，甚至可以說有點反常：一個從未見過這些任務的預訓練模型，零樣本就能完成柔性雙臂操作；微調后更是在多個任務上將 π0.5 甩開 30 個百分點以上。這種級別的領先，不像是某個超參數調得更好的結果，而更像是底層訓練邏輯上的系統性差異。

那么，它到底做對了什么？

答案其實隱藏在一個被很多人忽視的差異中：大語言模型輸出文本是「一截一截」的離散狀態，而機器人的物理動作必須是「絲滑連貫」的連續曲線。如果把動作直接以連續信號灌入主干，這股信號對習慣了文字接龍的 VLM 來說太微弱，根本無法撼動其底層認知。論文數據也印證了這一點：訓練穩定后，流匹配損失對主干的梯度貢獻僅剩約 5%。

換句話說，要想讓連續動作直接「教會」主干大腦，幾乎是徒勞的。自變量團隊的解法是：既然連續信號太弱，那就借道離散，把梯度強行送進去。以下四項設計，共同支撐起這套「用離散路徑傳梯度、用連續路徑做執行」的訓練框架。

梯度橋接：讓動作反向塑造主干大腦

當前主流的 VLA 訓練大多采取「分層隔離」策略：先用海量視覺-語言數據預訓練主干，再在其頂部掛一個動作專家單獨訓練。這種做法雖然安全，但代價是主干模型本身永遠學不會「動作」，它只是在為動作專家提供特征，并不真正理解物理世界的可操作結構。

Wall-OSS-0.5 的方法是：梯度橋接協同訓練。團隊將動作離散化為特殊的「字符 Token」，與文本 Token 拼接到同一條自回歸序列中，用大模型最原生、最強烈的交叉熵損失進行訓練。

這一支路就像在 VLM 大腦中架起了一座「梯度橋」，強迫主干在預訓練階段就把「看、說、動」統一在同一套表征空間里。同時，模型保留流匹配損失用于生成連續動作，并輔以多模態交叉熵損失作為錨點防止視覺語言能力退化。三路信號協同開火，消融實驗證明：一旦砍掉這座「橋」，真實機器人任務成功率會出現斷崖式下降。

梯度橋接效應驗證。實驗證明，將動作監督通過「梯度橋」直接引入主干，遠勝于簡單的分層隔離策略。

視覺對齊的動作 Tokenizer：傳遞語義，而非數字

梯度橋建好了，但跑在橋上的是什么貨？如果離散 Token 只是對動作做機械的數值壓縮，那傳進主干大腦的只是一串沒有物理意義的編號，主干學到的也只是統計學上的共現。業界廣泛使用的 FAST Tokenizer 就存在這個問題：它能還原動作，但并不知道這個動作「對應畫面里發生了什么」。

Wall-OSS-0.5 訓練了一個視覺對齊的殘差向量量化 Tokenizer。它在量化動作的同時，強制 Token 的表征與對應時刻的視覺特征對齊，并要求其預測下一幀的視覺變化。這樣一來，每一個動作 Token 都同時承載了「電機怎么轉」和「畫面怎么變」兩層信息。它和視覺、語言進入了同一個語義空間，主干網絡在預測下一個動作時，其實就是在腦海里進行高維度的時空推演。

視覺對齊動作 Tokenizer 的工作流。模型不僅壓縮動作，更強制動作表征與視覺特征對齊，賦予 Token 真正的「物理含義」。

動作空間監督：把好鋼用在刀刃上

主干懂了語義，但最終指揮機器人軀體干活的，還得靠連續分支輸出的軌跡。流匹配的標準做法是預測「速度」（噪聲到目標的瞬時方向）。然而，機器人的物理動作軌跡有一個特性：整體形狀（低頻結構）決定任務能否完成，而高頻細節幾乎不影響成敗。如果在速度空間里算損失，模型會像強迫癥一樣，把大量算力浪費在擬合無關的高頻抖動上。

自變量團隊直接修改了底層邏輯：把損失從「預測速度」改寫為「預測重建出來的最終動作」。這在數學上等價于對動作軌跡成型初期（高噪聲階段）進行了自動加權。這就好比讓畫師先集中精力把人體的骨架打準，再去描繪衣服的褶皺，讓模型在仿真中跑出了遠超前人的收斂速度和穩定性。

動作空間監督 vs 速度空間監督。通過將學習重心調整至軌跡結構的塑造，模型在訓練效率和成功率上均表現更優。

DMuon：掃除異構計算的系統工程路障

上述極其精妙的多源監督架構，帶來了一個工程層面的副作用：模型內部參數尺度與梯度強度高度異構：VLM 骨干來自大規模預訓練，動作頭則是從頭初始化，三路損失反傳的梯度量級系統性失配。

這是 Muon 優化器的用武之地：通過 Newton-Schulz 迭代對更新矩陣做正交化，能有效緩解這種異構困難。但原生的 Muon 單步開銷大得離譜。

為此，團隊實現了DMuon（分布式 Muon）。結合基于 LPT 的專屬所有權調度以及回收迭代冗余計算的 CuteDSL 內核，他們把引入 Muon 的整體開銷從 2x 降至 0.02x，縮減了約 100 倍。這種即插即用的系統級優化，讓這套龐雜的訓練配方在大規模集群上真正成為現實。

四項設計，各有側重，但指向同一個目標：讓主干網絡在預訓練階段就真正「經歷」過動作，而不只是「見過」動作數據。梯度橋確保動作監督能穿透進主干；語義 Tokenizer 確保穿透進去的是有物理意義的信號；動作空間監督確保連續執行路徑把好鋼用在刀刃上；DMuon 則確保這套精密配方在真實的大規模訓練中跑得起來。

開放，是通向通用機器人的唯一密碼

自變量機器人（X Square Robot）成立于 2023 年 12 月，是國內較早押注「端到端通用具身智能大模型」路線的創業公司之一。

在商業模型之外，自變量一直將開源作為推動行業進步的重要方式。此前發布的 WALL-OSS 系列模型已開放給開發者社區，配套提供訓練代碼與技術文檔，并通過「具亮計劃 2026」黑客松活動鼓勵開發者在真實機器人上復現與創新。

Wall-OSS-0.5 是這一系列的最新版本，在前代基礎上將評估標準推進到了「預訓練 checkpoint 直接上真機」的更高維度，并且模型權重、訓練配方、消融實驗與底層優化器實現一并公開。

當然，具身智能還有很長的路要走。毛巾折疊和充電器插接還在 10 分以下，長程任務仍依賴單幀視覺輸入……這些未解決的問題，論文里寫得很清楚，團隊也沒有回避。

整體而言，Wall-OSS-0.5 為具身智能研究提供了一套經過真機驗證、可以被復現和挑戰的基線，可以成為關注這個方向的研究者和開發者進一步探索開拓的起點。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.