網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

統(tǒng)一VLA范式！港科大開源StarVLA樂高式架構(gòu)，復(fù)現(xiàn)成本大幅降低

2026-04-13 12:07:47　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：LRST

【新智元導(dǎo)讀】當(dāng)前具身智能的VLA（Vision-Language-Action）賽道正陷入典型的「碎片化」泥潭：不同團(tuán)隊(duì)采用異構(gòu)的動(dòng)作解碼范式、強(qiáng)耦合的數(shù)據(jù)管線、互不兼容的評(píng)測協(xié)議，導(dǎo)致方法難以橫向?qū)Ρ龋瑥?fù)現(xiàn)成本極高。開源項(xiàng)目 StarVLA 沒有選擇堆砌算力或盲目刷榜，而是從系統(tǒng)抽象層面直擊痛點(diǎn)，提出了一套Backbone-Action Head的「樂高式」統(tǒng)一架構(gòu)。

盡管VLA模型已成為具身通用智能的主流范式，但學(xué)術(shù)研究正面臨三重「巴別塔」困境：

架構(gòu)割裂：自回歸離散Token化、并行連續(xù)回歸、流匹配去噪、雙系統(tǒng)推理……不同動(dòng)作解碼范式采用完全不同的代碼實(shí)現(xiàn)與接口假設(shè)。
管線強(qiáng)耦合：現(xiàn)有開源框架多為「單方法定制」，數(shù)據(jù)預(yù)處理、訓(xùn)練循環(huán)、評(píng)測協(xié)議深度綁定，導(dǎo)致模塊無法跨項(xiàng)目復(fù)用。
評(píng)測標(biāo)準(zhǔn)不一：各論文僅在disjoint的基準(zhǔn)子集上報(bào)告結(jié)果，且預(yù)處理與推理協(xié)議不透明，公平對(duì)比幾乎不可能。

這種碎片化嚴(yán)重拖慢了具身基礎(chǔ)模型的迭代節(jié)奏。

香港科技大學(xué)開源了一個(gè)新項(xiàng)目StarVLA，核心洞察在于：VLM-based與World-Model-based并非根本對(duì)立的范式，而是同一策略框架下不同輔助學(xué)習(xí)信號(hào)（L_aux）的變體。

基于此，團(tuán)隊(duì)構(gòu)建了一個(gè)高度模塊化、接口統(tǒng)一的開源底座，讓研究者能像搭樂高一樣自由組合主干網(wǎng)絡(luò)與動(dòng)作頭，在完全受控的條件下驗(yàn)證單一設(shè)計(jì)變量的影響。

開源地址：https://github.com/starVLA/starVLA

項(xiàng)目主頁：https://starvla.github.io

論文鏈接：https://arxiv.org/abs/2604.05014

架構(gòu)解碼

Policy-Centric的「樂高」抽象

StarVLA 在系統(tǒng)層引入了統(tǒng)一的策略中心公式，將多模態(tài)觀測、語言指令與未來動(dòng)作塊映射到同一計(jì)算圖中：

其中為多模態(tài)歷史觀測，?為語言指令，為預(yù)測的動(dòng)作塊，為可選的輔助輸出（如未來視覺幀、空間推理文本等）。訓(xùn)練目標(biāo)被統(tǒng)一分解為：

Direct VLA：，純動(dòng)作監(jiān)督。

VLM-based VLA：引入語言對(duì)齊輔助目標(biāo)（如子任務(wù)規(guī)劃、空間 grounding）。
WM-based VLA：引入未來觀測預(yù)測作為輔助目標(biāo)或隱式先驗(yàn)。

在這一抽象下，StarVLA實(shí)現(xiàn)了雙向模塊化（Bidirectional Modularity）：

可插拔Backbone：支持Qwen3-VL、InternVL等指令微調(diào) VLM，以及Cosmos-Predict2等世界模型，只需輕量適配層即可接入統(tǒng)一表示契約。
可插拔Action Head：內(nèi)置 4 種代表性動(dòng)作解碼器，共享同一forward()與predict_action()接口：
- StarVLA-FAST：自回歸離散 Token 生成
- StarVLA-OFT：輕量 MLP 并行連續(xù)回歸
- StarVLA-π：層間 Cross-DiT 流匹配去噪
- StarVLA-GR00T：System 2（慢推理）+ System 1（快動(dòng)作）雙系統(tǒng)架構(gòu)

所有變體共享同一數(shù)據(jù)接口、訓(xùn)練循環(huán)與評(píng)測管線，僅需替換Backbone或Action Head即可完成范式切換。這徹底消除了跨方法對(duì)比時(shí)的「隱性變量干擾」。

訓(xùn)練范式

從單基準(zhǔn)微調(diào)走向多模態(tài)協(xié)同

StarVLA 將訓(xùn)練策略抽象為與架構(gòu)解耦的可復(fù)用配置，支持三大核心范式：

1. 行為克隆監(jiān)督微調(diào)（SFT）

提供完整的分布式訓(xùn)練腳本（Accelerate + DeepSpeed ZeRO-2），支持全參數(shù)微調(diào)與子模塊凍結(jié)。優(yōu)化器采用多參數(shù)組獨(dú)立學(xué)習(xí)率、bfloat16 混合精度與余弦衰減調(diào)度，確保異構(gòu)組件訓(xùn)練穩(wěn)定。

2. 多目標(biāo)協(xié)同訓(xùn)練（Co-Training）

純動(dòng)作微調(diào)極易導(dǎo)致 VLM 主干「災(zāi)難性遺忘」。

StarVLA 內(nèi)置雙數(shù)據(jù)流協(xié)同機(jī)制：交替執(zhí)行 VLA 動(dòng)作前向與 VLM 語言建模前向，通過trainer.loss_scale.vlm動(dòng)態(tài)平衡動(dòng)作學(xué)習(xí)與多模態(tài)表征保留。實(shí)驗(yàn)表明，協(xié)同訓(xùn)練可顯著提升空間grounding能力，并在WidowX與Google Robot 上帶來4%~10%的成功率增益。

3. 跨形態(tài)混合訓(xùn)練（Cross-Embodiment）

通過LeRobotMixtureDataLoader，用戶可在YAML中聲明任意機(jī)器人數(shù)據(jù)集組合與采樣權(quán)重，框架自動(dòng)處理動(dòng)作空間對(duì)齊與形態(tài)標(biāo)簽追蹤。這一設(shè)計(jì)讓「跨形態(tài)預(yù)訓(xùn)練」從定制腳本變?yōu)闃?biāo)準(zhǔn)化配置。

評(píng)測與部署

Server-Client架構(gòu)打通Sim2Real

為避免benchmark依賴污染模型環(huán)境，StarVLA采用輕量級(jí)WebSocket Server-Client評(píng)測抽象：

模型側(cè)僅暴露predict_action()接口，加載 checkpoint 后啟動(dòng)策略服務(wù)。
評(píng)測側(cè)（如 LIBERO、SimplerEnv、RoboTwin 2.0 官方環(huán)境）通過獨(dú)立 Client 封裝觀測字典，以 msgpack 通信，返回歸一化動(dòng)作。
真實(shí)機(jī)器人部署無需修改任何代碼：只需將機(jī)器人控制器替換為 Client，提供相同格式的相機(jī)觀測與指令，即可無縫遷移至物理世界。

目前已集成7大主流基準(zhǔn)（含LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K、CALVIN等），并附帶完整的benchmark-specific adapter 實(shí)現(xiàn)動(dòng)作反歸一化、Chunk拆分、Delta/Absolute轉(zhuǎn)換等后處理邏輯。

性能與效率

極簡配置下的強(qiáng)泛化證明

StarVLA 刻意避免復(fù)雜的數(shù)據(jù)工程與在線優(yōu)化（如 DAgger），僅用公開 VL 預(yù)訓(xùn)練權(quán)重在基準(zhǔn)官方演示集上微調(diào)，即可達(dá)到極具競爭力的性能：

更關(guān)鍵的是，Backbone替換幾乎不損性能：將Qwen3-VL-4B換為Cosmos-Predict2-2B，LIBERO平均分仍穩(wěn)定在95.2%以上，驗(yàn)證了架構(gòu)的泛化魯棒性。

在跨基準(zhǔn)Generalist設(shè)置中，單模型聯(lián)合訓(xùn)練LIBERO + SimplerEnv + RoboTwin 2.0 + RoboCasa-GR1，RoboCasa平均成功率從Specialist最優(yōu)的48.8%提升至57.3%，證明了統(tǒng)一管線下All-in-One訓(xùn)練的可行性。

計(jì)算效率方面：8×A100單節(jié)點(diǎn)測試顯示，Per-GPU Batch Size=8時(shí)GPU利用率達(dá)92%，樣本吞吐量56.6 samples/s；擴(kuò)展至256 GPU多節(jié)點(diǎn)時(shí)，通信開銷僅在8→32 GPU階段產(chǎn)生一次躍升（0.735s→0.899s/step），隨后穩(wěn)定在~0.93s，并行效率維持在79%~80%，為大規(guī)模分布式訓(xùn)練提供明確的Scaling Guide。

總結(jié)與展望

StarVLA的價(jià)值在于為具身智能社區(qū)提供了一套可復(fù)現(xiàn)、可對(duì)比、可組合的基礎(chǔ)設(shè)施標(biāo)準(zhǔn)。它用工程化的克制（統(tǒng)一 I/O 契約、聲明式 YAML 配置、Server-Client 解耦）與理論上的洞察（L = L_action + L_aux的策略統(tǒng)一視角），終結(jié)了 VLA 研究的「巴別塔」時(shí)代。

對(duì)于研究者，它是驗(yàn)證新動(dòng)作頭/新主干的即插即用沙盒；對(duì)于工程師，它是從仿真到實(shí)機(jī)零代碼修改的部署底座；對(duì)于社區(qū)，它是降低復(fù)現(xiàn)門檻、推動(dòng)標(biāo)準(zhǔn)化評(píng)測的公共品。

參考資料：

https://arxiv.org/abs/2604.05014

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.