亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

統(tǒng)一VLA范式!港科大開源StarVLA樂高式架構(gòu),復(fù)現(xiàn)成本大幅降低

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】當(dāng)前具身智能的VLA(Vision-Language-Action)賽道正陷入典型的「碎片化」泥潭:不同團(tuán)隊(duì)采用異構(gòu)的動(dòng)作解碼范式、強(qiáng)耦合的數(shù)據(jù)管線、互不兼容的評(píng)測協(xié)議,導(dǎo)致方法難以橫向?qū)Ρ龋瑥?fù)現(xiàn)成本極高。開源項(xiàng)目 StarVLA 沒有選擇堆砌算力或盲目刷榜,而是從系統(tǒng)抽象層面直擊痛點(diǎn),提出了一套Backbone-Action Head的「樂高式」統(tǒng)一架構(gòu)。

盡管VLA模型已成為具身通用智能的主流范式,但學(xué)術(shù)研究正面臨三重「巴別塔」困境:

  1. 架構(gòu)割裂自回歸離散Token化、并行連續(xù)回歸、流匹配去噪、雙系統(tǒng)推理……不同動(dòng)作解碼范式采用完全不同的代碼實(shí)現(xiàn)與接口假設(shè)。

  2. 管線強(qiáng)耦合現(xiàn)有開源框架多為「單方法定制」,數(shù)據(jù)預(yù)處理、訓(xùn)練循環(huán)、評(píng)測協(xié)議深度綁定,導(dǎo)致模塊無法跨項(xiàng)目復(fù)用。

  3. 評(píng)測標(biāo)準(zhǔn)不一各論文僅在disjoint的基準(zhǔn)子集上報(bào)告結(jié)果,且預(yù)處理與推理協(xié)議不透明,公平對(duì)比幾乎不可能。

這種碎片化嚴(yán)重拖慢了具身基礎(chǔ)模型的迭代節(jié)奏。

香港科技大學(xué)開源了一個(gè)新項(xiàng)目StarVLA,核心洞察在于:VLM-based與World-Model-based并非根本對(duì)立的范式,而是同一策略框架下不同輔助學(xué)習(xí)信號(hào)(L_aux)的變體。

基于此,團(tuán)隊(duì)構(gòu)建了一個(gè)高度模塊化、接口統(tǒng)一的開源底座,讓研究者能像搭樂高一樣自由組合主干網(wǎng)絡(luò)與動(dòng)作頭,在完全受控的條件下驗(yàn)證單一設(shè)計(jì)變量的影響。


開源地址https://github.com/starVLA/starVLA

項(xiàng)目主頁https://starvla.github.io

論文鏈接https://arxiv.org/abs/2604.05014


架構(gòu)解碼

Policy-Centric的「樂高」抽象


StarVLA 在系統(tǒng)層引入了統(tǒng)一的策略中心公式,將多模態(tài)觀測、語言指令與未來動(dòng)作塊映射到同一計(jì)算圖中:

其中為多模態(tài)歷史觀測,?為語言指令,為預(yù)測的動(dòng)作塊,為可選的輔助輸出(如未來視覺幀、空間推理文本等)。訓(xùn)練目標(biāo)被統(tǒng)一分解為:


  • Direct VLA:,純動(dòng)作監(jiān)督。

  • VLM-based VLA:引入語言對(duì)齊輔助目標(biāo)(如子任務(wù)規(guī)劃、空間 grounding)。

  • WM-based VLA:引入未來觀測預(yù)測作為輔助目標(biāo)或隱式先驗(yàn)。

在這一抽象下,StarVLA實(shí)現(xiàn)了雙向模塊化(Bidirectional Modularity)


  • 可插拔Backbone支持Qwen3-VL、InternVL等指令微調(diào) VLM,以及Cosmos-Predict2等世界模型,只需輕量適配層即可接入統(tǒng)一表示契約。

  • 可插拔Action Head內(nèi)置 4 種代表性動(dòng)作解碼器,共享同一forward()predict_action()接口:

    • StarVLA-FAST:自回歸離散 Token 生成

    • StarVLA-OFT:輕量 MLP 并行連續(xù)回歸

    • StarVLA-π:層間 Cross-DiT 流匹配去噪

    • StarVLA-GR00T:System 2(慢推理)+ System 1(快動(dòng)作)雙系統(tǒng)架構(gòu)

所有變體共享同一數(shù)據(jù)接口、訓(xùn)練循環(huán)與評(píng)測管線,僅需替換Backbone或Action Head即可完成范式切換。這徹底消除了跨方法對(duì)比時(shí)的「隱性變量干擾」。

訓(xùn)練范式

從單基準(zhǔn)微調(diào)走向多模態(tài)協(xié)同


StarVLA 將訓(xùn)練策略抽象為與架構(gòu)解耦的可復(fù)用配置,支持三大核心范式:

1. 行為克隆監(jiān)督微調(diào)(SFT)

提供完整的分布式訓(xùn)練腳本(Accelerate + DeepSpeed ZeRO-2),支持全參數(shù)微調(diào)與子模塊凍結(jié)。優(yōu)化器采用多參數(shù)組獨(dú)立學(xué)習(xí)率、bfloat16 混合精度與余弦衰減調(diào)度,確保異構(gòu)組件訓(xùn)練穩(wěn)定。

2. 多目標(biāo)協(xié)同訓(xùn)練(Co-Training)


純動(dòng)作微調(diào)極易導(dǎo)致 VLM 主干「災(zāi)難性遺忘」。

StarVLA 內(nèi)置雙數(shù)據(jù)流協(xié)同機(jī)制:交替執(zhí)行 VLA 動(dòng)作前向與 VLM 語言建模前向,通過trainer.loss_scale.vlm動(dòng)態(tài)平衡動(dòng)作學(xué)習(xí)與多模態(tài)表征保留。實(shí)驗(yàn)表明,協(xié)同訓(xùn)練可顯著提升空間grounding能力,并在WidowX與Google Robot 上帶來4%~10%的成功率增益。

3. 跨形態(tài)混合訓(xùn)練(Cross-Embodiment)

通過LeRobotMixtureDataLoader,用戶可在YAML中聲明任意機(jī)器人數(shù)據(jù)集組合與采樣權(quán)重,框架自動(dòng)處理動(dòng)作空間對(duì)齊與形態(tài)標(biāo)簽追蹤。這一設(shè)計(jì)讓「跨形態(tài)預(yù)訓(xùn)練」從定制腳本變?yōu)闃?biāo)準(zhǔn)化配置。

評(píng)測與部署

Server-Client架構(gòu)打通Sim2Real

為避免benchmark依賴污染模型環(huán)境,StarVLA采用輕量級(jí)WebSocket Server-Client評(píng)測抽象

  • 模型側(cè)僅暴露predict_action()接口,加載 checkpoint 后啟動(dòng)策略服務(wù)。

  • 評(píng)測側(cè)(如 LIBERO、SimplerEnv、RoboTwin 2.0 官方環(huán)境)通過獨(dú)立 Client 封裝觀測字典,以 msgpack 通信,返回歸一化動(dòng)作。

  • 真實(shí)機(jī)器人部署無需修改任何代碼:只需將機(jī)器人控制器替換為 Client,提供相同格式的相機(jī)觀測與指令,即可無縫遷移至物理世界。

目前已集成7大主流基準(zhǔn)(含LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K、CALVIN等),并附帶完整的benchmark-specific adapter 實(shí)現(xiàn)動(dòng)作反歸一化、Chunk拆分、Delta/Absolute轉(zhuǎn)換等后處理邏輯。

性能與效率

極簡配置下的強(qiáng)泛化證明

StarVLA 刻意避免復(fù)雜的數(shù)據(jù)工程與在線優(yōu)化(如 DAgger),僅用公開 VL 預(yù)訓(xùn)練權(quán)重在基準(zhǔn)官方演示集上微調(diào),即可達(dá)到極具競爭力的性能:



更關(guān)鍵的是,Backbone替換幾乎不損性能:將Qwen3-VL-4B換為Cosmos-Predict2-2B,LIBERO平均分仍穩(wěn)定在95.2%以上,驗(yàn)證了架構(gòu)的泛化魯棒性。


在跨基準(zhǔn)Generalist設(shè)置中,單模型聯(lián)合訓(xùn)練LIBERO + SimplerEnv + RoboTwin 2.0 + RoboCasa-GR1,RoboCasa平均成功率從Specialist最優(yōu)的48.8%提升至57.3%,證明了統(tǒng)一管線下All-in-One訓(xùn)練的可行性。


計(jì)算效率方面8×A100單節(jié)點(diǎn)測試顯示,Per-GPU Batch Size=8時(shí)GPU利用率達(dá)92%,樣本吞吐量56.6 samples/s;擴(kuò)展至256 GPU多節(jié)點(diǎn)時(shí),通信開銷僅在8→32 GPU階段產(chǎn)生一次躍升(0.735s→0.899s/step),隨后穩(wěn)定在~0.93s,并行效率維持在79%~80%,為大規(guī)模分布式訓(xùn)練提供明確的Scaling Guide。

總結(jié)與展望

StarVLA的價(jià)值在于為具身智能社區(qū)提供了一套可復(fù)現(xiàn)、可對(duì)比、可組合的基礎(chǔ)設(shè)施標(biāo)準(zhǔn)。它用工程化的克制(統(tǒng)一 I/O 契約、聲明式 YAML 配置、Server-Client 解耦)與理論上的洞察(L = L_action + L_aux的策略統(tǒng)一視角),終結(jié)了 VLA 研究的「巴別塔」時(shí)代。

對(duì)于研究者,它是驗(yàn)證新動(dòng)作頭/新主干的即插即用沙盒;對(duì)于工程師,它是從仿真到實(shí)機(jī)零代碼修改的部署底座;對(duì)于社區(qū),它是降低復(fù)現(xiàn)門檻、推動(dòng)標(biāo)準(zhǔn)化評(píng)測的公共品。

參考資料:

https://arxiv.org/abs/2604.05014

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
山東省淄博市人大常委會(huì)原副主任王樹槐接受審查調(diào)查

山東省淄博市人大常委會(huì)原副主任王樹槐接受審查調(diào)查

界面新聞
2026-04-16 11:05:48
毛焦?fàn)栃鹿偕先危谝话鸦鹣葻街袊瑢?duì)華稱呼改變,目的太明顯

毛焦?fàn)栃鹿偕先危谝话鸦鹣葻街袊瑢?duì)華稱呼改變,目的太明顯

娛樂圈的筆娛君
2026-04-16 16:25:43
寶馬捅破天了!以“車還沒造,就路測幾百萬公里”的文案暗諷同行

寶馬捅破天了!以“車還沒造,就路測幾百萬公里”的文案暗諷同行

火山詩話
2026-04-16 06:54:55
好萊塢風(fēng)流往事:沃倫體力太好,一天數(shù)次求歡,讓麥當(dāng)娜欲罷不能

好萊塢風(fēng)流往事:沃倫體力太好,一天數(shù)次求歡,讓麥當(dāng)娜欲罷不能

錢小刀娛樂
2026-04-15 15:40:52
歐冠獎(jiǎng)金:拜仁、阿森納、巴黎均超1億鎊,利物浦第4馬競第5

歐冠獎(jiǎng)金:拜仁、阿森納、巴黎均超1億鎊,利物浦第4馬競第5

懂球帝
2026-04-16 12:00:06
跨越3600公里!張水華7天2賽忙掙錢:獎(jiǎng)金僅3000元?她根本不在乎

跨越3600公里!張水華7天2賽忙掙錢:獎(jiǎng)金僅3000元?她根本不在乎

風(fēng)過鄉(xiāng)
2026-04-16 21:54:28
1599元!小米新機(jī)突然上架,真復(fù)古!

1599元!小米新機(jī)突然上架,真復(fù)古!

科技堡壘
2026-04-16 11:27:05
正在熱播的三部“爛劇”,沒有最爛只有更爛,一部沒看過算你走運(yùn)

正在熱播的三部“爛劇”,沒有最爛只有更爛,一部沒看過算你走運(yùn)

秋姐居
2026-04-15 22:06:55
CBA最令人失望球隊(duì)!10天前還是聯(lián)賽第4,如今連第8都快保不住了

CBA最令人失望球隊(duì)!10天前還是聯(lián)賽第4,如今連第8都快保不住了

后仰大風(fēng)車
2026-04-16 07:55:08
上喂阿祖下睡士兵男孩!底特律變?nèi)伺鞒珊谂勰虌?>
    </a>
        <h3>
      <a href=游民星空
2026-04-16 18:19:55
突發(fā)!以色列發(fā)動(dòng)大規(guī)模空襲

突發(fā)!以色列發(fā)動(dòng)大規(guī)模空襲

農(nóng)民日?qǐng)?bào)
2026-04-17 00:59:15
新華社旗下四大財(cái)經(jīng)媒體看首季經(jīng)濟(jì)|積極動(dòng)能涌現(xiàn)——透視首季外貿(mào)“成績單”

新華社旗下四大財(cái)經(jīng)媒體看首季經(jīng)濟(jì)|積極動(dòng)能涌現(xiàn)——透視首季外貿(mào)“成績單”

新華社
2026-04-15 19:43:04
大口吃肉吃菜 為何中國人能實(shí)現(xiàn)美國人卻做不到?

大口吃肉吃菜 為何中國人能實(shí)現(xiàn)美國人卻做不到?

看看新聞Knews
2026-04-15 23:36:04
北影節(jié)開幕式出現(xiàn)搶位風(fēng)波!沈騰被擠出C位,強(qiáng)行在沈馬中間加桌

北影節(jié)開幕式出現(xiàn)搶位風(fēng)波!沈騰被擠出C位,強(qiáng)行在沈馬中間加桌

萌神木木
2026-04-16 21:18:03
世錦賽簽表分析:趙心童上上簽丁俊暉下簽,中國軍團(tuán)保底2人16強(qiáng)

世錦賽簽表分析:趙心童上上簽丁俊暉下簽,中國軍團(tuán)保底2人16強(qiáng)

排球黃金眼
2026-04-16 16:59:33
繼京滬、京廣之后!北京向南第三條高鐵大通道最新消息→

繼京滬、京廣之后!北京向南第三條高鐵大通道最新消息→

環(huán)京大事記
2026-04-16 17:11:33
金價(jià)暴跌30%!水貝黃金大逃殺,百億資金蒸發(fā),投資者血本無歸

金價(jià)暴跌30%!水貝黃金大逃殺,百億資金蒸發(fā),投資者血本無歸

青眼財(cái)經(jīng)
2026-04-16 21:53:27
11勝9平,白學(xué)堡自1995年10月以來連續(xù)20場歐戰(zhàn)主場不敗

11勝9平,白學(xué)堡自1995年10月以來連續(xù)20場歐戰(zhàn)主場不敗

懂球帝
2026-04-17 05:14:06
油價(jià)要跌破天了!4月16日油價(jià)迎來大幅暴跌,調(diào)價(jià)后全國油價(jià)價(jià)格

油價(jià)要跌破天了!4月16日油價(jià)迎來大幅暴跌,調(diào)價(jià)后全國油價(jià)價(jià)格

沙雕小琳琳
2026-04-16 10:22:05
等了 166 年,連做夢都不敢想的事,居然真的照進(jìn)現(xiàn)實(shí)了。

等了 166 年,連做夢都不敢想的事,居然真的照進(jìn)現(xiàn)實(shí)了。

果媽聊娛樂
2026-04-16 07:28:51
2026-04-17 05:28:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14988文章數(shù) 66773關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰在大模型上更高效

頭條要聞

特朗普宣布黎以將停火后 以軍大規(guī)模空襲黎巴嫩

頭條要聞

特朗普宣布黎以將停火后 以軍大規(guī)模空襲黎巴嫩

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
房產(chǎn)
教育
手機(jī)

爆火的前額葉梗,讓多少年輕人主動(dòng)確診「腦殘」?

藝術(shù)要聞

你絕對(duì)想不到!這幅油畫背后的美麗故事!

房產(chǎn)要聞

人人人人!封關(guān)后首屆消博會(huì),擠爆了!

教育要聞

網(wǎng)傳建鄴區(qū)即將迎來大動(dòng)作?多校學(xué)區(qū)要變?

手機(jī)要聞

OPPO Find X10:8000mAh超大電池+雙2億影像,中屏機(jī)皇實(shí)錘!

無障礙瀏覽 進(jìn)入關(guān)懷版