中大 ×MBZUAI 開源 A?,機器人控制成本大降。
開放世界機器人操作一直被大模型算力成本、推理延遲兩大難題卡脖子:千億級 VLM 骨干 + 迭代擴散 / 流匹配動作頭,讓普通硬件根本跑不動實時控制。
來自中山大學、MBZUAI、Spatialtemporal AI 與 ATeam 的團隊直接給出全開源、全透明、自適應、高效率的解決方案 ——A?截斷式視覺 - 語言 - 動作模型,一套預算感知自適應推理方案,同時加速骨干網(wǎng)絡與動作頭,推理延遲最高降 72%、骨干計算量砍 76.6%,性能還能打平甚至反超主流基線。
從仿真到真機、從單臂到多平臺,A?憑開源全棧跑出 SOTA,徹底打破VLA 模型 “高性能 = 高成本” 的魔咒。
01
行業(yè)痛點:VLA模型很強,
但用不起、跑不動
Vision-Language-Action(VLA)已經(jīng)成為通用機器人操作的主流范式:大尺度視覺語言模型(VLM)把多模態(tài)觀測壓縮為隱式表示,動作頭(擴散 / 流匹配)再映射為連續(xù)電機指令,泛化性拉滿。
但落地代價極其昂貴:
? 為了保證語義理解與可供性推理,模型必須使用數(shù)十億參數(shù)的 VLM 骨干,推理耗時極長;
? 為了動作平滑與精準,動作頭普遍采用擴散或流匹配架構,需要十數(shù)輪迭代去噪,算力開銷巨大;
? 現(xiàn)有優(yōu)化大多只針對 VLM 主干,動作頭始終是被忽略的瓶頸,即便主干加速,整體延遲依然居高不下;
? 最終結果是:能跑 SOTA 的 VLA 模型,必須依賴高端計算集群,普通硬件無法實現(xiàn)實時控制。
團隊總結出三個關鍵觀察,直接戳中效率優(yōu)化核心:
1.軌跡收斂:流匹配軌跡 3 步內就鎖定正確模式,后續(xù)迭代收益遞減;
2.動作冗余:連續(xù)控制步動作平滑變化,只需粗更新;
3.層間耦合:VLM 中間層已包含足夠空間視覺特征,沒必要跑完全層。
一句話:算力只花在“會改變動作”的地方,A?就此誕生。
02
核心設計:一套自適應框架,
同時卷性能與效率
A?沒有走 “輕量化重訓” 或 “單純剪枝” 的老路,而是從推理全鏈路出發(fā),提出一套預算感知、動態(tài)退出、層間熱啟動的協(xié)同加速方案,在不損失任務成功率的前提下,實現(xiàn)效率數(shù)量級提升。
整體架構
A?由 VLM 骨干與動作頭組成,VLM提供語義與可供性特征,動作頭支持流匹配(FM)與MLP兩種實現(xiàn);自適應推理方案同時壓縮骨干計算量與動作頭迭代次數(shù),兼顧速度與成功率。
![]()
圖1:A1模型整體架構
1.多出口訓練:讓每一層都具備動作預測能力
傳統(tǒng) VLA 只在最后一層輸出動作,A?在訓練階段就讓 VLM每一層都連接共享動作頭,直接監(jiān)督各層輸出的動作序列。這一設計讓模型在推理時,可以隨時在中間層讀取動作結果,為動態(tài)早停打下基礎。
2.動作一致性早停:算力只花在 “必要的層”
推理時,模型逐層計算動作,并與上一層結果做一致性校驗。當動作變化小于閾值時,直接判定 “特征足夠”,提前終止主干前向。團隊使用余弦相似度、L2 距離等指標衡量動作穩(wěn)定性,并通過訓練集統(tǒng)計得到分層閾值,在 “節(jié)省算力” 與 “保持精度” 之間取得最優(yōu)平衡。
3.層間截斷流匹配:解決早停帶來的次生瓶頸
動態(tài)早停雖然加速了 VLM,但會讓流匹配動作頭在每一層都重復執(zhí)行完整去噪步驟,反而拖慢速度。為此,團隊提出層間熱啟動流匹配:
? 大幅減少單輪去噪步數(shù)(從 10 步降至 2 步);
? 上一層的動作輸出,直接作為下一層去噪的初始值,實現(xiàn)熱啟動;
? 避免從隨機噪聲重新開始,既保證精度,又把動作頭開銷壓到最低。
4.多機器人泛化訓練:開源數(shù)據(jù)也能練出強遷移模型
A?采用兩階段訓練:第一階段在大規(guī)模開源機器人數(shù)據(jù)上預訓練,學習通用操作先驗;第二階段在真實機器人軌跡上微調,適配不同機型與場景。
團隊還融合了 15951 條自研真機數(shù)據(jù),進一步縮小仿真到現(xiàn)實的差距,讓模型在 Franka、AgiBot、WuJie-Arm等多款機械臂上都能穩(wěn)定工作。
03
深度解讀:
A?到底解決了VLA的哪些核心痛點?
如果只看加速數(shù)字,很容易低估 A?的價值。它真正的突破,是重新定義了高效VLA的設計范式。
1.第一次實現(xiàn)主干與動作頭聯(lián)合加速
過去的加速方案都是 “單邊優(yōu)化”:要么壓 VLM,要么簡動作頭。A?證明,只有協(xié)同優(yōu)化,才能實現(xiàn)端到端延遲大幅下降。早停降低主干計算,熱啟動流匹配降低動作頭迭代,兩者耦合,才把延遲從數(shù)十秒壓到秒級。
2. 用最小精度損失換取最大效率收益
實驗顯示,即便減少 76.6% 的主干計算,任務成功率僅小幅下降。這說明:VLA模型存在極端嚴重的過計算,大量深層特征對機器人操作來說并非必需。A?用數(shù)據(jù)證實,動態(tài)優(yōu)化不是 “妥協(xié)精度”,而是 “回歸合理計算”。
3.開源全棧,打破封閉壁壘
當前頂尖 VLA 大多依賴閉源數(shù)據(jù)與私有框架,社區(qū)難以復現(xiàn)。A?全程使用開源數(shù)據(jù)訓練,并開放權重、代碼、數(shù)據(jù)處理流程與評估腳本,讓小型實驗室與普通開發(fā)者也能搭建高性能、低成本的機器人控制模型。
04
實驗驗證:
從仿真到真機,全面超越現(xiàn)有開源方案
A?在三類標準場景上完成系統(tǒng)驗證,結果顯示:它在效率上大幅領先,在性能上同樣達到SOTA。
仿真環(huán)境:高精度與強泛化兼顧
在 LIBERO 長期操作基準上,A?實現(xiàn) 96.6% 的平均成功率,在物體操作任務上接近滿分;在 VLABench 長程推理任務上,A?超越 π?.5 等模型,展現(xiàn)出優(yōu)秀的語言理解與任務規(guī)劃能力;在分布偏移更大的LIBERO-Plus 上,A?零射性能達到 75.3%,顯著優(yōu)于對比方法,證明其特征具備強泛化性。
![]()
表1:LIBERO、VLABench 主流模型成功率對比,A1取得領先性能。
真實機器人:跨平臺穩(wěn)定執(zhí)行
在 Franka、AgiBot、WuJie-Arm、Dobot-Arm 四款機械臂上,A?完成放杯子、擺水果、撿膠水、擦桌子、疊積木等一系列日常操作,平均成功率達到56.7%,明顯高于 π?與 π?.5。尤其在小樣本學習場景下,A?能快速適應新任務,表現(xiàn)出極強的實用潛力。![]()
表2:真機多平臺結果表
RoboChallenge:開源模型登頂
在包含 30 個復雜真機任務的 RoboChallenge 上,A?在完全開源、無閉源數(shù)據(jù)的條件下,取得 29.00% 的平均成功率,超過 π?、X-VLA、RDT-1B 等一眾開源模型,證明開源路線同樣可以做到頂尖水平。
![]()
表3:RoboChallenge 基準結果表
效率表現(xiàn):延遲與計算量雙降
在最優(yōu)配置下,A?-FM 單回合推理時間從 37.8 秒降至 10.5 秒,降幅達 72.3%;A?-MLP最多可減少 76.6% 的主干計算,依舊保持 92% 以上的成功率;在真機 AgiBot 上,模型計算量降低 84.6%,操作精度幾乎沒有下降,真正實現(xiàn) “低成本、高可用”。
表4、5:自適應早停效率表
![]()
![]()
行為可視化:更穩(wěn)定、更魯棒
從任務執(zhí)行視頻可以直觀看到:對比模型容易出現(xiàn)物體混淆、夾爪提前閉合、抓取偏移等問題;A?能穩(wěn)定識別目標,動作連貫,在長程任務中依然保持高可靠性。同時,動態(tài)推理可視化顯示:簡單移動在淺層即可退出,復雜操作才進入深層,算力分配高度智能。
![]()
圖2:任務執(zhí)行對比
![]()
圖3:真機動態(tài)推理可視化
05
局限與未來
A?打開的下一代VLA研究方向
盡管 A?在效率與性能上取得顯著突破,團隊仍清晰指出當前方案的改進空間,并為后續(xù)研究指明方向。
第一,當前預訓練依賴帶標注的可供性數(shù)據(jù),未來可引入無監(jiān)督或自監(jiān)督方法,從海量機器人視頻與交互數(shù)據(jù)中自動挖掘可供性先驗,進一步擴大數(shù)據(jù)來源。
第二,A?以模仿學習為基礎,在長程任務中仍存在累積誤差。后續(xù)可結合強化學習,通過環(huán)境實時反饋修正策略,提升復雜場景下的魯棒性與成功率。
第三,云邊推理與機械臂執(zhí)行之間的同步延遲,仍會影響操作流暢度。團隊計劃采用異步執(zhí)行、預測控制等方式,提升真機運行的順滑度。
第四,A?已成功部署在自研雙臂移動平臺,下一步將重點拓展雙臂協(xié)同、移動操作、非結構環(huán)境適應等能力,向更通用的家庭與工業(yè)機器人邁進。
06
A?第一次把 “高性能、高效率、全開源” 三件事同時做到位,用一套簡單優(yōu)雅的自適應截斷方案,把 VLA 模型從 “實驗室奢侈品” 拉到 “可落地實用款”。
從仿真到真機、從單臂到雙臂、從小樣本到泛化,A?證明:開源透明的研究,完全能打贏閉源方案。
全套代碼、權重、數(shù)據(jù) pipeline 已開放,機器人底層玩家可以直接沖了。
論文信息
標題:A?: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model
代碼:https://github.com/ATeam
項目頁:https://ATeam.com/en/research/68bc2cde8497d7f238dde690
鏈接:https://arxiv.org/abs/2604.05672
論文作者介紹:
張凱東,中山大學計算機學院2024級碩士,本科畢業(yè)于中山大學智能工程學院,師從梁小丹教授。研究方向為具身智能。
![]()
張健,穆罕默德·本·扎耶德人工智能大學(MBZUAI)計算機視覺博士生,研究方向為具身智能。分別于2023年和2020年從北京大學和合肥工業(yè)大學獲得碩士和學士學位。
![]()
許镕濤 MBZUAI研究員,無界智慧CTO。中科院自動化所多模態(tài)人工智能國重(前模識國重)博士, 在學期間曾獲得中科院院長獎、兩次IEEE旗艦會議最佳論文提名獎、國獎、北京市和中科院優(yōu)秀畢業(yè)生。華中科技大學數(shù)學與計算機雙學士學位。研究方向為具身智能與機器人,提出全球首個基于空間可供性操作大模型A0,曾在銀河通用共同主導全球首個具身導航大模型NaVid。在頂級學術會議和期刊(RSS,IRCA,IROS,CVPR,ICCV,ECCV,NeurIPS,ICML,ICLR,AAAI,EMNLP,MICCAI,TPAMI,TIP,TNNLS,TII,TIM,TMM,TCSVT,ISPRS)上共發(fā)表論文80余篇,其中以第一作者或通訊作者發(fā)表論文近40篇,含ESI高被引論文3篇,IEEE Trans封面文章1篇,發(fā)表8次Oral論文。擁有10余項發(fā)明專利,研究成果應用于YOLO系列,以及無界智慧、銀河通用、華為、Momenta等多款產品。
![]()
梁小丹是中山大學深圳校區(qū)的教授,同時也是穆罕默德·本·扎耶德人工智能大學(MBZUAI)計算機視覺系的副教授。她曾是卡內基梅隆大學的項目科學家,與邢教授合作。
她在視覺語言理解與生成及其在具身人工智能中的應用方面發(fā)表了 120 余篇前沿論文,這些論文發(fā)表于該領域最負盛名的期刊和會議,谷歌引用量超過 30000 次。
她定期擔任 ICCV、CVPR、NeurIPS、ICML、ICLR 和 AAAI 等會議的領域主席,并擔任 CVPR 2021 的教程主席、 CVPR 2023 的評審主席。她曾榮獲ACM中國最佳博士論文獎、CCF 最佳博士論文獎以及阿里巴巴達摩院青年學者獎。她的研究成果已被應用于多家知名人工智能公司(如 Deepseek、聯(lián)想、字節(jié)跳動和騰訊)的關鍵產品中。
![]()
![]()
未經(jīng)「AI科技評論」授權,嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.