中大 × MBZUAI重磅開源！A?：全透明高效 VLA 模型，機器人實時控制成本直降 76% 丨CVPR 2026 Findings

2026-04-08 18:35:34　來源: AI科技評論

廣東舉報

分享至

中大 ×MBZUAI 開源 A?，機器人控制成本大降。

開放世界機器人操作一直被大模型算力成本、推理延遲兩大難題卡脖子：千億級 VLM 骨干 + 迭代擴散 / 流匹配動作頭，讓普通硬件根本跑不動實時控制。

來自中山大學、MBZUAI、Spatialtemporal AI 與 ATeam 的團隊直接給出全開源、全透明、自適應、高效率的解決方案 ——A?截斷式視覺 - 語言 - 動作模型，一套預算感知自適應推理方案，同時加速骨干網(wǎng)絡與動作頭，推理延遲最高降 72%、骨干計算量砍 76.6%，性能還能打平甚至反超主流基線。

從仿真到真機、從單臂到多平臺，A?憑開源全棧跑出 SOTA，徹底打破VLA 模型 “高性能 = 高成本” 的魔咒。

行業(yè)痛點：VLA模型很強，

但用不起、跑不動

Vision-Language-Action（VLA）已經(jīng)成為通用機器人操作的主流范式：大尺度視覺語言模型（VLM）把多模態(tài)觀測壓縮為隱式表示，動作頭（擴散 / 流匹配）再映射為連續(xù)電機指令，泛化性拉滿。

但落地代價極其昂貴：

? 為了保證語義理解與可供性推理，模型必須使用數(shù)十億參數(shù)的 VLM 骨干，推理耗時極長；

? 為了動作平滑與精準，動作頭普遍采用擴散或流匹配架構，需要十數(shù)輪迭代去噪，算力開銷巨大；

? 現(xiàn)有優(yōu)化大多只針對 VLM 主干，動作頭始終是被忽略的瓶頸，即便主干加速，整體延遲依然居高不下；

? 最終結果是：能跑 SOTA 的 VLA 模型，必須依賴高端計算集群，普通硬件無法實現(xiàn)實時控制。

團隊總結出三個關鍵觀察，直接戳中效率優(yōu)化核心：

1.軌跡收斂：流匹配軌跡 3 步內就鎖定正確模式，后續(xù)迭代收益遞減；

2.動作冗余：連續(xù)控制步動作平滑變化，只需粗更新；

3.層間耦合：VLM 中間層已包含足夠空間視覺特征，沒必要跑完全層。

一句話：算力只花在“會改變動作”的地方，A?就此誕生。

核心設計：一套自適應框架，

同時卷性能與效率

A?沒有走 “輕量化重訓” 或 “單純剪枝” 的老路，而是從推理全鏈路出發(fā)，提出一套預算感知、動態(tài)退出、層間熱啟動的協(xié)同加速方案，在不損失任務成功率的前提下，實現(xiàn)效率數(shù)量級提升。

整體架構

A?由 VLM 骨干與動作頭組成，VLM提供語義與可供性特征，動作頭支持流匹配（FM）與MLP兩種實現(xiàn)；自適應推理方案同時壓縮骨干計算量與動作頭迭代次數(shù)，兼顧速度與成功率。

圖1：A1模型整體架構

1.多出口訓練：讓每一層都具備動作預測能力

傳統(tǒng) VLA 只在最后一層輸出動作，A?在訓練階段就讓 VLM每一層都連接共享動作頭，直接監(jiān)督各層輸出的動作序列。這一設計讓模型在推理時，可以隨時在中間層讀取動作結果，為動態(tài)早停打下基礎。

2.動作一致性早停：算力只花在 “必要的層”

推理時，模型逐層計算動作，并與上一層結果做一致性校驗。當動作變化小于閾值時，直接判定 “特征足夠”，提前終止主干前向。團隊使用余弦相似度、L2 距離等指標衡量動作穩(wěn)定性，并通過訓練集統(tǒng)計得到分層閾值，在 “節(jié)省算力” 與 “保持精度” 之間取得最優(yōu)平衡。

3.層間截斷流匹配：解決早停帶來的次生瓶頸

動態(tài)早停雖然加速了 VLM，但會讓流匹配動作頭在每一層都重復執(zhí)行完整去噪步驟，反而拖慢速度。為此，團隊提出層間熱啟動流匹配：

? 大幅減少單輪去噪步數(shù)（從 10 步降至 2 步）；

? 上一層的動作輸出，直接作為下一層去噪的初始值，實現(xiàn)熱啟動；

? 避免從隨機噪聲重新開始，既保證精度，又把動作頭開銷壓到最低。

4.多機器人泛化訓練：開源數(shù)據(jù)也能練出強遷移模型

A?采用兩階段訓練：第一階段在大規(guī)模開源機器人數(shù)據(jù)上預訓練，學習通用操作先驗；第二階段在真實機器人軌跡上微調，適配不同機型與場景。

團隊還融合了 15951 條自研真機數(shù)據(jù)，進一步縮小仿真到現(xiàn)實的差距，讓模型在 Franka、AgiBot、WuJie-Arm等多款機械臂上都能穩(wěn)定工作。

深度解讀：

A?到底解決了VLA的哪些核心痛點？

如果只看加速數(shù)字，很容易低估 A?的價值。它真正的突破，是重新定義了高效VLA的設計范式。

1.第一次實現(xiàn)主干與動作頭聯(lián)合加速

過去的加速方案都是 “單邊優(yōu)化”：要么壓 VLM，要么簡動作頭。A?證明，只有協(xié)同優(yōu)化，才能實現(xiàn)端到端延遲大幅下降。早停降低主干計算，熱啟動流匹配降低動作頭迭代，兩者耦合，才把延遲從數(shù)十秒壓到秒級。

2. 用最小精度損失換取最大效率收益

實驗顯示，即便減少 76.6% 的主干計算，任務成功率僅小幅下降。這說明：VLA模型存在極端嚴重的過計算，大量深層特征對機器人操作來說并非必需。A?用數(shù)據(jù)證實，動態(tài)優(yōu)化不是 “妥協(xié)精度”，而是 “回歸合理計算”。

3.開源全棧，打破封閉壁壘

當前頂尖 VLA 大多依賴閉源數(shù)據(jù)與私有框架，社區(qū)難以復現(xiàn)。A?全程使用開源數(shù)據(jù)訓練，并開放權重、代碼、數(shù)據(jù)處理流程與評估腳本，讓小型實驗室與普通開發(fā)者也能搭建高性能、低成本的機器人控制模型。

實驗驗證：

從仿真到真機，全面超越現(xiàn)有開源方案

A?在三類標準場景上完成系統(tǒng)驗證，結果顯示：它在效率上大幅領先，在性能上同樣達到SOTA。

仿真環(huán)境：高精度與強泛化兼顧

在 LIBERO 長期操作基準上，A?實現(xiàn) 96.6% 的平均成功率，在物體操作任務上接近滿分；在 VLABench 長程推理任務上，A?超越 π?.5 等模型，展現(xiàn)出優(yōu)秀的語言理解與任務規(guī)劃能力；在分布偏移更大的LIBERO-Plus 上，A?零射性能達到 75.3%，顯著優(yōu)于對比方法，證明其特征具備強泛化性。

表1：LIBERO、VLABench 主流模型成功率對比，A1取得領先性能。

真實機器人：跨平臺穩(wěn)定執(zhí)行

在 Franka、AgiBot、WuJie-Arm、Dobot-Arm 四款機械臂上，A?完成放杯子、擺水果、撿膠水、擦桌子、疊積木等一系列日常操作，平均成功率達到56.7%，明顯高于 π?與 π?.5。尤其在小樣本學習場景下，A?能快速適應新任務，表現(xiàn)出極強的實用潛力。

表2:真機多平臺結果表

RoboChallenge：開源模型登頂

在包含 30 個復雜真機任務的 RoboChallenge 上，A?在完全開源、無閉源數(shù)據(jù)的條件下，取得 29.00% 的平均成功率，超過 π?、X-VLA、RDT-1B 等一眾開源模型，證明開源路線同樣可以做到頂尖水平。

表3:RoboChallenge 基準結果表

效率表現(xiàn)：延遲與計算量雙降

在最優(yōu)配置下，A?-FM 單回合推理時間從 37.8 秒降至 10.5 秒，降幅達 72.3%；A?-MLP最多可減少 76.6% 的主干計算，依舊保持 92% 以上的成功率；在真機 AgiBot 上，模型計算量降低 84.6%，操作精度幾乎沒有下降，真正實現(xiàn) “低成本、高可用”。

表4、5:自適應早停效率表

行為可視化：更穩(wěn)定、更魯棒

從任務執(zhí)行視頻可以直觀看到：對比模型容易出現(xiàn)物體混淆、夾爪提前閉合、抓取偏移等問題；A?能穩(wěn)定識別目標，動作連貫，在長程任務中依然保持高可靠性。同時，動態(tài)推理可視化顯示：簡單移動在淺層即可退出，復雜操作才進入深層，算力分配高度智能。

圖2：任務執(zhí)行對比

圖3：真機動態(tài)推理可視化

局限與未來

A?打開的下一代VLA研究方向

盡管 A?在效率與性能上取得顯著突破，團隊仍清晰指出當前方案的改進空間，并為后續(xù)研究指明方向。

第一，當前預訓練依賴帶標注的可供性數(shù)據(jù)，未來可引入無監(jiān)督或自監(jiān)督方法，從海量機器人視頻與交互數(shù)據(jù)中自動挖掘可供性先驗，進一步擴大數(shù)據(jù)來源。

第二，A?以模仿學習為基礎，在長程任務中仍存在累積誤差。后續(xù)可結合強化學習，通過環(huán)境實時反饋修正策略，提升復雜場景下的魯棒性與成功率。

第三，云邊推理與機械臂執(zhí)行之間的同步延遲，仍會影響操作流暢度。團隊計劃采用異步執(zhí)行、預測控制等方式，提升真機運行的順滑度。

第四，A?已成功部署在自研雙臂移動平臺，下一步將重點拓展雙臂協(xié)同、移動操作、非結構環(huán)境適應等能力，向更通用的家庭與工業(yè)機器人邁進。

A?第一次把 “高性能、高效率、全開源” 三件事同時做到位，用一套簡單優(yōu)雅的自適應截斷方案，把 VLA 模型從 “實驗室奢侈品” 拉到 “可落地實用款”。

從仿真到真機、從單臂到雙臂、從小樣本到泛化，A?證明：開源透明的研究，完全能打贏閉源方案。

全套代碼、權重、數(shù)據(jù) pipeline 已開放，機器人底層玩家可以直接沖了。

論文信息

標題：A?: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model

代碼：https://github.com/ATeam

項目頁：https://ATeam.com/en/research/68bc2cde8497d7f238dde690

鏈接：https://arxiv.org/abs/2604.05672

論文作者介紹：

張凱東，中山大學計算機學院2024級碩士，本科畢業(yè)于中山大學智能工程學院，師從梁小丹教授。研究方向為具身智能。

張健，穆罕默德·本·扎耶德人工智能大學（MBZUAI）計算機視覺博士生，研究方向為具身智能。分別于2023年和2020年從北京大學和合肥工業(yè)大學獲得碩士和學士學位。

許镕濤 MBZUAI研究員，無界智慧CTO。中科院自動化所多模態(tài)人工智能國重（前模識國重）博士, 在學期間曾獲得中科院院長獎、兩次IEEE旗艦會議最佳論文提名獎、國獎、北京市和中科院優(yōu)秀畢業(yè)生。華中科技大學數(shù)學與計算機雙學士學位。研究方向為具身智能與機器人，提出全球首個基于空間可供性操作大模型A0，曾在銀河通用共同主導全球首個具身導航大模型NaVid。在頂級學術會議和期刊(RSS,IRCA,IROS,CVPR,ICCV,ECCV,NeurIPS,ICML,ICLR,AAAI,EMNLP,MICCAI,TPAMI,TIP,TNNLS,TII,TIM,TMM,TCSVT,ISPRS)上共發(fā)表論文80余篇,其中以第一作者或通訊作者發(fā)表論文近40篇，含ESI高被引論文3篇，IEEE Trans封面文章1篇，發(fā)表8次Oral論文。擁有10余項發(fā)明專利，研究成果應用于YOLO系列，以及無界智慧、銀河通用、華為、Momenta等多款產品。

梁小丹是中山大學深圳校區(qū)的教授，同時也是穆罕默德·本·扎耶德人工智能大學（MBZUAI）計算機視覺系的副教授。她曾是卡內基梅隆大學的項目科學家，與邢教授合作。

她在視覺語言理解與生成及其在具身人工智能中的應用方面發(fā)表了 120 余篇前沿論文，這些論文發(fā)表于該領域最負盛名的期刊和會議，谷歌引用量超過 30000 次。

她定期擔任 ICCV、CVPR、NeurIPS、ICML、ICLR 和 AAAI 等會議的領域主席，并擔任 CVPR 2021 的教程主席、 CVPR 2023 的評審主席。她曾榮獲ACM中國最佳博士論文獎、CCF 最佳博士論文獎以及阿里巴巴達摩院青年學者獎。她的研究成果已被應用于多家知名人工智能公司（如 Deepseek、聯(lián)想、字節(jié)跳動和騰訊）的關鍵產品中。

未經(jīng)「AI科技評論」授權，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.