亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中大 × MBZUAI重磅開源!A?:全透明高效 VLA 模型,機器人實時控制成本直降 76% 丨CVPR 2026 Findings

0
分享至

中大 ×MBZUAI 開源 A?,機器人控制成本大降。

開放世界機器人操作一直被大模型算力成本、推理延遲兩大難題卡脖子:千億級 VLM 骨干 + 迭代擴散 / 流匹配動作頭,讓普通硬件根本跑不動實時控制。

來自中山大學、MBZUAI、Spatialtemporal AI 與 ATeam 的團隊直接給出全開源、全透明、自適應、高效率的解決方案 ——A?截斷式視覺 - 語言 - 動作模型,一套預算感知自適應推理方案,同時加速骨干網(wǎng)絡與動作頭,推理延遲最高降 72%、骨干計算量砍 76.6%,性能還能打平甚至反超主流基線。

從仿真到真機、從單臂到多平臺,A?憑開源全棧跑出 SOTA,徹底打破VLA 模型 “高性能 = 高成本” 的魔咒。

01


行業(yè)痛點:VLA模型很強,

但用不起、跑不動

Vision-Language-Action(VLA)已經(jīng)成為通用機器人操作的主流范式:大尺度視覺語言模型(VLM)把多模態(tài)觀測壓縮為隱式表示,動作頭(擴散 / 流匹配)再映射為連續(xù)電機指令,泛化性拉滿。

落地代價極其昂貴

? 為了保證語義理解與可供性推理,模型必須使用數(shù)十億參數(shù)的 VLM 骨干,推理耗時極長;

? 為了動作平滑與精準,動作頭普遍采用擴散或流匹配架構,需要十數(shù)輪迭代去噪,算力開銷巨大;

? 現(xiàn)有優(yōu)化大多只針對 VLM 主干,動作頭始終是被忽略的瓶頸,即便主干加速,整體延遲依然居高不下;

? 最終結果是:能跑 SOTA 的 VLA 模型,必須依賴高端計算集群,普通硬件無法實現(xiàn)實時控制。

團隊總結出三個關鍵觀察,直接戳中效率優(yōu)化核心:

1.軌跡收斂:流匹配軌跡 3 步內就鎖定正確模式,后續(xù)迭代收益遞減;

2.動作冗余:連續(xù)控制步動作平滑變化,只需粗更新;

3.層間耦合:VLM 中間層已包含足夠空間視覺特征,沒必要跑完全層。

一句話:算力只花在會改變動作的地方,A?就此誕生。

02


核心設計:一套自適應框架,

同時卷性能與效率

A?沒有走 “輕量化重訓” 或 “單純剪枝” 的老路,而是從推理全鏈路出發(fā),提出一套預算感知、動態(tài)退出、層間熱啟動的協(xié)同加速方案,在不損失任務成功率的前提下,實現(xiàn)效率數(shù)量級提升。

整體架構

A?由 VLM 骨干與動作頭組成,VLM提供語義與可供性特征,動作頭支持流匹配(FM)與MLP兩種實現(xiàn);自適應推理方案同時壓縮骨干計算量與動作頭迭代次數(shù),兼顧速度與成功率。


圖1:A1模型整體架構

1.多出口訓練:讓每一層都具備動作預測能力

傳統(tǒng) VLA 只在最后一層輸出動作,A?在訓練階段就讓 VLM每一層都連接共享動作頭,直接監(jiān)督各層輸出的動作序列。這一設計讓模型在推理時,可以隨時在中間層讀取動作結果,為動態(tài)早停打下基礎。

2.動作一致性早停:算力只花在 “必要的層”

推理時,模型逐層計算動作,并與上一層結果做一致性校驗。當動作變化小于閾值時,直接判定 “特征足夠”,提前終止主干前向。團隊使用余弦相似度、L2 距離等指標衡量動作穩(wěn)定性,并通過訓練集統(tǒng)計得到分層閾值,在 “節(jié)省算力” 與 “保持精度” 之間取得最優(yōu)平衡。

3.層間截斷流匹配:解決早停帶來的次生瓶頸

動態(tài)早停雖然加速了 VLM,但會讓流匹配動作頭在每一層都重復執(zhí)行完整去噪步驟,反而拖慢速度。為此,團隊提出層間熱啟動流匹配

? 大幅減少單輪去噪步數(shù)(從 10 步降至 2 步);

? 上一層的動作輸出,直接作為下一層去噪的初始值,實現(xiàn)熱啟動;

? 避免從隨機噪聲重新開始,既保證精度,又把動作頭開銷壓到最低。

4.多機器人泛化訓練:開源數(shù)據(jù)也能練出強遷移模型

A?采用兩階段訓練:第一階段在大規(guī)模開源機器人數(shù)據(jù)上預訓練,學習通用操作先驗;第二階段在真實機器人軌跡上微調,適配不同機型與場景。

團隊還融合了 15951 條自研真機數(shù)據(jù),進一步縮小仿真到現(xiàn)實的差距,讓模型在 Franka、AgiBot、WuJie-Arm等多款機械臂上都能穩(wěn)定工作。

03


深度解讀:

A?到底解決了VLA的哪些核心痛點?

如果只看加速數(shù)字,很容易低估 A?的價值。它真正的突破,是重新定義了高效VLA的設計范式

1.第一次實現(xiàn)主干與動作頭聯(lián)合加速

過去的加速方案都是 “單邊優(yōu)化”:要么壓 VLM,要么簡動作頭。A?證明,只有協(xié)同優(yōu)化,才能實現(xiàn)端到端延遲大幅下降。早停降低主干計算,熱啟動流匹配降低動作頭迭代,兩者耦合,才把延遲從數(shù)十秒壓到秒級。

2. 用最小精度損失換取最大效率收益

實驗顯示,即便減少 76.6% 的主干計算,任務成功率僅小幅下降。這說明:VLA模型存在極端嚴重的過計算,大量深層特征對機器人操作來說并非必需。A?用數(shù)據(jù)證實,動態(tài)優(yōu)化不是 “妥協(xié)精度”,而是 “回歸合理計算”。

3.開源全棧,打破封閉壁壘

當前頂尖 VLA 大多依賴閉源數(shù)據(jù)與私有框架,社區(qū)難以復現(xiàn)。A?全程使用開源數(shù)據(jù)訓練,并開放權重、代碼、數(shù)據(jù)處理流程與評估腳本,讓小型實驗室與普通開發(fā)者也能搭建高性能、低成本的機器人控制模型。

04


實驗驗證:

從仿真到真機,全面超越現(xiàn)有開源方案

A?在三類標準場景上完成系統(tǒng)驗證,結果顯示:它在效率上大幅領先,在性能上同樣達到SOTA。

仿真環(huán)境:高精度與強泛化兼顧

在 LIBERO 長期操作基準上,A?實現(xiàn) 96.6% 的平均成功率,在物體操作任務上接近滿分;在 VLABench 長程推理任務上,A?超越 π?.5 等模型,展現(xiàn)出優(yōu)秀的語言理解與任務規(guī)劃能力;在分布偏移更大的LIBERO-Plus 上,A?零射性能達到 75.3%,顯著優(yōu)于對比方法,證明其特征具備強泛化性。


表1:LIBERO、VLABench 主流模型成功率對比,A1取得領先性能。

真實機器人:跨平臺穩(wěn)定執(zhí)行

在 Franka、AgiBot、WuJie-Arm、Dobot-Arm 四款機械臂上,A?完成放杯子、擺水果、撿膠水、擦桌子、疊積木等一系列日常操作,平均成功率達到56.7%,明顯高于 π?與 π?.5。尤其在小樣本學習場景下,A?能快速適應新任務,表現(xiàn)出極強的實用潛力。

表2:真機多平臺結果表

RoboChallenge:開源模型登頂

在包含 30 個復雜真機任務的 RoboChallenge 上,A?在完全開源、無閉源數(shù)據(jù)的條件下,取得 29.00% 的平均成功率,超過 π?、X-VLA、RDT-1B 等一眾開源模型,證明開源路線同樣可以做到頂尖水平。


表3:RoboChallenge 基準結果表

效率表現(xiàn):延遲與計算量雙降

在最優(yōu)配置下,A?-FM 單回合推理時間從 37.8 秒降至 10.5 秒,降幅達 72.3%;A?-MLP最多可減少 76.6% 的主干計算,依舊保持 92% 以上的成功率;在真機 AgiBot 上,模型計算量降低 84.6%,操作精度幾乎沒有下降,真正實現(xiàn) “低成本、高可用”。

表4、5:自適應早停效率表



行為可視化:更穩(wěn)定、更魯棒

從任務執(zhí)行視頻可以直觀看到:對比模型容易出現(xiàn)物體混淆、夾爪提前閉合、抓取偏移等問題;A?能穩(wěn)定識別目標,動作連貫,在長程任務中依然保持高可靠性。同時,動態(tài)推理可視化顯示:簡單移動在淺層即可退出,復雜操作才進入深層,算力分配高度智能。


圖2:任務執(zhí)行對比


圖3:真機動態(tài)推理可視化

05


局限與未來

A?打開的下一代VLA研究方向

盡管 A?在效率與性能上取得顯著突破,團隊仍清晰指出當前方案的改進空間,并為后續(xù)研究指明方向。

第一,當前預訓練依賴帶標注的可供性數(shù)據(jù),未來可引入無監(jiān)督或自監(jiān)督方法,從海量機器人視頻與交互數(shù)據(jù)中自動挖掘可供性先驗,進一步擴大數(shù)據(jù)來源。

第二,A?以模仿學習為基礎,在長程任務中仍存在累積誤差。后續(xù)可結合強化學習,通過環(huán)境實時反饋修正策略,提升復雜場景下的魯棒性與成功率。

第三,云邊推理與機械臂執(zhí)行之間的同步延遲,仍會影響操作流暢度。團隊計劃采用異步執(zhí)行、預測控制等方式,提升真機運行的順滑度。

第四,A?已成功部署在自研雙臂移動平臺,下一步將重點拓展雙臂協(xié)同、移動操作、非結構環(huán)境適應等能力,向更通用的家庭與工業(yè)機器人邁進。

06



A?第一次把 “高性能、高效率、全開源” 三件事同時做到位,用一套簡單優(yōu)雅的自適應截斷方案,把 VLA 模型從 “實驗室奢侈品” 拉到 “可落地實用款”。

從仿真到真機、從單臂到雙臂、從小樣本到泛化,A?證明:開源透明的研究,完全能打贏閉源方案。

全套代碼、權重、數(shù)據(jù) pipeline 已開放,機器人底層玩家可以直接沖了。

論文信息

標題:A?: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model

代碼:https://github.com/ATeam

項目頁:https://ATeam.com/en/research/68bc2cde8497d7f238dde690

鏈接:https://arxiv.org/abs/2604.05672

論文作者介紹:

張凱東,中山大學計算機學院2024級碩士,本科畢業(yè)于中山大學智能工程學院,師從梁小丹教授。研究方向為具身智能。


張健,穆罕默德·本·扎耶德人工智能大學(MBZUAI)計算機視覺博士生,研究方向為具身智能。分別于2023年和2020年從北京大學和合肥工業(yè)大學獲得碩士和學士學位。


許镕濤 MBZUAI研究員,無界智慧CTO。中科院自動化所多模態(tài)人工智能國重(前模識國重)博士, 在學期間曾獲得中科院院長獎、兩次IEEE旗艦會議最佳論文提名獎、國獎、北京市和中科院優(yōu)秀畢業(yè)生。華中科技大學數(shù)學與計算機雙學士學位。研究方向為具身智能與機器人,提出全球首個基于空間可供性操作大模型A0,曾在銀河通用共同主導全球首個具身導航大模型NaVid。在頂級學術會議和期刊(RSS,IRCA,IROS,CVPR,ICCV,ECCV,NeurIPS,ICML,ICLR,AAAI,EMNLP,MICCAI,TPAMI,TIP,TNNLS,TII,TIM,TMM,TCSVT,ISPRS)上共發(fā)表論文80余篇,其中以第一作者或通訊作者發(fā)表論文近40篇,含ESI高被引論文3篇,IEEE Trans封面文章1篇,發(fā)表8次Oral論文。擁有10余項發(fā)明專利,研究成果應用于YOLO系列,以及無界智慧、銀河通用、華為、Momenta等多款產品。


梁小丹是中山大學深圳校區(qū)的教授,同時也是穆罕默德·本·扎耶德人工智能大學(MBZUAI)計算機視覺系的副教授。她曾是卡內基梅隆大學的項目科學家,與邢教授合作。

她在視覺語言理解與生成及其在具身人工智能中的應用方面發(fā)表了 120 余篇前沿論文,這些論文發(fā)表于該領域最負盛名的期刊和會議,谷歌引用量超過 30000 次。

她定期擔任 ICCV、CVPR、NeurIPS、ICML、ICLR 和 AAAI 等會議的領域主席,并擔任 CVPR 2021 的教程主席、 CVPR 2023 的評審主席。她曾榮獲ACM中國最佳博士論文獎、CCF 最佳博士論文獎以及阿里巴巴達摩院青年學者獎。她的研究成果已被應用于多家知名人工智能公司(如 Deepseek、聯(lián)想、字節(jié)跳動和騰訊)的關鍵產品中。



未經(jīng)「AI科技評論」授權,嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
向太曝竇驍負債累累!8000萬身家被蠶食干凈,何超蓮弟媳凈身出戶

向太曝竇驍負債累累!8000萬身家被蠶食干凈,何超蓮弟媳凈身出戶

八卦王者
2026-04-18 16:44:13
碾壓珠穆朗瑪峰!火星上的山為何能長到2萬米?重力不是唯一原因

碾壓珠穆朗瑪峰!火星上的山為何能長到2萬米?重力不是唯一原因

半解智士
2026-04-18 18:44:07
美軍都沒敢做的事,日艦獨走穿航臺灣海峽,解放軍當場懲治日本人

美軍都沒敢做的事,日艦獨走穿航臺灣海峽,解放軍當場懲治日本人

星星會墜落
2026-04-18 18:38:26
四川省副省長徐芝文,已任西藏自治區(qū)黨委常委、宣傳部部長

四川省副省長徐芝文,已任西藏自治區(qū)黨委常委、宣傳部部長

新京報
2026-04-18 16:07:30
中央氣象臺4月18日18時發(fā)布強對流天氣藍色預警

中央氣象臺4月18日18時發(fā)布強對流天氣藍色預警

環(huán)球網(wǎng)資訊
2026-04-18 18:42:08
新西蘭軍機多次抵近中國周邊空域,嚴重干擾民航!中方:已作出堅決有力應對,并向新方提出嚴正交涉

新西蘭軍機多次抵近中國周邊空域,嚴重干擾民航!中方:已作出堅決有力應對,并向新方提出嚴正交涉

每日經(jīng)濟新聞
2026-04-17 18:37:58
前首富貝索斯56歲老婆要為愛生娃?稱和丈夫恩愛與錢無關,開35億游艇度假被狂噴!

前首富貝索斯56歲老婆要為愛生娃?稱和丈夫恩愛與錢無關,開35億游艇度假被狂噴!

英國報姐
2026-04-18 21:10:46
實地探訪B太幫扶涼山女孩家:新房已建成,當事人避談質疑

實地探訪B太幫扶涼山女孩家:新房已建成,當事人避談質疑

上游新聞
2026-04-17 17:43:30
選在《馬關條約》簽訂日!日本再闖臺海,百年野心,從未死心!

選在《馬關條約》簽訂日!日本再闖臺海,百年野心,從未死心!

大風新聞
2026-04-18 15:57:05
054A護衛(wèi)艦纏斗美艦20小時,邊航行邊緊急裝彈,一度準備開火擊沉

054A護衛(wèi)艦纏斗美艦20小時,邊航行邊緊急裝彈,一度準備開火擊沉

十三級臺階
2026-04-18 17:33:54
馬英九攤牌:兩岸開戰(zhàn)在所難免,臺成不了烏克蘭,只因有致命死穴

馬英九攤牌:兩岸開戰(zhàn)在所難免,臺成不了烏克蘭,只因有致命死穴

混沌錄
2026-04-16 17:31:13
“給你女兒買件好內衣吧!”中學女孩鍛煉視頻,網(wǎng)友都看不下去了

“給你女兒買件好內衣吧!”中學女孩鍛煉視頻,網(wǎng)友都看不下去了

妍妍教育日記
2026-03-30 18:38:24
湖人棄將19+6斷登全美熱搜!多次生斷庫里致湖媒后悔 年薪僅234萬

湖人棄將19+6斷登全美熱搜!多次生斷庫里致湖媒后悔 年薪僅234萬

顏小白的籃球夢
2026-04-18 13:23:57
華住會APP上面的差評,笑死我了,網(wǎng)友:雖表達很差勁但很有代入感

華住會APP上面的差評,笑死我了,網(wǎng)友:雖表達很差勁但很有代入感

另子維愛讀史
2026-04-18 19:35:28
勇士被太陽淘汰!看看媒體專家怎么說,罪魁禍首不是庫里,而是他

勇士被太陽淘汰!看看媒體專家怎么說,罪魁禍首不是庫里,而是他

翰飛觀事
2026-04-18 19:40:36
比失業(yè)更可怕的是工資倒退,深圳的工資已經(jīng)降到了10年前

比失業(yè)更可怕的是工資倒退,深圳的工資已經(jīng)降到了10年前

細說職場
2026-04-07 11:32:47
黎筍長子曾坦言:越南當年敢打中國有3個原因,結果發(fā)現(xiàn)全是錯覺

黎筍長子曾坦言:越南當年敢打中國有3個原因,結果發(fā)現(xiàn)全是錯覺

顧史
2026-04-18 09:17:19
中國貨輪阿拉伯海遭導彈襲擊!11名中國船員獲救,幕后黑手是誰?

中國貨輪阿拉伯海遭導彈襲擊!11名中國船員獲救,幕后黑手是誰?

影像溫度
2026-04-17 09:48:26
突發(fā),霍爾木茲開火了!

突發(fā),霍爾木茲開火了!

深度報
2026-04-18 21:53:34
39歲前國腳現(xiàn)狀:定居美國踢野球,早已財富自由,有2個可愛女兒

39歲前國腳現(xiàn)狀:定居美國踢野球,早已財富自由,有2個可愛女兒

攬星河的筆記
2026-04-14 15:18:30
2026-04-19 01:52:49
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7198文章數(shù) 20744關注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領袖發(fā)聲

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應潘宏彬去世,拒談喪禮細節(jié)

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

數(shù)碼
藝術
游戲
本地
公開課

數(shù)碼要聞

華為版的科技春晚來了!Pura 90/Pura X Max下周發(fā):陣容豪華

藝術要聞

波蘭美女奧拉·卡茲馬雷克,絕美風情讓人驚艷!

讓老粥批直呼“計劃有變”的歲獸代理人,到底是什么東西?

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版