无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

讓機器人行動更有依據:復旦等提出 GuidedVLA,提升 VLA 可控可解釋能力

0
分享至


GuidedVLA:以目標、階段和空間約束,重塑 VLA 動作生成過程。

作者丨鄭佳美

編輯丨馬曉寧

機器人要進入更復雜的真實環境,真正的難點已經超出“能不能完成一個動作”。

更關鍵的問題是:當桌面變得雜亂、光照發生變化、任務步驟變長,或者目標物體變得透明、難以定位時,機器人能否穩定判斷自己該看哪里、該做哪一步、空間位置是否準確。

這也是視覺-語言-動作模型(VLA)正在面對的核心挑戰。VLA 可以讓機器人根據圖像觀測和語言指令生成動作,但在很多端到端訓練框架中,動作生成過程仍然高度隱式。模型給出了動作,卻很難解釋它依賴了哪些線索。

對真實機器人來說,可控可解釋已經成為走向復雜任務的重要基礎。只有知道機器人為什么這樣行動,研究者和工程團隊才更容易診斷失敗、改進模型,并把系統帶到更多變化場景中。

圍繞這一問題,復旦大學可信具身智能研究院聯合上海交通大學、香港大學 OpenDriveLab 等機構提出了 GuidedVLA。該工作已被 Robotics: Science and Systems(RSS)2026 接收,并開放了論文、項目主頁、代碼、模型權重和數據集。

GuidedVLA 的核心思路可以概括為一句話:在 VLA 的動作生成中加入顯式引導,把任務相關因素拆成更清晰、更可檢查的分工。


01


機器人為什么需要“有依據地行動”

過去幾年,VLA 成為具身智能研究中的重要路線。它把視覺理解、語言指令和動作生成連接起來:機器人看到環境,理解任務,再輸出下一步動作。

這條路線的優勢很明顯。模型結構更統一,訓練方式更簡潔,也更容易吸收視覺語言模型中的知識。但它也帶來一個現實問題:動作解碼器往往需要自己從數據中學習哪些因素真正影響任務成功。

在固定環境中,這種方式可能已經足夠。但真實機器人任務很少如此理想。一個水果旁邊可能多出干擾物;同一個杯子可能因為光照改變而外觀不同;長程任務中,機器人需要知道自己已經完成了抓取,下一步應該移動還是放置;涉及按壓、插入、疊放等操作時,二維圖像中的語義理解還不夠,空間幾何也會直接影響成敗。

換句話說,機器人在行動前至少要回答三個基礎問題:

  • 目標是誰?

  • 現在做到哪一步?

  • 空間位置準不準?

GuidedVLA 正是圍繞這三個問題展開。

02


GuidedVLA:把動作生成拆成三類可檢查分工

GuidedVLA 延續已有 VLA 框架,并在動作解碼器中指定部分注意力頭,讓它們分別關注三類任務相關因素:目標、步驟和空間。


第一類是 Object Head,負責目標定位。它讓模型在生成動作時更穩定地關注任務相關物體區域,例如要抓取的物體、要放置的位置,減少背景和干擾物帶來的影響。對雜亂桌面、小目標、透明物體等任務來說,看準目標本身就是成功的一半。

第二類是 Skill Head,負責識別任務階段。真實機器人任務往往包含多個階段:先抓取,再移動,再放置;先清掃,再收集,再倒入托盤。如果模型不知道當前處在哪個階段,就容易提前跳步,或在最后階段失敗。Skill Head 的作用,是讓動作生成過程對任務進度更敏感。

第三類是 Depth Head,負責補充空間幾何。很多操作失敗的原因,常常不在物體類別識別,而在高度、距離、插入角度、接觸位置不夠準確。Depth Head 通過接入凍結深度編碼器的特征,讓特定注意力頭處理更明確的 3D 幾何信息。

這三類分工讓 GuidedVLA 的可解釋性更具體:研究者除了看到一個動作結果,還能進一步觀察模型是否看到了目標、是否理解當前階段、是否利用了空間線索。

03


在已有 VLA 上加入可插拔引導

對已有 VLA 進行改造時,一個關鍵問題是:新增引導會不會破壞原模型已經學到的能力?

GuidedVLA 采用了類似 ControlNet 的殘差適配思路。它保留原有的主注意力分支,同時新增 factor-specific 控制分支,再通過 zero-initialized projection 與主分支融合。直觀來說,新分支在訓練初期不會直接擾動原模型,隨著訓練推進,再逐步把目標、步驟、空間等任務相關信息注入動作解碼器。

這使 GuidedVLA 更像是在已有 VLA 上增加一層可指定接口,無需從零開始重建系統。

為了降低標注成本,團隊還設計了自動因子標注流水線。物體掩碼由 Qwen3-VL 生成 point prompts,再用 SAM2 在視頻段中傳播;技能標簽由 Qwen3-VL 根據階段描述和技能列表生成;深度引導則直接使用凍結深度編碼器特征,不需要人工深度標注。

論文中給出的效率數字也很直觀:92% 的 episodes 無需人工修正;標注 50 個 episodes 時,自動流水線約需 4 分鐘,而純人工約需 43.5 分鐘。

04


從仿真基準到真實機器人

GuidedVLA 的實驗覆蓋仿真基準和真實機器人平臺。

在 LIBERO-Plus 上,研究團隊評估了模型在相機視角、機器人初態、語言變化、光照、背景紋理、傳感器噪聲、物體布局等 7 類擾動下的表現。π0 基線總成功率為 68.2;加入三類分工后的 GuidedVLA 達到 75.4。

更值得注意的是,單類分工的優勢和任務類型基本對應:Object Head 在物體相關任務上更強,Skill Head 在目標/階段相關任務上更強,Depth Head 在空間相關任務上更強。這說明這些分工的作用超出了簡單增加模型參數,更體現在不同類型問題上的針對性。

在 RoboTwin 2.0 上,GuidedVLA 在 8 個隨機化、未見設置的操作任務中,將 π0 平均成功率從 77.38% 提升到 90.63%。例如,Click Bell 需要精確控制 Z 軸,Depth Head 將成功率從 35% 提升到 63%;Beat Hammer Block 需要高度對齊,成功率從 78% 提升到 96%;Lift Pot 涉及嚴格的抓取、穩定和抬起序列,Skill Head 在該任務上取得單頭最佳表現。


真實機器人實驗覆蓋兩個雙臂平臺:ALOHA AgileX 和 PSI-Bot RealMan。前者包括水果蔬菜分揀、疊碗放架、清潔桌面等家庭任務;后者包括將燒杯放入加熱套、套疊燒杯、將燒杯放置到加熱設置上等實驗室操作任務。論文特別說明,這些實驗室任務聚焦透明剛性物體和緊幾何約束帶來的操控挑戰,并不評估完整安全關鍵化學流程。

每個任務和模型進行 20 次試驗。結果顯示,在三類設置下,GuidedVLA 均優于 Base Policy:

  • In-Domain average:Base Policy 55.8%,GuidedVLA 75.8%。

  • Scene average:Base Policy 44.2%,GuidedVLA 67.5%,相對提升約 52.7%。

  • Lighting average:Base Policy 57.5%,GuidedVLA 79.2%。


05


可解釋性落到數字上

GuidedVLA 進一步驗證了一個關鍵問題:這些可解釋分工,是否真的和任務成功相關?

論文從目標、步驟、空間三類因素分別分析。結果顯示,當 Object Head 落在目標區域內的注意力比例從 0.25 增加到 1.0,成功率從 61.3% 提升到 77.4%;當 Skill Head 的技能識別準確率提高,成功率從 66.2% 提升到 77.7%;當 Depth Head 中真實深度特征比例從 0 增加到 1.0,成功率從 15.0% 提升到 76.2%。


這組分析說明,GuidedVLA 的價值既體現在最終分數提升,也體現在它把“為什么能做得更好”拆成了可觀察的中間因素。

對機器人系統來說,這一點很重要。真實環境中的失敗往往由多種原因共同造成:可能是目標定位不準,可能是任務階段錯亂,也可能是空間估計不夠精確。只有把這些因素拆開,系統才更容易被診斷和持續改進。

06


為什么這項工作值得關注

對具身智能來說,模型能力提升很重要,可控可解釋同樣是走向真實任務的基礎能力。

GuidedVLA 給出的啟發是:把任務中真正關鍵的因素顯式納入訓練和結構設計,可以減少動作解碼器對隱式學習的單一依賴。目標、步驟、空間這三類因素并不復雜,卻覆蓋了許多機器人操作任務中最常見的失敗來源。

從研究角度看,這為 VLA 的動作生成提供了一種更清晰的分析入口。從工程角度看,它也讓后續排查和迭代更有抓手:機器人沒有完成任務時,研究者可以進一步判斷問題出在目標定位、階段理解,還是空間幾何。

這項工作給出了一條務實路線:讓機器人不僅做出動作,也讓行動過程更有依據。

項目資源

  • 論文:GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization

  • 會議:Robotics: Science and Systems(RSS)2026

  • arXiv:https://arxiv.org/abs/2605.12369

  • 項目主頁:https://guidedvla.github.io/project_page/

  • 代碼:https://github.com/GuidedVLA/GuidedVLA

  • 模型權重:https://huggingface.co/ybwowen/pi0-libero-object-depth-skill

  • 數據集:https://huggingface.co/datasets/ybwowen/libero

  • 作者:Xiaosong Jia, Bowen Yang, Zuhao Ge, Xian Nie, Yuchen Zhou, Cunxin Fan, Yufeng Li, Yilin Chai, Chao Jing, Zijian Liang, Qingwen Bu, Haidong Cao, Chao Wu, Qifeng Li, Zhenjie Yang, Chenhe Zhang, Hongyang Li, Zuxuan Wu, Junchi Yan, Yu-Gang Jiang

  • 機構:Institute of Trustworthy Embodied AI (TEAI), Fudan University;Shanghai Key Laboratory of Multimodal Embodied AI;Shanghai Jiao Tong University;OpenDriveLab, The University of Hong Kong

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女子考編第一被遞補,維權后崗位直接取消!黑龍江:審核人員失誤

女子考編第一被遞補,維權后崗位直接取消!黑龍江:審核人員失誤

聽心堂
2026-06-13 22:26:26
中國人保集團原黨委委員、副總裁俞小平被查

中國人保集團原黨委委員、副總裁俞小平被查

澎湃新聞
2026-06-13 18:58:26
制裁不到48小時,菲律賓開始內訌:軍方公開站隊,并選擇對抗中國

制裁不到48小時,菲律賓開始內訌:軍方公開站隊,并選擇對抗中國

銘記歷史呀
2026-06-13 16:02:30
中國不需要也不可能復制SpaceX

中國不需要也不可能復制SpaceX

大象新聞
2026-06-13 15:33:12
嬰兒剛滿月被“保姆”抱走?警方沖進火車緊急攔截 對方竟是親奶奶:要把孩子帶回貴州老家

嬰兒剛滿月被“保姆”抱走?警方沖進火車緊急攔截 對方竟是親奶奶:要把孩子帶回貴州老家

閃電新聞
2026-06-13 19:49:12
惡劣!韓國美女博主自拍,墨西哥球迷做拉眼角動作,身份已被挖出

惡劣!韓國美女博主自拍,墨西哥球迷做拉眼角動作,身份已被挖出

風過鄉
2026-06-13 20:03:49
演都不演了!楊振寧離世8月,翁帆突傳新消息,懷孕傳聞真相大白

演都不演了!楊振寧離世8月,翁帆突傳新消息,懷孕傳聞真相大白

娛樂的硬糖吖
2026-06-13 20:34:48
A股,重大調整!就在下周一

A股,重大調整!就在下周一

證券時報
2026-06-13 22:02:33
全球90%都是日本產?竟無一國成功復刻,一旦斷供我國該如何應對

全球90%都是日本產?竟無一國成功復刻,一旦斷供我國該如何應對

金錯刀
2026-06-12 18:22:07
正式退出,官宣離隊,王俊杰:主帥對我意見大,沒能扮演重要角色

正式退出,官宣離隊,王俊杰:主帥對我意見大,沒能扮演重要角色

童叔不飆車
2026-06-14 00:55:00
河南一國企領導疑值班期間在辦公室飲酒,被紀委人員突擊檢查?河南省國資委回應

河南一國企領導疑值班期間在辦公室飲酒,被紀委人員突擊檢查?河南省國資委回應

極目新聞
2026-06-13 20:47:12
隨著無錫1-0,宿遷3-0,泰州1-0,蘇超最新積分榜出爐

隨著無錫1-0,宿遷3-0,泰州1-0,蘇超最新積分榜出爐

側身凌空斬
2026-06-13 21:43:43
“一天四次誰受得了呀”,丈夫需求太旺盛,妻子無法忍受將其毒死

“一天四次誰受得了呀”,丈夫需求太旺盛,妻子無法忍受將其毒死

易玄
2026-06-13 19:17:27
印度突破人類底線!男子和岳母4年亂倫

印度突破人類底線!男子和岳母4年亂倫

歲月有情1314
2026-06-14 02:31:50
“寶媽”回鄉考編排名第一,沒等來入職通知卻被別人遞補,多次維權后崗位直接取消;相關部門立案調查

“寶媽”回鄉考編排名第一,沒等來入職通知卻被別人遞補,多次維權后崗位直接取消;相關部門立案調查

大風新聞
2026-06-13 18:34:21
特朗普:美伊協議計劃于周日簽署 霍爾木茲海峽隨后立即開放

特朗普:美伊協議計劃于周日簽署 霍爾木茲海峽隨后立即開放

財聯社
2026-06-14 02:40:11
貪官末日來了!中央反腐新規已落地,無論在職退休一律終身追責

貪官末日來了!中央反腐新規已落地,無論在職退休一律終身追責

細說職場
2026-06-13 12:04:14
國際足聯主席一句玩笑話引意大利人不滿,意體育部長:我想打電話聽他解釋

國際足聯主席一句玩笑話引意大利人不滿,意體育部長:我想打電話聽他解釋

環球網資訊
2026-06-13 19:11:01
曇花六現!張雪機車奪賽季第6冠 德比斯最后一圈反超+逆轉絕殺

曇花六現!張雪機車奪賽季第6冠 德比斯最后一圈反超+逆轉絕殺

念洲
2026-06-13 20:33:46
中方通告全球,馬尼拉的回應來了,菲反對黨:拆除所有中方建筑

中方通告全球,馬尼拉的回應來了,菲反對黨:拆除所有中方建筑

共工之錨
2026-06-14 01:40:45
2026-06-14 06:19:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7372文章數 20757關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

頭條要聞

特朗普:美伊協議計劃周日簽署 如不順利還有終極手段

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

健康
手機
藝術
家居
公開課

老人、小孩、孕婦,吃粽子有啥風險

手機要聞

比華為三折疊還稀缺!iPhone Ultra國行備貨量不足:博主直言搶到賺到

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

家居要聞

空間微調 移形換境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版