![]()
GuidedVLA:以目標、階段和空間約束,重塑 VLA 動作生成過程。
作者丨鄭佳美
編輯丨馬曉寧
機器人要進入更復雜的真實環境,真正的難點已經超出“能不能完成一個動作”。
更關鍵的問題是:當桌面變得雜亂、光照發生變化、任務步驟變長,或者目標物體變得透明、難以定位時,機器人能否穩定判斷自己該看哪里、該做哪一步、空間位置是否準確。
這也是視覺-語言-動作模型(VLA)正在面對的核心挑戰。VLA 可以讓機器人根據圖像觀測和語言指令生成動作,但在很多端到端訓練框架中,動作生成過程仍然高度隱式。模型給出了動作,卻很難解釋它依賴了哪些線索。
對真實機器人來說,可控可解釋已經成為走向復雜任務的重要基礎。只有知道機器人為什么這樣行動,研究者和工程團隊才更容易診斷失敗、改進模型,并把系統帶到更多變化場景中。
圍繞這一問題,復旦大學可信具身智能研究院聯合上海交通大學、香港大學 OpenDriveLab 等機構提出了 GuidedVLA。該工作已被 Robotics: Science and Systems(RSS)2026 接收,并開放了論文、項目主頁、代碼、模型權重和數據集。
GuidedVLA 的核心思路可以概括為一句話:在 VLA 的動作生成中加入顯式引導,把任務相關因素拆成更清晰、更可檢查的分工。
![]()
01
機器人為什么需要“有依據地行動”
過去幾年,VLA 成為具身智能研究中的重要路線。它把視覺理解、語言指令和動作生成連接起來:機器人看到環境,理解任務,再輸出下一步動作。
這條路線的優勢很明顯。模型結構更統一,訓練方式更簡潔,也更容易吸收視覺語言模型中的知識。但它也帶來一個現實問題:動作解碼器往往需要自己從數據中學習哪些因素真正影響任務成功。
在固定環境中,這種方式可能已經足夠。但真實機器人任務很少如此理想。一個水果旁邊可能多出干擾物;同一個杯子可能因為光照改變而外觀不同;長程任務中,機器人需要知道自己已經完成了抓取,下一步應該移動還是放置;涉及按壓、插入、疊放等操作時,二維圖像中的語義理解還不夠,空間幾何也會直接影響成敗。
換句話說,機器人在行動前至少要回答三個基礎問題:
目標是誰?
現在做到哪一步?
空間位置準不準?
GuidedVLA 正是圍繞這三個問題展開。
02
GuidedVLA:把動作生成拆成三類可檢查分工
GuidedVLA 延續已有 VLA 框架,并在動作解碼器中指定部分注意力頭,讓它們分別關注三類任務相關因素:目標、步驟和空間。
![]()
第一類是 Object Head,負責目標定位。它讓模型在生成動作時更穩定地關注任務相關物體區域,例如要抓取的物體、要放置的位置,減少背景和干擾物帶來的影響。對雜亂桌面、小目標、透明物體等任務來說,看準目標本身就是成功的一半。
第二類是 Skill Head,負責識別任務階段。真實機器人任務往往包含多個階段:先抓取,再移動,再放置;先清掃,再收集,再倒入托盤。如果模型不知道當前處在哪個階段,就容易提前跳步,或在最后階段失敗。Skill Head 的作用,是讓動作生成過程對任務進度更敏感。
第三類是 Depth Head,負責補充空間幾何。很多操作失敗的原因,常常不在物體類別識別,而在高度、距離、插入角度、接觸位置不夠準確。Depth Head 通過接入凍結深度編碼器的特征,讓特定注意力頭處理更明確的 3D 幾何信息。
這三類分工讓 GuidedVLA 的可解釋性更具體:研究者除了看到一個動作結果,還能進一步觀察模型是否看到了目標、是否理解當前階段、是否利用了空間線索。
03
在已有 VLA 上加入可插拔引導
對已有 VLA 進行改造時,一個關鍵問題是:新增引導會不會破壞原模型已經學到的能力?
GuidedVLA 采用了類似 ControlNet 的殘差適配思路。它保留原有的主注意力分支,同時新增 factor-specific 控制分支,再通過 zero-initialized projection 與主分支融合。直觀來說,新分支在訓練初期不會直接擾動原模型,隨著訓練推進,再逐步把目標、步驟、空間等任務相關信息注入動作解碼器。
這使 GuidedVLA 更像是在已有 VLA 上增加一層可指定接口,無需從零開始重建系統。
為了降低標注成本,團隊還設計了自動因子標注流水線。物體掩碼由 Qwen3-VL 生成 point prompts,再用 SAM2 在視頻段中傳播;技能標簽由 Qwen3-VL 根據階段描述和技能列表生成;深度引導則直接使用凍結深度編碼器特征,不需要人工深度標注。
論文中給出的效率數字也很直觀:92% 的 episodes 無需人工修正;標注 50 個 episodes 時,自動流水線約需 4 分鐘,而純人工約需 43.5 分鐘。
04
從仿真基準到真實機器人
GuidedVLA 的實驗覆蓋仿真基準和真實機器人平臺。
在 LIBERO-Plus 上,研究團隊評估了模型在相機視角、機器人初態、語言變化、光照、背景紋理、傳感器噪聲、物體布局等 7 類擾動下的表現。π0 基線總成功率為 68.2;加入三類分工后的 GuidedVLA 達到 75.4。
更值得注意的是,單類分工的優勢和任務類型基本對應:Object Head 在物體相關任務上更強,Skill Head 在目標/階段相關任務上更強,Depth Head 在空間相關任務上更強。這說明這些分工的作用超出了簡單增加模型參數,更體現在不同類型問題上的針對性。
在 RoboTwin 2.0 上,GuidedVLA 在 8 個隨機化、未見設置的操作任務中,將 π0 平均成功率從 77.38% 提升到 90.63%。例如,Click Bell 需要精確控制 Z 軸,Depth Head 將成功率從 35% 提升到 63%;Beat Hammer Block 需要高度對齊,成功率從 78% 提升到 96%;Lift Pot 涉及嚴格的抓取、穩定和抬起序列,Skill Head 在該任務上取得單頭最佳表現。
![]()
真實機器人實驗覆蓋兩個雙臂平臺:ALOHA AgileX 和 PSI-Bot RealMan。前者包括水果蔬菜分揀、疊碗放架、清潔桌面等家庭任務;后者包括將燒杯放入加熱套、套疊燒杯、將燒杯放置到加熱設置上等實驗室操作任務。論文特別說明,這些實驗室任務聚焦透明剛性物體和緊幾何約束帶來的操控挑戰,并不評估完整安全關鍵化學流程。
每個任務和模型進行 20 次試驗。結果顯示,在三類設置下,GuidedVLA 均優于 Base Policy:
In-Domain average:Base Policy 55.8%,GuidedVLA 75.8%。
Scene average:Base Policy 44.2%,GuidedVLA 67.5%,相對提升約 52.7%。
Lighting average:Base Policy 57.5%,GuidedVLA 79.2%。
![]()
05
可解釋性落到數字上
GuidedVLA 進一步驗證了一個關鍵問題:這些可解釋分工,是否真的和任務成功相關?
論文從目標、步驟、空間三類因素分別分析。結果顯示,當 Object Head 落在目標區域內的注意力比例從 0.25 增加到 1.0,成功率從 61.3% 提升到 77.4%;當 Skill Head 的技能識別準確率提高,成功率從 66.2% 提升到 77.7%;當 Depth Head 中真實深度特征比例從 0 增加到 1.0,成功率從 15.0% 提升到 76.2%。
![]()
這組分析說明,GuidedVLA 的價值既體現在最終分數提升,也體現在它把“為什么能做得更好”拆成了可觀察的中間因素。
對機器人系統來說,這一點很重要。真實環境中的失敗往往由多種原因共同造成:可能是目標定位不準,可能是任務階段錯亂,也可能是空間估計不夠精確。只有把這些因素拆開,系統才更容易被診斷和持續改進。
06
為什么這項工作值得關注
對具身智能來說,模型能力提升很重要,可控可解釋同樣是走向真實任務的基礎能力。
GuidedVLA 給出的啟發是:把任務中真正關鍵的因素顯式納入訓練和結構設計,可以減少動作解碼器對隱式學習的單一依賴。目標、步驟、空間這三類因素并不復雜,卻覆蓋了許多機器人操作任務中最常見的失敗來源。
從研究角度看,這為 VLA 的動作生成提供了一種更清晰的分析入口。從工程角度看,它也讓后續排查和迭代更有抓手:機器人沒有完成任務時,研究者可以進一步判斷問題出在目標定位、階段理解,還是空間幾何。
這項工作給出了一條務實路線:讓機器人不僅做出動作,也讓行動過程更有依據。
項目資源
論文:GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization
會議:Robotics: Science and Systems(RSS)2026
arXiv:https://arxiv.org/abs/2605.12369
項目主頁:https://guidedvla.github.io/project_page/
代碼:https://github.com/GuidedVLA/GuidedVLA
模型權重:https://huggingface.co/ybwowen/pi0-libero-object-depth-skill
數據集:https://huggingface.co/datasets/ybwowen/libero
作者:Xiaosong Jia, Bowen Yang, Zuhao Ge, Xian Nie, Yuchen Zhou, Cunxin Fan, Yufeng Li, Yilin Chai, Chao Jing, Zijian Liang, Qingwen Bu, Haidong Cao, Chao Wu, Qifeng Li, Zhenjie Yang, Chenhe Zhang, Hongyang Li, Zuxuan Wu, Junchi Yan, Yu-Gang Jiang
機構:Institute of Trustworthy Embodied AI (TEAI), Fudan University;Shanghai Key Laboratory of Multimodal Embodied AI;Shanghai Jiao Tong University;OpenDriveLab, The University of Hong Kong
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.