原文作者:公眾號“計算機頂會大全”
原文鏈接:https://mp.weixin.qq.com/s/SbiHonAq0qYEP-sC-sB-bA
論文作者來自美團和北京航空航天大學
論文鏈接:
arXiv預印本 https://arxiv.org/abs/2602.06556
arXiv PDF https://arxiv.org/pdf/2602.06556.pdf
官方項目頁 https://zackhxn.github.io/LIBERO-X/
LIBERO-X: Robustness Litmus for Vision-Language-Action Models
![]()
過去,很多VLA模型在標準機器人基準上表現不錯,但這并不等于它們真的具備真實部署能力。真實環境中的機器人任務,往往會同時遇到物體位置變化、場景結構變化、未見物體、視覺干擾和語言指令改寫等問題。
這篇論文提出LIBERO-X,核心不是再造一個更強模型,而是構建一個更嚴格的VLA魯棒性評測基準,用來檢驗現有視覺語言動作模型到底穩不穩。方法上,LIBERO-X設計了五級遞進式測試協議,從局部空間擾動、大范圍空間擾動,到場景拓撲重構、視覺屬性變化和語義等價指令改寫,逐層增加真實部署難度。同時,它構建了更高多樣性的訓練數據,并通過多標簽診斷分析模型在交互類型、子任務數量、空間關系、物體屬性等維度上的失敗模式。
![]()
實驗結果顯示,多個代表性VLA模型在LIBERO-X上都會隨難度增加明顯掉點,尤其在拓撲變化、未見物體、語言改寫和多步長程任務中表現不穩定。這說明現有VLA并不是不會完成任務,而是缺少對復雜分布偏移的穩定泛化能力。
這篇工作的價值在于,它把VLA評測從平均成功率推進到魯棒性診斷。對具身智能研究來說,未來不僅要做更大的模型,也要做更真實的基準、更細的失敗分析和更強的空間泛化、語言接地與長程執行能力,這正是VLA實用化落地的重要發文切口。
雷峰網
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.