![]()
作者團隊來自上海交通大學 RHOS李永露團隊、同濟大學 GEAI 實驗室與上海創智學院,長期關注具身智能領域中的世界模型、數據管理與因果理解等方向。
具身智能正在進入數據 scaling 時代。Vision-Language-Action(VLA)模型讓機器人可以從大規模示教數據(demonstrations)中學習更通用的操作策略。但對機器人 VLA 訓練來說,數據并不總是越多越好:低質量數據可能會拖累模型性能,而每一條 demonstration 都意味著昂貴的人力采集、機器人運行,以及云端存儲和訓練成本。
因此,一個問題變得愈發重要:云端數據池中的每條機器人示教軌跡,究竟應該如何量化其價值?
為回答這一問題,來自上海交通大學、同濟大學、上海創智學院、西安交通大學等機構的研究團隊提出了 ATHENA:一種面向十億參數級多任務 VLA 模型的數據篩選框架。該方法將影響函數(Influence Functions)擴展到十億參數級的多任務機器人 VLA 微調,從因果層面估計每條 demonstration 對下游機器人任務成功率的影響,進而篩選出高價值數據。
![]()
- 論文標題:ATHENA: Accelerated Multi-Task Heterogeneous Influence Functions for Robot Data Curation
- 論文地址:https://arxiv.org/abs/2606.16208
- 項目主頁:
- https://sii-quantum.github.io/ATHENA.github.io/
為什么需要評估機器人數據價值?
過去,機器人數據管理通常依賴人工經驗,或軌跡長度、動作平滑度等啟發式規則。這些方法衡量的大多是人類偏好的「數據外觀質量」,缺乏與下游閉環任務表現之間的因果關聯。
而影響函數提供了一種更原則化的思路:它試圖低成本估計加入或移除某個訓練樣本前后,在下游閉環任務上的模型性能變化。換言之,它可以用更加因果化的方式回答一個關鍵問題:「如果保留或移除這條 demonstration,機器人最終表現會變好還是變差?」
但傳統的影響函數往往面向小參數模型和單任務設計,難以直接用于十億參數級的多任務機器人 VLA 上。一方面,逐樣本梯度需要在巨大參數空間中計算和投影。對十億參數級的 VLA 模型而言,這會帶來不可接受的顯存和時間開銷。另一方面,多任務場景下如果只做全局排序,高梯度信號任務可能主導篩選結果,導致部分任務數據被過度丟棄。換句話說,ATHENA 要同時解決兩個問題:算得動,以及選得準。
![]()
ATHENA:把影響函數推進到
十億參數級別的多任務 VLA
ATHENA 的整體流程可以概括為:先用全量 demonstrations 微調 VLA,再執行評測收集模型的閉環評估軌跡(rollouts),隨后計算每條訓練 demonstration 對評測 rollouts 的因果影響,最后根據影響分數排序篩選,再重新聯合微調模型。
![]()
具體來說,ATHENA 做了兩件事:
第一,使用 Kronecker 結構壓縮逐樣本梯度,并通過隨機截斷加速稠密 Hessian 逆的近似。線性層權重梯度天然具有外積結構,ATHENA 不再顯式構造完整參數梯度,而是分別投影輸入激活和反向誤差,再組合成低維特征。同時通過隨機截斷近似保留主要低秩子空間以降低復雜的 Hessian 求逆計算,從而使得在十億級別 VLA 模型上的影響分數計算成為了可能。
第二,提出 Multitask Influence Interaction(MII)方案以避免多任務失衡問題。它分別估計每條 demonstration 對自身任務下游性能的局部影響(local-task influence),以及對其他任務下游性能的跨任務影響(cross-task influence),并結合兩類影響進行排序。從而避免全局多任務排序時偏向強梯度任務,讓篩選結果既保留自身任務內的關鍵樣本,也考慮跨任務的全局交互影響。
計算效率:從 8054.6 到 25.7 GPU 小時
影響函數過去難以應用到具身 VLA 的核心原因之一就是計算成本。ATHENA 在這部分取得了非常明確的系統收益。
在 50 任務、約 560.5K timesteps 的設置下,未加速的投影影響函數流程需要約 8054.6 GPU 小時。ATHENA 將總耗時降低到了 25.7 GPU 小時,實現約 313.4 倍加速,使影響函數能夠實際用于十億參數級多任務 VLA 的數據管理。
![]()
實驗結果:數據更少,反而更強
研究團隊使用 JAX 版本的 pi 系列 VLA 模型展開實驗。首先在 RoboTwin 2.0 仿真基準上,依照官方設置,包含 50 個任務和 2500 條 clean 配置下的 demonstrations,總計 9.34 小時、約 560.5K 個時間步,并考察 clean 和 randomized 兩種評測環境。
結果顯示,在保留 90% 的 demonstrations 后,ATHENA 在 clean / randomized 環境下 50 個任務的平均成功率分別達到 44.70% / 17.72%,高于全量數據微調的 43.42% / 15.44%。當只保留 50% demonstrations 時,ATHENA 仍然在 clean 環境中基本匹配全量訓練,在 randomized 環境中超過全量訓練,平均成功率達到 30.33%,高于全量訓練的 29.43%。
在真實機器人實驗中,研究團隊基于 ALOHA 真實機器人平臺設計了 6 個任務,包括簡單任務:Pick Fruits、Wipe Board;中等任務:Stack Bowls、Box Return;困難任務:Seal Stamping、Shelf Retrieval。數據集包含 720 條高質量 demonstrations,總計 6.9 小時,每個任務均進行 25 次隨機物體位置測試。
![]()
結果顯示,單任務單獨訓練的 Single-100% 方案的平均成功率為 46.7%,而全量數據聯合訓練的 Joint-100% 提升到 60.0%。但 ATHENA 使用 66.7% 數據即可達到 68.0% 平均成功率,超過 Single-100% 和 Joint-100% 的全量數據訓練,也明顯優于 Random-66.7% 和人工先驗偏好的 Oracle-66.7%。這說明,人類認為「看起來更優質」的數據,并不一定真正更有利于下游閉環策略表現。
可視化展示:
![]()
Pick Fruits
![]()
Wipe Board
![]()
Stack Bowls
![]()
Box Return
![]()
Seal Stamping
![]()
Shelf Retrieval
總結
ATHENA 回答了一個具身智能進入規模化階段后無法繞開的問題:怎么量化每條 demonstration 對下游閉環任務的價值?
它把影響函數從 24M 參數級別的小模型、單任務范式推進到十億參數 VLA、多任務聯合訓練范式;通過 Kronecker 梯度壓縮和隨機截斷近似,把 50 任務影響函數計算從 8054.6 GPU 小時降到 25.7 GPU 小時;通過 MII 多任務影響建模,讓數據管理既關注本任務貢獻,也兼顧跨任務影響。實驗結果表明,ATHENA 通過高效的數據管理方法,在使用「更少但更有價值的數據」的情況下,于仿真和真實機器人上都獲得了更高回報。
而隨著機器人數據規模日益增長,這種能夠從因果角度高效評估數據價值的方案將變得愈發重要。ATHENA 不再僅依賴人類偏好或經驗來判斷數據質量,而是從下游閉環任務價值出發評估每條 demonstration,為大規模機器人數據篩選提供了一種可行思路。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.