網易首頁 > 網易號 > 正文申請入駐

ATHENA將影響函數擴展到十億參數VLA，313×加速篩選高價值數據

2026-07-02 18:18:44　來源: 機器之心Pro

天津舉報

分享至

作者團隊來自上海交通大學 RHOS李永露團隊、同濟大學 GEAI 實驗室與上海創智學院，長期關注具身智能領域中的世界模型、數據管理與因果理解等方向。

具身智能正在進入數據 scaling 時代。Vision-Language-Action（VLA）模型讓機器人可以從大規模示教數據（demonstrations）中學習更通用的操作策略。但對機器人 VLA 訓練來說，數據并不總是越多越好：低質量數據可能會拖累模型性能，而每一條 demonstration 都意味著昂貴的人力采集、機器人運行，以及云端存儲和訓練成本。

因此，一個問題變得愈發重要：云端數據池中的每條機器人示教軌跡，究竟應該如何量化其價值？

為回答這一問題，來自上海交通大學、同濟大學、上海創智學院、西安交通大學等機構的研究團隊提出了 ATHENA：一種面向十億參數級多任務 VLA 模型的數據篩選框架。該方法將影響函數（Influence Functions）擴展到十億參數級的多任務機器人 VLA 微調，從因果層面估計每條 demonstration 對下游機器人任務成功率的影響，進而篩選出高價值數據。

論文標題：ATHENA: Accelerated Multi-Task Heterogeneous Influence Functions for Robot Data Curation
論文地址：https://arxiv.org/abs/2606.16208
項目主頁：
https://sii-quantum.github.io/ATHENA.github.io/

為什么需要評估機器人數據價值？

過去，機器人數據管理通常依賴人工經驗，或軌跡長度、動作平滑度等啟發式規則。這些方法衡量的大多是人類偏好的「數據外觀質量」，缺乏與下游閉環任務表現之間的因果關聯。

而影響函數提供了一種更原則化的思路：它試圖低成本估計加入或移除某個訓練樣本前后，在下游閉環任務上的模型性能變化。換言之，它可以用更加因果化的方式回答一個關鍵問題：「如果保留或移除這條 demonstration，機器人最終表現會變好還是變差？」

但傳統的影響函數往往面向小參數模型和單任務設計，難以直接用于十億參數級的多任務機器人 VLA 上。一方面，逐樣本梯度需要在巨大參數空間中計算和投影。對十億參數級的 VLA 模型而言，這會帶來不可接受的顯存和時間開銷。另一方面，多任務場景下如果只做全局排序，高梯度信號任務可能主導篩選結果，導致部分任務數據被過度丟棄。換句話說，ATHENA 要同時解決兩個問題：算得動，以及選得準。

ATHENA：把影響函數推進到

十億參數級別的多任務 VLA

ATHENA 的整體流程可以概括為：先用全量 demonstrations 微調 VLA，再執行評測收集模型的閉環評估軌跡（rollouts），隨后計算每條訓練 demonstration 對評測 rollouts 的因果影響，最后根據影響分數排序篩選，再重新聯合微調模型。

具體來說，ATHENA 做了兩件事：

第一，使用 Kronecker 結構壓縮逐樣本梯度，并通過隨機截斷加速稠密 Hessian 逆的近似。線性層權重梯度天然具有外積結構，ATHENA 不再顯式構造完整參數梯度，而是分別投影輸入激活和反向誤差，再組合成低維特征。同時通過隨機截斷近似保留主要低秩子空間以降低復雜的 Hessian 求逆計算，從而使得在十億級別 VLA 模型上的影響分數計算成為了可能。

第二，提出 Multitask Influence Interaction（MII）方案以避免多任務失衡問題。它分別估計每條 demonstration 對自身任務下游性能的局部影響（local-task influence），以及對其他任務下游性能的跨任務影響（cross-task influence），并結合兩類影響進行排序。從而避免全局多任務排序時偏向強梯度任務，讓篩選結果既保留自身任務內的關鍵樣本，也考慮跨任務的全局交互影響。

計算效率：從 8054.6 到 25.7 GPU 小時

影響函數過去難以應用到具身 VLA 的核心原因之一就是計算成本。ATHENA 在這部分取得了非常明確的系統收益。

在 50 任務、約 560.5K timesteps 的設置下，未加速的投影影響函數流程需要約 8054.6 GPU 小時。ATHENA 將總耗時降低到了 25.7 GPU 小時，實現約 313.4 倍加速，使影響函數能夠實際用于十億參數級多任務 VLA 的數據管理。

實驗結果：數據更少，反而更強

研究團隊使用 JAX 版本的 pi 系列 VLA 模型展開實驗。首先在 RoboTwin 2.0 仿真基準上，依照官方設置，包含 50 個任務和 2500 條 clean 配置下的 demonstrations，總計 9.34 小時、約 560.5K 個時間步，并考察 clean 和 randomized 兩種評測環境。

結果顯示，在保留 90% 的 demonstrations 后，ATHENA 在 clean / randomized 環境下 50 個任務的平均成功率分別達到 44.70% / 17.72%，高于全量數據微調的 43.42% / 15.44%。當只保留 50% demonstrations 時，ATHENA 仍然在 clean 環境中基本匹配全量訓練，在 randomized 環境中超過全量訓練，平均成功率達到 30.33%，高于全量訓練的 29.43%。

在真實機器人實驗中，研究團隊基于 ALOHA 真實機器人平臺設計了 6 個任務，包括簡單任務：Pick Fruits、Wipe Board；中等任務：Stack Bowls、Box Return；困難任務：Seal Stamping、Shelf Retrieval。數據集包含 720 條高質量 demonstrations，總計 6.9 小時，每個任務均進行 25 次隨機物體位置測試。

結果顯示，單任務單獨訓練的 Single-100% 方案的平均成功率為 46.7%，而全量數據聯合訓練的 Joint-100% 提升到 60.0%。但 ATHENA 使用 66.7% 數據即可達到 68.0% 平均成功率，超過 Single-100% 和 Joint-100% 的全量數據訓練，也明顯優于 Random-66.7% 和人工先驗偏好的 Oracle-66.7%。這說明，人類認為「看起來更優質」的數據，并不一定真正更有利于下游閉環策略表現。

可視化展示：

Pick Fruits

Wipe Board

Stack Bowls

Box Return

Seal Stamping

Shelf Retrieval

總結

ATHENA 回答了一個具身智能進入規模化階段后無法繞開的問題：怎么量化每條 demonstration 對下游閉環任務的價值？

它把影響函數從 24M 參數級別的小模型、單任務范式推進到十億參數 VLA、多任務聯合訓練范式；通過 Kronecker 梯度壓縮和隨機截斷近似，把 50 任務影響函數計算從 8054.6 GPU 小時降到 25.7 GPU 小時；通過 MII 多任務影響建模，讓數據管理既關注本任務貢獻，也兼顧跨任務影響。實驗結果表明，ATHENA 通過高效的數據管理方法，在使用「更少但更有價值的數據」的情況下，于仿真和真實機器人上都獲得了更高回報。

而隨著機器人數據規模日益增長，這種能夠從因果角度高效評估數據價值的方案將變得愈發重要。ATHENA 不再僅依賴人類偏好或經驗來判斷數據質量，而是從下游閉環任務價值出發評估每條 demonstration，為大規模機器人數據篩選提供了一種可行思路。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.