无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

ATHENA將影響函數擴展到十億參數VLA,313×加速篩選高價值數據

0
分享至



作者團隊來自上海交通大學 RHOS李永露團隊、同濟大學 GEAI 實驗室與上海創智學院,長期關注具身智能領域中的世界模型、數據管理與因果理解等方向。

具身智能正在進入數據 scaling 時代。Vision-Language-Action(VLA)模型讓機器人可以從大規模示教數據(demonstrations)中學習更通用的操作策略。但對機器人 VLA 訓練來說,數據并不總是越多越好:低質量數據可能會拖累模型性能,而每一條 demonstration 都意味著昂貴的人力采集、機器人運行,以及云端存儲和訓練成本。

因此,一個問題變得愈發重要:云端數據池中的每條機器人示教軌跡,究竟應該如何量化其價值?

為回答這一問題,來自上海交通大學、同濟大學、上海創智學院、西安交通大學等機構的研究團隊提出了 ATHENA:一種面向十億參數級多任務 VLA 模型的數據篩選框架。該方法將影響函數(Influence Functions)擴展到十億參數級的多任務機器人 VLA 微調,從因果層面估計每條 demonstration 對下游機器人任務成功率的影響,進而篩選出高價值數據。



  • 論文標題:ATHENA: Accelerated Multi-Task Heterogeneous Influence Functions for Robot Data Curation
  • 論文地址:https://arxiv.org/abs/2606.16208
  • 項目主頁:
  • https://sii-quantum.github.io/ATHENA.github.io/

為什么需要評估機器人數據價值?

過去,機器人數據管理通常依賴人工經驗,或軌跡長度、動作平滑度等啟發式規則。這些方法衡量的大多是人類偏好的「數據外觀質量」,缺乏與下游閉環任務表現之間的因果關聯。

而影響函數提供了一種更原則化的思路:它試圖低成本估計加入或移除某個訓練樣本前后,在下游閉環任務上的模型性能變化。換言之,它可以用更加因果化的方式回答一個關鍵問題:「如果保留或移除這條 demonstration,機器人最終表現會變好還是變差?」

但傳統的影響函數往往面向小參數模型和單任務設計,難以直接用于十億參數級的多任務機器人 VLA 上。一方面,逐樣本梯度需要在巨大參數空間中計算和投影。對十億參數級的 VLA 模型而言,這會帶來不可接受的顯存和時間開銷。另一方面,多任務場景下如果只做全局排序,高梯度信號任務可能主導篩選結果,導致部分任務數據被過度丟棄。換句話說,ATHENA 要同時解決兩個問題:算得動,以及選得準。



ATHENA:把影響函數推進到

十億參數級別的多任務 VLA


ATHENA 的整體流程可以概括為:先用全量 demonstrations 微調 VLA,再執行評測收集模型的閉環評估軌跡(rollouts),隨后計算每條訓練 demonstration 對評測 rollouts 的因果影響,最后根據影響分數排序篩選,再重新聯合微調模型。



具體來說,ATHENA 做了兩件事:

第一,使用 Kronecker 結構壓縮逐樣本梯度,并通過隨機截斷加速稠密 Hessian 逆的近似。線性層權重梯度天然具有外積結構,ATHENA 不再顯式構造完整參數梯度,而是分別投影輸入激活和反向誤差,再組合成低維特征。同時通過隨機截斷近似保留主要低秩子空間以降低復雜的 Hessian 求逆計算,從而使得在十億級別 VLA 模型上的影響分數計算成為了可能。

第二,提出 Multitask Influence Interaction(MII)方案以避免多任務失衡問題。它分別估計每條 demonstration 對自身任務下游性能的局部影響(local-task influence),以及對其他任務下游性能的跨任務影響(cross-task influence),并結合兩類影響進行排序。從而避免全局多任務排序時偏向強梯度任務,讓篩選結果既保留自身任務內的關鍵樣本,也考慮跨任務的全局交互影響。

計算效率:從 8054.6 到 25.7 GPU 小時

影響函數過去難以應用到具身 VLA 的核心原因之一就是計算成本。ATHENA 在這部分取得了非常明確的系統收益。

在 50 任務、約 560.5K timesteps 的設置下,未加速的投影影響函數流程需要約 8054.6 GPU 小時。ATHENA 將總耗時降低到了 25.7 GPU 小時,實現約 313.4 倍加速,使影響函數能夠實際用于十億參數級多任務 VLA 的數據管理。



實驗結果:數據更少,反而更強

研究團隊使用 JAX 版本的 pi 系列 VLA 模型展開實驗。首先在 RoboTwin 2.0 仿真基準上,依照官方設置,包含 50 個任務和 2500 條 clean 配置下的 demonstrations,總計 9.34 小時、約 560.5K 個時間步,并考察 clean 和 randomized 兩種評測環境。

結果顯示,在保留 90% 的 demonstrations 后,ATHENA 在 clean / randomized 環境下 50 個任務的平均成功率分別達到 44.70% / 17.72%,高于全量數據微調的 43.42% / 15.44%。當只保留 50% demonstrations 時,ATHENA 仍然在 clean 環境中基本匹配全量訓練,在 randomized 環境中超過全量訓練,平均成功率達到 30.33%,高于全量訓練的 29.43%。

在真實機器人實驗中,研究團隊基于 ALOHA 真實機器人平臺設計了 6 個任務,包括簡單任務:Pick Fruits、Wipe Board;中等任務:Stack Bowls、Box Return;困難任務:Seal Stamping、Shelf Retrieval。數據集包含 720 條高質量 demonstrations,總計 6.9 小時,每個任務均進行 25 次隨機物體位置測試。



結果顯示,單任務單獨訓練的 Single-100% 方案的平均成功率為 46.7%,而全量數據聯合訓練的 Joint-100% 提升到 60.0%。但 ATHENA 使用 66.7% 數據即可達到 68.0% 平均成功率,超過 Single-100% 和 Joint-100% 的全量數據訓練,也明顯優于 Random-66.7% 和人工先驗偏好的 Oracle-66.7%。這說明,人類認為「看起來更優質」的數據,并不一定真正更有利于下游閉環策略表現。

可視化展示:



Pick Fruits



Wipe Board



Stack Bowls



Box Return



Seal Stamping



Shelf Retrieval

總結

ATHENA 回答了一個具身智能進入規模化階段后無法繞開的問題:怎么量化每條 demonstration 對下游閉環任務的價值?

它把影響函數從 24M 參數級別的小模型、單任務范式推進到十億參數 VLA、多任務聯合訓練范式;通過 Kronecker 梯度壓縮和隨機截斷近似,把 50 任務影響函數計算從 8054.6 GPU 小時降到 25.7 GPU 小時;通過 MII 多任務影響建模,讓數據管理既關注本任務貢獻,也兼顧跨任務影響。實驗結果表明,ATHENA 通過高效的數據管理方法,在使用「更少但更有價值的數據」的情況下,于仿真和真實機器人上都獲得了更高回報。

而隨著機器人數據規模日益增長,這種能夠從因果角度高效評估數據價值的方案將變得愈發重要。ATHENA 不再僅依賴人類偏好或經驗來判斷數據質量,而是從下游閉環任務價值出發評估每條 demonstration,為大規模機器人數據篩選提供了一種可行思路。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鬧劇升級!周茂強吃住都賴在朱樓村,大衣哥徹底被纏上甩不掉

鬧劇升級!周茂強吃住都賴在朱樓村,大衣哥徹底被纏上甩不掉

小椰的奶奶
2026-07-01 17:41:00
法爾克:奧利塞目前情況對拜仁有點危險,他近期不太可能續約

法爾克:奧利塞目前情況對拜仁有點危險,他近期不太可能續約

懂球帝
2026-07-02 01:40:07
特朗普參加開幕活動對剪彩剪刀愛不釋手,一度想揣兜里,最后選擇拿在手上直接帶走

特朗普參加開幕活動對剪彩剪刀愛不釋手,一度想揣兜里,最后選擇拿在手上直接帶走

大象新聞
2026-07-02 19:02:13
綠源電動車旗艦店被指擦邊營銷:多條視頻已刪除 客服致歉

綠源電動車旗艦店被指擦邊營銷:多條視頻已刪除 客服致歉

中國能源網
2026-06-30 18:35:06
不是洪明浦!美加墨世界杯“最差”主教練出爐,國足也曾被他坑過

不是洪明浦!美加墨世界杯“最差”主教練出爐,國足也曾被他坑過

籃球圈里的那些事
2026-07-01 19:30:10
日本被坑慘,高市早苗訪問印度3天,更像去找莫迪討要說法

日本被坑慘,高市早苗訪問印度3天,更像去找莫迪討要說法

縱擁千千晚星
2026-07-02 18:54:40
魯尼:圖赫爾足夠大膽,沒有讓薩卡固定首發

魯尼:圖赫爾足夠大膽,沒有讓薩卡固定首發

懂球帝
2026-07-02 03:05:09
圖片報:拜仁準備大幅加薪續約奧利塞,想與其簽約至2031年

圖片報:拜仁準備大幅加薪續約奧利塞,想與其簽約至2031年

懂球帝
2026-07-02 17:26:26
熱刺1億簽托納利,封死曼聯低價買人之路!5大中場目標預計都加價

熱刺1億簽托納利,封死曼聯低價買人之路!5大中場目標預計都加價

羅米的曼聯博客
2026-07-02 07:21:29
外媒公布網壇收入TOP10,鄭欽文以2460萬美元位列第7

外媒公布網壇收入TOP10,鄭欽文以2460萬美元位列第7

懂球帝
2026-07-02 14:57:10
大英唯一“皇阿瑪”,凱恩賽后將隊友聚集在一起舉行“朝會”

大英唯一“皇阿瑪”,凱恩賽后將隊友聚集在一起舉行“朝會”

懂球帝
2026-07-02 03:37:07
收評:滬指跌逾2%,券商、保險板塊走低,半導體板塊大幅下挫

收評:滬指跌逾2%,券商、保險板塊走低,半導體板塊大幅下挫

證券時報
2026-07-02 15:53:03
彈劾大戲開鑼,馬科斯老巢被圍,軍隊紅色警戒,莎拉沒按套路出牌

彈劾大戲開鑼,馬科斯老巢被圍,軍隊紅色警戒,莎拉沒按套路出牌

風笛悠揚聲
2026-07-02 12:20:20
廣東深圳一大型LED幕墻上播放“一臺空調”,“空調”設定為制冷16°C,且扇葉還不停在上下掃風,網友:在開風扇和開空調之間選擇了開玩笑

廣東深圳一大型LED幕墻上播放“一臺空調”,“空調”設定為制冷16°C,且扇葉還不停在上下掃風,網友:在開風扇和開空調之間選擇了開玩笑

臺州交通廣播
2026-07-02 13:35:50
“奶茶袋子裝大疆!”初三女孩收禮變臉被罵,面相學果然權威!

“奶茶袋子裝大疆!”初三女孩收禮變臉被罵,面相學果然權威!

林林先生
2026-06-30 09:20:03
20 元勾走女教師,10 年睡 1242 個中國女孩:洋垃圾的底氣是誰給的?

20 元勾走女教師,10 年睡 1242 個中國女孩:洋垃圾的底氣是誰給的?

石辰搞笑日常
2026-06-14 10:25:00
我,東北老人,19年花53萬在廣東徐聞買海景房養老,如今后悔不已

我,東北老人,19年花53萬在廣東徐聞買海景房養老,如今后悔不已

人間百態大全
2026-07-02 06:50:03
剛剛!上海多區預警!局部大雨到暴雨…首個臺風即將登陸

剛剛!上海多區預警!局部大雨到暴雨…首個臺風即將登陸

新浪財經
2026-07-02 18:07:28
廣州32歲程序員在家猝死,最新進展:家屬就“不合理加班”起訴涉事公司,索賠10萬元;公司曾支付“人道主義”撫恤金,但未獲家屬認可

廣州32歲程序員在家猝死,最新進展:家屬就“不合理加班”起訴涉事公司,索賠10萬元;公司曾支付“人道主義”撫恤金,但未獲家屬認可

大風新聞
2026-07-02 18:03:03
優必選周劍:不想單純做個性愛機器人

優必選周劍:不想單純做個性愛機器人

藍鯊財經社
2026-07-01 11:58:36
2026-07-02 20:15:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13419文章數 142686關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

患罕見病被背進考場男生考出643分 想報考中醫藥專業

頭條要聞

患罕見病被背進考場男生考出643分 想報考中醫藥專業

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

小鵬MONA L03 智能化水平拉滿 還有玩法多樣的巧思大空間

態度原創

教育
親子
藝術
房產
公開課

教育要聞

CD?C=57,求:C+D=?

親子要聞

分年齡段選購兒童被子指南:不同成長階段核心需求與選型方向梳理

藝術要聞

元代高僧寫的一卷行書,仙氣飄飄勝趙孟頫!

房產要聞

稀缺預警!海岸線200米+限墅令下,海南「絕版硬通貨」來了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版