无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別「利用率崩潰」:GIPO開啟大模型強化學習高效訓練新方法

0
分享至



在現(xiàn)代強化學習系統(tǒng)(如訓練視覺語言動作模型 VLA 或大規(guī)模機器人控制策略)中,由于策略滯后(Policy Lag)導致數(shù)據(jù) Off-policy 現(xiàn)象已成為難以避免的常態(tài)。無論是在數(shù)據(jù)被反復復用迭代的同步更新中,還是在采樣與訓練解耦的分布式 Actor-Learner 異步架構下,存在數(shù)據(jù)與當前策略的脫節(jié)問題。特別是在具身真機場景下,由于物理采集緩慢且高度依賴歷史數(shù)據(jù)回放,這種滯后程度更是被推向了極端。



近期,來自樹根科技與三一集團團隊聯(lián)合提出了GIPO算法,在機器人操控及大語言 / 視覺動作模型(VLA)強化學習訓練中,GIPO 既顯著緩解了數(shù)據(jù)短缺導致的策略滯后痛點,又有效改善了 PPO 硬截斷引發(fā)的 “利用率崩潰(Utilization Collapse)” 問題。



  • GIPO 論文鏈接:https://arxiv.org/abs/2603.03955
  • 論文標題 1:GIPO: Gaussian Importance Sampling Policy Optimization
  • AcceRL 論文鏈接:https://arxiv.org/abs/2603.18464
  • 論文標題 2:AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

GIPO :用比例看問題,而不是用絕對差值看問題

核心公式















對數(shù)空間對稱性:一種優(yōu)雅的平衡







平滑性與非零梯度:拯救 “死樣本”



偏差 - 方差的 “帕累托旋鈕”









Advantage-Aware GIPO







理論基石:策略性能下界與有限樣本保證

代理目標的理論下界







有限樣本控制與穩(wěn)定性

在真實的 RL 訓練中,由于無法計算期望,只能從回放池中抽取有限的 Batch Size(假設為 N)來進行經(jīng)驗估計(Empirical Estimation):













實驗結果: 方差 - 偏差平衡性能和 7B VLA 工業(yè)落地

方差 - 偏差平衡性能帕累托最優(yōu)



分析結果展現(xiàn)了 GIPO 良好的方差 - 偏差平衡性:在嚴重滯后的場景(Case A, B)中,PPO 測算出的方差竟然是 0。但這根本不是因為 PPO 穩(wěn)定,而是因為其硬截斷機制將所有樣本直接判斷為 “越界”,導致100% 的樣本梯度死亡。沒有梯度,自然沒有方差,這等同于模型停止了學習。





圖 2:2x2 網(wǎng)格世界中的偏差 - 方差權衡。GIPO(虛線)真正定義了帕累托前沿(Pareto Frontier),而 PPO 在高滯后場景下完全停止了學習

工業(yè)級驗證規(guī)模

在當前的具身智能領域,受限于高昂的物理交互成本與長視野連續(xù)控制的復雜性,能將策略優(yōu)化算法直接部署到數(shù)十億參數(shù)模型上的研究并不多見。GIPO 團隊為了驗證其算法在真實世界擴展性(Scalability),投入了龐大的計算資源:模型基座使用了 7B 參數(shù)量的 OpenVLA-OFT 作為骨干網(wǎng)絡,整個評估過程耗費了超過10,000H200 GPU 小時,在 LIBERO 機器人多任務操作基準上,處理了超過 7.3 億次交互采樣。

為了評估算法對策略滯后的魯棒性,研究團隊設計了兩種數(shù)據(jù)場景,通過控制采樣器(Actors)與訓練器(Trainers)的比例來人為制造不同程度的數(shù)據(jù)滯后。新鮮場景(Fresh Regime):配置 10 個采樣器對 1 個訓練器(或類似高吞吐配置),數(shù)據(jù)收集快,回放池中的樣本非常接近當前策略。陳舊場景(Stale Regime):強制降低吞吐量(例如 1 個采樣器對 1 個訓練器),導致訓練器不得不反復咀嚼回放池中陳舊的歷史數(shù)據(jù),制造類似于真機場景的策略滯后。

如圖 3 所示,在新鮮場景下,GIPO、PPO 與 SAPO 均能取得不錯的表現(xiàn),GIPO 略占優(yōu)或持平。然而,一旦切換到陳舊場景,算法之間的性能差距就會被拉開。在面對陳舊數(shù)據(jù)時,PPO 的學習曲線往往在早期就陷入停滯,最終收斂到一個較低的平均回報水平。SAPO 雖然引入了軟門控,但在處理高滯后數(shù)據(jù)時,依然表現(xiàn)出較大的波動和次優(yōu)的樣本效率。而 GIPO 能更快逼近最優(yōu)成功率,展現(xiàn)出很強的抗滯后能力和穩(wěn)定性。



圖 3:LIBERO 機器人套件學習曲線。在 LIBERO-Spatial 和 LIBERO-10 等復雜任務中,GIPO 的優(yōu)勢被進一步放大,展現(xiàn)了在數(shù)十億參數(shù) VLA 任務中實戰(zhàn)價值

Metaworld 多種子實驗

在 MetaWorld Stale(陳舊數(shù)據(jù)環(huán)境)下,團隊對比了 8 種算法配置(包含優(yōu)勢感知變體),覆蓋了 10 個不同的機器人操控任務。為了消除隨機性干擾,每一個配置 5 個隨機種子,總共運行 400 個獨立的訓練實例。在統(tǒng)計指標 IQM(Interquartile Mean,分位數(shù)均值) 排名中,GIPO 展示出了非常大的優(yōu)勢,如下面的聚合排名表所示,GIPO 系列占據(jù)了前 6 名位置,其中 GIPO (1.0, 1.0) 平均歸一化得分(0.730)甚至達到了 PPO(0.180)的 4 倍之多。





GIPO 變體的 IQM 表現(xiàn)顯著高于 SAPO 與 PPO 基準。即便在策略滯后環(huán)境下,其展現(xiàn)出的成功率提升曲線依然保持著驚人的平滑度。同時,實驗結果有力地驗證了 “對數(shù)對稱性” 與 “優(yōu)勢感知” 可以兼容,而且相得益彰。GIPO 的數(shù)學框架可以輕松嵌入非對稱邏輯,同時維持其獨有的理論穩(wěn)定性上限。

值得注意的是,GIPO 的卓越性并不局限于應對滯后的 “救場”。在策略滯后輕微的新鮮場景下,GIPO 同樣展現(xiàn)出了優(yōu)良的性能上限。在涵蓋 10 個任務、總計 250 次獨立訓練運行的大規(guī)模 MetaWorld Fresh 實驗中,GIPO 依然保持了領先優(yōu)勢。如下表所示,即便是在通用配置下,GIPO 的 IQM(分位數(shù)均值)得分依然達到了 PPO 的兩倍以上。這意味著 GIPO 不僅能處理 “舊數(shù)據(jù)”,也能更好發(fā)揮 “新數(shù)據(jù)” 的價值,顯著提升了在線 RL 的學習效率。



大模型落地的 “穩(wěn)壓器”:GIPO 助推 AcceRL 登頂 SOTA



如何高效地進行數(shù)十億參數(shù)規(guī)模的視覺 - 語言 - 動作(VLA)模型的強化學習訓練是行業(yè)公認的難題。為此,團隊推出了AcceRL—— 首個專為 VLA 模型設計的全異步、解耦式強化學習與世界模型框架。

AcceRL 通過物理隔離訓練、推理與采樣流,打破了傳統(tǒng)框架中的同步屏障,并首次引入了 “即插即用” 的可訓練世界模型,實現(xiàn)了驚人的200 倍(20,000%)數(shù)據(jù)效率提升,然而,這種優(yōu)秀的工程性能對底層算法的穩(wěn)定性提出了更高要求,這正是 GIPO 大顯身手的舞臺。



為什么 AcceRL 選擇 GIPO?

AcceRL 通過物理隔離設計大幅提升了系統(tǒng)的吞吐量。然而,這種 “全異步” 的分布式架構是一把雙刃劍:它在消除硬件閑置、實現(xiàn)吞吐量超線性擴展的同時,不可避免地帶來了劇烈的策略滯后(Policy Lag)

在 AcceRL 的非阻塞管道中,訓練與采樣獨立進行,導致回放池中充斥著陳舊的 Off-policy 數(shù)據(jù)。實驗證明,在這種滯后場景下,標準 PPO 會頻繁觸發(fā)硬截斷機制,導致大量包含關鍵修正信號的樣本梯度直接歸零,淪為毫無貢獻的 “死樣本”,阻礙訓練效率。

GIPO 通過其標志性的平滑高斯信任權重,為 AcceRL 提供了一套具備數(shù)學保證的阻尼機制,使其能夠穩(wěn)健地消化這些陳舊樣本,成為了整個框架處理異步偏差的核心優(yōu)化引擎。此外 AcceRL 實現(xiàn)了利用世界模型想象生成強化學習訓練數(shù)據(jù)。雖然這些數(shù)據(jù)擴展了探索邊界,但也存在合成偏差。GIPO 利用對數(shù)空間對稱性,提取了這些想象數(shù)據(jù)中的改進信號,使得 “在想象中學習” 不再因梯度不穩(wěn)定而崩潰。

如下圖所示,在針對算法目標的消融實驗中,配備 GIPO 的系統(tǒng)表現(xiàn)出了驚人的學習速度。GIPO 在約 8,000 步時達到的性能水平,標準 PPO 需要耗費 60,000 步才能觸及。這意味著在相同的硬件環(huán)境下,GIPO 將樣本利用效率提升了整整 7.5 倍。



圖 4:GIPO 和 PPO 在 AcceRL 中效果對比

登頂 LIBERO

在 LIBERO 的長視野(Long-horizon)操控任務中,GIPO 助力 AcceRL 展示了優(yōu)秀的穩(wěn)定性。相比于對早期誤差敏感的傳統(tǒng)監(jiān)督微調(diào)(Success Rate 90.7%),AcceRL 在 GIPO 的支撐下實現(xiàn)了突破:在 LIBERO-Long 任務套件中,AcceRL 達成了99.1%的成功率。這種表現(xiàn)源于 GIPO 優(yōu)異的偏差 - 方差權衡,它確保了模型在執(zhí)行復雜多步動作時,能夠從輕微的擾動中恢復,維持了策略在長周期內(nèi)的連續(xù)性與穩(wěn)定性。

結語:算法美學與工程力量的共振

AcceRL 框架的成功,驗證了 GIPO 在大規(guī)模異步訓練中的底層基石作用。通過穩(wěn)健地處理異策略偏差,GIPO 突破了分布式系統(tǒng)的穩(wěn)定性瓶頸,為‘大規(guī)模 VLA + 異步 RL + 世界模型’這一架構提供了可靠的算法護航,并最終在 LIBERO 基準測試中取得了 SOTA 成績。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
騎士打進東決!米切爾也不會續(xù)約,哈登會留隊,卻淪為最大犧牲品

騎士打進東決!米切爾也不會續(xù)約,哈登會留隊,卻淪為最大犧牲品

你的籃球頻道
2026-05-18 13:12:44
特朗普發(fā)15張訪華照,美議員稱中國徹夜難眠

特朗普發(fā)15張訪華照,美議員稱中國徹夜難眠

熱點一觸即發(fā)
2026-05-17 12:12:56
天壇的“祈年殿”,為什么是全中國等級最高的“圓形”古建筑?

天壇的“祈年殿”,為什么是全中國等級最高的“圓形”古建筑?

良有方
2026-05-16 08:05:05
川崎工程師坦白:整個日本摩托圈,看到張雪倆字,心就咯噔一下

川崎工程師坦白:整個日本摩托圈,看到張雪倆字,心就咯噔一下

嘴角上翹的弧度
2026-04-11 07:02:09
3個人帶100個AI程序員,一個月燒掉130萬美元!OpenAI:錢我出

3個人帶100個AI程序員,一個月燒掉130萬美元!OpenAI:錢我出

新智元
2026-05-17 12:55:33
最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
廣廈踩場G2!高層督陣很重視,王博談孫銘徽傷勢,展望深圳強調(diào)拼

廣廈踩場G2!高層督陣很重視,王博談孫銘徽傷勢,展望深圳強調(diào)拼

籃球資訊達人
2026-05-18 13:05:49
你會愛我嗎:不是問你,是問我自己

你會愛我嗎:不是問你,是問我自己

疾跑的小蝸牛
2026-05-17 20:14:06
日媒:日本高官傲慢來華,高調(diào)吹捧高市,中日零交流,當天就走了

日媒:日本高官傲慢來華,高調(diào)吹捧高市,中日零交流,當天就走了

小齊艱難度日
2026-05-17 02:34:45
美媒集體震驚:這次訪華,才真正見識到中國溫度!

美媒集體震驚:這次訪華,才真正見識到中國溫度!

福建睿平
2026-05-18 11:56:20
雙喜臨門?德比斯12天后若奪賽季第6冠 有望升至車手積分榜第一

雙喜臨門?德比斯12天后若奪賽季第6冠 有望升至車手積分榜第一

念洲
2026-05-18 08:37:52
跳槽到阿里。好消息,我好像成為嫡系了。壞消息,老員工看我不爽

跳槽到阿里。好消息,我好像成為嫡系了。壞消息,老員工看我不爽

螞蟻大喇叭
2026-05-18 09:49:06
用了多年手機號要大變!中國移動率先帶頭,關系每個人

用了多年手機號要大變!中國移動率先帶頭,關系每個人

林子說事
2026-05-16 20:34:24
美貿(mào)易代表揚言:查到這個,會對中國行動

美貿(mào)易代表揚言:查到這個,會對中國行動

觀察者網(wǎng)
2026-05-18 08:25:07
從傲慢到沉默再到承認,三天中國行后,魯比奧給了解放軍一個排名

從傲慢到沉默再到承認,三天中國行后,魯比奧給了解放軍一個排名

小樾說歷史
2026-05-16 11:17:23
熬夜也得看!5月17日早8點兩場正賽,CCTV5+直播表無套路真實可查

熬夜也得看!5月17日早8點兩場正賽,CCTV5+直播表無套路真實可查

林子說事
2026-05-17 16:18:14
高市早苗遭遇奇恥大辱!日本部長嚷著:要在中國推銷“女首相”

高市早苗遭遇奇恥大辱!日本部長嚷著:要在中國推銷“女首相”

魚語昱雨軒
2026-05-18 12:01:50
豪門清流!妻子低調(diào)顧家,兒女憑實力成才,黃仁勛堪稱人生贏家

豪門清流!妻子低調(diào)顧家,兒女憑實力成才,黃仁勛堪稱人生贏家

草莓信箱
2026-05-17 14:20:33
爆笑了!曾卓君忘報名拳皇15比賽 發(fā)文求官方給個機會

爆笑了!曾卓君忘報名拳皇15比賽 發(fā)文求官方給個機會

游民星空
2026-05-17 12:44:15
遵義會議林彪為何咆哮會場?聶榮臻與李德回憶截然相反,看毛澤東絕地反擊的驚險內(nèi)幕

遵義會議林彪為何咆哮會場?聶榮臻與李德回憶截然相反,看毛澤東絕地反擊的驚險內(nèi)幕

史海孤雁
2026-05-17 18:09:18
2026-05-18 13:59:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13019文章數(shù) 142650關注度
往期回顧 全部

科技要聞

國產(chǎn)大模型集體更新后能力有多強?

頭條要聞

特朗普嚴厲警告"臺獨"后 賴清德首度發(fā)聲被指態(tài)度強硬

頭條要聞

特朗普嚴厲警告"臺獨"后 賴清德首度發(fā)聲被指態(tài)度強硬

體育要聞

哈登晉級東決:第5次分區(qū)決賽第5次贏搶七

娛樂要聞

小S曬全家福懷念大S,爺爺奶奶最疼姐姐

財經(jīng)要聞

前4月工業(yè)生產(chǎn)較快增長 失業(yè)率5.3%

汽車要聞

小米YU7 GT定檔5月21日19:00上市 跑車級轎跑SUV

態(tài)度原創(chuàng)

藝術
家居
本地
手機
軍事航空

藝術要聞

嚇一跳!京東上海總部大樓歪了?最新官方把事說清楚了

家居要聞

觀山隱秀 心靈沉淀

本地新聞

用蘇繡的方式,打開江西婺源

手機要聞

vivo S60系列官宣全系標配3D超聲波指紋!同檔唯一 沾水秒解鎖

軍事要聞

莫斯科遭一年多來最大規(guī)模無人機襲擊 3死18傷

無障礙瀏覽 進入關懷版