告別「利用率崩潰」：GIPO開啟大模型強化學習高效訓練新方法

2026-05-18 12:35:31　來源: 機器之心Pro

天津舉報

分享至

在現(xiàn)代強化學習系統(tǒng)（如訓練視覺語言動作模型 VLA 或大規(guī)模機器人控制策略）中，由于策略滯后（Policy Lag）導致數(shù)據(jù) Off-policy 現(xiàn)象已成為難以避免的常態(tài)。無論是在數(shù)據(jù)被反復復用迭代的同步更新中，還是在采樣與訓練解耦的分布式 Actor-Learner 異步架構下，存在數(shù)據(jù)與當前策略的脫節(jié)問題。特別是在具身真機場景下，由于物理采集緩慢且高度依賴歷史數(shù)據(jù)回放，這種滯后程度更是被推向了極端。

近期，來自樹根科技與三一集團團隊聯(lián)合提出了GIPO算法，在機器人操控及大語言 / 視覺動作模型（VLA）強化學習訓練中，GIPO 既顯著緩解了數(shù)據(jù)短缺導致的策略滯后痛點，又有效改善了 PPO 硬截斷引發(fā)的 “利用率崩潰（Utilization Collapse）” 問題。

GIPO 論文鏈接：https://arxiv.org/abs/2603.03955
論文標題 1：GIPO: Gaussian Importance Sampling Policy Optimization
AcceRL 論文鏈接：https://arxiv.org/abs/2603.18464
論文標題 2：AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

GIPO ：用比例看問題，而不是用絕對差值看問題

核心公式

對數(shù)空間對稱性：一種優(yōu)雅的平衡

平滑性與非零梯度：拯救 “死樣本”

偏差 - 方差的 “帕累托旋鈕”

Advantage-Aware GIPO

理論基石：策略性能下界與有限樣本保證

代理目標的理論下界

有限樣本控制與穩(wěn)定性

在真實的 RL 訓練中，由于無法計算期望，只能從回放池中抽取有限的 Batch Size（假設為 N）來進行經(jīng)驗估計（Empirical Estimation）：

實驗結果：方差 - 偏差平衡性能和 7B VLA 工業(yè)落地

方差 - 偏差平衡性能帕累托最優(yōu)

分析結果展現(xiàn)了 GIPO 良好的方差 - 偏差平衡性：在嚴重滯后的場景（Case A, B）中，PPO 測算出的方差竟然是 0。但這根本不是因為 PPO 穩(wěn)定，而是因為其硬截斷機制將所有樣本直接判斷為 “越界”，導致100% 的樣本梯度死亡。沒有梯度，自然沒有方差，這等同于模型停止了學習。

圖 2：2x2 網(wǎng)格世界中的偏差 - 方差權衡。GIPO（虛線）真正定義了帕累托前沿（Pareto Frontier），而 PPO 在高滯后場景下完全停止了學習

工業(yè)級驗證規(guī)模

在當前的具身智能領域，受限于高昂的物理交互成本與長視野連續(xù)控制的復雜性，能將策略優(yōu)化算法直接部署到數(shù)十億參數(shù)模型上的研究并不多見。GIPO 團隊為了驗證其算法在真實世界擴展性（Scalability），投入了龐大的計算資源：模型基座使用了 7B 參數(shù)量的 OpenVLA-OFT 作為骨干網(wǎng)絡，整個評估過程耗費了超過10,000H200 GPU 小時，在 LIBERO 機器人多任務操作基準上，處理了超過 7.3 億次交互采樣。

為了評估算法對策略滯后的魯棒性，研究團隊設計了兩種數(shù)據(jù)場景，通過控制采樣器（Actors）與訓練器（Trainers）的比例來人為制造不同程度的數(shù)據(jù)滯后。新鮮場景（Fresh Regime）：配置 10 個采樣器對 1 個訓練器（或類似高吞吐配置），數(shù)據(jù)收集快，回放池中的樣本非常接近當前策略。陳舊場景（Stale Regime）：強制降低吞吐量（例如 1 個采樣器對 1 個訓練器），導致訓練器不得不反復咀嚼回放池中陳舊的歷史數(shù)據(jù)，制造類似于真機場景的策略滯后。

如圖 3 所示，在新鮮場景下，GIPO、PPO 與 SAPO 均能取得不錯的表現(xiàn)，GIPO 略占優(yōu)或持平。然而，一旦切換到陳舊場景，算法之間的性能差距就會被拉開。在面對陳舊數(shù)據(jù)時，PPO 的學習曲線往往在早期就陷入停滯，最終收斂到一個較低的平均回報水平。SAPO 雖然引入了軟門控，但在處理高滯后數(shù)據(jù)時，依然表現(xiàn)出較大的波動和次優(yōu)的樣本效率。而 GIPO 能更快逼近最優(yōu)成功率，展現(xiàn)出很強的抗滯后能力和穩(wěn)定性。

圖 3：LIBERO 機器人套件學習曲線。在 LIBERO-Spatial 和 LIBERO-10 等復雜任務中，GIPO 的優(yōu)勢被進一步放大，展現(xiàn)了在數(shù)十億參數(shù) VLA 任務中實戰(zhàn)價值

Metaworld 多種子實驗

在 MetaWorld Stale（陳舊數(shù)據(jù)環(huán)境）下，團隊對比了 8 種算法配置（包含優(yōu)勢感知變體），覆蓋了 10 個不同的機器人操控任務。為了消除隨機性干擾，每一個配置 5 個隨機種子，總共運行 400 個獨立的訓練實例。在統(tǒng)計指標 IQM（Interquartile Mean，分位數(shù)均值）排名中，GIPO 展示出了非常大的優(yōu)勢，如下面的聚合排名表所示，GIPO 系列占據(jù)了前 6 名位置，其中 GIPO (1.0, 1.0) 平均歸一化得分（0.730）甚至達到了 PPO（0.180）的 4 倍之多。

GIPO 變體的 IQM 表現(xiàn)顯著高于 SAPO 與 PPO 基準。即便在策略滯后環(huán)境下，其展現(xiàn)出的成功率提升曲線依然保持著驚人的平滑度。同時，實驗結果有力地驗證了 “對數(shù)對稱性” 與 “優(yōu)勢感知” 可以兼容，而且相得益彰。GIPO 的數(shù)學框架可以輕松嵌入非對稱邏輯，同時維持其獨有的理論穩(wěn)定性上限。

值得注意的是，GIPO 的卓越性并不局限于應對滯后的 “救場”。在策略滯后輕微的新鮮場景下，GIPO 同樣展現(xiàn)出了優(yōu)良的性能上限。在涵蓋 10 個任務、總計 250 次獨立訓練運行的大規(guī)模 MetaWorld Fresh 實驗中，GIPO 依然保持了領先優(yōu)勢。如下表所示，即便是在通用配置下，GIPO 的 IQM（分位數(shù)均值）得分依然達到了 PPO 的兩倍以上。這意味著 GIPO 不僅能處理 “舊數(shù)據(jù)”，也能更好發(fā)揮 “新數(shù)據(jù)” 的價值，顯著提升了在線 RL 的學習效率。

大模型落地的 “穩(wěn)壓器”：GIPO 助推 AcceRL 登頂 SOTA

如何高效地進行數(shù)十億參數(shù)規(guī)模的視覺 - 語言 - 動作（VLA）模型的強化學習訓練是行業(yè)公認的難題。為此，團隊推出了AcceRL—— 首個專為 VLA 模型設計的全異步、解耦式強化學習與世界模型框架。

AcceRL 通過物理隔離訓練、推理與采樣流，打破了傳統(tǒng)框架中的同步屏障，并首次引入了 “即插即用” 的可訓練世界模型，實現(xiàn)了驚人的200 倍（20,000%）數(shù)據(jù)效率提升，然而，這種優(yōu)秀的工程性能對底層算法的穩(wěn)定性提出了更高要求，這正是 GIPO 大顯身手的舞臺。

為什么 AcceRL 選擇 GIPO？

AcceRL 通過物理隔離設計大幅提升了系統(tǒng)的吞吐量。然而，這種 “全異步” 的分布式架構是一把雙刃劍：它在消除硬件閑置、實現(xiàn)吞吐量超線性擴展的同時，不可避免地帶來了劇烈的策略滯后（Policy Lag）。

在 AcceRL 的非阻塞管道中，訓練與采樣獨立進行，導致回放池中充斥著陳舊的 Off-policy 數(shù)據(jù)。實驗證明，在這種滯后場景下，標準 PPO 會頻繁觸發(fā)硬截斷機制，導致大量包含關鍵修正信號的樣本梯度直接歸零，淪為毫無貢獻的 “死樣本”，阻礙訓練效率。

GIPO 通過其標志性的平滑高斯信任權重，為 AcceRL 提供了一套具備數(shù)學保證的阻尼機制，使其能夠穩(wěn)健地消化這些陳舊樣本，成為了整個框架處理異步偏差的核心優(yōu)化引擎。此外 AcceRL 實現(xiàn)了利用世界模型想象生成強化學習訓練數(shù)據(jù)。雖然這些數(shù)據(jù)擴展了探索邊界，但也存在合成偏差。GIPO 利用對數(shù)空間對稱性，提取了這些想象數(shù)據(jù)中的改進信號，使得 “在想象中學習” 不再因梯度不穩(wěn)定而崩潰。

如下圖所示，在針對算法目標的消融實驗中，配備 GIPO 的系統(tǒng)表現(xiàn)出了驚人的學習速度。GIPO 在約 8,000 步時達到的性能水平，標準 PPO 需要耗費 60,000 步才能觸及。這意味著在相同的硬件環(huán)境下，GIPO 將樣本利用效率提升了整整 7.5 倍。

圖 4：GIPO 和 PPO 在 AcceRL 中效果對比

登頂 LIBERO

在 LIBERO 的長視野（Long-horizon）操控任務中，GIPO 助力 AcceRL 展示了優(yōu)秀的穩(wěn)定性。相比于對早期誤差敏感的傳統(tǒng)監(jiān)督微調(diào)（Success Rate 90.7%），AcceRL 在 GIPO 的支撐下實現(xiàn)了突破：在 LIBERO-Long 任務套件中，AcceRL 達成了99.1%的成功率。這種表現(xiàn)源于 GIPO 優(yōu)異的偏差 - 方差權衡，它確保了模型在執(zhí)行復雜多步動作時，能夠從輕微的擾動中恢復，維持了策略在長周期內(nèi)的連續(xù)性與穩(wěn)定性。

結語：算法美學與工程力量的共振

AcceRL 框架的成功，驗證了 GIPO 在大規(guī)模異步訓練中的底層基石作用。通過穩(wěn)健地處理異策略偏差，GIPO 突破了分布式系統(tǒng)的穩(wěn)定性瓶頸，為‘大規(guī)模 VLA + 異步 RL + 世界模型’這一架構提供了可靠的算法護航，并最終在 LIBERO 基準測試中取得了 SOTA 成績。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.