網易首頁 > 網易號 > 正文申請入駐

告別「利用率崩潰」：GIPO開啟大模型強化學習高效訓練新方法 | ICML 2026

2026-05-26 18:01:32　來源: AI科技大本營

北京舉報

分享至

「以棱鏡之思，折射 AI 研究的多維光譜」——學術棱鏡是 CSDN 旗下 AI 科技大本營推出的精品論文欄目，專注遴選全球頂會頂刊及產業前沿的優質研究成果。我們相信，每一篇扎實的論文都是照亮技術未來的光束，而棱鏡，讓光芒綻放出應有的色彩。

在現代強化學習系統（如訓練視覺語言動作模型 VLA 或大規模機器人控制策略）中，由于策略滯后（Policy Lag）導致數據 Off-policy 現象已成為難以避免的常態。無論是在數據被反復復用迭代的同步更新中，還是在采樣與訓練解耦的分布式 Actor-Learner 異步架構下，存在數據與當前策略的脫節問題。特別是在具身真機場景下，由于物理采集緩慢且高度依賴歷史數據回放，這種滯后程度更是被推向了極端。

這種在吞吐量與樣本效率之間的權衡會引入策略滯后。隨著策略滯后不斷積累，數據分布逐漸偏離當前策略，行為策略與目標策略之間的差異持續擴大，重要性采樣的方差隨之迅速增長，最終可能導致策略梯度估計變得不穩定，直接影響模型的正常訓練。當訓練器優化當前策略時，它所利用的數據與當前策略分布之間可能存在偏移，這種不一致性由重要性比率（Importance Ratio）來量化：。在依賴回放的場景下，經常會大幅度偏離 1，展現出嚴重的重尾分布（Heavy-tailed distribution），這為后續的優化埋下了隱患。

近期，來自樹根科技與三一集團團隊聯合提出了GIPO算法，在機器人操控及大語言 / 視覺動作模型（VLA）強化學習訓練中，GIPO 既顯著緩解了數據短缺導致的策略滯后痛點，又有效改善了 PPO 硬截斷引發的 “利用率崩潰（Utilization Collapse）” 問題。

GIPO 論文鏈接：https://arxiv.org/abs/2603.03955
論文標題 1：GIPO: Gaussian Importance Sampling Policy Optimization
AcceRL 論文鏈接：https://arxiv.org/abs/2603.18464
論文標題 2：AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

GIPO ：用比例看問題，而不是用絕對差值看問題

核心公式

GIPO 不使用分段常數函數來截斷梯度，而是為每一個重要性比率分配一個基于高斯核的信任權重系數。首先定義離散的重要性比率（其中為停止梯度算子），信任權重定義為：

其中，是統一的尺度參數，決定了信任區域的寬窄。由此，將該權重引入策略優化目標，得到 GIPO 的損失函數：

在反向傳播中，由于僅取決于停止梯度的，它被視為常數系數，從而提升了梯度的穩定性。如圖 1 所示，GIPO 的核心動機是用平滑的連續衰減替代硬性的截斷，在對數空間內構建一個理論完備且對稱的信任區域。

圖 1：GIPO 高斯信任權重與對數空間對稱性相比于 PPO 的階躍式截斷，GIPO（橙線）展現了平滑的鐘形曲線，使每個樣本仍然能夠貢獻微小但有效的梯度信號。更重要的是 GIPO 對于對重要性比率與其倒數賦予相同的信任權重，即，在 log 空間 GIPO 是唯一具備對稱性的

對數空間對稱性：一種優雅的平衡

為什么選擇對數空間？考慮樣本的重要性比率。如果目標策略比行為策略的概率高出倍，其對數距離為。如果概率低倍（），其對數距離為。由于高斯核函數中包含平方項：

這種對數對稱性() 意味著 GIPO 平等且一致地處理了概率的 “高估” 與 “低估”。相比之下，PPO 在線性空間進行截斷（如 1.2 與 0.8），其算術距離相等但邏輯比例并不對稱，這在處理重尾分布時會導致更新的方向性偏差。如圖 1 所示，GIPO 通過對數空間操作，確保了無論策略偏離方向如何，更新幅度在邏輯比例上都是對稱且平衡的。

平滑性與非零梯度：拯救 “死樣本”

PPO 的硬截斷是一把 “雙刃劍”：它雖然限制了方差，但其分段函數的特性導致在截斷邊界處導數不連續，且在截斷區外梯度直接歸零。在邊界外，增加 0.1 可能導致梯度從 1 驟降至 0，這種不連續性增加了訓練不穩定性。而 GIPO 的權重函數隨的偏離而連續、指數級地衰減。即便樣本處于嚴重的策略滯后區（例如），GIPO 也不會像 PPO 那樣將其貢獻抹殺。相反，GIPO 會分配一個微小但非零的權重。這 “軟阻尼” 機制允許那些處于長尾區域的陳舊樣本依然能貢獻較低方差的梯度信號，從而有效緩解了 “利用率崩潰”，讓每一條昂貴的采樣軌跡都能參與到策略的迭代中。

偏差 - 方差的 “帕累托旋鈕”

在強化學習的理論框架下，偏差（Bias）與方差（Variance）是一對永恒的矛盾。GIPO 通過尺度參數提供了一個可以平滑調節的 “帕累托旋鈕”。可以從兩個極限狀態來理解的插值作用：

1. 當(純在線模式)：

高斯核坍縮為一個狄拉克函數，只有的樣本擁有權重。此時算法退化為保守的在線策略更新，擁有低方差但面臨高偏差（因為它無視了所有回放數據）。

2. 當(標準重要性采樣模式)：

權重，GIPO 恢復為標準的重要性采樣目標。此時算法是無偏的，但在異步環境下會面臨很大的方差。

在實際訓練中（如或），GIPO 能夠獲得優秀的偏差 - 方差平衡性。它通過平滑的指數 decay 抑制了長尾部分的方差，同時保留了比 PPO 更多的有效偏差修正。

Advantage-Aware GIPO

對稱性是否會放縱 “壞動作”？在強化學習的實際工程中，正負優勢（Advantage）具有不同的物理含義：正優勢（A > 0）應在信任區域內受到鼓勵。負優勢（A < 0）代表差的探索結果，理應受到抑制。當一個 “壞動作” 的重要性比率偏離分布時，GIPO 對其施加的對稱阻尼是否過于 “溫柔”，從而導致在處理大詞表或重尾分布樣本時，訓練收斂速度受阻？針對正負優勢的問題，作者引入了 Advantage-Aware GIPO。通過對實施基于優勢符號的條件化約束：

通過設定，算法在面對負優勢樣本時，信任區域會更快收斂。這種設計既保留了 GIPO 平滑可導的數學特性，又在物理直覺上實現了對負向更新的抑制。需要強調的是，GIPO 目標函數中重要性比率的對數對稱性與優勢函數引入的非對稱控制在數學邏輯上是完全獨立的，兩者互不沖突且完美兼容。

理論基石：策略性能下界與有限樣本保證

代理目標的理論下界

GIPO 的核心理論貢獻之一，是證明了優化其衰減代理目標，依然能提供嚴格的性能下界保證。假設優勢函數有界。對于任意截斷閾值，GIPO 滿足以下性能下界：

注：其中

其中為實際優化目標，即模型采用新策略后在真實環境中的期望收益，也就是模型采用新策略后，在真實環境里到底能拿多少分。第二項是分布偏移懲罰項（含 C 的項），這一項繼承自 Off-policy TRPO，懲罰了行為策略、當前策略和候選策略之間的分布差異。最后一項是 GIPO 特有的懲罰項，GIPO 遇到滯后數據時，為了防止梯度爆炸，會用高斯權重 “溫柔地” 把它們的影響力壓低，這種 “和稀泥” 的做法雖然保證了訓練穩定性，但畢竟扭曲了原始數據的權重，帶來了一點點偏差，這一項，就是把這種 “為了穩妥而引入的偏差” 明碼標價算了出來。

有限樣本控制與穩定性

在真實的 RL 訓練中，由于無法計算期望，只能從回放池中抽取有限的 Batch Size（假設為 N）來進行經驗估計（Empirical Estimation）：

如果沒有良好的方差控制，有限樣本下的估計會存在巨大的 “采樣噪聲”，導致所謂的 “優化錯覺”（即經驗代理目標上升了，但真實期望反而下降了），這正是模型訓練崩盤（Training Collapse）的元兇。GIPO 首先證明了其高斯權重設計賦予了有效乘數嚴格的全局上下界：

基于上述全局有界性，可以直接應用 Hoeffding 不等式，得出經驗估計與真實期望之間的概率誤差界限。對于任意置信度水平，以至少的概率，以下不等式成立：

由于等式右側的誤差項被嚴格綁定在常數和批量大小上，GIPO 能在有限樣本下提供高置信度的策略改進保證。這就是 GIPO 在高難度機器人任務中比 PPO 穩定的數學保證。

實驗結果：方差 - 偏差平衡性能和 7B VLA 工業落地

方差 - 偏差平衡性能帕累托最優

為什么 GIPO 能在宏觀表現上優秀？為了在微觀層面把邏輯盤透，作者構建了一個完全可枚舉的GridWorld（網格世界）玩具環境。由于環境簡單，研究人員可以直接通過貝爾曼方程進行動作枚舉，精確計算出梯度估計的真實偏差（Bias）和真實方差（Variance），從而排除了蒙特卡洛采樣噪聲的干擾。團隊模擬了從嚴重滯后（Case A）到輕度滯后（Case C）的不同場景。

分析結果展現了 GIPO 良好的方差 - 偏差平衡性：在嚴重滯后的場景（Case A, B）中，PPO 測算出的方差竟然是 0。但這根本不是因為 PPO 穩定，而是因為其硬截斷機制將所有樣本直接判斷為 “越界”，導致100% 的樣本梯度死亡。沒有梯度，自然沒有方差，這等同于模型停止了學習。

相比之下，GIPO 的參數表現出了優秀的 “帕累托旋鈕（Pareto knob）” 特性。通過調節，GIPO 能夠壓制重尾比率帶來的高方差，同時保留可靠更新的方向。在所有的滯后場景下，GIPO 的表現都貼合偏差 - 方差帕累托前沿（Pareto Frontier）。而 SAPO 的不對稱性導致其引入了劣于 GIPO 的偏差分布，無法觸及帕累托前沿。

圖 2：2x2 網格世界中的偏差 - 方差權衡。GIPO（虛線）真正定義了帕累托前沿（Pareto Frontier），而 PPO 在高滯后場景下完全停止了學習

工業級驗證規模

在當前的具身智能領域，受限于高昂的物理交互成本與長視野連續控制的復雜性，能將策略優化算法直接部署到數十億參數模型上的研究并不多見。GIPO 團隊為了驗證其算法在真實世界擴展性（Scalability），投入了龐大的計算資源：模型基座使用了 7B 參數量的 OpenVLA-OFT 作為骨干網絡，整個評估過程耗費了超過10,000H200 GPU 小時，在 LIBERO 機器人多任務操作基準上，處理了超過 7.3 億次交互采樣。

為了評估算法對策略滯后的魯棒性，研究團隊設計了兩種數據場景，通過控制采樣器（Actors）與訓練器（Trainers）的比例來人為制造不同程度的數據滯后。新鮮場景（Fresh Regime）：配置 10 個采樣器對 1 個訓練器（或類似高吞吐配置），數據收集快，回放池中的樣本非常接近當前策略。陳舊場景（Stale Regime）：強制降低吞吐量（例如 1 個采樣器對 1 個訓練器），導致訓練器不得不反復咀嚼回放池中陳舊的歷史數據，制造類似于真機場景的策略滯后。

如圖 3 所示，在新鮮場景下，GIPO、PPO 與 SAPO 均能取得不錯的表現，GIPO 略占優或持平。然而，一旦切換到陳舊場景，算法之間的性能差距就會被拉開。在面對陳舊數據時，PPO 的學習曲線往往在早期就陷入停滯，最終收斂到一個較低的平均回報水平。SAPO 雖然引入了軟門控，但在處理高滯后數據時，依然表現出較大的波動和次優的樣本效率。而 GIPO 能更快逼近最優成功率，展現出很強的抗滯后能力和穩定性。

圖 3：LIBERO 機器人套件學習曲線。在 LIBERO-Spatial 和 LIBERO-10 等復雜任務中，GIPO 的優勢被進一步放大，展現了在數十億參數 VLA 任務中實戰價值

Metaworld 多種子實驗

在 MetaWorld Stale（陳舊數據環境）下，團隊對比了 8 種算法配置（包含優勢感知變體），覆蓋了 10 個不同的機器人操控任務。為了消除隨機性干擾，每一個配置 5 個隨機種子，總共運行 400 個獨立的訓練實例。在統計指標 IQM（Interquartile Mean，分位數均值）排名中，GIPO 展示出了非常大的優勢，如下面的聚合排名表所示，GIPO 系列占據了前 6 名位置，其中 GIPO (1.0, 1.0) 平均歸一化得分（0.730）甚至達到了 PPO（0.180）的 4 倍之多。

內部分別為：正負優勢對應的系數

GIPO 變體的 IQM 表現顯著高于 SAPO 與 PPO 基準。即便在策略滯后環境下，其展現出的成功率提升曲線依然保持著驚人的平滑度。同時，實驗結果有力地驗證了 “對數對稱性” 與 “優勢感知” 可以兼容，而且相得益彰。GIPO 的數學框架可以輕松嵌入非對稱邏輯，同時維持其獨有的理論穩定性上限。

值得注意的是，GIPO 的卓越性并不局限于應對滯后的 “救場”。在策略滯后輕微的新鮮場景下，GIPO 同樣展現出了優良的性能上限。在涵蓋 10 個任務、總計 250 次獨立訓練運行的大規模 MetaWorld Fresh 實驗中，GIPO 依然保持了領先優勢。如下表所示，即便是在通用配置下，GIPO 的 IQM（分位數均值）得分依然達到了 PPO 的兩倍以上。這意味著 GIPO 不僅能處理 “舊數據”，也能更好發揮 “新數據” 的價值，顯著提升了在線 RL 的學習效率。

大模型落地的 “穩壓器”：GIPO 助推 AcceRL 登頂 SOTA

如何高效地進行數十億參數規模的視覺 - 語言 - 動作（VLA）模型的強化學習訓練是行業公認的難題。為此，團隊推出了AcceRL—— 首個專為 VLA 模型設計的全異步、解耦式強化學習與世界模型框架。

AcceRL 通過物理隔離訓練、推理與采樣流，打破了傳統框架中的同步屏障，并首次引入了 “即插即用” 的可訓練世界模型，實現了驚人的200 倍（20,000%）數據效率提升，然而，這種優秀的工程性能對底層算法的穩定性提出了更高要求，這正是 GIPO 大顯身手的舞臺。

為什么 AcceRL 選擇 GIPO？

AcceRL 通過物理隔離設計大幅提升了系統的吞吐量。然而，這種 “全異步” 的分布式架構是一把雙刃劍：它在消除硬件閑置、實現吞吐量超線性擴展的同時，不可避免地帶來了劇烈的策略滯后（Policy Lag）。

在 AcceRL 的非阻塞管道中，訓練與采樣獨立進行，導致回放池中充斥著陳舊的 Off-policy 數據。實驗證明，在這種滯后場景下，標準 PPO 會頻繁觸發硬截斷機制，導致大量包含關鍵修正信號的樣本梯度直接歸零，淪為毫無貢獻的 “死樣本”，阻礙訓練效率。

GIPO 通過其標志性的平滑高斯信任權重，為 AcceRL 提供了一套具備數學保證的阻尼機制，使其能夠穩健地消化這些陳舊樣本，成為了整個框架處理異步偏差的核心優化引擎。此外 AcceRL 實現了利用世界模型想象生成強化學習訓練數據。雖然這些數據擴展了探索邊界，但也存在合成偏差。GIPO 利用對數空間對稱性，提取了這些想象數據中的改進信號，使得 “在想象中學習” 不再因梯度不穩定而崩潰。

如下圖所示，在針對算法目標的消融實驗中，配備 GIPO 的系統表現出了驚人的學習速度。GIPO 在約 8,000 步時達到的性能水平，標準 PPO 需要耗費 60,000 步才能觸及。這意味著在相同的硬件環境下，GIPO 將樣本利用效率提升了整整 7.5 倍。

圖 4：GIPO 和 PPO 在 AcceRL 中效果對比

登頂 LIBERO

在 LIBERO 的長視野（Long-horizon）操控任務中，GIPO 助力 AcceRL 展示了優秀的穩定性。相比于對早期誤差敏感的傳統監督微調（Success Rate 90.7%），AcceRL 在 GIPO 的支撐下實現了突破：在 LIBERO-Long 任務套件中，AcceRL 達成了99.1%的成功率。這種表現源于 GIPO 優異的偏差 - 方差權衡，它確保了模型在執行復雜多步動作時，能夠從輕微的擾動中恢復，維持了策略在長周期內的連續性與穩定性。

結語：算法美學與工程力量的共振

AcceRL 框架的成功，驗證了 GIPO 在大規模異步訓練中的底層基石作用。通過穩健地處理異策略偏差，GIPO 突破了分布式系統的穩定性瓶頸，為‘大規模 VLA + 異步 RL + 世界模型’這一架構提供了可靠的算法護航，并最終在 LIBERO 基準測試中取得了 SOTA 成績。

AI科技大本營讀者專屬福利｜免費領取 100 小時 AI 算

加入 AI 開發者計劃獲取：

? AI 算力資源

? 官方技術社群

? Workshop 與 AI Academy

? 開發者專屬福利

立即掃碼，前 50 名領取瑞幸咖啡（領取地址：https://s.csdn.cn/4nPsOp）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.