網易首頁 > 網易號 > 正文申請入駐

VeRL-Omni：面向擴散和全模態生成模型的通用RL后訓練框架

2026-05-25 17:32:45　來源: 機器之心Pro

天津舉報

分享至

VeRL-Omni 是一個面向多模態生成模型的通用 RL 后訓練框架，由VeRL-Omni 團隊在 verl 與 vllm-omni 之上構建。覆蓋擴散 transformer（Qwen-Image）、混合 AR-DiT（Qwen-Omni）、統一理解 + 生成（BAGEL、HunyuanImage-3.0）等架構。

多模態 rollout 走 vLLM-Omni 的異步高吞吐 serving，VLM-as-judge / OCR 獎勵模型走 vLLM 推理，并與 rollout、訓練 overlap。Qwen-Image OCR FlowGRPO 演示中，把獎勵模型放到獨立 GPU 可將每步 wall-clock 時間降低約 14%。

VeRL-Omni 架構

代碼： github.com/verl-project/verl-omni
文檔： verl-omni.readthedocs.io
vLLM 官方博客：vllm.ai/blog/verl-omni

為什么需要 VeRL-Omni

RL 已經成為把大型生成模型對齊到人類偏好與下游任務獎勵的有力手段。過去一年 LLM 的 RL 訓練棧飛快演進，但多模態生成 RL—— 覆蓋圖像 / 視頻 / 音頻理解與生成的擴散和全模態模型 —— 還有幾個關鍵缺口：

擴散與全模態擴展：把 verl 的靈活性和性能延伸到多模態、非自回歸 RL 訓練的世界，包括擴散 transformer 主干（Qwen-Image）、混合 AR-DiT 架構（Qwen-Omni）、統一理解 + 生成模型（BAGEL、HunyuanImage-3.0）；
異構 rollout 流水線：Rollout 是連續 latent 空間里的去噪軌跡，而不是 token 序列；單次 rollout 還可能調用多個異構模型組件、走多階段流水線（text encoder → DiT → VAE）；
復雜的負載調度：多模態 RL 訓練的獎勵函數本身就是多模態模型（VLM judge、OCR scorer 等），多模態生成 rollout 的峰值顯存又比文本生成高得多，把這些工作流編排好并不簡單。

關鍵特性

高效的多模態 rollout：集成 vLLM-Omni 的異步高吞吐多模態生成 serving，精度與 diffusers 持平。VeRL-Omni 與 vLLM-Omni 協同，通過 step-wise continuous batching、embedding caching 等持續優化 rollout 效率。
靈活的獎勵引擎：同時支持基于規則的獎勵與基于模型的獎勵（如 VLM-as-judge for OCR）。集成 vLLM 用于高效的 VLM / LLM 獎勵模型推理。獎勵計算與 rollout、訓練流程 overlap，降低端到端延遲。
模塊化訓練后端：提供多種 trainer（DiffusersFSDP / Megatron / VeOmni），針對擴散和全模態模型內置優化，便于接入不同并行策略（FSDP / USP / TP）。
廣泛的硬件兼容：同時支持 NVIDIA GPU 和昇騰 NPU，部署可在多種硬件后端之間靈活切換。
端到端訓練 recipe 與基準：提供參考性能結果；得益于上述特性，訓練吞吐可以做得很高。

算法與模型支持

上手指南

安裝

詳見安裝文檔：

https://verl-omni.readthedocs.io/en/latest/start/install.html

訓練擴散模型

examples 目錄（https://github.com/verl-project/verl-omni/tree/main/examples）提供了不同 RL 算法 trainer 的啟動腳本，覆蓋圖像 / 音頻 / 視頻理解與生成任務。訓練性能與結果可以通過 wandb 跟蹤。

Demo：Qwen-Image FlowGRPO 后訓練

在 flowgrpo 示例中，團隊用 OCR 獎勵任務訓練 Qwen-Image。獎勵模型采用 Qwen3-VL-8B-Instruct，通過讀取生成圖像里的渲染文字、與數據集 ground truth 比對，對生成圖像評分。

flowgrpo 示例：https://github.com/verl-project/verl-omni/tree/main/examples/flowgrpo_trainer

算法回顧

FlowGRPO 算法示意

FlowGRPO 示意

FlowGRPO 是面向 flow-matching 模型的在線策略方法。它通過 diffusion policy 模型做多步 SDE 采樣以實現高效 RL 探索，并采用基于模型的獎勵評估生成質量。

訓練流程主要分四步：

Rollout 生成：擴散 policy 模型生成樣本 rollout，收集 log probability 和生成圖像的軌跡。
獎勵模型打分：獎勵模型給每個生成樣本打分，用于計算 trajectory advantage。
策略優化：用 FlowGRPO CLIP-style loss 更新策略，基于 advantage 優化獎勵。
權重同步：定期把 trainer 最新的策略權重同步到 rollout worker，確保生成樣本反映最新策略。

LoRA 微調

NVIDIA H800 GPU 上的訓練吞吐如下：

把獎勵模型放到獨立 GPU 上，與策略訓練 overlap，每步 wall-clock 時間降低約 14%。

全模型微調

團隊還驗證了 non-CFG 全模型 Qwen-Image OCR 訓練，在 4×NVIDIA H200 上達到 0.510 images/GPU/s，每步約 250 s。

下面可以看到，僅 120 步訓練后，生成圖像的文字渲染質量已有顯著提升。

下面是參考訓練曲線，critic reward 與 validation reward 都收斂穩定。

完整訓練指標說明見 Training Metrics 文檔。

文檔地址：https://verl-omni.readthedocs.io/en/latest/start/metrics.html

后續路線圖

VeRL-Omni 仍處于活躍迭代的預發布階段，擴散 RL 核心棧已經穩定。路線圖聚焦在擴展模型 / 算法支持，并繼續推進高效多模態 RL 訓練的邊界。

模型支持擴展：跟進開源的擴散和全模態模型，覆蓋圖像 / 視頻 / 音頻生成任務以及統一理解 + 生成任務；
算法支持擴展：持續集成穩定、先進的 RL 算法（如 DiffusionNFT）；
全異步 RL：在 actor、rollout、reward 之間走端到端異步流水線，超出當前的異步獎勵范圍，進一步提升訓練吞吐和 GPU/NPU 利用率；
與 vLLM-Omni 協同優化：生成 rollout 在訓練時間中占比很大，將通過更緊密的 vLLM-Omni 集成（并行、量化、batching、調度優化等）繼續加速多模態 rollout；
高效全模態 trainer：在 DiffusersFSDPTrainer 之外，計劃放出更多針對全模態與擴散模型的高度優化 trainer 引擎，基于 Megatron-core 與 VeOmni；
更廣的硬件支持：繼續打磨昇騰 NPU 路徑，并通過 hardware plugin 系統歡迎更多硬件后端。

擴散和全模態 RL 后訓練只是個開始。VeRL-Omni 團隊正在持續支持更多架構與算法，歡迎一起塑造未來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.