VeRL-Omni：面向擴散和全模態(tài)生成模型的通用RL后訓(xùn)練框架

2026-05-25 17:32:45　來源: 機器之心Pro

天津舉報

分享至

VeRL-Omni 是一個面向多模態(tài)生成模型的通用 RL 后訓(xùn)練框架，由VeRL-Omni 團隊在 verl 與 vllm-omni 之上構(gòu)建。覆蓋擴散 transformer（Qwen-Image）、混合 AR-DiT（Qwen-Omni）、統(tǒng)一理解 + 生成（BAGEL、HunyuanImage-3.0）等架構(gòu)。

多模態(tài) rollout 走 vLLM-Omni 的異步高吞吐 serving，VLM-as-judge / OCR 獎勵模型走 vLLM 推理，并與 rollout、訓(xùn)練 overlap。Qwen-Image OCR FlowGRPO 演示中，把獎勵模型放到獨立 GPU 可將每步 wall-clock 時間降低約 14%。

VeRL-Omni 架構(gòu)

代碼： github.com/verl-project/verl-omni
文檔： verl-omni.readthedocs.io
vLLM 官方博客：vllm.ai/blog/verl-omni

為什么需要 VeRL-Omni

RL 已經(jīng)成為把大型生成模型對齊到人類偏好與下游任務(wù)獎勵的有力手段。過去一年 LLM 的 RL 訓(xùn)練棧飛快演進，但多模態(tài)生成 RL—— 覆蓋圖像 / 視頻 / 音頻理解與生成的擴散和全模態(tài)模型 —— 還有幾個關(guān)鍵缺口：

擴散與全模態(tài)擴展：把 verl 的靈活性和性能延伸到多模態(tài)、非自回歸 RL 訓(xùn)練的世界，包括擴散 transformer 主干（Qwen-Image）、混合 AR-DiT 架構(gòu)（Qwen-Omni）、統(tǒng)一理解 + 生成模型（BAGEL、HunyuanImage-3.0）；
異構(gòu) rollout 流水線：Rollout 是連續(xù) latent 空間里的去噪軌跡，而不是 token 序列；單次 rollout 還可能調(diào)用多個異構(gòu)模型組件、走多階段流水線（text encoder → DiT → VAE）；
復(fù)雜的負載調(diào)度：多模態(tài) RL 訓(xùn)練的獎勵函數(shù)本身就是多模態(tài)模型（VLM judge、OCR scorer 等），多模態(tài)生成 rollout 的峰值顯存又比文本生成高得多，把這些工作流編排好并不簡單。

關(guān)鍵特性

高效的多模態(tài) rollout：集成 vLLM-Omni 的異步高吞吐多模態(tài)生成 serving，精度與 diffusers 持平。VeRL-Omni 與 vLLM-Omni 協(xié)同，通過 step-wise continuous batching、embedding caching 等持續(xù)優(yōu)化 rollout 效率。
靈活的獎勵引擎：同時支持基于規(guī)則的獎勵與基于模型的獎勵（如 VLM-as-judge for OCR）。集成 vLLM 用于高效的 VLM / LLM 獎勵模型推理。獎勵計算與 rollout、訓(xùn)練流程 overlap，降低端到端延遲。
模塊化訓(xùn)練后端：提供多種 trainer（DiffusersFSDP / Megatron / VeOmni），針對擴散和全模態(tài)模型內(nèi)置優(yōu)化，便于接入不同并行策略（FSDP / USP / TP）。
廣泛的硬件兼容：同時支持 NVIDIA GPU 和昇騰 NPU，部署可在多種硬件后端之間靈活切換。
端到端訓(xùn)練 recipe 與基準：提供參考性能結(jié)果；得益于上述特性，訓(xùn)練吞吐可以做得很高。

算法與模型支持

上手指南

安裝

詳見安裝文檔：

https://verl-omni.readthedocs.io/en/latest/start/install.html

訓(xùn)練擴散模型

examples 目錄（https://github.com/verl-project/verl-omni/tree/main/examples）提供了不同 RL 算法 trainer 的啟動腳本，覆蓋圖像 / 音頻 / 視頻理解與生成任務(wù)。訓(xùn)練性能與結(jié)果可以通過 wandb 跟蹤。

Demo：Qwen-Image FlowGRPO 后訓(xùn)練

在 flowgrpo 示例中，團隊用 OCR 獎勵任務(wù)訓(xùn)練 Qwen-Image。獎勵模型采用 Qwen3-VL-8B-Instruct，通過讀取生成圖像里的渲染文字、與數(shù)據(jù)集 ground truth 比對，對生成圖像評分。

flowgrpo 示例：https://github.com/verl-project/verl-omni/tree/main/examples/flowgrpo_trainer

算法回顧

FlowGRPO 算法示意

FlowGRPO 示意

FlowGRPO 是面向 flow-matching 模型的在線策略方法。它通過 diffusion policy 模型做多步 SDE 采樣以實現(xiàn)高效 RL 探索，并采用基于模型的獎勵評估生成質(zhì)量。

訓(xùn)練流程主要分四步：

Rollout 生成：擴散 policy 模型生成樣本 rollout，收集 log probability 和生成圖像的軌跡。
獎勵模型打分：獎勵模型給每個生成樣本打分，用于計算 trajectory advantage。
策略優(yōu)化：用 FlowGRPO CLIP-style loss 更新策略，基于 advantage 優(yōu)化獎勵。
權(quán)重同步：定期把 trainer 最新的策略權(quán)重同步到 rollout worker，確保生成樣本反映最新策略。

LoRA 微調(diào)

NVIDIA H800 GPU 上的訓(xùn)練吞吐如下：

把獎勵模型放到獨立 GPU 上，與策略訓(xùn)練 overlap，每步 wall-clock 時間降低約 14%。

全模型微調(diào)

團隊還驗證了 non-CFG 全模型 Qwen-Image OCR 訓(xùn)練，在 4×NVIDIA H200 上達到 0.510 images/GPU/s，每步約 250 s。

下面可以看到，僅 120 步訓(xùn)練后，生成圖像的文字渲染質(zhì)量已有顯著提升。

下面是參考訓(xùn)練曲線，critic reward 與 validation reward 都收斂穩(wěn)定。

完整訓(xùn)練指標說明見 Training Metrics 文檔。

文檔地址：https://verl-omni.readthedocs.io/en/latest/start/metrics.html

后續(xù)路線圖

VeRL-Omni 仍處于活躍迭代的預(yù)發(fā)布階段，擴散 RL 核心棧已經(jīng)穩(wěn)定。路線圖聚焦在擴展模型 / 算法支持，并繼續(xù)推進高效多模態(tài) RL 訓(xùn)練的邊界。

模型支持擴展：跟進開源的擴散和全模態(tài)模型，覆蓋圖像 / 視頻 / 音頻生成任務(wù)以及統(tǒng)一理解 + 生成任務(wù)；
算法支持擴展：持續(xù)集成穩(wěn)定、先進的 RL 算法（如 DiffusionNFT）；
全異步 RL：在 actor、rollout、reward 之間走端到端異步流水線，超出當前的異步獎勵范圍，進一步提升訓(xùn)練吞吐和 GPU/NPU 利用率；
與 vLLM-Omni 協(xié)同優(yōu)化：生成 rollout 在訓(xùn)練時間中占比很大，將通過更緊密的 vLLM-Omni 集成（并行、量化、batching、調(diào)度優(yōu)化等）繼續(xù)加速多模態(tài) rollout；
高效全模態(tài) trainer：在 DiffusersFSDPTrainer 之外，計劃放出更多針對全模態(tài)與擴散模型的高度優(yōu)化 trainer 引擎，基于 Megatron-core 與 VeOmni；
更廣的硬件支持：繼續(xù)打磨昇騰 NPU 路徑，并通過 hardware plugin 系統(tǒng)歡迎更多硬件后端。

擴散和全模態(tài) RL 后訓(xùn)練只是個開始。VeRL-Omni 團隊正在持續(xù)支持更多架構(gòu)與算法，歡迎一起塑造未來。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.