![]()
VeRL-Omni 是一個面向多模態(tài)生成模型的通用 RL 后訓(xùn)練框架,由VeRL-Omni 團隊在 verl 與 vllm-omni 之上構(gòu)建。覆蓋擴散 transformer(Qwen-Image)、混合 AR-DiT(Qwen-Omni)、統(tǒng)一理解 + 生成(BAGEL、HunyuanImage-3.0)等架構(gòu)。
多模態(tài) rollout 走 vLLM-Omni 的異步高吞吐 serving,VLM-as-judge / OCR 獎勵模型走 vLLM 推理,并與 rollout、訓(xùn)練 overlap。Qwen-Image OCR FlowGRPO 演示中,把獎勵模型放到獨立 GPU 可將每步 wall-clock 時間降低約 14%。
![]()
VeRL-Omni 架構(gòu)
- 代碼: github.com/verl-project/verl-omni
- 文檔: verl-omni.readthedocs.io
- vLLM 官方博客:vllm.ai/blog/verl-omni
為什么需要 VeRL-Omni
RL 已經(jīng)成為把大型生成模型對齊到人類偏好與下游任務(wù)獎勵的有力手段。過去一年 LLM 的 RL 訓(xùn)練棧飛快演進,但多模態(tài)生成 RL—— 覆蓋圖像 / 視頻 / 音頻理解與生成的擴散和全模態(tài)模型 —— 還有幾個關(guān)鍵缺口:
- 擴散與全模態(tài)擴展:把 verl 的靈活性和性能延伸到多模態(tài)、非自回歸 RL 訓(xùn)練的世界,包括擴散 transformer 主干(Qwen-Image)、混合 AR-DiT 架構(gòu)(Qwen-Omni)、統(tǒng)一理解 + 生成模型(BAGEL、HunyuanImage-3.0);
- 異構(gòu) rollout 流水線:Rollout 是連續(xù) latent 空間里的去噪軌跡,而不是 token 序列;單次 rollout 還可能調(diào)用多個異構(gòu)模型組件、走多階段流水線(text encoder → DiT → VAE);
- 復(fù)雜的負載調(diào)度:多模態(tài) RL 訓(xùn)練的獎勵函數(shù)本身就是多模態(tài)模型(VLM judge、OCR scorer 等),多模態(tài)生成 rollout 的峰值顯存又比文本生成高得多,把這些工作流編排好并不簡單。
關(guān)鍵特性
- 高效的多模態(tài) rollout:集成 vLLM-Omni 的異步高吞吐多模態(tài)生成 serving,精度與 diffusers 持平。VeRL-Omni 與 vLLM-Omni 協(xié)同,通過 step-wise continuous batching、embedding caching 等持續(xù)優(yōu)化 rollout 效率。
- 靈活的獎勵引擎:同時支持基于規(guī)則的獎勵與基于模型的獎勵(如 VLM-as-judge for OCR)。集成 vLLM 用于高效的 VLM / LLM 獎勵模型推理。獎勵計算與 rollout、訓(xùn)練流程 overlap,降低端到端延遲。
- 模塊化訓(xùn)練后端:提供多種 trainer(DiffusersFSDP / Megatron / VeOmni),針對擴散和全模態(tài)模型內(nèi)置優(yōu)化,便于接入不同并行策略(FSDP / USP / TP)。
- 廣泛的硬件兼容:同時支持 NVIDIA GPU 和昇騰 NPU,部署可在多種硬件后端之間靈活切換。
- 端到端訓(xùn)練 recipe 與基準:提供參考性能結(jié)果;得益于上述特性,訓(xùn)練吞吐可以做得很高。
算法與模型支持
![]()
上手指南
- 安裝
詳見安裝文檔:
https://verl-omni.readthedocs.io/en/latest/start/install.html
- 訓(xùn)練擴散模型
examples 目錄(https://github.com/verl-project/verl-omni/tree/main/examples)提供了不同 RL 算法 trainer 的啟動腳本,覆蓋圖像 / 音頻 / 視頻理解與生成任務(wù)。訓(xùn)練性能與結(jié)果可以通過 wandb 跟蹤。
- Demo:Qwen-Image FlowGRPO 后訓(xùn)練
在 flowgrpo 示例中,團隊用 OCR 獎勵任務(wù)訓(xùn)練 Qwen-Image。獎勵模型采用 Qwen3-VL-8B-Instruct,通過讀取生成圖像里的渲染文字、與數(shù)據(jù)集 ground truth 比對,對生成圖像評分。
- flowgrpo 示例:https://github.com/verl-project/verl-omni/tree/main/examples/flowgrpo_trainer
算法回顧
![]()
FlowGRPO 算法示意
FlowGRPO 示意
FlowGRPO 是面向 flow-matching 模型的在線策略方法。它通過 diffusion policy 模型做多步 SDE 采樣以實現(xiàn)高效 RL 探索,并采用基于模型的獎勵評估生成質(zhì)量。
訓(xùn)練流程主要分四步:
- Rollout 生成:擴散 policy 模型生成樣本 rollout,收集 log probability 和生成圖像的軌跡。
- 獎勵模型打分:獎勵模型給每個生成樣本打分,用于計算 trajectory advantage。
- 策略優(yōu)化:用 FlowGRPO CLIP-style loss 更新策略,基于 advantage 優(yōu)化獎勵。
- 權(quán)重同步:定期把 trainer 最新的策略權(quán)重同步到 rollout worker,確保生成樣本反映最新策略。
LoRA 微調(diào)
NVIDIA H800 GPU 上的訓(xùn)練吞吐如下:
![]()
把獎勵模型放到獨立 GPU 上,與策略訓(xùn)練 overlap,每步 wall-clock 時間降低約 14%。
全模型微調(diào)
團隊還驗證了 non-CFG 全模型 Qwen-Image OCR 訓(xùn)練,在 4×NVIDIA H200 上達到 0.510 images/GPU/s,每步約 250 s。
下面可以看到,僅 120 步訓(xùn)練后,生成圖像的文字渲染質(zhì)量已有顯著提升。
![]()
下面是參考訓(xùn)練曲線,critic reward 與 validation reward 都收斂穩(wěn)定。
![]()
完整訓(xùn)練指標說明見 Training Metrics 文檔。
- 文檔地址:https://verl-omni.readthedocs.io/en/latest/start/metrics.html
后續(xù)路線圖
VeRL-Omni 仍處于活躍迭代的預(yù)發(fā)布階段,擴散 RL 核心棧已經(jīng)穩(wěn)定。路線圖聚焦在擴展模型 / 算法支持,并繼續(xù)推進高效多模態(tài) RL 訓(xùn)練的邊界。
- 模型支持擴展:跟進開源的擴散和全模態(tài)模型,覆蓋圖像 / 視頻 / 音頻生成任務(wù)以及統(tǒng)一理解 + 生成任務(wù);
- 算法支持擴展:持續(xù)集成穩(wěn)定、先進的 RL 算法(如 DiffusionNFT);
- 全異步 RL:在 actor、rollout、reward 之間走端到端異步流水線,超出當前的異步獎勵范圍,進一步提升訓(xùn)練吞吐和 GPU/NPU 利用率;
- 與 vLLM-Omni 協(xié)同優(yōu)化:生成 rollout 在訓(xùn)練時間中占比很大,將通過更緊密的 vLLM-Omni 集成(并行、量化、batching、調(diào)度優(yōu)化等)繼續(xù)加速多模態(tài) rollout;
- 高效全模態(tài) trainer:在 DiffusersFSDPTrainer 之外,計劃放出更多針對全模態(tài)與擴散模型的高度優(yōu)化 trainer 引擎,基于 Megatron-core 與 VeOmni;
- 更廣的硬件支持:繼續(xù)打磨昇騰 NPU 路徑,并通過 hardware plugin 系統(tǒng)歡迎更多硬件后端。
擴散和全模態(tài) RL 后訓(xùn)練只是個開始。VeRL-Omni 團隊正在持續(xù)支持更多架構(gòu)與算法,歡迎一起塑造未來。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.