无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

VeRL-Omni:面向擴散和全模態(tài)生成模型的通用RL后訓(xùn)練框架

0
分享至



VeRL-Omni 是一個面向多模態(tài)生成模型的通用 RL 后訓(xùn)練框架,由VeRL-Omni 團隊在 verl 與 vllm-omni 之上構(gòu)建。覆蓋擴散 transformer(Qwen-Image)、混合 AR-DiT(Qwen-Omni)、統(tǒng)一理解 + 生成(BAGEL、HunyuanImage-3.0)等架構(gòu)。

多模態(tài) rollout 走 vLLM-Omni 的異步高吞吐 serving,VLM-as-judge / OCR 獎勵模型走 vLLM 推理,并與 rollout、訓(xùn)練 overlap。Qwen-Image OCR FlowGRPO 演示中,把獎勵模型放到獨立 GPU 可將每步 wall-clock 時間降低約 14%。



VeRL-Omni 架構(gòu)

  • 代碼: github.com/verl-project/verl-omni
  • 文檔: verl-omni.readthedocs.io
  • vLLM 官方博客:vllm.ai/blog/verl-omni

為什么需要 VeRL-Omni

RL 已經(jīng)成為把大型生成模型對齊到人類偏好與下游任務(wù)獎勵的有力手段。過去一年 LLM 的 RL 訓(xùn)練棧飛快演進,但多模態(tài)生成 RL—— 覆蓋圖像 / 視頻 / 音頻理解與生成的擴散和全模態(tài)模型 —— 還有幾個關(guān)鍵缺口:

  • 擴散與全模態(tài)擴展:把 verl 的靈活性和性能延伸到多模態(tài)、非自回歸 RL 訓(xùn)練的世界,包括擴散 transformer 主干(Qwen-Image)、混合 AR-DiT 架構(gòu)(Qwen-Omni)、統(tǒng)一理解 + 生成模型(BAGEL、HunyuanImage-3.0);
  • 異構(gòu) rollout 流水線:Rollout 是連續(xù) latent 空間里的去噪軌跡,而不是 token 序列;單次 rollout 還可能調(diào)用多個異構(gòu)模型組件、走多階段流水線(text encoder → DiT → VAE);
  • 復(fù)雜的負載調(diào)度:多模態(tài) RL 訓(xùn)練的獎勵函數(shù)本身就是多模態(tài)模型(VLM judge、OCR scorer 等),多模態(tài)生成 rollout 的峰值顯存又比文本生成高得多,把這些工作流編排好并不簡單。

關(guān)鍵特性

  • 高效的多模態(tài) rollout:集成 vLLM-Omni 的異步高吞吐多模態(tài)生成 serving,精度與 diffusers 持平。VeRL-Omni 與 vLLM-Omni 協(xié)同,通過 step-wise continuous batching、embedding caching 等持續(xù)優(yōu)化 rollout 效率。
  • 靈活的獎勵引擎:同時支持基于規(guī)則的獎勵與基于模型的獎勵(如 VLM-as-judge for OCR)。集成 vLLM 用于高效的 VLM / LLM 獎勵模型推理。獎勵計算與 rollout、訓(xùn)練流程 overlap,降低端到端延遲。
  • 模塊化訓(xùn)練后端:提供多種 trainer(DiffusersFSDP / Megatron / VeOmni),針對擴散和全模態(tài)模型內(nèi)置優(yōu)化,便于接入不同并行策略(FSDP / USP / TP)。
  • 廣泛的硬件兼容:同時支持 NVIDIA GPU 和昇騰 NPU,部署可在多種硬件后端之間靈活切換。
  • 端到端訓(xùn)練 recipe 與基準:提供參考性能結(jié)果;得益于上述特性,訓(xùn)練吞吐可以做得很高。

算法與模型支持




上手指南

  • 安裝

詳見安裝文檔:

https://verl-omni.readthedocs.io/en/latest/start/install.html

  • 訓(xùn)練擴散模型

examples 目錄(https://github.com/verl-project/verl-omni/tree/main/examples)提供了不同 RL 算法 trainer 的啟動腳本,覆蓋圖像 / 音頻 / 視頻理解與生成任務(wù)。訓(xùn)練性能與結(jié)果可以通過 wandb 跟蹤。

  • Demo:Qwen-Image FlowGRPO 后訓(xùn)練

在 flowgrpo 示例中,團隊用 OCR 獎勵任務(wù)訓(xùn)練 Qwen-Image。獎勵模型采用 Qwen3-VL-8B-Instruct,通過讀取生成圖像里的渲染文字、與數(shù)據(jù)集 ground truth 比對,對生成圖像評分。

  • flowgrpo 示例:https://github.com/verl-project/verl-omni/tree/main/examples/flowgrpo_trainer

算法回顧



FlowGRPO 算法示意

FlowGRPO 示意

FlowGRPO 是面向 flow-matching 模型的在線策略方法。它通過 diffusion policy 模型做多步 SDE 采樣以實現(xiàn)高效 RL 探索,并采用基于模型的獎勵評估生成質(zhì)量。

訓(xùn)練流程主要分四步:

  1. Rollout 生成:擴散 policy 模型生成樣本 rollout,收集 log probability 和生成圖像的軌跡。
  2. 獎勵模型打分:獎勵模型給每個生成樣本打分,用于計算 trajectory advantage。
  3. 策略優(yōu)化:用 FlowGRPO CLIP-style loss 更新策略,基于 advantage 優(yōu)化獎勵。
  4. 權(quán)重同步:定期把 trainer 最新的策略權(quán)重同步到 rollout worker,確保生成樣本反映最新策略。

LoRA 微調(diào)

NVIDIA H800 GPU 上的訓(xùn)練吞吐如下:



把獎勵模型放到獨立 GPU 上,與策略訓(xùn)練 overlap,每步 wall-clock 時間降低約 14%。

全模型微調(diào)

團隊還驗證了 non-CFG 全模型 Qwen-Image OCR 訓(xùn)練,在 4×NVIDIA H200 上達到 0.510 images/GPU/s,每步約 250 s。

下面可以看到,僅 120 步訓(xùn)練后,生成圖像的文字渲染質(zhì)量已有顯著提升。



下面是參考訓(xùn)練曲線,critic reward 與 validation reward 都收斂穩(wěn)定。



完整訓(xùn)練指標說明見 Training Metrics 文檔。

  • 文檔地址:https://verl-omni.readthedocs.io/en/latest/start/metrics.html

后續(xù)路線圖

VeRL-Omni 仍處于活躍迭代的預(yù)發(fā)布階段,擴散 RL 核心棧已經(jīng)穩(wěn)定。路線圖聚焦在擴展模型 / 算法支持,并繼續(xù)推進高效多模態(tài) RL 訓(xùn)練的邊界。

  • 模型支持擴展:跟進開源的擴散和全模態(tài)模型,覆蓋圖像 / 視頻 / 音頻生成任務(wù)以及統(tǒng)一理解 + 生成任務(wù);
  • 算法支持擴展:持續(xù)集成穩(wěn)定、先進的 RL 算法(如 DiffusionNFT);
  • 全異步 RL:在 actor、rollout、reward 之間走端到端異步流水線,超出當前的異步獎勵范圍,進一步提升訓(xùn)練吞吐和 GPU/NPU 利用率;
  • 與 vLLM-Omni 協(xié)同優(yōu)化:生成 rollout 在訓(xùn)練時間中占比很大,將通過更緊密的 vLLM-Omni 集成(并行、量化、batching、調(diào)度優(yōu)化等)繼續(xù)加速多模態(tài) rollout;
  • 高效全模態(tài) trainer:在 DiffusersFSDPTrainer 之外,計劃放出更多針對全模態(tài)與擴散模型的高度優(yōu)化 trainer 引擎,基于 Megatron-core 與 VeOmni;
  • 更廣的硬件支持:繼續(xù)打磨昇騰 NPU 路徑,并通過 hardware plugin 系統(tǒng)歡迎更多硬件后端。

擴散和全模態(tài) RL 后訓(xùn)練只是個開始。VeRL-Omni 團隊正在持續(xù)支持更多架構(gòu)與算法,歡迎一起塑造未來。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數(shù)萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數(shù)萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復(fù)措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復(fù)措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現(xiàn),兩千億巨頭陷熱門概念敘事與資本套現(xiàn)割裂

三花智控高管“為孩子教育”減持套現(xiàn),兩千億巨頭陷熱門概念敘事與資本套現(xiàn)割裂

每日經(jīng)濟新聞
2026-05-30 14:41:08
“結(jié)婚22年后發(fā)現(xiàn)兩兒子均非親生”當事人發(fā)聲:我對他們恨之入骨!

“結(jié)婚22年后發(fā)現(xiàn)兩兒子均非親生”當事人發(fā)聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應(yīng):不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應(yīng):不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰(zhàn)爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰(zhàn)爭

俄烏戰(zhàn)爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰(zhàn)爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統(tǒng)

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統(tǒng)

項鵬飛
2026-05-30 16:28:01
西決搶七大戰(zhàn)裁判出爐:戴維斯擔任主裁 三人執(zhí)哨兩隊勝率曝光

西決搶七大戰(zhàn)裁判出爐:戴維斯擔任主裁 三人執(zhí)哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫(yī)生提醒:每周不應(yīng)超過一個數(shù)

41歲夫妻因“房事頻繁”雙雙入院,醫(yī)生提醒:每周不應(yīng)超過一個數(shù)

醫(yī)學(xué)原創(chuàng)故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰(zhàn)事最新表態(tài)

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰(zhàn)事最新表態(tài)

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內(nèi)超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現(xiàn)場并開始轉(zhuǎn)運

D1804次列車受電弓遭異物擊打,被困隧道內(nèi)超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現(xiàn)場并開始轉(zhuǎn)運

臺州交通廣播
2026-05-30 13:47:54
耿同學(xué)再下一城!南開免去陳某院長職務(wù),14張圖表確認學(xué)術(shù)不端

耿同學(xué)再下一城!南開免去陳某院長職務(wù),14張圖表確認學(xué)術(shù)不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務(wù)合作 須警惕軍國主義思潮借機復(fù)活

中方代表:日本沒有資格談國際防務(wù)合作 須警惕軍國主義思潮借機復(fù)活

環(huán)球網(wǎng)資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫(yī)院空調(diào)外機安在室內(nèi)走廊,患者吐槽“看病比室外還熱”,院方回應(yīng)

海南一三甲醫(yī)院空調(diào)外機安在室內(nèi)走廊,患者吐槽“看病比室外還熱”,院方回應(yīng)

上游新聞
2026-05-30 16:05:05
中建八局資質(zhì)被正式撤銷,給全行業(yè)敲響警鐘,考公需要注意了。

中建八局資質(zhì)被正式撤銷,給全行業(yè)敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務(wù)突破100萬億!

最新!債務(wù)突破100萬億!

葉初七
2026-05-30 10:28:14
網(wǎng)紅狗被偷后續(xù):男子被帶走,老婆還在哺乳期,收狗人曝更多內(nèi)情

網(wǎng)紅狗被偷后續(xù):男子被帶走,老婆還在哺乳期,收狗人曝更多內(nèi)情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13116文章數(shù) 142655關(guān)注度
往期回顧 全部

科技要聞

車圈大佬發(fā)聲:價格戰(zhàn)遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業(yè)無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業(yè)無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰(zhàn)近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經(jīng)要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
本地
手機
公開課

數(shù)碼要聞

消息稱微軟下周發(fā)布英偉達處理器Windows PC,戴爾也會跟進

房產(chǎn)要聞

紅動五月!全國搶入核心資產(chǎn),廣州盯緊凱旋新世界!

本地新聞

用剪紙的方式,打開江蘇揚州

手機要聞

REDMI K90至尊版入網(wǎng)?K90單品激活破200萬

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版