无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全球首次單機(jī)降服萬億巨模DeepSeek-V4!RL后訓(xùn)練框架Orbit開源!

0
分享至



從數(shù)學(xué)、代碼、復(fù)雜推理,到多輪工具調(diào)用,大模型的很多能力的提升都離不開 RL 后訓(xùn)練。但當(dāng)模型規(guī)模進(jìn)入 MoE 萬億參數(shù)級別之后,RL 不再只是一個(gè)算法問題,同時(shí)更加是一個(gè)系統(tǒng)問題。

訓(xùn)練側(cè)需要容納龐大的模型權(quán)重、梯度和優(yōu)化器狀態(tài);rollout 側(cè)需要持續(xù)生成樣本,并保持足夠高的吞吐;reference policy 又會進(jìn)一步放大顯存和調(diào)度壓力。同時(shí),很多 RL 系統(tǒng)在訓(xùn)練時(shí)使用較高精度模型,而真正 rollout 或部署時(shí)使用低精度 serving 模型。這些精度差異,最終會體現(xiàn)在部署效果與 RL 效果的不一致上。

通過將 base model 固定在部署時(shí)使用的低精度表示,并只更新 adapter,Orbit 將 Kimi-K2.6、DeepSeek V4 級別的 1T 模型 RL 后訓(xùn)練壓縮到單臺 8×B200 上完成。同時(shí),訓(xùn)練和 rollout 使用同一條低精度 base + adapter 路徑,從系統(tǒng)層面消除了訓(xùn)練模型與 rollout / 部署模型之間的精度不一致。

Orbit 做到「讓萬億模型進(jìn)入單節(jié)點(diǎn) RL 區(qū)間」這件事的意義在于:

  1. 避免了「訓(xùn)練精度」和「部署精度」不一致帶來的偏差,從而帶來更穩(wěn)定更高效的 RL 后訓(xùn)練;
  2. 單節(jié)點(diǎn) RL 可以顯著降低多節(jié)點(diǎn)訓(xùn)練時(shí)的通信時(shí)延與故障率;
  3. 在同樣的 HBM 預(yù)算下,模型會獲得更寬的訓(xùn)練空間,過去需要多卡才能訓(xùn)的模型,有機(jī)會被壓縮到單卡。



  • 官方博客:https://spherelab.ai/orbit/
  • Github:https://github.com/Sphere-AI-Lab/orbit

Orbit:支持萬億參數(shù)模型 RL 微調(diào)的高效框架

顯存控制:如下圖 1 所示的估算中,單節(jié)點(diǎn) 8×B200 的 HBM 預(yù)算約為 1536GB。對 1T 級模型而言,傳統(tǒng)全參微調(diào)的 weight + grad 顯存下界會遠(yuǎn)超單機(jī)預(yù)算;而 Orbit 路徑由于凍結(jié)低精度 base,只訓(xùn)練 adapter,可以把 1T 級模型的 RL 后訓(xùn)練放進(jìn)單節(jié)點(diǎn)預(yù)算內(nèi)。



圖 1 不同框架下大參數(shù)模型的單節(jié)點(diǎn)顯存需求估算

訓(xùn)推精度對齊:在很多 RL 系統(tǒng)里,訓(xùn)練側(cè)可能使用 BF16 或 FP8 等高精度 ,而推理側(cè)使用 INT4、FP4 等低精度。對于監(jiān)督微調(diào)來說,這種差異有時(shí)可以被視作推理優(yōu)化的一部分;但在 RL 中,policy log-prob 本身就是訓(xùn)練信號的一部分,訓(xùn)練側(cè)和推理側(cè)之間的誤差 log-prob diff 會直接影響穩(wěn)定性。

Orbit 將這一問題前置到了系統(tǒng)設(shè)計(jì)中:訓(xùn)練和推理使用相同的低精度 base ,并在其上加載同一個(gè) BF16 adapter,從而保持訓(xùn)推精度一致。

Adapter-first 的系統(tǒng)設(shè)計(jì):Orbit 圍繞 adapter 對 RL 訓(xùn)練、推理、同步、reference policy 和低精度 MoE 做了一套整體設(shè)計(jì)。base 始終凍結(jié),每次訓(xùn)練更新后,只需要將 MB 級 adapter (不需將 GB 級的 base)從訓(xùn)練引擎推送到推理引擎。這不僅減少了權(quán)重同步的體積,也避免了頻繁重建推理引擎的開銷。

單節(jié)點(diǎn) Kimi-K2.6 結(jié)果

在這組實(shí)驗(yàn)中,模型運(yùn)行在單臺 8×B200 上,訓(xùn)練精度為 INT4 base + BF16 adapter,rollout 精度使用相同的 INT4 base + BF16 adapter。也就是說,訓(xùn)練和 rollout 走的是同一條低精度 base + adapter 路徑。

在約 200 step 的 RL 過程中,Orbit 觀察到了幾個(gè)同時(shí)成立的信號:

  • reward 上升;
  • eval accuracy 上升;
  • pass@k 上升;
  • train-rollout log-prob diff 保持穩(wěn)定。



圖 2 Kimi-2.6 在 Orbit 下單機(jī) RL 后訓(xùn)練信號



圖 3 Kimi-2.6 在 Orbit 下單機(jī) RL 后訓(xùn)練的顯存記錄

圖 2 顯示,Kimi-K2.6 的 rollout raw reward、eval accuracy 和 pass@k 曲線隨訓(xùn)練推進(jìn)而穩(wěn)定上升。同時(shí),train-rollout log-prob diff 穩(wěn)定維持在一個(gè)區(qū)間。

對于一個(gè)對 log-prob 差異非常敏感的訓(xùn)練范式來說,這些信號實(shí)際地證明了 Orbit 的 RL 后訓(xùn)練閉環(huán)不僅在單機(jī)上把 1T 的模型上穩(wěn)定能跑,同時(shí)跑對了且在測試任務(wù)上有效果。

單節(jié)點(diǎn) DeepSeek V4 Flash 結(jié)果

在這組實(shí)驗(yàn)中,DeepSeek V4 Flash 同樣運(yùn)行在單臺 8×B200 上。訓(xùn)練精度為 FP4 base + BF16 adapter,rollout 精度也使用相同的 FP4 base + BF16 adapter。



圖 4 DeepSeek V4 Flash 在 Orbit 下單機(jī) RL 后訓(xùn)練信號



圖 5 DeepSeek V4 Flash 在 Orbit 下單機(jī) RL 后訓(xùn)練的顯存記錄

從結(jié)果看,DeepSeek V4 Flash 在 100 step 以上的 RL 過程中同樣保持穩(wěn)定:reward、eval、pass@k 整體上升,train-rollout log-prob diff 保持在穩(wěn)定區(qū)間。這些趨勢跟在 Kimi-K2.6 上的實(shí)驗(yàn)結(jié)果類似。

單節(jié)點(diǎn) 1.6T DeepSeek V4 Pro 初步驗(yàn)證

除了 Kimi-K2.6 和 DeepSeek V4 Flash 兩組穩(wěn)定有效的訓(xùn)練結(jié)果,Orbit 還在 DeepSeek V4 Pro 1.6T 上完成初步驗(yàn)證。

由于 DeepSeek V4 Pro base model 本身很強(qiáng),實(shí)驗(yàn)中用的 RL 訓(xùn)練數(shù)據(jù)不能讓它漲點(diǎn),因此該實(shí)驗(yàn)更多是證明 Orbit 的系統(tǒng)路徑可以擴(kuò)展到更大的 1.6T 級 MoE 模型。



圖 6 DeepSeek V4 Pro 在 Orbit 下單機(jī) RL 后訓(xùn)練信號和顯存記錄

在 1.6T DeepSeek V4 Pro 上,Orbit 完成了單節(jié)點(diǎn) 8×B200 的實(shí)驗(yàn),展示了穩(wěn)定的 train-rollout log-prob diff 和可控穩(wěn)定的 GPU 顯存。

這組結(jié)果證明Orbit 的系統(tǒng)上限可在單節(jié)點(diǎn) 8×B200 達(dá)到 1.6T 級別,展示了其設(shè)計(jì)有機(jī)會覆蓋更大的 MoE 模型區(qū)間。

從單節(jié)點(diǎn)萬億模型,到單卡更大模型

單節(jié)點(diǎn)跑通萬億模型 RL 反過來也說明了同樣的硬件預(yù)算就可以覆蓋更大的模型區(qū)間。

對萬億模型來說,這意味著原本可能需要多機(jī)協(xié)同的 RL 后訓(xùn)練,可以被壓縮到單節(jié)點(diǎn)完成。對中小模型來說在 Orbit 的 adapter-first 框架下,單卡也有機(jī)會 RL 微調(diào)過去需要多卡才能支持的模型,或者在相同模型規(guī)模下支持更長 response、更大 batch、更高 rollout throughput 和更頻繁的更新。

因此,Orbit 的價(jià)值并不只在于「讓大模型變得可訓(xùn)練」,也在于讓小模型的 RL 后訓(xùn)練變得更容易。

技術(shù)細(xì)節(jié)

Active-expert-chunked dequantization:對于 MoE 模型來說,每個(gè)詞元只會激活部分 experts。Orbit 動態(tài)地將 router 選中的 experts 分組成固定大小的 batch,臨時(shí)反量化后執(zhí)行 grouped GEMM,并在計(jì)算結(jié)束后釋放高精度權(quán)重。這樣既能利用 grouped matrix multiplication 的吞吐,又能將臨時(shí)顯存峰值限制在較小 chunk 內(nèi),避免大規(guī)模低精度 MoE 訓(xùn)練中的 OOM。

Adapter-native async with double-buffered rollout:系統(tǒng)會為 adapter 維護(hù)版本號,并將新版本 adapter 流式寫入 inactive slot;當(dāng)前 active slot 繼續(xù)服務(wù) in-flight 請求,待新版本準(zhǔn)備好后再原子切換。這樣可以減少 rollout bubble。在 Qwen3-4B + OFT、8×B200、TP=2 設(shè)置下,該設(shè)計(jì)帶來了 1.42 倍的單步時(shí)間優(yōu)化和 44% 更高的 rollout throughput,同時(shí) eval accuracy 保持不變。

DeepSeek V4 相關(guān)優(yōu)化:Orbit 支持 Full-CUDA graph decoding、DeepGEMM、DeepEP V2,并使用 tilelang / Triton / CUDA 實(shí)現(xiàn)高效 attention backward 和 fusion kernels。根據(jù) adapter 訓(xùn)練的特點(diǎn),Orbit 還設(shè)計(jì)了 bypass-base-weight-grad 的高效 GEMM backward 算子,避免為凍結(jié) base 計(jì)算不必要的梯度。

結(jié)語

過去,大模型 RL 后訓(xùn)練往往意味著更復(fù)雜的多機(jī)系統(tǒng):更多節(jié)點(diǎn)、更重的權(quán)重同步和更復(fù)雜的系統(tǒng)協(xié)同。

Orbit 提供了另一條路徑:凍結(jié)低精度 base,只訓(xùn) adapter,讓訓(xùn)練、rollout 和部署對齊,并把整模同步換成 adapter 同步。這讓萬億模型可以進(jìn)入單節(jié)點(diǎn)訓(xùn)練區(qū)間,更小模型也能在單卡或更有限的硬件上跑得更遠(yuǎn)。

從 Kimi-K2.6 到 DeepSeek V4 Flash,再到 DeepSeek V4 Pro 1.6T,Orbit 展示和提供了一套面向大模型后訓(xùn)練的高效框架。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
阿森納歐冠看你了!英超3天后或包攬本賽季歐戰(zhàn)3冠 36年神跡將至

阿森納歐冠看你了!英超3天后或包攬本賽季歐戰(zhàn)3冠 36年神跡將至

我愛英超
2026-05-28 06:32:47
深圳這把火刷屏了,怎么回事?

深圳這把火刷屏了,怎么回事?

靠山屯閑話
2026-05-27 23:04:54
景甜急賣1.5億江景房!疑似為籌錢還富豪男友,難怪突然不爆料了

景甜急賣1.5億江景房!疑似為籌錢還富豪男友,難怪突然不爆料了

萌神木木
2026-05-27 11:42:30
6死7傷!為銷毀貪腐證據(jù)炸掉鄉(xiāng)政府,四川涼山6.26爆炸案震驚中央

6死7傷!為銷毀貪腐證據(jù)炸掉鄉(xiāng)政府,四川涼山6.26爆炸案震驚中央

易玄
2026-05-28 05:53:57
72歲上海知青重回云南看初戀,得知自己竟兒孫滿堂:是我對不起你

72歲上海知青重回云南看初戀,得知自己竟兒孫滿堂:是我對不起你

紅豆講堂
2024-10-07 10:57:14
亞當(dāng)·肖華再遭質(zhì)疑!聯(lián)盟公信力崩塌,天王山爭議判罰引眾怒!

亞當(dāng)·肖華再遭質(zhì)疑!聯(lián)盟公信力崩塌,天王山爭議判罰引眾怒!

田先生籃球
2026-05-27 13:43:41
王欣瑜對手:我不是一個(gè)作弊的球員;總不能平白無故把分?jǐn)?shù)讓給她

王欣瑜對手:我不是一個(gè)作弊的球員;總不能平白無故把分?jǐn)?shù)讓給她

懂球帝
2026-05-28 01:50:22
以后晚上用電不一定便宜了!全國多地取消執(zhí)行40多年的固定分時(shí)電價(jià):市場說了算

以后晚上用電不一定便宜了!全國多地取消執(zhí)行40多年的固定分時(shí)電價(jià):市場說了算

中國能源網(wǎng)
2026-05-27 10:53:04
震驚!河南一足療店推出“反方向的鐘”,200多給技師洗腳70分鐘

震驚!河南一足療店推出“反方向的鐘”,200多給技師洗腳70分鐘

火山詩話
2026-05-28 05:53:10
為什么往死里掃黃?網(wǎng)友分享太真實(shí)了,一次說透

為什么往死里掃黃?網(wǎng)友分享太真實(shí)了,一次說透

另子維愛讀史
2026-05-27 20:16:03
決賽2次送禮 U17國足助教:潘朝偉非關(guān)系戶 他球商高+像日本球員

決賽2次送禮 U17國足助教:潘朝偉非關(guān)系戶 他球商高+像日本球員

我愛英超
2026-05-28 07:25:00
官媒俄烏網(wǎng)用“人渣敗類”回懟中國網(wǎng)民批評

官媒俄烏網(wǎng)用“人渣敗類”回懟中國網(wǎng)民批評

輦轂
2026-05-27 22:11:11
SOD 出品,全是真的

SOD 出品,全是真的

吃瓜黨二號頭目
2026-05-28 09:08:51
全新一代問界M9正式上市!余承東:我不是很謙虛 它是地球上性能最強(qiáng)SUV

全新一代問界M9正式上市!余承東:我不是很謙虛 它是地球上性能最強(qiáng)SUV

快科技
2026-05-27 17:10:27
徐湖平被查后續(xù)細(xì)節(jié)曝光:文物流向各地,行業(yè)亂象觸目驚心!

徐湖平被查后續(xù)細(xì)節(jié)曝光:文物流向各地,行業(yè)亂象觸目驚心!

麥杰遜
2026-05-27 18:09:29
國內(nèi)將逐漸停止"腸鏡檢查"?做完對身體有無影響?醫(yī)生告訴您真相

國內(nèi)將逐漸停止"腸鏡檢查"?做完對身體有無影響?醫(yī)生告訴您真相

垚垚分享健康
2026-05-27 11:20:11
同事婆婆去世,請假要上傳證明!她把婆婆靈堂、亡身都上傳了...人事半夜審核,魂兒嚇沒了

同事婆婆去世,請假要上傳證明!她把婆婆靈堂、亡身都上傳了...人事半夜審核,魂兒嚇沒了

醫(yī)脈圈
2026-05-27 20:42:28
伊朗革命衛(wèi)隊(duì)稱對美空軍基地進(jìn)行打擊

伊朗革命衛(wèi)隊(duì)稱對美空軍基地進(jìn)行打擊

新華社
2026-05-28 11:16:19
炸裂!北京榜一大哥狂砸1700萬,女主播美若天仙,聊天記錄辣眼睛

炸裂!北京榜一大哥狂砸1700萬,女主播美若天仙,聊天記錄辣眼睛

小鋭有話說
2026-05-28 08:27:38
湖北大娘硬訛收割機(jī)后續(xù)!大批車主逃離,小麥爛地里,也沒人敢去

湖北大娘硬訛收割機(jī)后續(xù)!大批車主逃離,小麥爛地里,也沒人敢去

老貓觀點(diǎn)
2026-05-28 07:26:11
2026-05-28 13:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13099文章數(shù) 142653關(guān)注度
往期回顧 全部

科技要聞

臺積電3納米下半年漲價(jià)15% 明年或再漲10%

頭條要聞

民進(jìn)黨發(fā)言人稱受不了國臺辦 陳斌華回應(yīng)時(shí)戰(zhàn)術(shù)性喝水

頭條要聞

民進(jìn)黨發(fā)言人稱受不了國臺辦 陳斌華回應(yīng)時(shí)戰(zhàn)術(shù)性喝水

體育要聞

如果雷霆拼圖是這水平 馬刺確實(shí)打不過

娛樂要聞

曝大嫂冒充七七同學(xué),林俊杰刪掉合照

財(cái)經(jīng)要聞

長鑫科技IPO過會,市值會到幾萬億?

汽車要聞

限時(shí)補(bǔ)貼價(jià)9.28-10.98萬 MG 4X正式上市

態(tài)度原創(chuàng)

家居
游戲
手機(jī)
本地
公開課

家居要聞

蜂鳥餐椅 線面交錯(cuò)

在《戰(zhàn)術(shù)小隊(duì):破曉攻勢》里,我找回了第一次上戰(zhàn)場的感覺"/> 主站 商城 論壇 自運(yùn)營 登錄 注冊 在《戰(zhàn)術(shù)小隊(duì):破曉攻勢》里,我找回了第一次上戰(zhàn)場的感...

手機(jī)要聞

華為Pura 90 Pro系列推送鴻蒙新版本,新增三種色彩限時(shí)水印

本地新聞

用剪紙的方式,打開江蘇揚(yáng)州

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版