无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全球首次單機降服萬億巨模DeepSeek-V4!RL后訓(xùn)練框架Orbit開源!

0
分享至



從數(shù)學(xué)、代碼、復(fù)雜推理,到多輪工具調(diào)用,大模型的很多能力的提升都離不開 RL 后訓(xùn)練。但當模型規(guī)模進入 MoE 萬億參數(shù)級別之后,RL 不再只是一個算法問題,同時更加是一個系統(tǒng)問題。

訓(xùn)練側(cè)需要容納龐大的模型權(quán)重、梯度和優(yōu)化器狀態(tài);rollout 側(cè)需要持續(xù)生成樣本,并保持足夠高的吞吐;reference policy 又會進一步放大顯存和調(diào)度壓力。同時,很多 RL 系統(tǒng)在訓(xùn)練時使用較高精度模型,而真正 rollout 或部署時使用低精度 serving 模型。這些精度差異,最終會體現(xiàn)在部署效果與 RL 效果的不一致上。

通過將 base model 固定在部署時使用的低精度表示,并只更新 adapter,Orbit 將 Kimi-K2.6、DeepSeek V4 級別的 1T 模型 RL 后訓(xùn)練壓縮到單臺 8×B200 上完成。同時,訓(xùn)練和 rollout 使用同一條低精度 base + adapter 路徑,從系統(tǒng)層面消除了訓(xùn)練模型與 rollout / 部署模型之間的精度不一致。

Orbit 做到「讓萬億模型進入單節(jié)點 RL 區(qū)間」這件事的意義在于:

  1. 避免了「訓(xùn)練精度」和「部署精度」不一致帶來的偏差,從而帶來更穩(wěn)定更高效的 RL 后訓(xùn)練;
  2. 單節(jié)點 RL 可以顯著降低多節(jié)點訓(xùn)練時的通信時延與故障率;
  3. 在同樣的 HBM 預(yù)算下,模型會獲得更寬的訓(xùn)練空間,過去需要多卡才能訓(xùn)的模型,有機會被壓縮到單卡。



  • 官方博客:https://spherelab.ai/orbit/
  • Github:https://github.com/Sphere-AI-Lab/orbit

Orbit:支持萬億參數(shù)模型 RL 微調(diào)的高效框架

顯存控制:如下圖 1 所示的估算中,單節(jié)點 8×B200 的 HBM 預(yù)算約為 1536GB。對 1T 級模型而言,傳統(tǒng)全參微調(diào)的 weight + grad 顯存下界會遠超單機預(yù)算;而 Orbit 路徑由于凍結(jié)低精度 base,只訓(xùn)練 adapter,可以把 1T 級模型的 RL 后訓(xùn)練放進單節(jié)點預(yù)算內(nèi)。



圖 1 不同框架下大參數(shù)模型的單節(jié)點顯存需求估算

訓(xùn)推精度對齊:在很多 RL 系統(tǒng)里,訓(xùn)練側(cè)可能使用 BF16 或 FP8 等高精度 ,而推理側(cè)使用 INT4、FP4 等低精度。對于監(jiān)督微調(diào)來說,這種差異有時可以被視作推理優(yōu)化的一部分;但在 RL 中,policy log-prob 本身就是訓(xùn)練信號的一部分,訓(xùn)練側(cè)和推理側(cè)之間的誤差 log-prob diff 會直接影響穩(wěn)定性。

Orbit 將這一問題前置到了系統(tǒng)設(shè)計中:訓(xùn)練和推理使用相同的低精度 base ,并在其上加載同一個 BF16 adapter,從而保持訓(xùn)推精度一致。

Adapter-first 的系統(tǒng)設(shè)計:Orbit 圍繞 adapter 對 RL 訓(xùn)練、推理、同步、reference policy 和低精度 MoE 做了一套整體設(shè)計。base 始終凍結(jié),每次訓(xùn)練更新后,只需要將 MB 級 adapter (不需將 GB 級的 base)從訓(xùn)練引擎推送到推理引擎。這不僅減少了權(quán)重同步的體積,也避免了頻繁重建推理引擎的開銷。

單節(jié)點 Kimi-K2.6 結(jié)果

在這組實驗中,模型運行在單臺 8×B200 上,訓(xùn)練精度為 INT4 base + BF16 adapter,rollout 精度使用相同的 INT4 base + BF16 adapter。也就是說,訓(xùn)練和 rollout 走的是同一條低精度 base + adapter 路徑。

在約 200 step 的 RL 過程中,Orbit 觀察到了幾個同時成立的信號:

  • reward 上升;
  • eval accuracy 上升;
  • pass@k 上升;
  • train-rollout log-prob diff 保持穩(wěn)定。



圖 2 Kimi-2.6 在 Orbit 下單機 RL 后訓(xùn)練信號



圖 3 Kimi-2.6 在 Orbit 下單機 RL 后訓(xùn)練的顯存記錄

圖 2 顯示,Kimi-K2.6 的 rollout raw reward、eval accuracy 和 pass@k 曲線隨訓(xùn)練推進而穩(wěn)定上升。同時,train-rollout log-prob diff 穩(wěn)定維持在一個區(qū)間。

對于一個對 log-prob 差異非常敏感的訓(xùn)練范式來說,這些信號實際地證明了 Orbit 的 RL 后訓(xùn)練閉環(huán)不僅在單機上把 1T 的模型上穩(wěn)定能跑,同時跑對了且在測試任務(wù)上有效果。

單節(jié)點 DeepSeek V4 Flash 結(jié)果

在這組實驗中,DeepSeek V4 Flash 同樣運行在單臺 8×B200 上。訓(xùn)練精度為 FP4 base + BF16 adapter,rollout 精度也使用相同的 FP4 base + BF16 adapter。



圖 4 DeepSeek V4 Flash 在 Orbit 下單機 RL 后訓(xùn)練信號



圖 5 DeepSeek V4 Flash 在 Orbit 下單機 RL 后訓(xùn)練的顯存記錄

從結(jié)果看,DeepSeek V4 Flash 在 100 step 以上的 RL 過程中同樣保持穩(wěn)定:reward、eval、pass@k 整體上升,train-rollout log-prob diff 保持在穩(wěn)定區(qū)間。這些趨勢跟在 Kimi-K2.6 上的實驗結(jié)果類似。

單節(jié)點 1.6T DeepSeek V4 Pro 初步驗證

除了 Kimi-K2.6 和 DeepSeek V4 Flash 兩組穩(wěn)定有效的訓(xùn)練結(jié)果,Orbit 還在 DeepSeek V4 Pro 1.6T 上完成初步驗證。

由于 DeepSeek V4 Pro base model 本身很強,實驗中用的 RL 訓(xùn)練數(shù)據(jù)不能讓它漲點,因此該實驗更多是證明 Orbit 的系統(tǒng)路徑可以擴展到更大的 1.6T 級 MoE 模型。



圖 6 DeepSeek V4 Pro 在 Orbit 下單機 RL 后訓(xùn)練信號和顯存記錄

在 1.6T DeepSeek V4 Pro 上,Orbit 完成了單節(jié)點 8×B200 的實驗,展示了穩(wěn)定的 train-rollout log-prob diff 和可控穩(wěn)定的 GPU 顯存。

這組結(jié)果證明Orbit 的系統(tǒng)上限可在單節(jié)點 8×B200 達到 1.6T 級別,展示了其設(shè)計有機會覆蓋更大的 MoE 模型區(qū)間。

從單節(jié)點萬億模型,到單卡更大模型

單節(jié)點跑通萬億模型 RL 反過來也說明了同樣的硬件預(yù)算就可以覆蓋更大的模型區(qū)間。

對萬億模型來說,這意味著原本可能需要多機協(xié)同的 RL 后訓(xùn)練,可以被壓縮到單節(jié)點完成。對中小模型來說在 Orbit 的 adapter-first 框架下,單卡也有機會 RL 微調(diào)過去需要多卡才能支持的模型,或者在相同模型規(guī)模下支持更長 response、更大 batch、更高 rollout throughput 和更頻繁的更新。

因此,Orbit 的價值并不只在于「讓大模型變得可訓(xùn)練」,也在于讓小模型的 RL 后訓(xùn)練變得更容易。

技術(shù)細節(jié)

Active-expert-chunked dequantization:對于 MoE 模型來說,每個詞元只會激活部分 experts。Orbit 動態(tài)地將 router 選中的 experts 分組成固定大小的 batch,臨時反量化后執(zhí)行 grouped GEMM,并在計算結(jié)束后釋放高精度權(quán)重。這樣既能利用 grouped matrix multiplication 的吞吐,又能將臨時顯存峰值限制在較小 chunk 內(nèi),避免大規(guī)模低精度 MoE 訓(xùn)練中的 OOM。

Adapter-native async with double-buffered rollout:系統(tǒng)會為 adapter 維護版本號,并將新版本 adapter 流式寫入 inactive slot;當前 active slot 繼續(xù)服務(wù) in-flight 請求,待新版本準備好后再原子切換。這樣可以減少 rollout bubble。在 Qwen3-4B + OFT、8×B200、TP=2 設(shè)置下,該設(shè)計帶來了 1.42 倍的單步時間優(yōu)化和 44% 更高的 rollout throughput,同時 eval accuracy 保持不變。

DeepSeek V4 相關(guān)優(yōu)化:Orbit 支持 Full-CUDA graph decoding、DeepGEMM、DeepEP V2,并使用 tilelang / Triton / CUDA 實現(xiàn)高效 attention backward 和 fusion kernels。根據(jù) adapter 訓(xùn)練的特點,Orbit 還設(shè)計了 bypass-base-weight-grad 的高效 GEMM backward 算子,避免為凍結(jié) base 計算不必要的梯度。

結(jié)語

過去,大模型 RL 后訓(xùn)練往往意味著更復(fù)雜的多機系統(tǒng):更多節(jié)點、更重的權(quán)重同步和更復(fù)雜的系統(tǒng)協(xié)同。

Orbit 提供了另一條路徑:凍結(jié)低精度 base,只訓(xùn) adapter,讓訓(xùn)練、rollout 和部署對齊,并把整模同步換成 adapter 同步。這讓萬億模型可以進入單節(jié)點訓(xùn)練區(qū)間,更小模型也能在單卡或更有限的硬件上跑得更遠。

從 Kimi-K2.6 到 DeepSeek V4 Flash,再到 DeepSeek V4 Pro 1.6T,Orbit 展示和提供了一套面向大模型后訓(xùn)練的高效框架。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數(shù)萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數(shù)萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復(fù)措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復(fù)措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現(xiàn),兩千億巨頭陷熱門概念敘事與資本套現(xiàn)割裂

三花智控高管“為孩子教育”減持套現(xiàn),兩千億巨頭陷熱門概念敘事與資本套現(xiàn)割裂

每日經(jīng)濟新聞
2026-05-30 14:41:08
“結(jié)婚22年后發(fā)現(xiàn)兩兒子均非親生”當事人發(fā)聲:我對他們恨之入骨!

“結(jié)婚22年后發(fā)現(xiàn)兩兒子均非親生”當事人發(fā)聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應(yīng):不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應(yīng):不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰(zhàn)爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰(zhàn)爭

俄烏戰(zhàn)爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰(zhàn)爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統(tǒng)

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統(tǒng)

項鵬飛
2026-05-30 16:28:01
西決搶七大戰(zhàn)裁判出爐:戴維斯擔任主裁 三人執(zhí)哨兩隊勝率曝光

西決搶七大戰(zhàn)裁判出爐:戴維斯擔任主裁 三人執(zhí)哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫(yī)生提醒:每周不應(yīng)超過一個數(shù)

41歲夫妻因“房事頻繁”雙雙入院,醫(yī)生提醒:每周不應(yīng)超過一個數(shù)

醫(yī)學(xué)原創(chuàng)故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰(zhàn)事最新表態(tài)

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰(zhàn)事最新表態(tài)

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內(nèi)超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現(xiàn)場并開始轉(zhuǎn)運

D1804次列車受電弓遭異物擊打,被困隧道內(nèi)超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現(xiàn)場并開始轉(zhuǎn)運

臺州交通廣播
2026-05-30 13:47:54
耿同學(xué)再下一城!南開免去陳某院長職務(wù),14張圖表確認學(xué)術(shù)不端

耿同學(xué)再下一城!南開免去陳某院長職務(wù),14張圖表確認學(xué)術(shù)不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務(wù)合作 須警惕軍國主義思潮借機復(fù)活

中方代表:日本沒有資格談國際防務(wù)合作 須警惕軍國主義思潮借機復(fù)活

環(huán)球網(wǎng)資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫(yī)院空調(diào)外機安在室內(nèi)走廊,患者吐槽“看病比室外還熱”,院方回應(yīng)

海南一三甲醫(yī)院空調(diào)外機安在室內(nèi)走廊,患者吐槽“看病比室外還熱”,院方回應(yīng)

上游新聞
2026-05-30 16:05:05
中建八局資質(zhì)被正式撤銷,給全行業(yè)敲響警鐘,考公需要注意了。

中建八局資質(zhì)被正式撤銷,給全行業(yè)敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務(wù)突破100萬億!

最新!債務(wù)突破100萬億!

葉初七
2026-05-30 10:28:14
網(wǎng)紅狗被偷后續(xù):男子被帶走,老婆還在哺乳期,收狗人曝更多內(nèi)情

網(wǎng)紅狗被偷后續(xù):男子被帶走,老婆還在哺乳期,收狗人曝更多內(nèi)情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13116文章數(shù) 142655關(guān)注度
往期回顧 全部

科技要聞

車圈大佬發(fā)聲:價格戰(zhàn)遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業(yè)無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業(yè)無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰(zhàn)近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經(jīng)要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

房產(chǎn)
旅游
手機
本地
公開課

房產(chǎn)要聞

紅動五月!全國搶入核心資產(chǎn),廣州盯緊凱旋新世界!

旅游要聞

六一帶娃去哪玩?鄭州又多了個好去處!

手機要聞

REDMI K90至尊版入網(wǎng)?K90單品激活破200萬

本地新聞

用剪紙的方式,打開江蘇揚州

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版