網易首頁 > 網易號 > 正文 申請入駐

英偉達的旗艦大模型,吞吐量暴打Qwen3.5七倍,技術細節披露!

0
分享至

英偉達的 Nemotron 3 Super 旗艦大模型,我之前詳細介紹過:

最近英偉達放出了技術報告(arxiv.org/abs/2604.12374),披露了很多細節

本文一起拆解之

簡介

Nemotron 3 Super 是英偉達 Nemotron 3 家族的旗艦模型,總參數 1206 億,每次前向傳播只激活 127 億參數(不含 embedding 是 121 億)

它融合了三種前沿技術:

  • Hybrid Mamba-Attention:用 Mamba-2 塊替代大部分注意力層,推理速度起飛

  • LatentMoE:全新的混合專家架構,精度和效率雙提升

  • MTP(Multi-Token Prediction):原生推測解碼,不需要外掛 draft model

Nemotron 3 Super 三大核心技術:LatentMoE + MTP + Hybrid Mamba-Attention

用 25 萬億 token 預訓練,支持最長100 萬 token上下文,在常見 benchmark 上和 GPT-OSS-120B、Qwen3.5-122B 打得有來有回,但推理吞吐量分別是它們的2.2 倍和 7.5 倍

下圖是論文給的精度 - 吞吐量對比,一目了然:


Nemotron 3 Super 精度與吞吐量對比:和 GPT-OSS-120B、Qwen3.5-122B 精度持平,但吞吐量遙遙領先 LatentMoE:重新設計 MoE 的底層邏輯

我覺得這篇論文最有意思的創新是LatentMoE

傳統 MoE 的問題在哪?

大家都知道 MoE 靠"只激活部分專家"來省計算量。但英偉達指出一個被忽視的問題:現有 MoE 設計幾乎只優化了每 FLOP 的精度,忽略了每參數的精度

什么意思呢?在實際部署中,你的成本不只是算力,還有:

  • 內存帶寬:每個專家權重矩陣是 d×m,讀取成本和隱藏維度 d 成正比

  • 通信開銷:分布式推理時 all-to-all 路由的流量和 d×K 成正比(K 是激活專家數)

所以英偉達的思路是:把隱藏維度 d 壓下來


標準 MoE vs LatentMoE 架構對比

LatentMoE 的做法:

  1. 降維:先把 token 從隱藏維度 d 投影到更小的潛在空間 ?

  2. 在低維空間做路由和專家計算:內存讀取和通信量直接降低 d/? 倍

  3. 擴展專家數量:省下來的預算用來增加總專家數 N 和激活專家數 K,同比放大 d/? 倍

  4. 升維:計算完再投回原始維度

這個 trade-off 非常精妙——維度降了,但專家數增了,總計算量基本不變,精度卻更好。因為更多專家的組合空間是指數級增長的


LatentMoE 降維擴專家的核心思路:用 d/? 倍降維換來指數級專家組合空間

Nemotron 3 Super 的具體配置:512 個專家,每次激活 22 個,潛在維度 1024。做個對比:DeepSeek V3 是 256 個專家激活 8 個,Qwen3.5 是 128 個專家激活 8 個

Nemotron 的專家數和激活數都大幅領先

MTP:內置的推測解碼加速器

MTP(Multi-Token Prediction)也是一大亮點。DeepSeek V3 也用了 MTP,但 Nemotron 3 Super 的實現有一個關鍵改進:共享權重的 MTP head

傳統方式:訓練 N 個獨立的預測頭,分別預測 n+2, n+3, ..., n+N+1 位置的 token。問題是推理時只能生成最多 N 個 draft token

Nemotron 的做法:多個 MTP head共享參數,讓同一個頭在訓練中見過多種偏移量。這樣推理時可以遞歸地用同一個頭生成更長的 draft,接受率衰減更平緩


MTP 接受率對比:Nemotron 3 Super 在各個 draft 位置都保持較高接受率

論文用 SPEED-Bench 測的結果:Nemotron 3 Super 平均接受長度3.45,超過 DeepSeek-R1 的 2.70,和 Qwen3-Next 的 3.33 也有優勢。在 Roleplay、RAG、Summarization 這些場景下優勢尤其明顯

配合 Blackwell 硬件,開啟 MTP draft=3 后,在同等用戶延遲下,總吞吐量顯著提升:


MTP 關閉 vs 開啟(draft=1, draft=3)的吞吐量 - 延遲 Pareto 曲線 Hybrid Mamba-Attention:KV Cache 的終結者

Nemotron 3 Super 的 88 層中,大部分是 Mamba-2 塊,只有少量注意力層作為"全局錨點"插入。


Nemotron 3 Super 的層交替模式:Mamba 塊 + MoE 層為主,穿插少量 Attention 層

這么做的好處太明顯了:

  • Mamba 塊沒有 KV Cache,生成時狀態大小恒定,不隨上下文線性增長

  • 只在關鍵位置保留注意力層做長程信息路由

  • 注意力層用 GQA(32 query heads, 2 KV heads),進一步壓縮

最終效果:支持 100 萬 token 上下文,RULER 1M 測試得分 91.64,Qwen3.5-122B 也是 91.33,而 GPT-OSS-120B 只有 22.30

這個差距太大了

NVFP4 預訓練:全程 4-bit 精度訓練

這是我覺得非常硬核的一點——Nemotron 3 Super 全程用 NVFP4(4-bit 浮點)訓練了 25 萬億 token

大多數模型用 BF16 或 FP8 訓練,用 FP4 預訓練的幾乎沒有

英偉達在這里踩了不少坑:

層類型

精度

原因

大部分線性層

NVFP4

主力精度

網絡最后 15% 的層

BF16

保證訓練穩定性

QKV & Attention 投影

BF16

保持注意力層精度

Mamba 輸出投影

MXFP8

NVFP4 下溢太嚴重

MTP 層

BF16

保留多 token 預測能力

訓練過程中觀察到 7% 的權重梯度變成零值,主要是因為 NVFP4 量化把 BF16 下本就很小的梯度(<1e-12)直接下溢為零

但英偉達發現這不影響最終精度——BF16 訓練到 10T token 后也會出現類似的零值梯度模式

甚至他們試過在 19T token 處從 NVFP4 切換到 MXFP8,loss 曲線改善了,但下游任務精度沒有任何提升

所以最終決定全程 NVFP4,不搞精度升級,這個結論很有價值。

后訓練:21 個 RL 環境,強化 Agent 能力

Nemotron 3 Super 的后訓練流程分四步:


后訓練流水線全景:SFT → RLVR → SWE-RL → RLHF → MTP Healing后訓練流水線:SFT → RLVR → SWE-RL → RLHF → MTP Healing

SFT 階段:用了超過 700 萬樣本,大幅擴充了 Agent 任務的數據量。亮點包括:

  • 從 SWE-Gym、R2E-Gym 等數據集蒸餾 Qwen3-Coder-480B 的編程軌跡

  • 專門生成了 2 萬條 Agentic CLI 任務(涵蓋 Claude Code、OpenCode、Codex 等多種 harness)

  • 合成了 150 萬條通用工具調用軌跡

  • 新增 CUDA 內核編寫/修復/優化數據(10 萬條)

RL 階段:在21 個環境、37 個數據集上同時訓練。這個規模夠恐怖的。覆蓋數學、代碼、STEM、安全、指令遵循、長上下文、Agent 工具使用等全方位能力

比較有意思的是PivotRL——一種新的 Agent 長程 RL 方法。它復用 SFT 的專家軌跡,只在"策略不確定的關鍵 turn"上做 RL 訓練。比端到端 RL 高效得多,又避免了 SFT 的域外退化問題

SWE-RL 階段:每個 rollout 在 Apptainer 容器中啟動完整的 GitHub 倉庫環境,跑 OpenHands agent 循環生成補丁,然后用真實測試驗證。為了工具多樣性,他們在 OpenHands 里實現了 OpenCode 和 Codex 的 agent class,匹配 Claude Code 和 Codex CLI 的工具格式。

量化推理:FP8 和 NVFP4 雙版本

英偉達提供了兩個量化版本:

  • FP8(W8A8):面向 Hopper 架構 GPU

  • NVFP4(W4A4):面向 Blackwell 架構 GPU,用 AutoQuantize 做混合精度搜索

NVFP4 量化的關鍵技巧:

  1. 權重用 MSE 最小化選擇縮放因子(離線校準,不影響運行時)

  2. 激活用 max-based 縮放(在線計算,追求效率)

  3. 敏感層自動提升到 FP8 或 BF16

最終 NVFP4 模型達到 BF16 基線的99.8% 精度。整個量化過程在單臺 B200 8 卡節點上不到 2 小時完成

還有一個很硬核的細節:Mamba 狀態緩存量化。直接從 FP32 轉 FP16 會導致代碼生成任務的冗余度暴漲 40%(生成太多無用 token)。原因是 Mamba 的遞歸特性會讓量化誤差逐步累積。英偉達的解決方案是隨機舍入(Stochastic Rounding),用 Philox 偽隨機數生成器消除系統性偏差。Blackwell GPU 還提供了專用的 PTX 指令來加速這個操作。

Benchmark 成績單

先看 Base 模型(預訓練后、后訓練前)的成績:

任務

Nemotron 3 Super

Ling-flash-Base-2.0

GLM-4.5-Air-Base

MMLU (5-shot)

MMLU-Pro (5-shot)

MATH (4-shot)

HumanEval (0-shot)

RULER 128K

RULER 1M

Base 模型階段就已經全面碾壓同級別競品。

后訓練版本 vs Qwen3.5-122B 和 GPT-OSS-120B:

任務

Nemotron 3 Super

Qwen3.5-122B

GPT-OSS-120B

AIME25

HMMT Feb25 (with tools)

SWE-Bench (OpenHands)

41.9

RULER 1M

Arena-Hard-V2

說實話,精度上 Nemotron 3 Super 和 Qwen3.5-122B 各有勝負。Qwen 在編程和推理上略強,但 Nemotron 在長上下文和工具使用上更有優勢。

真正拉開差距的是推理效率——在 8k 輸入 + 64k 輸出的設置下,Nemotron 3 Super 比 GPT-OSS-120B 快 2.2 倍,比 Qwen3.5-122B 快 7.5 倍。這才是實際部署時最關鍵的指標。

總結

Nemotron 3 Super 是英偉達在"效率優先"路線上的集大成之作

三個核心創新——LatentMoE、MTP、Hybrid Mamba-Attention——分別從參數效率、解碼效率、內存效率三個維度做了優化,加上 NVFP4 全程訓練的探索,整體技術含量很高

優點

  • 推理吞吐量確實是王炸級別,7.5 倍的差距太夸張

  • 100 萬上下文長度,且長上下文表現極其穩定

  • 全部開源(模型權重 + 訓練數據 + 訓練 recipe),真·業界良心

  • NVFP4 全程訓練驗證了低精度大規模訓練的可行性

  • Agent 能力突出,21 個 RL 環境訓練的深度投入

不足

  • 在純推理任務(AIME、GPQA)上相比 Qwen3.5 稍有差距

  • SWE-Bench 分數落后 Qwen3.5 約 6 個點

  • 目前主要針對 NVIDIA GPU 優化(Hopper/Blackwell),其他硬件適配待觀察

  • 512 個專家的 MoE 結構對顯存要求不低,個人部署有門檻

適合誰用:如果你是做大規模 AI 推理服務的,需要在 NVIDIA 硬件上追求極致吞吐量,或者需要超長上下文和 Agent 能力,Nemotron 3 Super 是一個非常值得考慮的選擇。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
為啥末代皇帝往往是昏君 看網友分析 思想境界都上了一個大臺階

為啥末代皇帝往往是昏君 看網友分析 思想境界都上了一個大臺階

侃神評故事
2026-04-23 15:40:03
剛剛宣布:加息25個基點

剛剛宣布:加息25個基點

中國基金報
2026-04-23 18:34:59
伊朗用血淚給中國換來了教訓:最大的敵人,并不是美國和以色列

伊朗用血淚給中國換來了教訓:最大的敵人,并不是美國和以色列

墨印齋
2026-04-23 15:42:00
嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

夢想總會變成真
2026-04-23 01:11:47
5月1日起全面嚴查!在職退休無一例外,這5類人好日子到頭了

5月1日起全面嚴查!在職退休無一例外,這5類人好日子到頭了

細說職場
2026-04-23 10:38:58
李小冉的顏值被嚴重低估了!董潔、湯唯和她合影,都黯然失色了

李小冉的顏值被嚴重低估了!董潔、湯唯和她合影,都黯然失色了

八斗小先生
2026-04-23 16:31:41
霍汶希力挺張敬軒僅6天后續:英皇全藝人遭集體抵制 態度一邊倒

霍汶希力挺張敬軒僅6天后續:英皇全藝人遭集體抵制 態度一邊倒

觀察鑒娛
2026-04-23 12:01:07
上海地鐵站內,這個“高素質”習慣爆發沖突!上海已叫停多年!很多人改不過來……

上海地鐵站內,這個“高素質”習慣爆發沖突!上海已叫停多年!很多人改不過來……

環球網資訊
2026-04-23 11:11:44
拜合拉木談安東尼奧:沒有他選我進國青,可能我還在內蒙踢

拜合拉木談安東尼奧:沒有他選我進國青,可能我還在內蒙踢

懂球帝
2026-04-23 23:24:51
個人微信建了600多個工作群,離職時賬號歸誰

個人微信建了600多個工作群,離職時賬號歸誰

現代快報
2026-04-23 13:49:11
意大利體育部長:意大利遞補參加世界杯既不可能,也不合適

意大利體育部長:意大利遞補參加世界杯既不可能,也不合適

懂球帝
2026-04-23 22:18:05
泰國潑水節一名15歲少女遭軍人尾隨進公廁性侵,監控曝光,嫌疑人已投案自首,將被移送軍事法庭

泰國潑水節一名15歲少女遭軍人尾隨進公廁性侵,監控曝光,嫌疑人已投案自首,將被移送軍事法庭

揚子晚報
2026-04-21 22:25:47
大衣哥再登熱搜!高鐵站席地而坐刷手機,衣著樸素、毫無明星架子

大衣哥再登熱搜!高鐵站席地而坐刷手機,衣著樸素、毫無明星架子

火山詩話
2026-04-23 16:00:38
99年我在守水庫,遇到一個道士借宿,他走時叮囑我,最近先別下山

99年我在守水庫,遇到一個道士借宿,他走時叮囑我,最近先別下山

千秋文化
2026-04-20 19:50:05
“特朗普說什么都沒用” 德黑蘭掛起巨幅海報宣告“永久控制”霍爾木茲海峽

“特朗普說什么都沒用” 德黑蘭掛起巨幅海報宣告“永久控制”霍爾木茲海峽

新華社
2026-04-23 21:27:51
整整26年的太子,僅僅6個月的皇帝,換來5個月的太上皇

整整26年的太子,僅僅6個月的皇帝,換來5個月的太上皇

鶴羽說個事
2026-04-23 22:29:23
扮豬吃虎?忍耐四個月,委代總統撕破偽裝,率幾十萬大軍硬剛美國

扮豬吃虎?忍耐四個月,委代總統撕破偽裝,率幾十萬大軍硬剛美國

健身狂人
2026-04-23 17:45:54
比亞迪在馬來西亞的東盟首個整車基地已全面停工,項目陷入僵局

比亞迪在馬來西亞的東盟首個整車基地已全面停工,項目陷入僵局

流蘇晚晴
2026-04-22 19:05:45
伊朗戰事未停,五角大樓先“斬”海軍部長:“沒認清誰是老大”的代價

伊朗戰事未停,五角大樓先“斬”海軍部長:“沒認清誰是老大”的代價

上觀新聞
2026-04-23 16:28:28
伊朗斷網50多天,創下一個世界紀錄,是怕美國還是怕老百姓?

伊朗斷網50多天,創下一個世界紀錄,是怕美國還是怕老百姓?

云舟史策
2026-04-24 07:30:43
2026-04-24 09:27:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

旅游
藝術
親子
本地
公開課

旅游要聞

走進櫸溪村

藝術要聞

江青對聯驚艷眾人,書法與寫字的界限究竟在哪?

親子要聞

法國寶媽在網上偷偷賣自己的奶!暗訪“母乳黑市”:細菌、乙肝……這能放心喝?

本地新聞

SAGA GIRLS 2026女團選秀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版