網易首頁 > 網易號 > 正文申請入駐

英偉達的旗艦大模型，吞吐量暴打Qwen3.5七倍，技術細節披露！

2026-04-18 15:44:11　來源: Ai學習的老章

北京舉報

分享至

英偉達的 Nemotron 3 Super 旗艦大模型，我之前詳細介紹過：

最近英偉達放出了技術報告（arxiv.org/abs/2604.12374），披露了很多細節

本文一起拆解之

簡介

Nemotron 3 Super 是英偉達 Nemotron 3 家族的旗艦模型，總參數 1206 億，每次前向傳播只激活 127 億參數（不含 embedding 是 121 億）

它融合了三種前沿技術：

Hybrid Mamba-Attention：用 Mamba-2 塊替代大部分注意力層，推理速度起飛
LatentMoE：全新的混合專家架構，精度和效率雙提升
MTP（Multi-Token Prediction）：原生推測解碼，不需要外掛 draft model

Nemotron 3 Super 三大核心技術：LatentMoE + MTP + Hybrid Mamba-Attention

用 25 萬億 token 預訓練，支持最長100 萬 token上下文，在常見 benchmark 上和 GPT-OSS-120B、Qwen3.5-122B 打得有來有回，但推理吞吐量分別是它們的2.2 倍和 7.5 倍。

下圖是論文給的精度 - 吞吐量對比，一目了然：

Nemotron 3 Super 精度與吞吐量對比：和 GPT-OSS-120B、Qwen3.5-122B 精度持平，但吞吐量遙遙領先 LatentMoE：重新設計 MoE 的底層邏輯

我覺得這篇論文最有意思的創新是LatentMoE

傳統 MoE 的問題在哪？

大家都知道 MoE 靠"只激活部分專家"來省計算量。但英偉達指出一個被忽視的問題：現有 MoE 設計幾乎只優化了每 FLOP 的精度，忽略了每參數的精度

什么意思呢？在實際部署中，你的成本不只是算力，還有：

內存帶寬：每個專家權重矩陣是 d×m，讀取成本和隱藏維度 d 成正比
通信開銷：分布式推理時 all-to-all 路由的流量和 d×K 成正比（K 是激活專家數）

所以英偉達的思路是：把隱藏維度 d 壓下來。

標準 MoE vs LatentMoE 架構對比

LatentMoE 的做法：

降維：先把 token 從隱藏維度 d 投影到更小的潛在空間 ?
在低維空間做路由和專家計算：內存讀取和通信量直接降低 d/? 倍
擴展專家數量：省下來的預算用來增加總專家數 N 和激活專家數 K，同比放大 d/? 倍
升維：計算完再投回原始維度

這個 trade-off 非常精妙——維度降了，但專家數增了，總計算量基本不變，精度卻更好。因為更多專家的組合空間是指數級增長的

LatentMoE 降維擴專家的核心思路：用 d/? 倍降維換來指數級專家組合空間

Nemotron 3 Super 的具體配置：512 個專家，每次激活 22 個，潛在維度 1024。做個對比：DeepSeek V3 是 256 個專家激活 8 個，Qwen3.5 是 128 個專家激活 8 個

Nemotron 的專家數和激活數都大幅領先

MTP：內置的推測解碼加速器

MTP（Multi-Token Prediction）也是一大亮點。DeepSeek V3 也用了 MTP，但 Nemotron 3 Super 的實現有一個關鍵改進：共享權重的 MTP head

傳統方式：訓練 N 個獨立的預測頭，分別預測 n+2, n+3, ..., n+N+1 位置的 token。問題是推理時只能生成最多 N 個 draft token

Nemotron 的做法：多個 MTP head共享參數，讓同一個頭在訓練中見過多種偏移量。這樣推理時可以遞歸地用同一個頭生成更長的 draft，接受率衰減更平緩

MTP 接受率對比：Nemotron 3 Super 在各個 draft 位置都保持較高接受率

論文用 SPEED-Bench 測的結果：Nemotron 3 Super 平均接受長度3.45，超過 DeepSeek-R1 的 2.70，和 Qwen3-Next 的 3.33 也有優勢。在 Roleplay、RAG、Summarization 這些場景下優勢尤其明顯

配合 Blackwell 硬件，開啟 MTP draft=3 后，在同等用戶延遲下，總吞吐量顯著提升：

MTP 關閉 vs 開啟（draft=1, draft=3）的吞吐量 - 延遲 Pareto 曲線 Hybrid Mamba-Attention：KV Cache 的終結者

Nemotron 3 Super 的 88 層中，大部分是 Mamba-2 塊，只有少量注意力層作為"全局錨點"插入。

Nemotron 3 Super 的層交替模式：Mamba 塊 + MoE 層為主，穿插少量 Attention 層

這么做的好處太明顯了：

Mamba 塊沒有 KV Cache，生成時狀態大小恒定，不隨上下文線性增長
只在關鍵位置保留注意力層做長程信息路由
注意力層用 GQA（32 query heads, 2 KV heads），進一步壓縮

最終效果：支持 100 萬 token 上下文，RULER 1M 測試得分 91.64，Qwen3.5-122B 也是 91.33，而 GPT-OSS-120B 只有 22.30

這個差距太大了

NVFP4 預訓練：全程 4-bit 精度訓練

這是我覺得非常硬核的一點——Nemotron 3 Super 全程用 NVFP4（4-bit 浮點）訓練了 25 萬億 token

大多數模型用 BF16 或 FP8 訓練，用 FP4 預訓練的幾乎沒有

英偉達在這里踩了不少坑：

層類型

精度

原因

大部分線性層

NVFP4

主力精度

網絡最后 15% 的層

BF16

保證訓練穩定性

QKV & Attention 投影

BF16

保持注意力層精度

Mamba 輸出投影

MXFP8

NVFP4 下溢太嚴重

MTP 層

BF16

保留多 token 預測能力

訓練過程中觀察到 7% 的權重梯度變成零值，主要是因為 NVFP4 量化把 BF16 下本就很小的梯度（<1e-12）直接下溢為零

但英偉達發現這不影響最終精度——BF16 訓練到 10T token 后也會出現類似的零值梯度模式

甚至他們試過在 19T token 處從 NVFP4 切換到 MXFP8，loss 曲線改善了，但下游任務精度沒有任何提升

所以最終決定全程 NVFP4，不搞精度升級，這個結論很有價值。

后訓練：21 個 RL 環境，強化 Agent 能力

Nemotron 3 Super 的后訓練流程分四步：

后訓練流水線全景：SFT → RLVR → SWE-RL → RLHF → MTP Healing后訓練流水線：SFT → RLVR → SWE-RL → RLHF → MTP Healing

SFT 階段：用了超過 700 萬樣本，大幅擴充了 Agent 任務的數據量。亮點包括：

從 SWE-Gym、R2E-Gym 等數據集蒸餾 Qwen3-Coder-480B 的編程軌跡
專門生成了 2 萬條 Agentic CLI 任務（涵蓋 Claude Code、OpenCode、Codex 等多種 harness）
合成了 150 萬條通用工具調用軌跡
新增 CUDA 內核編寫/修復/優化數據（10 萬條）

RL 階段：在21 個環境、37 個數據集上同時訓練。這個規模夠恐怖的。覆蓋數學、代碼、STEM、安全、指令遵循、長上下文、Agent 工具使用等全方位能力

比較有意思的是PivotRL——一種新的 Agent 長程 RL 方法。它復用 SFT 的專家軌跡，只在"策略不確定的關鍵 turn"上做 RL 訓練。比端到端 RL 高效得多，又避免了 SFT 的域外退化問題

SWE-RL 階段：每個 rollout 在 Apptainer 容器中啟動完整的 GitHub 倉庫環境，跑 OpenHands agent 循環生成補丁，然后用真實測試驗證。為了工具多樣性，他們在 OpenHands 里實現了 OpenCode 和 Codex 的 agent class，匹配 Claude Code 和 Codex CLI 的工具格式。

量化推理：FP8 和 NVFP4 雙版本

英偉達提供了兩個量化版本：

FP8（W8A8）：面向 Hopper 架構 GPU
NVFP4（W4A4）：面向 Blackwell 架構 GPU，用 AutoQuantize 做混合精度搜索

NVFP4 量化的關鍵技巧：

權重用 MSE 最小化選擇縮放因子（離線校準，不影響運行時）
激活用 max-based 縮放（在線計算，追求效率）
敏感層自動提升到 FP8 或 BF16

最終 NVFP4 模型達到 BF16 基線的99.8% 精度。整個量化過程在單臺 B200 8 卡節點上不到 2 小時完成

還有一個很硬核的細節：Mamba 狀態緩存量化。直接從 FP32 轉 FP16 會導致代碼生成任務的冗余度暴漲 40%（生成太多無用 token）。原因是 Mamba 的遞歸特性會讓量化誤差逐步累積。英偉達的解決方案是隨機舍入（Stochastic Rounding），用 Philox 偽隨機數生成器消除系統性偏差。Blackwell GPU 還提供了專用的 PTX 指令來加速這個操作。

Benchmark 成績單

先看 Base 模型（預訓練后、后訓練前）的成績：

任務

Nemotron 3 Super

Ling-flash-Base-2.0

GLM-4.5-Air-Base

MMLU (5-shot)

MMLU-Pro (5-shot)

MATH (4-shot)

HumanEval (0-shot)

RULER 128K

RULER 1M

Base 模型階段就已經全面碾壓同級別競品。

后訓練版本 vs Qwen3.5-122B 和 GPT-OSS-120B：

任務

Nemotron 3 Super

Qwen3.5-122B

GPT-OSS-120B

AIME25

HMMT Feb25 (with tools)

SWE-Bench (OpenHands)

41.9

RULER 1M

Arena-Hard-V2

說實話，精度上 Nemotron 3 Super 和 Qwen3.5-122B 各有勝負。Qwen 在編程和推理上略強，但 Nemotron 在長上下文和工具使用上更有優勢。

真正拉開差距的是推理效率——在 8k 輸入 + 64k 輸出的設置下，Nemotron 3 Super 比 GPT-OSS-120B 快 2.2 倍，比 Qwen3.5-122B 快 7.5 倍。這才是實際部署時最關鍵的指標。

總結

Nemotron 3 Super 是英偉達在"效率優先"路線上的集大成之作

三個核心創新——LatentMoE、MTP、Hybrid Mamba-Attention——分別從參數效率、解碼效率、內存效率三個維度做了優化，加上 NVFP4 全程訓練的探索，整體技術含量很高

優點：

推理吞吐量確實是王炸級別，7.5 倍的差距太夸張
100 萬上下文長度，且長上下文表現極其穩定
全部開源（模型權重 + 訓練數據 + 訓練 recipe），真·業界良心
NVFP4 全程訓練驗證了低精度大規模訓練的可行性
Agent 能力突出，21 個 RL 環境訓練的深度投入

不足：

在純推理任務（AIME、GPQA）上相比 Qwen3.5 稍有差距
SWE-Bench 分數落后 Qwen3.5 約 6 個點
目前主要針對 NVIDIA GPU 優化（Hopper/Blackwell），其他硬件適配待觀察
512 個專家的 MoE 結構對顯存要求不低，個人部署有門檻

適合誰用：如果你是做大規模 AI 推理服務的，需要在 NVIDIA 硬件上追求極致吞吐量，或者需要超長上下文和 Agent 能力，Nemotron 3 Super 是一個非常值得考慮的選擇。

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.