網易首頁 > 網易號 > 正文 申請入駐

英偉達發力了,新模型在 OpenClaw 成功率排行榜殺進前五,目前免費用

0
分享至

我之前的文章,測試 N 多開源模型,尤其是本地部署系列,評論區永遠有一個高頻問題:能不能接入 OpenClaw(小龍蝦)?

大多數其實都不行,理由也很簡單——模型能力不足是最核心、最致命的短板。Agent 的自動化、工具調用、多步驟任務執行能力,全都建立在大模型的基礎能力之上。模型不行,Agent 就是個花瓶。

打開 PinchBench 排行榜()就知道了,排在前面的清一色是旗艦閉源模型。你用一個小模型跑 Agent,和用筷子喝湯差不多,工具不對。

最近英偉達有個開源模型 Nemotron-3-Super 殺進 PinchBench 前五

直接看排行榜:


**85.6% 的成功率超越了 Claude Opus 4.5(85.4%),只比 GPT-5.4 低了 0.4 個百分點。

最關鍵的一點:前五里面,它是唯一的開源模型。另外四個全是 Anthropic 和 OpenAI 的閉源旗艦,都是拿錢砸出來的。

而且,它這個數據還是被CREATIVE脫了后腿的,它沒有文生圖的能力



  • BasicCalendarCodingFile Ops都是100%

  • Data Analysis到了98%

  • Research90%

  • Comprehension91%

  • Organization89%

  • Creativity只有18%

  • Memory甚至只有0%

  • Context這一項也只有70%

這模型的強項非常像一個“干活型” Agent 大腦:寫腳本、改文件、跑流程、處理任務,確實強;但你要它靠長期上下文記憶、或者靠創意型表達去吃分,它就沒那么驚艷。

換句話說,它更像一個靠譜的工程經理加執行助手,不太像一個文藝青年。

PinchBench 測的是什么?

可能有同學不了解這個榜單。

簡單說,PinchBench 測的是模型驅動 AI Coding Agent 執行真實編碼任務的能力。不是做選擇題,不是寫作文,而是:

  • 文件讀寫操作

  • 代碼修改和重構

  • 工具調用和 API 交互

  • 多步驟復雜任務

  • 出錯后的自我修復

這些恰恰是 OpenClaw 這類 AI Coding Agent 的核心能力。所以 PinchBench 的排名非常實在——它基本決定了模型驅動 Agent 的實際表現。

這也是為什么我之前一直說:與小龍蝦最搭配的大模型,大多都是旗艦模型。

這貨憑什么這么強?

先上硬參數:

指標

數值

總參數量

120B

激活參數量

僅 12B

架構

LatentMoE(Mamba-2 + MoE + Attention 混合)

上下文窗口

1M tokens

最低 GPU 需求

1× B200-80GB 或 1× DGX Spark

推理模式

支持推理開/關(enable_thinking=True/False

量化精度

NVFP4(訓練即量化,不是后量化)

Nemotron 3 Super 120B A12B 不是“窮人版 Opus”,它更像是 NVIDIA 親自下場,給 Agent 賽道遞了一張旗艦級入場券。

架構設計有點東西

Nemotron-3-Super 不是傳統的純 Transformer,而是一個三合一混合體:

Mamba-2(狀態空間模型):擅長處理長序列,線性復雜度。這也是它能支持 1M 上下文的關鍵——傳統 Transformer 的注意力機制在超長序列上會被二次復雜度卡死。

MoE(混合專家):120B 參數里每次只激活 12B。用的是 LatentMoE,先把 token 投射到更小的潛在維度做路由,精度更高、開銷更低。

Attention 層:在關鍵位置保留注意力機制,保證關鍵信息不丟。

三者配合,NVIDIA 管這叫 LatentMoE 架構。又快又準。

還有一個彩蛋:Multi-Token Prediction(MTP)。模型訓練時不只預測下一個 token,而是同時預測后面好幾個 token。推理的時候可以做 speculative decoding,生成速度直接起飛。

NVFP4 量化,幾乎零損失,畢竟就是英偉達獨創的

下面這張圖是官方的基準對比:


Nemotron-3-Super 基準精度對比圖

基準

BF16 原版

FP8

NVFP4

MMLU-Pro

HMMT Feb25(含工具)

GPQA(無工具)

LiveCodeBench v6

IFBench

Arena-Hard-V2

RULER-500 @128k

有意思吧?NVFP4 版本在 HMMT、GPQA、IFBench 上甚至反超了 BF16 原版。這不是傳統的"訓完再量化",而是訓練的時候就在 FP4 精度下跑,模型天然適配低精度推理。

這才是真正的實用主義工程——精度不丟,顯存還省。

訓練方法論:這次是真開源

NVIDIA 這次把"開源"兩個字做到了實處:

  • 預訓練數據:25T+ tokens,全部公開(Nemotron Pre-Training Datasets)

  • 后訓練數據:SFT + RL 數據集,全部公開(Nemotron Post-Training v3)

  • 訓練配方:完整訓練腳本在 GitHub 上

  • 評估工具:NeMo Evaluator SDK,可以復現所有 benchmark 結果

  • RL 環境:NeMo Gym,異步 GRPO 多環境強化學習

訓練三大階段:預訓練 → SFT(合成代碼、工具調用、指令跟隨等) → RL(數學、代碼、科學、工具使用等多環境 GRPO)。

怎么體驗?

方式一:NVIDIA API(最快上手)

直接去build.nvidia.com注冊,免費額度直接用。

在線對話體驗,零門檻。



方式二:OpenRouter 等第三方 API

很多 API 平臺已經上架了。但是要注意:PinchBench 上免費版nemotron-3-super-120b-a12b:free只拿了 75.0%,和付費版 85.6% 差了超過 10 個百分點。省錢和效果之間,得想清楚。

方式三:本地部署(硬核玩家)

支持 vLLM 和 SGLang,單卡 B200-80GB 即可運行:

# vLLM 部署
vllm serve $MODEL_CKPT \
--async-scheduling \
--served-model-name nvidia/nemotron-3-super \
--dtype auto \
--kv-cache-dtype fp8 \
--tensor-parallel-size 1 \
--trust-remote-code \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser-plugin "./super_v3_reasoning_parser.py" \
--reasoning-parser super_v3

推理參數官方建議:temperature=1.0top_p=0.95,所有場景通用。

部署后暴露的是 OpenAI 兼容 API,可以直接接入 OpenCode 等終端 Agent:

{
"model": "local/nvidia-nemotron-3-super",
"provider": {
"local": {
"npm": "@ai-sdk/openai-compatible",
"options": {
"baseURL": "http://localhost:8000/v1",
"apiKey": "EMPTY"
}
}
}
}
HuggingFace 模型頁(含完整部署指南):https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

說完好的,說說現實問題:

GPU 門檻還是高。B200-80GB 不是消費級顯卡,你的 4090 跑不了,或許可以等等Unsloth對極致量化版。DGX Spark 是 NVIDIA 推的桌面方案,但價格也不便宜。對大多數個人開發者來說,API 調用更現實。

Benchmark ≠ 實戰。PinchBench 85.6% 很好看,但實際項目中的復雜度、特定語言框架支持、長時間多輪對話的穩定性,都得實測才知道。

開源 Agent 模型的格局正在變

Qwen 3.5-122B-A10B 也值得關注——同樣是 MoE 架構,122B 總參數 / 10B 激活,和 Nemotron 思路非常接近。兩家不約而同選了 100B+ 總參數、10B 級別激活的 MoE 路線,這不是巧合。

MoE + 混合架構正在成為開源 Agent 模型的主流技術路線。用小激活量撬動大參數量,在效率和能力之間找到一個甜點。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全球外交大地震!美俄同月訪華,世界徹底看清,中國才是終極港灣

全球外交大地震!美俄同月訪華,世界徹底看清,中國才是終極港灣

小祁談歷史
2026-04-24 05:23:52
一位漂亮素雅的新娘子!

一位漂亮素雅的新娘子!

情感大頭說說
2026-04-24 04:45:22
田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

田亮做夢也沒想到,費心養大的14歲兒子,如今竟“壓自己一頭”

以茶帶書
2026-04-23 16:11:50
小寶與王某雷,誰探訪花的數量更多?

小寶與王某雷,誰探訪花的數量更多?

挪威森林
2026-01-31 12:15:26
笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

笑不活了!女孩把雞畫得圓肥被判不合格,家長把雞的照片發給老師

火山詩話
2026-04-21 09:46:21
身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆都有誰?

身價百億,坐擁北京一條街,出門私人飛機,京圈頂級富婆都有誰?

小椰的奶奶
2026-04-23 14:52:12
ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

芯火相承
2026-04-23 17:33:03
酒店里,擠滿了偷偷開房的已婚女性

酒店里,擠滿了偷偷開房的已婚女性

二胡的歲月如歌
2026-04-22 19:03:26
更大規模海戰來了?

更大規模海戰來了?

中國新聞周刊
2026-04-22 20:50:08
段睿深夜悲痛發文:再也沒有人等我回去了!

段睿深夜悲痛發文:再也沒有人等我回去了!

原夢叁生
2026-04-22 20:06:36
劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

劃清界限!高云翔憔悴發聲撇清張婉婷,不留情面,一句話暗含深意

離離言幾許
2026-04-24 07:12:13
她一嫁演員祝延平,二嫁杜淳老爸杜志國,現在老了與兒子相依為命

她一嫁演員祝延平,二嫁杜淳老爸杜志國,現在老了與兒子相依為命

混沌錄
2026-04-23 17:11:04
單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

思思夜話
2026-04-23 11:30:19
人民日報發文,揭張桂梅真實現狀,卸任華坪女高校長傳聞早有真相

人民日報發文,揭張桂梅真實現狀,卸任華坪女高校長傳聞早有真相

歲暮的歸南山
2026-04-23 16:31:58
5月1日起,3萬塊就能把老板送進去,不明財產門檻卻漲到了300萬!

5月1日起,3萬塊就能把老板送進去,不明財產門檻卻漲到了300萬!

今朝牛馬
2026-04-23 23:23:59
比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或將被切斷

比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或將被切斷

芳芳歷史燴
2026-04-23 18:30:17
遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

極目新聞
2026-04-23 10:00:21
中央定調,2026年養老金或調整,低于3600,補發7個月能漲700嗎?

中央定調,2026年養老金或調整,低于3600,補發7個月能漲700嗎?

游古史
2026-04-24 04:01:53
10萬元不翼而飛!上海老夫妻放在洗衣機里的現金沒了,護工堅稱自己清白,真相竟是→

10萬元不翼而飛!上海老夫妻放在洗衣機里的現金沒了,護工堅稱自己清白,真相竟是→

環球網資訊
2026-04-23 19:39:20
高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

高市翻車了?日本打出藏了14年的“底牌”,外媒:根本攔不住了!

瘋狂小菠蘿
2026-04-23 14:27:12
2026-04-24 09:23:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

教育
時尚
手機
公開課
軍事航空

教育要聞

相似無刻度直尺作圖,一個視頻學會!

今年最好看的3個顏色,太適合夏天了!

手機要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進入關懷版