无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

首個三模式大語言模型:4倍token吞吐量,長文本秒級時代要來了?

0
分享至



編輯 | 澤南

這是一個打破傳統大語言模型解碼限制的研究。

英偉達提出了全球首個三模式的大語言模型系列,只需簡單更改注意力模式 / 掩碼,即可在自回歸、擴散和自推測解碼之間切換。

一個模型,三種解碼模式,沒有額外的草稿模型,沒有架構變更。最快的模式 token 吞吐量能提升 4 倍



我們知道,傳統上大語言模型主要采用的自回歸解碼(Autoregressive,AR)方式在低 batch sizes 時嚴重受內存限制,你必須為每個生成的 token 將海量權重從 HBM 移動到 SRAM。這種模式雖然準確率高,但由于無法并行,在并發量較低、追求單用戶極速響應的場景(如個人 AI 助手)下,GPU 算力常常無法被充分利用,導致生成速度遭遇瓶頸。

與之相對的是,擴散模型(Diffusion Model)能夠提供并行生成的能力,但由于訓練時平等對待所有 token 排列,缺乏自回歸模型天然的從左到右的語言先驗,歷史上它們的生成質量一直落后。

如果有一個模型能同時結合兩者的優勢,會是什么樣?英偉達這項研究的核心目的,就是通過統一的模型架構消除這兩種范式的隔閡,做到「準確率與速度兼得」。



  • HuggingFace:https://huggingface.co/collections/nvidia/nemotron-labs-diffusion
  • 項目頁面:https://research.nvidia.com/publication/2026-05_nemotron-labs-diffusion-tri-mode-language-model-unifying-autoregressive
  • 技術報告:https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_Diffusion_Tech_Report_v1.pdf?VersionId=db8_EMO8B.vmU26.jr7Le9pN3MqcUDNL

英偉達提出的模型不使用弱外部 MTP 模型或額外 heads,而是利用自身的擴散模式同時起草多個 token,然后在 AR 模式下使用相同的 KV cache 驗證它們。這樣,你就獲得了擴散模型的并行生成,同時具備 AR 的嚴格準確性。

該方法比起之前的 Eagle/MTP 方法具有更高的接受率,無需額外權重,或者只需少量額外權重即可獲得更高的接受率。



訓練時,模型同時優化兩個損失函數:AR Loss 和 Diffusion Loss,這完全改變了擴散語言模型質量的游戲規則。為了穩定訓練,團隊采用了兩階段訓練策略,并引入了 Global Loss Averaging 技術,大幅降低了擴散模型訓練中因隨機掩碼導致的梯度激增問題。

借助這種訓練方式,模型在推理時可任意切換以下三種模式:

  • 自回歸模式(AR Mode): 傳統的從左到右逐字生成,保留完整的因果注意力機制。適合高并發、計算密集型的云端服務;
  • 擴散模式(Diffusion Mode): 采用分塊去噪(Block-wise Denoising),利用雙流注意力機制(Dual-stream Attention)在塊內進行大規模并行 token 推測。為了進一步壓榨并行的上限,英偉達還專門訓練了一個輕量化采樣器(Trained Sampler)來替代傳統的置信度閾值判定;
  • 自猜測模式(Self-Speculation Mode): 它將傳統的 Speculative Decoding(需要一個額外的小模型來墊字)改造成「單模型自我博弈」。

該研究給出了 3B、8B、14B 三個尺寸的基座模型,展現出了對現有開源自回歸模型及擴散模型的全方位碾壓。研究人員在之前的開源 dLLM(如 LLaDA、Dream 和 SDAR)上看到了從 9% 到 22.4% 的巨大準確率提升。也就是說,現在我們有了新的 SOTA dLLM。

在測試中,新模型匹配了 Qwen3-8B 的基線 AR 準確率,但在前向傳播中達到了 5.9 個 token(TPF)。





dLLM 的主要優勢在于效率。

NLD 在實際應用中的加速效果(8B 模型,單用戶場景)如下:

  • DGX Spark:FP8 精度下提速 3.14 倍;INT4 精度下提速 2.7 倍(112 token/s vs 41.8 AR);
  • RTX 6000 Pro:FP8 精度下提速 3.4 倍;INT 精度下提速 2.3 倍;
  • GB200:提速 3.3 倍(850 tok/s);若配合自定義 CUDA 內核,最高可提速 4 倍。

在 SPEED-Bench 基準測試中,線性自推測(linear self-speculation)機制實現了 8.7 的平均接受長度,相比之下,Qwen3.5-9B-MTP 為 4.7,Qwen3-8B-Eagle3 為 2.81。該數據為針對數學、代碼、推理及多語言任務的綜合估算值。



具體方法上,這種能力并不是單個的解決方案。

在低到中等并發度下,自行推測絕對占據主導地位(非常適合個人 AI 和交互式代理)。但在巨大的批處理規模下(>64 個流),推理會變成計算受限。英偉達的解決方法是:只需將注意力掩碼切換回純 AR 模式。一個模型,在所有部署場景下都能實現通用高效。





最后,英偉達公布了他們的訓練配方(從 Ministral3-3B/8B/14B 開始):

  • 1T 個 token 的 AR-only 持續預訓練
  • 300B 個 token 的聯合 AR + Diffusion 訓練
  • 隨后進行 SFT 和 VLM 對齊

使用的關鍵技術:

  • 全局損失平均 + DP-rank 變化掩碼
  • 嚴格因果干凈流(防止標簽泄漏)
  • LoRA 增強的起草器以改進自我推測

這項研究指明了未來大模型架構演進的一個方向:不要去刻意挑選自回歸還是擴散模型,將它們揉碎在同一個全連接 / 因果注意力切換的 Transformer 體系內或許才是正解。

更令人興奮的是,論文最后的分析指出,如果未來能夠開發出更完美的擴散采樣器,擴散模式的理論性能上限比現有的自猜測模式還要再高出 76.5%—— 這表明擴散大語言模型依然留有巨大潛能,長文本的「秒級生成」時代可能離我們不遠了。

更多細節詳見論文。

參考內容:

https://x.com/PavloMolchanov/status/2056799786377039995

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

藝術
時尚
手機
本地
家居

藝術要聞

339米!珠海第一高樓,形似“蛟龍出海”

美回巔峰的她們,帶火的這些爆款真的好用嗎

手機要聞

REDMI K90至尊版入網?K90單品激活破200萬

本地新聞

用剪紙的方式,打開江蘇揚州

家居要聞

云棲 舒展如流云

無障礙瀏覽 進入關懷版