无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

不只DeepSeek,階躍等開源JetSpec:大模型解碼提速近10倍

0
分享至



機(jī)器之心發(fā)布

近期,DeepSeek 推出投機(jī)解碼框架 DSpark,讓大模型推理效率再次成為行業(yè)焦點(diǎn)。

幾乎同一時(shí)間,另一大模型基座代表階躍星辰提出了 JetSpec ,也把問題指向了同一個(gè)方向:當(dāng)模型開始被 Agent 高頻調(diào)用,智能能不能更快、更穩(wěn)定輸出出來?



  • JetSpec 項(xiàng)目地址:https://jetspec-project.github.io/jetspec-web/
  • 論文地址:https://arxiv.org/abs/2606.18394
  • 開源地址:https://github.com/hao-ai-lab/JetSpec

簡單來說,DSpark 更關(guān)注推理服務(wù)中的驗(yàn)證效率,JetSpec 則從 Draft 生成本身入手,用因果并行樹生成提高一次驗(yàn)證能接受的 Token 數(shù)。前者是在系統(tǒng)層面減少無效計(jì)算,后者是在算法層面提高有效 Token 生成率。

從結(jié)果來看,DSpark 展示了推理服務(wù)在生產(chǎn)系統(tǒng)中仍有 60%-85%(Flash 模型)和 57%-78%(Pro 模型)的速度提升空間。JetSpec 則從算法側(cè)給出了一組更直接的加速結(jié)果。在 Qwen3-8B 上,JetSpec 相比標(biāo)準(zhǔn)自回歸解碼,最高實(shí)現(xiàn) 9.64× 端到端解碼加速;在 MATH-500 上,一次驗(yàn)證平均可接受 10.76 個(gè) token。這種加速不局限于數(shù)學(xué)任務(wù),在 HumanEval、LiveCodeBench、MT-Bench 等代碼和對話任務(wù)上,JetSpec 也分別實(shí)現(xiàn)了 7.12×、7.67× 和 4.58× 加速。



在 H100 GPU 上,跨數(shù)學(xué)、代碼和對話基準(zhǔn)測試中,相較于標(biāo)準(zhǔn)自回歸解碼的端到端解碼加速比。DFlash 表示原始的塊并行草稿方法,DDTree 是 DFlash 的樹狀變體,JetSpec 表示本文提出的方法。兩者均采用算法 1,使用 256 個(gè) token 的樹預(yù)算。

過去幾年,大模型競爭的主線看的是誰的模型更強(qiáng),誰能在數(shù)學(xué)、代碼、推理、多模態(tài)上拿到更高分。但 Agent 場景下,這個(gè)邏輯變了。

一個(gè) Agent 完成任務(wù),需要規(guī)劃、搜索、寫代碼、調(diào)用工具、檢查結(jié)果、修復(fù)錯(cuò)誤,再繼續(xù)下一輪執(zhí)行。一次任務(wù)背后,可能是數(shù)十次甚至上百次模型調(diào)用。此時(shí),單次推理延遲和 token 生成效率會(huì)被連續(xù)放大,最終直接影響產(chǎn)品體驗(yàn)、系統(tǒng)吞吐和商業(yè)成本。

這也是 DSpark 和 JetSpec 幾乎同期引發(fā)關(guān)注的原因。它們切入點(diǎn)不同,卻都說明了大模型行業(yè)正在進(jìn)入一個(gè)新階段。模型能力仍然重要,推理效率正在成為 Agent 能否規(guī)模化落地的基礎(chǔ)變量。

投機(jī)解碼的瓶頸:

草稿預(yù)算增加,不必然帶來加速

大語言模型通常是自回歸生成的,也就是一個(gè) token 接一個(gè) token 往外吐。這個(gè)過程天然串行,越長的回答、越復(fù)雜的推理,延遲越明顯。

投機(jī)解碼(Speculative Decoding)的思路是通過讓輕量級草稿模型提前生成候選 token,再由目標(biāo)模型一次性并行驗(yàn)證這些候選結(jié)果,目標(biāo)模型接受的候選越多,下一輪需要重新生成和驗(yàn)證的次數(shù)就越少,整體解碼速度也就越快。

但草稿生成得多,并不代表系統(tǒng)一定更快。只有更多候選 token 被目標(biāo)模型接受,加速才會(huì)真正發(fā)生。

這也是 DSpark 和 JetSpec 共同指向的核心瓶頸:當(dāng)草稿生成已經(jīng)足夠便宜之后,如何保留足夠的因果一致性,讓并行生成的 token 能夠通過目標(biāo)模型驗(yàn)證,并真正轉(zhuǎn)化為實(shí)際的系統(tǒng)收益?

這兩項(xiàng)工作分別從吞吐量 — 延遲邊界的兩個(gè)互補(bǔ)側(cè)面切入。

DSpark 面向高并發(fā)服務(wù)場景。在 Qwen3-8B 和 AIME25 上,DSpark 在投機(jī)預(yù)算為 7 的設(shè)置下,通過帶有因果遞歸狀態(tài)的置信度調(diào)度驗(yàn)證,將平均接受長度從 DFlash 的 4.07 提升到 5.01。

JetSpec 則面向低延遲、計(jì)算預(yù)算更充足的場景。通過將因果性直接融入并行草稿頭,它能夠把更大的草稿預(yù)算轉(zhuǎn)化為更長的接受前綴。在相同設(shè)置下,JetSpec 將平均接受長度從投機(jī)預(yù)算為 16 時(shí)的 7.23 提升到預(yù)算為 128 時(shí)的 9.82,超過了預(yù)算為 128 下 DFlash 的 7.34 和 DDTree 的 8.66,從而更好地支持低延遲生成。

為什么接受率是關(guān)鍵:破解兩難困境

在低草稿生成成本的場景下,保持較高的逐 token 接受率尤其重要。根據(jù)投機(jī)解碼的理論公式:







圖 1:在不同逐 token 草稿成本和接受率下,投機(jī)解碼的期望加速比會(huì)隨著草稿長度變化而變化。結(jié)果表明,即使在極低逐 token 草稿成本的場景下,逐 token 接受率從 0.85 提升到 0.95 也會(huì)帶來顯著差異。

這就引出了當(dāng)前投機(jī)解碼繼續(xù)擴(kuò)展時(shí)遇到的核心障礙:因果一致性與并行效率的兩難困境(Causality-Efficiency Dilemma)。

  • 自回歸草稿(如 EAGLE 系列): 它們能夠沿著具體路徑進(jìn)行條件化預(yù)測,因果一致性好、候選質(zhì)量高。但樹越深,串行草稿生成步驟就越多,時(shí)間成本隨之上升,限制了擴(kuò)展性。
  • 塊并行草稿(如 DFlash 系列): 改變了成本結(jié)構(gòu),它使用輕量級的塊并行草稿模型,在一次前向傳播中預(yù)測多個(gè)未來位置(雙向塊擴(kuò)散)。雖然草稿成本極低,但由于缺乏分支級的因果條件約束,這些未來位置更像是各自獨(dú)立的邊緣預(yù)測。單獨(dú)看每個(gè) token 都合理,連成一條路徑后卻可能互相沖突,即「局部合理、整體不一致」,導(dǎo)致接受率迅速被稀釋,浪費(fèi)了計(jì)算預(yù)算。

在真實(shí)服務(wù)場景中,一旦草稿生成足夠便宜,系統(tǒng)省下來的計(jì)算預(yù)算該如何分配,決定了不同的演進(jìn)路徑:

  • 在高并發(fā)、吞吐量導(dǎo)向場景下(DSpark 的解法): 目標(biāo)是在不增加每個(gè)請求驗(yàn)證成本的前提下,提高整體吞吐量。DSpark 保持并行草稿主干的低成本,同時(shí)加入輕量級的串行頭和置信度估計(jì),用來更好地判斷哪些候選結(jié)果值得送去驗(yàn)證,從而控制每個(gè)請求的計(jì)算預(yù)算。因此,相比 MTP 這類純自回歸草稿方法,DSpark 能夠持續(xù)提升吞吐量。



引自 DSpark 論文:在高并發(fā)場景下,DSpark 的吞吐量與每用戶生成速度(TPS)關(guān)系曲線。結(jié)果表明,在論文所測量的流量模式和推理引擎配置下,相比 MTP-1 基線,DSpark 改善了實(shí)際觀測到的吞吐量 — 延遲前沿。

  • 在低并發(fā)、延遲導(dǎo)向(低 SLO)場景下(JetSpec 的解法): 系統(tǒng)擁有更充足的 FLOPs 預(yù)算,目標(biāo)轉(zhuǎn)向最大化單次驗(yàn)證步驟中的接受率。此時(shí),系統(tǒng)可以承受稍微高一點(diǎn)的草稿樹計(jì)算開銷,用來提升接受率,從而將可用算力直接轉(zhuǎn)化為極低的單用戶延遲。

在低并發(fā)場景下,JetSpec 加速 Qwen3-8B 運(yùn)行 MATH-500 時(shí)的每用戶生成速度(TPS/user)。在多種代碼和數(shù)學(xué)任務(wù)上,JetSpec 將接受長度提升到約 10–11 個(gè) token,從而顯著降低生成延遲,帶來更好的交互體驗(yàn)。

因果性如何發(fā)揮作用?

當(dāng)草稿變得便宜之后,下一個(gè)問題是如何分配有限的計(jì)算強(qiáng)度:是在高并發(fā)下進(jìn)一步壓榨吞吐,還是在每個(gè)請求可用 FLOPs 更充足時(shí)追求更低延遲?這正是因果性成為關(guān)鍵之所在。

推進(jìn)吞吐極限:

用于預(yù)算感知校正的 DSpark



推進(jìn)延遲極限:

JetSpec 將草稿預(yù)算轉(zhuǎn)化為更高接受長度

在低并發(fā)場景下,現(xiàn)代 AI 加速器通常擁有更多空閑 FLOPs,因此關(guān)鍵問題變成:如何把更高的計(jì)算預(yù)算轉(zhuǎn)化為每次草稿 — 驗(yàn)證步驟中更多被接受的 token?

這正是 JetSpec 選擇不同路徑的地方。JetSpec 使用因果并行草稿頭生成路徑條件化的草稿樹,其中更深層的節(jié)點(diǎn)會(huì)依賴同一分支上更早生成的 token。

這一效果可以從深度維度的接受率曲線中清楚看到。在代碼生成和數(shù)學(xué)推理任務(wù)上,JetSpec 都能比 DFlash 持續(xù)保持更高的接受率。



DFlash 和 JetSpec 在 AIME25 上不同草稿深度位置的逐位置接受率。



這對應(yīng)于約 93% 的有效逐 token 接受率,顯著高于 DFlash。在這種低成本、高接受率的場景下,即使逐 token 接受率提升 5%,也會(huì)對投機(jī)解碼產(chǎn)生顯著影響:它會(huì)大幅提高最大理論接受長度(圖 1),進(jìn)而直接降低生成延遲。

一個(gè)可預(yù)見的下一步,是構(gòu)建一個(gè)動(dòng)態(tài)服務(wù)框架,同時(shí)推動(dòng)吞吐量 — 延遲帕累托邊界的兩端:在低并發(fā)場景下提升每用戶生成速度,在高并發(fā)場景下則在嚴(yán)格驗(yàn)證預(yù)算約束下提升整體吞吐量。

在這一方向上,當(dāng)前階段的 JetSpec 和 DSpark 具有天然互補(bǔ)性。JetSpec 強(qiáng)化了并行草稿主干,使其能夠在低延遲場景下更好地利用更大的草稿預(yù)算;而 DSpark 則通過輕量級串行置信度檢查和預(yù)算控制,更好地支持高并發(fā)服務(wù)。

結(jié)語

放在階躍的技術(shù)路線里看,JetSpec 不是一個(gè)孤立的推理加速論文,它是 Flash 模型敘事的一部分。

從 Step 3.5 Flash 到 Step 3.7 Flash,階躍一直強(qiáng)調(diào)的并不是「大而全」的模型競賽,而是面向 Agent 場景的高效智能:更快的輸出速度、更優(yōu)的調(diào)用成本、更好的工具調(diào)用與多模態(tài)任務(wù)執(zhí)行能力。JetSpec 則進(jìn)一步從推理算法層面補(bǔ)上了這塊拼圖。當(dāng)模型開始被 Agent 高頻、長鏈路、持續(xù)調(diào)用時(shí),真正決定體驗(yàn)和成本的,是它能不能以足夠高的效率完成一次又一次推理。

值得一提的是,DSpark 和 JetSpec 這兩篇論文均有 AI 行業(yè)技術(shù)大佬坐鎮(zhèn)。DSpark 作者欄中看到了梁文鋒的名字,而在 JetSpec 作者欄中則看到了階躍兩位大佬:CEO 及創(chuàng)始人姜大昕、CTO 及聯(lián)合創(chuàng)始人朱亦博。其中朱亦博博士是 AI Infra 領(lǐng)域的頂級專家,長期深耕大模型訓(xùn)練與推理系統(tǒng)、分布式計(jì)算和高性能 AI 基礎(chǔ)設(shè)施。

一作為 Lanxiang Hu,目前就讀于加州大學(xué)圣地亞哥分校(UCSD),師從 Prof. Hao Zhang 和 Prof. Tajana ?imuni? Rosing,在階躍實(shí)習(xí)期間完成此項(xiàng)工作。其他作者分別來自南京大學(xué)、UIUC 以及浙江大學(xué)。

實(shí)際上,這也不是階躍和 UCSD 第一次在大模型效率方面合作,此前他們還共同發(fā)表了 PD 分離(Prefill-Decode Disaggregation)這條技術(shù)路線的代表性開山論文之一 DistServe。該研究將大模型的推理過程拆分為「預(yù)填充」和「解碼」兩個(gè)階段,并讓它們分別在獨(dú)立的計(jì)算資源池中進(jìn)行伸縮與調(diào)度。如今這種解耦推理架構(gòu)已被 NVIDIA TensorRT-LLM、SGLang、vLLM 等主流大模型推理框架采用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
四大AI預(yù)測英格蘭vs民主剛果:三家看好英格蘭,Kimi猜平局

四大AI預(yù)測英格蘭vs民主剛果:三家看好英格蘭,Kimi猜平局

懂球帝
2026-07-01 17:01:07
雷軍又做到了,小米汽車半年銷量超18萬輛,市值卻只剩5579億港元

雷軍又做到了,小米汽車半年銷量超18萬輛,市值卻只剩5579億港元

南宗歷史
2026-07-01 10:03:12
農(nóng)業(yè)農(nóng)村部副部長江文勝任國務(wù)院副秘書長

農(nóng)業(yè)農(nóng)村部副部長江文勝任國務(wù)院副秘書長

澎湃新聞
2026-07-01 17:20:28
2026年6月銷量榜:比亞迪月銷超50萬輛,小米汽車交付突破3萬

2026年6月銷量榜:比亞迪月銷超50萬輛,小米汽車交付突破3萬

娛樂圈的筆娛君
2026-07-01 11:01:37
不打垮中國不罷休?內(nèi)鬼身份曝光讓人意想不到!好在結(jié)局大快人心

不打垮中國不罷休?內(nèi)鬼身份曝光讓人意想不到!好在結(jié)局大快人心

飄逸語人
2026-07-01 02:11:14
終于有經(jīng)濟(jì)學(xué)家批評體制內(nèi)退休金太高、加劇代際矛盾,評論區(qū)炸鍋

終于有經(jīng)濟(jì)學(xué)家批評體制內(nèi)退休金太高、加劇代際矛盾,評論區(qū)炸鍋

慧翔百科
2026-06-23 08:47:02
終于,Claude Code 封號(hào)的原因被曝光了!竟然針對中國用戶,植入隱形代碼?!

終于,Claude Code 封號(hào)的原因被曝光了!竟然針對中國用戶,植入隱形代碼?!

程序員魚皮
2026-07-01 14:22:53
“潑天的富貴落到我頭上?”重慶29歲工人世界杯預(yù)測32中31

“潑天的富貴落到我頭上?”重慶29歲工人世界杯預(yù)測32中31

新浪財(cái)經(jīng)
2026-07-01 12:34:49
致敬!陳俊武被授予“七一勛章”

致敬!陳俊武被授予“七一勛章”

新浪財(cái)經(jīng)
2026-07-01 13:43:46
電影《大圣崛起》撤檔!新上映時(shí)間待定

電影《大圣崛起》撤檔!新上映時(shí)間待定

動(dòng)物奇奇怪怪
2026-07-01 18:50:28
賈乃亮疑似步入第二段婚姻 許諾生兒贈(zèng)予大平層 甜馨處境引人深思

賈乃亮疑似步入第二段婚姻 許諾生兒贈(zèng)予大平層 甜馨處境引人深思

天天熱點(diǎn)見聞
2026-07-01 08:44:27
國乒3人率先晉級WTT美國大滿貫單打1...

國乒3人率先晉級WTT美國大滿貫單打1...

新浪財(cái)經(jīng)
2026-07-01 19:52:30
泰國租妻產(chǎn)業(yè),正在收割中國“退休老頭”

泰國租妻產(chǎn)業(yè),正在收割中國“退休老頭”

毒sir財(cái)經(jīng)
2026-06-30 22:38:02
兒媳過生日我轉(zhuǎn)6666,結(jié)果被兒子退回,我去兒子家一看,當(dāng)場愣住

兒媳過生日我轉(zhuǎn)6666,結(jié)果被兒子退回,我去兒子家一看,當(dāng)場愣住

千秋文化
2026-06-26 19:48:58
我今年56歲發(fā)現(xiàn)了一個(gè)怪現(xiàn)象:50歲以后的中年女人,能活到90歲的,基本上在50歲的時(shí)候,就不再做這件事了

我今年56歲發(fā)現(xiàn)了一個(gè)怪現(xiàn)象:50歲以后的中年女人,能活到90歲的,基本上在50歲的時(shí)候,就不再做這件事了

心理觀察局
2026-07-01 07:58:17
高端海鮮自助,集體降價(jià)自救

高端海鮮自助,集體降價(jià)自救

鈦媒體APP
2026-07-01 12:38:19
2026年本科專業(yè)熱度10強(qiáng)出爐

2026年本科專業(yè)熱度10強(qiáng)出爐

第一財(cái)經(jīng)資訊
2026-06-30 20:39:20
專家發(fā)現(xiàn):吃一個(gè)西紅柿,就等于喝了一大口可樂,真的還是假的?

專家發(fā)現(xiàn):吃一個(gè)西紅柿,就等于喝了一大口可樂,真的還是假的?

健康之光
2026-06-30 22:10:03
一旦開戰(zhàn),中國3000架飛機(jī)根本上不了場?俄專家揭露真相

一旦開戰(zhàn),中國3000架飛機(jī)根本上不了場?俄專家揭露真相

青山夜談
2026-06-16 17:16:03
俄媒女主持人曾言:若中國愿出兵300萬,俄軍很快就能打敗烏克蘭

俄媒女主持人曾言:若中國愿出兵300萬,俄軍很快就能打敗烏克蘭

南宗歷史
2026-03-17 16:53:10
2026-07-01 21:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13408文章數(shù) 142685關(guān)注度
往期回顧 全部

科技要聞

Claude Code被曝“植入木馬”識(shí)別中國用戶

頭條要聞

小區(qū)起火雙胞胎男童遇難:消防栓疑無水 物業(yè)經(jīng)理辭職

頭條要聞

小區(qū)起火雙胞胎男童遇難:消防栓疑無水 物業(yè)經(jīng)理辭職

體育要聞

賣球衣救子的門將,把德國撲出了世界杯

娛樂要聞

張凌赫:我連心疼你都隔著時(shí)差

財(cái)經(jīng)要聞

新氧貸款:宣傳年化15%,實(shí)際頂格24%

汽車要聞

上半年累計(jì)銷量突破142萬輛 吉利6月銷量出爐

態(tài)度原創(chuàng)

時(shí)尚
本地
教育
健康
親子

Meiinpsn的穿衣風(fēng)格,清新又叛逆

本地新聞

強(qiáng)烈建議,全國高校都向這所大學(xué)看齊!

教育要聞

當(dāng)孩子頹廢擺爛在家時(shí),他最希望媽媽做些什么?

年糕湯圓別油炸,水煮清蒸更健康

親子要聞

月嫂每天帶寶寶唱歌,突然有一天寶寶也跟著唱了,寶寶不會(huì)拍手于是用腳鼓掌

無障礙瀏覽 進(jìn)入關(guān)懷版