无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,DeepSeek V4更新DSpark,推理速度提升80%

0
分享至



編輯|澤南、楊文

剛剛,DeepSeek V4 進(jìn)行了一次更新。

新推出了投機(jī)解碼(Speculative Decoding)框架DSpark,并同步開(kāi)源了支撐該版本的全棧推測(cè)性解碼框架DeepSpec

DeepSeek-V4-Pro-DSpark 并非全新架構(gòu)模型,而是在 DeepSeek-V4-Pro 基礎(chǔ)上引入了推測(cè)性解碼模塊。此次更新的重點(diǎn)在于工程落地,而非模型能力本身的迭代。

DSpark 已被部署在 DeepSeek-V4(Flash 和 Pro)的真實(shí)線上流量中,大幅加速了大語(yǔ)言模型(LLM)的推理速度。



  • 技術(shù)報(bào)告:《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》
  • 技術(shù)報(bào)告鏈接:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

DSpark 的核心初衷是解決在生產(chǎn)環(huán)境中(尤其是高并發(fā)場(chǎng)景下)LLM 推理面臨的延遲和吞吐量瓶頸。簡(jiǎn)而言之,DSpark 成功地將高吞吐量的「并行生成」與自適應(yīng)的「負(fù)載感知驗(yàn)證」結(jié)合在了一起。

推測(cè)性解碼是一種在不改變模型輸出分布的前提下加速大語(yǔ)言模型推理的技術(shù)。其核心思路是引入一個(gè)輕量級(jí)的「草稿模型」(draft model),預(yù)先生成若干候選 token,再由目標(biāo)模型(target model)對(duì)這批候選進(jìn)行批量驗(yàn)證和接受,從而將串行逐 token 生成轉(zhuǎn)變?yōu)椴⑿信啃r?yàn),大幅降低端到端延遲。

在此基礎(chǔ)上,DSpark 的創(chuàng)新在于引入半自回歸生成架構(gòu)(Semi-Autoregressive Generation):它保留并行草稿模型的高吞吐優(yōu)勢(shì),同時(shí)加入輕量級(jí)串行模塊,對(duì) block 內(nèi) token 之間的依賴關(guān)系進(jìn)行建模,以緩解并行草稿模型在后續(xù)位置上容易出現(xiàn)的接受率衰減問(wèn)題。

除此之外還有硬件感知的置信度調(diào)度驗(yàn)證(Confidence-Scheduled Verification):以往的投機(jī)解碼通常會(huì)盲目地把生成的草稿 Token 全部送去驗(yàn)證,在系統(tǒng)高負(fù)載時(shí),這些極大概率會(huì)被拒絕的尾部 Token 會(huì)嚴(yán)重浪費(fèi)寶貴的批處理算力。DSpark 引入了一個(gè)置信度頭(Confidence Head)來(lái)評(píng)估每個(gè) Token 的存活概率。結(jié)合硬件感知前綴調(diào)度器,系統(tǒng)能夠根據(jù)實(shí)時(shí)的引擎吞吐量特征,動(dòng)態(tài)為每個(gè)請(qǐng)求量身定制最優(yōu)的驗(yàn)證長(zhǎng)度,將算力只分配給預(yù)期回報(bào)最高的 Token。

為了在真實(shí)的線上基礎(chǔ)設(shè)施中落地,DSpark 的調(diào)度器采用了異步機(jī)制,以兼容零開(kāi)銷調(diào)度(ZOS)和連續(xù)的 CUDA 圖回放。它利用前兩步的歷史預(yù)測(cè)來(lái)決定當(dāng)前的動(dòng)態(tài)截?cái)嚅L(zhǎng)度,從而隱藏了調(diào)度延遲,避免了 GPU 流水線停頓,同時(shí)保證了目標(biāo)模型輸出分布的完全無(wú)損還原。



在涵蓋數(shù)學(xué)推理、代碼生成和日常對(duì)話等多個(gè)領(lǐng)域的測(cè)試中,DSpark 大幅超越了目前最先進(jìn)的自回歸模型(Eagle3)和并行草稿模型(DFlash)。例如,在 Qwen3 系列(4B、8B、14B)目標(biāo)模型上,其平均接受長(zhǎng)度比 Eagle3 提升了 26.7% 到 30.9%,比 DFlash 提升了 16.3% 到 18.4%。



相比于前一代部署的單 Token 生產(chǎn)基準(zhǔn)(MTP-1),在維持相同總體吞吐量的情況下,DSpark 將用戶的生成速度分別提升了 60%-85%(Flash 模型)和 57%-78%(Pro 模型)



隨 DSpark 一同開(kāi)源的還有 DeepSpec,這是一個(gè)用于訓(xùn)練和評(píng)估推測(cè)性解碼草稿模型的全棧代碼庫(kù)。是承載這個(gè)方案以及其他前沿算法實(shí)現(xiàn)的「開(kāi)源基礎(chǔ)設(shè)施」,包含數(shù)據(jù)準(zhǔn)備工具、草稿模型實(shí)現(xiàn)、訓(xùn)練代碼和評(píng)估腳本。

DeepSpec 將整體流程拆分為三個(gè)階段:數(shù)據(jù)準(zhǔn)備、訓(xùn)練和評(píng)估。三個(gè)階段需要按順序運(yùn)行,前一階段的輸出會(huì)作為后一階段的輸入。

數(shù)據(jù)準(zhǔn)備階段,需下載提示詞數(shù)據(jù)、使用推理引擎對(duì)目標(biāo)模型重新生成答案,并構(gòu)建目標(biāo)緩存(target cache)。值得注意的是,以默認(rèn)的 Qwen/Qwen3-4B 配置為例,目標(biāo)緩存體積可達(dá)約 38 TB,使用前需充分評(píng)估存儲(chǔ)資源。

訓(xùn)練階段可通過(guò) bash scripts/train/train.sh 啟動(dòng)。該腳本會(huì)調(diào)用 train.py,并為每張可見(jiàn) GPU 啟動(dòng)一個(gè) worker。用戶可以通過(guò)指定 config_path,在 config/ 目錄下選擇不同算法和目標(biāo)模型配置。項(xiàng)目也支持通過(guò)覆蓋 config_path、target_cache_dir,以及使用 --opts 修改單個(gè)配置字段來(lái)調(diào)整訓(xùn)練設(shè)置。

硬件方面,DeepSpec 默認(rèn)配置和腳本面向單節(jié)點(diǎn) 8 卡環(huán)境。如果 GPU 數(shù)量較少,用戶需要相應(yīng)減少 CUDA_VISIBLE_DEVICES 中的可見(jiàn) GPU 數(shù)量。

評(píng)估階段則通過(guò) bash scripts/eval/eval.sh 啟動(dòng)。評(píng)估腳本會(huì)使用訓(xùn)練好的草稿模型 checkpoint,在多個(gè) speculative decoding 基準(zhǔn)任務(wù)上衡量接受情況。項(xiàng)目當(dāng)前列出的評(píng)估數(shù)據(jù)集包括 GSM8K、MATH500、AIME25、HumanEval、MBPP、LiveCodeBench、MT-Bench、Alpaca 和 Arena-Hard-v2,覆蓋數(shù)學(xué)推理、代碼生成、對(duì)話能力和綜合問(wèn)答等不同任務(wù)類型。

算法方面,DeepSpec 目前內(nèi)置三種草稿模型:DSpark、DFlash 和 Eagle3。目標(biāo)模型系列方面,項(xiàng)目當(dāng)前支持 Qwen3 和 Gemma。

DeepSpec 的開(kāi)源,將推測(cè)性解碼這一此前多散落于各研究團(tuán)隊(duì)內(nèi)部的工程實(shí)踐,整合為一套可復(fù)現(xiàn)、可擴(kuò)展的標(biāo)準(zhǔn)化工具鏈。對(duì)于希望為自有大模型加速推理的研究者和工程師而言,這意味著可以直接在成熟框架上訓(xùn)練定制草稿模型,跳過(guò)大量重復(fù)的基礎(chǔ)設(shè)施搭建工作。

https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

https://github.com/deepseek-ai/DeepSpe

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
韓紅被質(zhì)疑“走到哪,哪就是她的老家”,央媒報(bào)道顯示,其生于西藏昌都,兩歲時(shí)前往成都,后定居北京,祖籍山東德州,并非在西藏長(zhǎng)大

韓紅被質(zhì)疑“走到哪,哪就是她的老家”,央媒報(bào)道顯示,其生于西藏昌都,兩歲時(shí)前往成都,后定居北京,祖籍山東德州,并非在西藏長(zhǎng)大

大風(fēng)新聞
2026-06-25 14:15:08
中超狂歡夜!蓉城3-2絕殺,國(guó)安+海港+泰山都贏了 最新積分榜出爐

中超狂歡夜!蓉城3-2絕殺,國(guó)安+海港+泰山都贏了 最新積分榜出爐

小火箭愛(ài)體育
2026-06-27 22:12:55
岸田文雄冒著被罵的風(fēng)險(xiǎn),對(duì)中國(guó)說(shuō)了大實(shí)話!高市比想象中狠得多

岸田文雄冒著被罵的風(fēng)險(xiǎn),對(duì)中國(guó)說(shuō)了大實(shí)話!高市比想象中狠得多

浮黎禮
2026-06-27 15:02:54
官方:朝鮮被取消下一屆U17亞洲杯參賽資格,并被罰款5萬(wàn)美元

官方:朝鮮被取消下一屆U17亞洲杯參賽資格,并被罰款5萬(wàn)美元

懂球帝
2026-06-27 17:09:37
出局!人算不如天算,亞洲兄弟烏茲別克送韓國(guó)隊(duì)回家:伊朗待定

出局!人算不如天算,亞洲兄弟烏茲別克送韓國(guó)隊(duì)回家:伊朗待定

足球大腕
2026-06-28 10:10:15
高市早苗沒(méi)料到,拒赴深圳APEC,想給中國(guó)甩臉色,中方根本不接招

高市早苗沒(méi)料到,拒赴深圳APEC,想給中國(guó)甩臉色,中方根本不接招

離離言幾許
2026-06-27 15:44:23
今天北京有雷陣雨 夜間局地雨強(qiáng)較大伴短時(shí)大風(fēng)

今天北京有雷陣雨 夜間局地雨強(qiáng)較大伴短時(shí)大風(fēng)

北青網(wǎng)-北京青年報(bào)
2026-06-28 07:56:06
尷尬了!武漢大學(xué)高招咨詢會(huì)攤位無(wú)人問(wèn)津,隔壁交通大學(xué)人潮涌動(dòng)

尷尬了!武漢大學(xué)高招咨詢會(huì)攤位無(wú)人問(wèn)津,隔壁交通大學(xué)人潮涌動(dòng)

火山詩(shī)話
2026-06-28 07:11:34
日本球迷評(píng)韓國(guó)出局:憑啥責(zé)怪其他球隊(duì) 遭足球之神懲罰 實(shí)力本弱

日本球迷評(píng)韓國(guó)出局:憑啥責(zé)怪其他球隊(duì) 遭足球之神懲罰 實(shí)力本弱

顏小白的籃球夢(mèng)
2026-06-28 10:49:52
原來(lái)他就是遲蓬的丈夫,是我們熟悉的資深大導(dǎo)演,公公是電影明星

原來(lái)他就是遲蓬的丈夫,是我們熟悉的資深大導(dǎo)演,公公是電影明星

生命之泉的奧秘
2026-06-28 00:17:44
全網(wǎng)都在勸退,臨床醫(yī)學(xué)卻霸榜第一!2026最新排名+碩博就業(yè)率,陶勇勸醒無(wú)數(shù)考生

全網(wǎng)都在勸退,臨床醫(yī)學(xué)卻霸榜第一!2026最新排名+碩博就業(yè)率,陶勇勸醒無(wú)數(shù)考生

輝哥說(shuō)動(dòng)漫
2026-06-28 08:54:45
2年內(nèi)從15萬(wàn)本金賺到318萬(wàn),總結(jié)了10條鐵律,話很短,含金量很大

2年內(nèi)從15萬(wàn)本金賺到318萬(wàn),總結(jié)了10條鐵律,話很短,含金量很大

一方聊市
2026-06-27 15:35:03
官方:世界杯無(wú)緣出線后,蘇格蘭隊(duì)主帥克拉克辭職

官方:世界杯無(wú)緣出線后,蘇格蘭隊(duì)主帥克拉克辭職

懂球帝
2026-06-28 07:58:09
被全世界針對(duì)了?烏茲別克斯坦被剛果(金)逆轉(zhuǎn),直接宣告韓國(guó)隊(duì)出局!

被全世界針對(duì)了?烏茲別克斯坦被剛果(金)逆轉(zhuǎn),直接宣告韓國(guó)隊(duì)出局!

紅星新聞
2026-06-28 09:53:14
小組出局!烏拉圭足協(xié)取消包機(jī) 球員需自行購(gòu)買(mǎi)機(jī)票返程

小組出局!烏拉圭足協(xié)取消包機(jī) 球員需自行購(gòu)買(mǎi)機(jī)票返程

新英體育
2026-06-28 11:05:19
真是被慣壞了!初三家長(zhǎng)用奶茶袋子送大疆,女兒秒臭臉,氣到網(wǎng)友

真是被慣壞了!初三家長(zhǎng)用奶茶袋子送大疆,女兒秒臭臉,氣到網(wǎng)友

熙熙說(shuō)教
2026-06-26 19:41:27
佛得角足協(xié)副主席宣布:計(jì)劃與中國(guó)隊(duì)安排足球友誼賽

佛得角足協(xié)副主席宣布:計(jì)劃與中國(guó)隊(duì)安排足球友誼賽

新浪財(cái)經(jīng)
2026-06-27 20:36:26
45萬(wàn)億存款大逃亡,你的血汗錢(qián)正在悄悄蒸發(fā)

45萬(wàn)億存款大逃亡,你的血汗錢(qián)正在悄悄蒸發(fā)

億通電子游戲
2026-06-28 09:02:08
國(guó)足是怎樣一步步淪為全民笑柄、被視作人間笑話的

國(guó)足是怎樣一步步淪為全民笑柄、被視作人間笑話的

笑熬漿糊111
2026-06-25 13:37:06
狂省2.16億!雷霆果斷放走隊(duì)內(nèi)最強(qiáng)三分射手,這筆交易太精明

狂省2.16億!雷霆果斷放走隊(duì)內(nèi)最強(qiáng)三分射手,這筆交易太精明

知法而形
2026-06-27 09:52:31
2026-06-28 12:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13373文章數(shù) 142681關(guān)注度
往期回顧 全部

科技要聞

DeepSeek最新論文:如何讓大模型跑得更快

頭條要聞

三隊(duì)出線世界杯32強(qiáng)席位正式落定 伊朗在最后一刻出局

頭條要聞

三隊(duì)出線世界杯32強(qiáng)席位正式落定 伊朗在最后一刻出局

體育要聞

世界杯最火門(mén)將,站到了阿根廷和梅西面前

娛樂(lè)要聞

白玉蘭獎(jiǎng)落幕,唯她被罵慘

財(cái)經(jīng)要聞

兩只股票撐起的韓國(guó)股市,半年熔斷?33 次

汽車要聞

蔚來(lái)ES大五座體驗(yàn) 全場(chǎng)景行李艙讓你帶著生活出發(fā)

態(tài)度原創(chuàng)

手機(jī)
教育
家居
本地
軍事航空

手機(jī)要聞

W25單品銷量Top30,蘋(píng)果霸占前三,華為霸占國(guó)產(chǎn)前三

教育要聞

特級(jí)教師陳紅梅:鍛造“講故事+演講”引領(lǐng)力

家居要聞

綠意盎然 自然之境

本地新聞

世界杯球迷節(jié):比球賽更好玩的派對(duì)

軍事要聞

黎以美達(dá)成三方框架協(xié)議

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版