![]()
智東西
作者 李水青
編輯 心緣
智東西6月27日報道,繼完成500億元融資后,今日,DeepSeek首次放出開源新成果!
剛剛,DeepSeek開源了一套讓現有模型跑得更快的工程方案:推出DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark模型,并開源推測解碼(Speculative Decoding)框架DSpark以及推測解碼訓練框架DeepSpec。
![]()
▲DeepSeek-V4-Pro-DSpark開源上新頁面截圖
根據同步上傳的梁文鋒署名、聯合北京大學完成的論文《DSpark:基于半自回歸生成的置信度調度推測解碼(DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation)》,將DSpark部署在DeepSeek-V4線上服務系統、承接真實用戶流量時,它有效減少了無效校驗帶來的算力浪費。
相較于成熟的生產基線方案(MTP-1),在保持整體吞吐不變的前提下,DSpark把單用戶生成速度提升60%-85%。更關鍵的是,在嚴格交互時延約束下,DSpark避免了吞吐率大幅滑坡,實現了以往無法達成的性能檔位,推高了整套服務系統的帕累托最優邊界。
![]()
▲DSpark論文截圖
Hugging Face地址:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark
GitHub地址:
https://github.com/deepseek-ai/DeepSpec
論文地址:
https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
根據Hugging Face上的模型卡,DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark并非新模型,而是在原有版本的基礎上,增加了一個推測解碼模塊,用以加快推理速度、降低成本。
推測解碼,簡單來說,是一種大模型推理無損技術,核心流程為先打草稿、后驗證。其將草稿生成與目標模型校驗解耦,以此加速大語言模型推理。
當前主流并行草稿器能夠單次前向運算生成超長token序列,但由于token之間缺少依賴關系,草稿后續內容的通過率會快速下滑。此外,如果對整段長候選序列無差別校驗,會把寶貴的批次算力浪費在極易被駁回的token上,從而導致高并發服務場景下整體吞吐率大幅下降。
為此,DeepSeek提出DSpark推測解碼框架,把高吞吐并行生成與自適應、感知負載的校驗機制結合在一起。為保證草稿質量,DSpark采用半自回歸架構:將并行主干網絡與輕量串行模塊相結合,建模塊內token依賴,緩解末尾內容通過率衰減問題。
![]()
▲DSpark架構與解碼流程
為優化系統運行效率,DSpark引入置信度調度校驗機制:根據預估的前綴通過概率與引擎吞吐特征,為每一條請求動態調整校驗長度。在多領域離線基準測試中,相比當前最優的自回歸草稿器與并行草稿器,DSpark能夠顯著提升有效通過序列長度。
如下圖所示,針對這DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark兩款模型,DeepSeek提供了一個最小推理示例。
![]()
▲DeepSeek提供的最小推理示例
總的來說,用戶在部署DSpark版本的DeepSeek-V4模型后,有望在生成速度、首token延遲、并發能力等方面獲得體驗提升。
再來看看DeepSpec,這是一個用于訓練和評估推測性解碼草稿模型(Draft Model)的全棧代碼庫,或者說工具鏈,它包含數據準備工具、草稿模型實現、訓練代碼和評估腳本,支持MIT許可。
![]()
▲DeepSpec開源上新頁面截圖
DeepSpec的工作流程如下,它會按順序運行各個階段,每個階段的輸出為下一個階段提供反饋:
1、數據準備:下載提示,重新生成目標答案,并構建目標緩存。
2、訓練:針對緩存的目標輸出訓練一個模型。
3、評估:在基準任務上衡量推測解碼的接受程度。
目前,DeepSpec支持的算法包括三個草稿模型:DSpark、DFlash和Eagle3。
DeepSpec團隊還在最后向SpecForge(Apache-2.0)、DFlash(MIT)以及Qwen3和Gemma發文致謝。
![]()
▲DeepSeek致謝情況
可以看到,DeepSeek不僅發布相關模型,還開放完整的訓練框架,供開發者和企業用這套工具給自己的Qwen3、Gemma等模型訓練草稿模型。
結語:推理重要度提高,考驗工程化能力
DeepSeek本次發布雖然低調,也不是新模型迭代,但實際含金量不低。DeepSeek發布了一套讓現有模型跑得更快的工程方案,有望帶來更快更低成本的推理體驗,并降低推測解碼的落地門檻。
大模型競賽已進入訓練與推理并重的系統博弈階段。本次也是DeepSeek完成融資后,率先落子推理優化賽道。戰略意圖也很明確:不僅要加速模型迭代和產品化,還要向下搶占算力效率競爭制高點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.