網易首頁 > 網易號 > 正文申請入駐

DeepSeek最新論文：如何讓大模型跑得更快？梁文鋒署名

2026-06-27 18:25:25　來源: 第一財經資訊

上海舉報

分享至

當行業在討論誰的模型更聰明時，DeepSeek仍然把目光投向更現實的問題：如何讓模型更快。

6月27日，DeepSeek官方在Github低調更新了一篇最新論文，介紹其推理加速框架DSpark，試圖解決大語言模型在高并發場景下的推理效率瓶頸。

從作者署名來看，這篇論文由DeepSeek與北京大學聯合發布，DeepSeek創始人梁文鋒也位列作者名單。在論文中，團隊開源了DSpark模型權重，并同步發布了面向推測解碼、由算法驅動的訓練代碼倉庫DeepSpec。

DeepSeek最新論文截圖

此次論文仍是DeepSeek一貫的技術派風格，論文標題就較為晦澀——《DSpark：基于置信度調度的半自回歸生成推測解碼》（《DSpark:Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》）。

在論文中，DeepSeek首先解釋了需要解決的問題。大語言模型采用自回歸方式生成文本：每一個新詞元（token）的生成，都需要基于全部前置詞元完成一次完整前向傳播，結果是輸出越長，等待越久。由此帶來GPU利用率低下、用戶等待時間過長的問題，這是大語言模型線上服務的核心性能瓶頸，在實時對話助手、多輪智能體工作流等低時延敏感場景中尤為突出。

目前的主流方案分為自回歸草稿模型（Eagle3）、并行草稿模型（DFlash）兩條路線，二者各有缺陷，包括生成質量瓶頸和系統效率瓶頸等，且現有方案均缺乏負載自適應校驗機制。

基于此，DeepSeek提出DSpark推測解碼框架，采用半自回歸架構，通過兩套互補機制，解決草稿生成與校驗環節的權衡矛盾，將高吞吐并行生成與自適應負載感知校驗機制融為一體。

根據論文，在數學推理、代碼生成、日常閑聊三類任務的受控離線基準測試中，相較于自回歸草稿模型與并行草稿模型，Dspark框架能夠大幅提升單輪平均可接受詞元長度。

DeepSeek已經將DSpark部署到DeepSeek-V4在線服務系統中，并基于真實用戶流量評估其實際性能。結果顯示，相較于現有生產環境基線系統MTP-1，在相同吞吐量條件下，DSpark將用戶端生成速度提升了60%-85%。

此外，DeepSeek也將這一框架部署在其他模型上，以阿里旗下的Qwen3-4B、8B、14B三個模型為例，相較于自回歸草稿模型，DSpark平均單輪可接受詞元長度分別提升了30.9%、26.7%、30%；相較于并行草稿模型，DSpark分別提升了16.3%、18.4%、18.3%。

從技術角度來看，這篇論文的主要價值在于，通過算法創新顯著提升了模型的推理生成速度。在當前大模型行業逐漸走向落地的背景下，誰能更便宜、更快速地輸出結果，也是一項重要的競爭力。此外，通過開源，DeepSeek也再次推動了社區發展。

“AI Infra再次被DeepSeek加速了。”在社交平臺，有開發者評價道。也有用戶認為，DeepSeek最讓人佩服的點在于，模型迭代的同時，推理基礎設施也在同步更新，發布V4時，連推理優化一起發，有論文也有代碼，還驗證了跨模型通用性。

即便近期頻頻傳出融資消息，未來可能需要走向商業化，但通過這一開源，DeepSeek似乎在證明自己仍會堅持開源初心。

責任編輯：李曦_NN2587

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.