无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

梁文鋒署名的DSpark,看懂這10個點就夠了!

0
分享至


來源:量子位 | 公眾號 QbitAI

聞樂 發自 凹非寺

梁文鋒署名的DeepSeek新論文DSpark你可能刷到過了——

單用戶速度提升85%、高并發場景有效吞吐翻4倍。

但你真的看懂了嗎?


別急,有人替你拆解了一遍。

Fireworks AI的聯合創始人兼CTO、PyTorch核心維護者Dmytro Dzhulgakov將整篇論文梳理成了10個概念,從最底層的GPU訪存特性講到最上層的在線自適應調度。


他認為:

DeepSeek這套方案真正的精髓在于系統工程和模型協同設計

相關基礎思路前人已有提出,難能可貴的是其將各類技術融合為一套自適應完整系統,實現了端到端的顯著性能優化。

下面我們就順著這10個概念過一遍DSpark。

10個概念理解DSpark 批處理解碼(Batching in LLM Decoding)

想要搞懂大模型各類推理加速技術,首先要理解GPU一個非常特殊的運行特性:

讓GPU同時解碼10個token,其實只比解碼1個token慢一點點。

卡帕西曾經講過,原因在于大模型推理的瓶頸不是浮點運算,而是顯存帶寬,GPU大部分時間花在把模型權重從顯存搬到計算核心上。


搬一次也是搬,搬十次也是搬,既然權重已經加載到了緩存里,不如一次搬運、干十件事。

這就是連續批處理:把多個請求的token塞進同一個batch,讓每一次顯存讀取都物盡其用。

理解了這一點,就明白為什么推測解碼能奏效,它的本質就是把“猜出來的多個候選token”打包成一個batch送給大模型驗證,而驗證batch的成本,遠低于逐個生成的成本。

推測解碼(Speculative Decoding)

大模型生成是自回歸的,第N+1個token依賴第N個token的結果,沒法直接并行。

但有一種繞路的辦法,如果你能「猜」出接下來幾個token是什么,就可以把猜出來的候選序列一次性喂給大模型做批量驗證。

驗證是通過拒絕采樣,系統逐個檢查候選token,接受最長的正確前綴,在第一個分歧點重新采樣一個token。

這套規則在數學上保證輸出分布與原模型完全一致,沒有任何質量損失。

所以推測解碼的本質是用“猜+驗”替代“逐字生成”。


猜的環節用小模型可以很快,驗的環節進行批量驗證可以很高效,所以最終每一步都能往前跳好幾個token。

DSpark就是這個方向上的最新進展。

草稿模型(Draft Model)

那怎么猜呢?

最直接的方案是拿一個小模型當“草稿器”。

比如用Qwen 0.8B給Qwen 397B探路,小模型跑得快,把候選序列生成好,大模型只需要做一次前向傳播來驗證。

通過了就全收,沒通過就從分歧點重新來。


這個設計把推理過程分成了兩個角色,速度型選手草稿器負責猜,力量型選手目標模型負責判。

二者配合得好,整體速度就能大幅提升。

但要想配合得好,背后需要權衡大量工程取舍,接下來幾個概念就是在講這些取舍。

推測并不免費(Speculation is Not Free)

草稿模型引入了額外開銷。

如果草稿器自己跑得太慢,或者一次猜了16個token但只有前3個被接受,那這筆帳就不劃算了。

論文給出了一個核心公式來描述實際延遲:

每個token的耗時= (草稿耗時+驗證耗時) /被接受的token數τ。


在這個理論下,加速只有三條路可以走,降低草稿耗時(猜得更快)、提高τ(猜得更準)、減少驗證浪費(驗得更聰明)。

猜得越多不一定越好,因為如果多猜的token大概率被拒絕,它們只會白白占用驗證batch的寶貴算力。

所以DSpark的整篇論文,可以理解為同時拉動這三個杠桿的一次系統性嘗試。

Eagle與MTP,復用目標模型的內部理解

第一根杠桿,就是優化草稿模型本身的構造。

草稿模型不用從零訓一個完整的小模型,有一種更聰明的做法是直接把目標模型最后一層的隱藏狀態拿過來,在上面加1–2層Transformer頭當草稿器。

這就是Eagle系列和MTP(Multi-Token Prediction)的思路。


圖源:DeepSeek-V3 Technical Report

好處有兩個,一個是,草稿器只有1–2層,計算量極低;

二是,因為它直接吃的是目標模型的內部理解,也就是最后一層激活值,等于站在巨人肩膀上猜下一步,比從頭用小模型獨立推理要靠譜得多。

DeepSeek-V3就已經在用MTP做單token推測(MTP-1)。

DSpark論文中所有的加速數字都是跟MTP-1這個基線對比的,也就是說,60%–85%的速度提升是在已經優化過的基礎上再疊加的。


DFlash,用并行一口氣猜完

但Eagle/MTP的問題在于,要生成N個候選token,就得跑N步,第2個token依賴第1個的輸出,第3個依賴第2個……串行的鏈條沒法打破。

DFlash的思路是借鑒擴散模型的做法,一次前向傳播就把全部N個候選位置同時產出。


速度確實快,但代價是各位置之間沒有依賴關系。開頭幾個token可能很準,因為上下文信息充足,但越往后越拉胯。

論文管這個問題叫多模態碰撞。

舉個例子,位置1采樣出“of”,位置2獨立采樣出“problem”,各自看概率都合理,拼在一起就變成了“of problem”這種不通順的組合。

位置越靠后,這種跑偏的概率越大,接受率急劇下滑。

這就是所謂的后綴衰減(suffix decay),也是純并行方案在實際部署中加速效果打折的主因。

DSpark≈Eagle+DFlash,兩頭都要

DSpark的核心創新,用一句話說清就是把并行和串行拼在一起,各取所長。

具體做法分兩步。第一步,用DFlash的并行骨干網絡一口氣生成所有位置的基礎logits,這一步負責速度。

第二步,用一個輕量級的順序頭從前往后逐個位置注入前綴依賴偏置,這一步負責修正后綴衰減。


用上面的例子來看,效果是:

位置1采樣出“of”之后,順序頭會把位置2的概率分布往“course”方向推,同時壓低“problem”的概率。

并行骨干保證了整體速度不拖后腿,順序頭保證了后半段的接受率不崩盤。

在論文的離線測試中,DSpark的平均接受長度比Eagle3高26%–31%,比DFlash高16%–18%。


兩層DSpark甚至打得過五層DFlash。

更便宜的串行模塊,馬爾可夫頭

既然第二步要加一個順序頭,那它的成本不就把第一步省下來的時間又吃回去了嗎?

DSpark的回答是:不會,因為并行骨干已經把上下文信息編碼好了,串行步驟不需要再做完整的注意力計算,只需要做極輕量的修正。

默認方案是一個馬爾可夫頭,它只看前一個token就決定當前位置的修正方向,通過低秩分解(rank 256),即使詞表有十幾萬個token,計算成本也幾乎可以忽略。

實測數據就很能說明問題,草稿長度從4擴展到16,每輪額外增加的延遲只有0.2%–1.3%,但接受長度最高提升了30%。


論文里還提供了一個 RNN 頭的可選方案,可以追蹤整個草稿塊的前綴信息,但實際增益有限,所以默認沒有開啟。


這也體現了DSpark的工程審美,不是越復雜越好,而是找到成本和收益的最優折中。

可變長度草稿與硬件感知調度

那每次應該猜幾個token呢?這個問題沒有固定答案。

首先,不同類型的請求天然不同。

代碼生成的可預測性高(語法模式強),草稿器猜8–16個token可能都能過審;開放式閑聊不確定性大,猜4個就可能翻車。

其次,服務器的實時負載也在變化。

GPU空閑時,多猜幾個token沒什么額外成本,反正算力閑著也是閑著;高并發時,每一塊驗證batch的算力都很金貴,不該浪費在大概率被拒絕的尾部token上。

于是DSpark用一個置信度頭給每個草稿位置打分,預估它在驗證中存活的概率


這套方案會預先測算GPU在各類批次尺寸下的硬件吞吐數據,生成吞吐量參考曲線,再依據曲線結果為每條請求動態匹配最優驗證長度。

整套調度邏輯完全在GPU內部執行,無需CPU參與,雖然實現門檻極高,但該方案已經落地了。


在線草稿器校準

接下來,就是最后一塊拼圖,在線草稿置信度校準

置信度頭的思路很好,但有一個實際問題是“神經網絡天生過度自信”

它覺得自己猜的每個token都對,這就會導致原始置信度評分不可靠,該停的時候不停,該放手的時候死撐。

如果直接用模型輸出的概率設閾值,系統表現會跑偏。

DSpark 的做法是在運行時持續觀察草稿器的實際表現。

論文中使用順序溫度縮放做后處理校準,把預期校準誤差從3%–8%壓到了約1%。


更關鍵的是,這個校準過程是在線的,系統邊跑邊調,根據當前工作負載的實際接受率動態修正閾值。

代碼任務跑多了,它就學會對代碼草稿更寬容;聊天任務來了,它自動收緊閾值。

越跑越準,真正做到了自適應。

這10個概念單獨拎出來,大部分確實算不上全新,但整套方案完成了算法、調度、硬件適配三位一體的端到端工程閉環。

而且DeepSpec全棧訓練庫一并開源,Eagle3、DFlash、DSpark三種草稿模型的訓練代碼全部放出,支持Qwen3和Gemma等外部模型——

你想給自己的模型訓一個草稿器,直接拿過去改就行。

OMT

DSpark配套的DeepSpec庫目前在GitHub已經拿下1.4k Star,各路開發者都開始實操內卷。


海外大佬看完論文火速掏出兩塊RTX PRO 6000在家折騰DSpark。


兩塊顯卡火力拉滿,看得出來很努力了(doge)。

論文地址:https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
參考鏈接:
[1]https://x.com/dzhulgakov/status/2070922887595499930?s=20
[2]https://x.com/Hikari_07_jp/status/2070842526450479188?s=20

閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

我愛英超
2026-07-02 22:05:30
早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

葉青足球世界
2026-07-02 17:12:02
一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

借你一生
2026-07-02 10:26:03
成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

東京在線
2026-07-02 16:57:07
里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

往史過眼云煙
2026-07-02 09:55:26
首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

策前論
2026-07-02 17:21:49
“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
從699分到愛心接力:少年向上 社會向善丨中聽

從699分到愛心接力:少年向上 社會向善丨中聽

大象新聞
2026-07-01 16:30:12
六代機,就這么明晃晃的官宣了!

六代機,就這么明晃晃的官宣了!

新動察
2026-07-02 08:25:58
韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

可達鴨面面觀
2026-07-02 19:44:03
曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

我愛英超
2026-07-02 21:40:07
80%變0!里奇·保羅曝光詹姆斯離湖心路

80%變0!里奇·保羅曝光詹姆斯離湖心路

籃壇第一線
2026-07-02 00:47:17
地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

瀟湘晨報
2026-07-02 16:32:20
賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

背包旅行
2026-07-02 11:45:23
西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

李晚書
2026-07-02 18:44:26
故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

全景體育V
2026-07-02 21:38:20
成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

背包旅行
2026-07-02 14:33:11
中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

極目新聞
2026-07-02 22:47:55
加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

證券時報
2026-07-02 21:53:03
扎哈羅娃:馮德萊恩是個“出色的騙子”

扎哈羅娃:馮德萊恩是個“出色的騙子”

參考消息
2026-07-02 14:14:08
2026-07-03 02:28:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4864文章數 37483關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態度原創

教育
家居
親子
數碼
軍事航空

教育要聞

初二期末只在校內第120名、第125名,四年后在全省站到了狀元榜眼

家居要聞

傳奇筑 日常詩

親子要聞

從新生兒到學齡期全覆蓋:兒童被子成長型選型的策略與實用方法

數碼要聞

卓威同步發布XQ2766X顯示器:27" QHD 360Hz TN

軍事要聞

美軍“航母殺手”首次公開 此前從未展示

無障礙瀏覽 進入關懷版