![]()
本文共同第一作者為阿里巴巴千問事業部胡欣怡博士、浙江大學博士生沈宇豪,以及阿里巴巴千問事業部張堡霖。其中,胡欣怡博士長期從事高效大模型算法與系統研究,重點關注模型結構-系統協同設計、推理加速與生成鏈路優化等方向,是本工作的項目負責人。通訊作者為阿里巴巴千問事業部戈霜。
隨著大模型參數規模持續擴大,推理成本已經成為生產級 LLM 服務的核心瓶頸。投機解碼(Speculative Decoding, SD)通過「小模型 draft + 大模型 verify」的方式,將多個候選 token 放到一次目標模型前向中并行驗證,從而緩解自回歸解碼的串行瓶頸。
但一個常被忽略的問題是:投機解碼在單請求或低并發下有效,不代表它在真實高并發服務中依然有效。當 batch size 增大時,多個請求會同時爭奪目標模型的驗證計算資源;此時每多驗證一個低價值 token,都可能直接轉化為吞吐下降和尾延遲上升。
![]()
為了解決這一問題,來自阿里 ATH 事業群 - 千問事業部 - 基礎工程團隊和浙江大學的研究者提出了ECHO(Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios)。
![]()
- 作者: Xinyi Hu, Yuhao Shen, Baolin Zhang, Hengxin Zhang, Jun Dai, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan
- 單位: Alibaba Qwen Applications Business Group;Zhejiang University
- 論文: ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios
- 鏈接: https://arxiv.org/abs/2604.09603
ECHO 不再把投機樹構造看作 「盡可能多猜 token」的問題,而是將其重新建模為一個固定驗證預算下的調度問題:在嚴格的全局 token 驗證預算內,動態決定哪些請求應該繼續加深、哪些請求應該提前截斷、哪些預算應該轉向擴寬候選集。
實驗結果顯示,在 BS=256 的高負載場景下,ECHO 將 Qwen3-235B-A22B 模型推理吞吐從 2,803 tok/s 提升至 3,207 tok/s,提升 14.4%,說明當 verification compute 逐漸成為稀缺資源時,驗證預算調度能夠顯著提升投機解碼的系統收益。
![]()
1. 為什么投機解碼在高并發下會失效?
傳統投機解碼通常假設:目標模型一次驗證多個 draft token 的成本,接近一次普通自回歸前向。因此,只要 draft token 被接受得足夠多,就能獲得可觀加速。
然而,在生產級服務中,這個假設并不總成立。
![]()
換句話說,投機解碼在真實 serving 中不再是「免費驗證更多 token」,而是在有限驗證預算里選擇「最值得驗證的 token」。
現有方法主要面臨兩類問題:
- 靜態樹方法:采用固定結構,簡單穩定,但容易在低置信度分支上浪費大量驗證計算;
- 動態樹方法:嘗試根據 token 概率在線調整樹結構,但往往依賴密集的逐層 / 逐節點決策,容易積累誤判,并產生 ragged batch,難以適配高性能 serving kernel。
ECHO 的出發點正是:在高并發 serving 中,核心資源不是「draft token 數量」,而是目標模型每一步能夠承受的驗證預算。
2. ECHO:把投機樹構造變成預算調度
ECHO 的核心思想可以概括為一句話:
在一個 batch 內,將所有請求的候選 token 樹看作統一的 Super-Tree,并在全局驗證預算 K_max 下彈性分配深度與寬度。
在每個投機解碼 step 中,batch 內有 B 個并發請求。對于第 i 個請求,假設其構造的候選樹包含 K_i 個待驗證 token,那么目標模型實際要驗證的是整個 batch 中所有候選節點的并集。ECHO 對其施加全局約束:
![]()
其中 K_max 代表當前硬件和 serving 系統在 compute-bound 區間附近能夠承受的驗證上限。這樣,投機解碼就從「每個請求獨立擴樹」轉變為「多個請求共享一個全局預算池”」。
這帶來了一個關鍵變化:給某個請求多分配一個候選 token,就意味著其他請求可用預算減少。因此,ECHO 不再盲目增加 draft depth 或 top-k,而是根據請求置信度動態決定預算如何流動。
3. 稀疏門控:只在可靠的 sweet spots 做決策
![]()
動態樹方法的一個難點在于:如果每一層、每個節點都做決策,控制開銷會迅速累積;更重要的是,不同深度上的置信度信號并不都同樣可靠。
論文通過分析 accepted token 與 rejected token 的置信度分布發現:并非所有 draft depth 都適合做決策。某些深度上,接受與拒絕樣本的分布區分度較高,論文稱之為 sweet spots;而大量中間層的分布邊界模糊,在這些位置頻繁決策反而容易引入誤判。
因此,ECHO 采用 Sparse Confidence Gating:
- 只在 root、target depth,以及少量自適應選擇的中間深度進行門控;
- 通過 warm-up /calibration 階段識別高區分度位置;
- 在推理時根據路徑置信度判斷當前請求是繼續 deepen,還是 truncate 并釋放預算。
對于第 i 個請求在深度 d 的候選集合,ECHO 使用最大似然路徑概率作為置信度:
![]()
若 ci,d>τd,則認為當前路徑高置信,可以繼續向更深層擴展;否則提前截斷,將預算釋放給更高價值的請求或用于局部擴寬。
4. 彈性預算調度:從「多猜 token」到「驗證預算重分配」
![]()
ECHO 的第二個核心組件是Unified Elastic Budget Scheduler。它在全局預算下,同時處理兩類資源分配:
- 同一請求內部的 depth vs. width 調度:當深度擴展風險較高時,利用剩余預算在當前截斷深度擴寬候選集;
- 不同請求之間的預算重分配:當某些低置信度請求被截斷時,將節省出的預算轉移給其他高置信度請求,用于繼續加深。
具體來說,ECHO 采用兩級優先級:
- Priority 1:Global Depth Extension
如果某個請求在 sparse gate 上通過置信度檢查,則優先將預算用于繼續加深,以減少后續全局驗證 step 數。
- Priority 2:Opportunistic Width Expansion
如果沒有請求能夠繼續高置信度加深,剩余預算才用于擴寬被截斷請求的候選集合,提高當前深度覆蓋正確 token 的概率。
這種機制自然適配不同驗證預算狀態:
- 在低負載場景下,驗證預算相對充足,ECHO 可以將截斷節省下來的預算重新用于當前請求的 width expansion;
- 當系統逐漸進入 verification compute-bound 區間時,驗證預算競爭變強,低置信度請求釋放出的預算會被優先轉移給高置信度請求,用于 global depth extension。
這也是 ECHO 名稱中「Elastic」的含義:它不是固定地追求更深或更寬,而是在請求熵、batch 負載和硬件預算之間動態調整。
5. 面向系統落地:ECHO 集成到 SGLang
很多動態投機樹方法雖然在原始 transformer 實驗中有效,但一旦進入真實 serving 框架,就會遇到 ragged batch 與 kernel 兼容性問題。
ECHO 在系統層面專門處理了這一點。論文將 ECHO 集成到工業級推理框架SGLang中,并通過Flatten & Pack將不同請求產生的非規則候選 token 樹打包成 dense、kernel-compatible 的布局,再交給目標模型進行一次性驗證。
這一步非常關鍵:如果算法產生的動態樹結構無法高效進入 serving kernel,那么理論上的 token 節省很可能被系統開銷抵消。ECHO 的設計目標不是單點優化 MAT,而是在真實高并發推理系統中提升 end-to-end goodput。
目前團隊正在整理 ECHO 相關代碼和文檔,計劃于 6 月向 SGLang 提交 MR,進一步推動代碼開源、社區復現和系統集成。
6. 實驗:從 8B 到 235B,驗證預算受限區間收益更明顯
論文在多種模型規模上驗證了 ECHO,包括 Vicuna-13B、LLaMA-3.1-8B、LLaMA-3.3-70B,以及 Qwen3 系列的 8B、32B、235B。任務覆蓋 HumanEval、GSM8K、CNN/DM、Alpaca 和 MT-Bench,實驗在 8×NVIDIA H100 80GB GPU 上進行;低負載場景使用 HuggingFace transformers,高并發場景使用 SGLang。
在低負載 BS=1 的設置下,ECHO 在所有 benchmark 上達到1.63×–5.35×的 wall-time speedup。其中:
- LLaMA3.3-70B上,ECHO 最高達到5.35×加速;
- Qwen3-235B上,ECHO 平均加速達到2.02×,優于 DDD 的 1.77× 和 EAGLE-3 的 1.69×;
- Qwen3-32B上,ECHO 相比代表性動態方法 DDD 帶來15.8%的提升。
ECHO 的主要有效區間,是 target verification 從近似免費并行逐漸進入 compute-bound 的驗證預算受限區間。論文在 MT-Bench、GSM8K、HumanEval 上評估了 4 個模型配置,并對比 EAGLE-3 以及兩個 ECHO 變體。結果顯示,當 verification compute 逐漸成為稀缺資源時,ECHO 依然能夠穩定提升吞吐,最大提升分別達到:
- LLaMA3.1-8B:7.92%
- LLaMA3.3-70B:12.96%
- Qwen3-8B:10.00%
- Qwen3-235B:14.95%
對于 Qwen3-235B 這類工業級大模型,verification compute 更早進入 compute-bound 區間,因此錯誤的預算分配會更快傷害吞吐。ECHO 通過將低置信度請求節省的 token 預算重新分配給高置信度請求,在 BS=256 時將吞吐從2,803 tok/s提升至3,207 tok/s,提升14.4%。
7. 消融實驗:為什么 sparse gating 和 depth-aware threshold 都重要
![]()
論文還比較了 ECHO 與兩個簡化變體:
- Dense Gating:在每一層都做門控決策;
- Fixed Threshold:所有深度共用同一個置信度閾值。
結果表明,完整 ECHO 表現最好。原因在于:
- Dense Gating 雖然看似更精細,但在不可靠深度上頻繁決策會引入額外開銷與誤判;
- Fixed Threshold 無法適應深度變化,因為 token 概率通常會隨 depth 下降,單一閾值容易在深層過度剪枝,或在淺層放入過多低價值 token。
在 LLaMA3.1-8B、BS=256 設置下,Dense Gating 比 ECHO 低約 5% 吞吐;在 Qwen3-235B 上,ECHO 相比 Fixed Threshold 提升5.3%(3,046 → 3,207 tok/s)。
結語:投機解碼進入「預算時代」
ECHO 的意義不只是提出了一個新的動態投機樹策略,更重要的是給出了一個面向生產 serving 的觀察:在高并發大模型推理中,投機解碼的核心不再是「猜得越多越好」,而是「在固定驗證預算內,讓每個被驗證 token 都更有價值」。通過 Super-Tree 視角、Sparse Confidence Gating、Elastic Budget Scheduling,以及面向 SGLang 的系統實現,ECHO 將投機解碼從局部樹結構優化推進到 batch-level 預算調度,為大模型高并發服務中的解碼加速提供了新的思路。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.