網易首頁 > 網易號 > 正文申請入駐

拒絕盲目猜token，阿里x浙大將投機解碼帶入彈性預算時代

2026-05-13 13:39:40　來源: 機器之心Pro

河北舉報

分享至

本文共同第一作者為阿里巴巴千問事業部胡欣怡博士、浙江大學博士生沈宇豪，以及阿里巴巴千問事業部張堡霖。其中，胡欣怡博士長期從事高效大模型算法與系統研究，重點關注模型結構-系統協同設計、推理加速與生成鏈路優化等方向，是本工作的項目負責人。通訊作者為阿里巴巴千問事業部戈霜。

隨著大模型參數規模持續擴大，推理成本已經成為生產級 LLM 服務的核心瓶頸。投機解碼（Speculative Decoding, SD）通過「小模型 draft + 大模型 verify」的方式，將多個候選 token 放到一次目標模型前向中并行驗證，從而緩解自回歸解碼的串行瓶頸。

但一個常被忽略的問題是：投機解碼在單請求或低并發下有效，不代表它在真實高并發服務中依然有效。當 batch size 增大時，多個請求會同時爭奪目標模型的驗證計算資源；此時每多驗證一個低價值 token，都可能直接轉化為吞吐下降和尾延遲上升。

為了解決這一問題，來自阿里 ATH 事業群 - 千問事業部 - 基礎工程團隊和浙江大學的研究者提出了ECHO（Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios）。

作者： Xinyi Hu, Yuhao Shen, Baolin Zhang, Hengxin Zhang, Jun Dai, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan
單位： Alibaba Qwen Applications Business Group；Zhejiang University
論文： ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios
鏈接： https://arxiv.org/abs/2604.09603

ECHO 不再把投機樹構造看作「盡可能多猜 token」的問題，而是將其重新建模為一個固定驗證預算下的調度問題：在嚴格的全局 token 驗證預算內，動態決定哪些請求應該繼續加深、哪些請求應該提前截斷、哪些預算應該轉向擴寬候選集。

實驗結果顯示，在 BS=256 的高負載場景下，ECHO 將 Qwen3-235B-A22B 模型推理吞吐從 2,803 tok/s 提升至 3,207 tok/s，提升 14.4%，說明當 verification compute 逐漸成為稀缺資源時，驗證預算調度能夠顯著提升投機解碼的系統收益。

1. 為什么投機解碼在高并發下會失效？

傳統投機解碼通常假設：目標模型一次驗證多個 draft token 的成本，接近一次普通自回歸前向。因此，只要 draft token 被接受得足夠多，就能獲得可觀加速。

然而，在生產級服務中，這個假設并不總成立。

換句話說，投機解碼在真實 serving 中不再是「免費驗證更多 token」，而是在有限驗證預算里選擇「最值得驗證的 token」。

現有方法主要面臨兩類問題：

靜態樹方法：采用固定結構，簡單穩定，但容易在低置信度分支上浪費大量驗證計算；
動態樹方法：嘗試根據 token 概率在線調整樹結構，但往往依賴密集的逐層 / 逐節點決策，容易積累誤判，并產生 ragged batch，難以適配高性能 serving kernel。

ECHO 的出發點正是：在高并發 serving 中，核心資源不是「draft token 數量」，而是目標模型每一步能夠承受的驗證預算。

2. ECHO：把投機樹構造變成預算調度

ECHO 的核心思想可以概括為一句話：

在一個 batch 內，將所有請求的候選 token 樹看作統一的 Super-Tree，并在全局驗證預算 K_max 下彈性分配深度與寬度。

在每個投機解碼 step 中，batch 內有 B 個并發請求。對于第 i 個請求，假設其構造的候選樹包含 K_i 個待驗證 token，那么目標模型實際要驗證的是整個 batch 中所有候選節點的并集。ECHO 對其施加全局約束：

其中 K_max 代表當前硬件和 serving 系統在 compute-bound 區間附近能夠承受的驗證上限。這樣，投機解碼就從「每個請求獨立擴樹」轉變為「多個請求共享一個全局預算池”」。

這帶來了一個關鍵變化：給某個請求多分配一個候選 token，就意味著其他請求可用預算減少。因此，ECHO 不再盲目增加 draft depth 或 top-k，而是根據請求置信度動態決定預算如何流動。

3. 稀疏門控：只在可靠的 sweet spots 做決策

動態樹方法的一個難點在于：如果每一層、每個節點都做決策，控制開銷會迅速累積；更重要的是，不同深度上的置信度信號并不都同樣可靠。

論文通過分析 accepted token 與 rejected token 的置信度分布發現：并非所有 draft depth 都適合做決策。某些深度上，接受與拒絕樣本的分布區分度較高，論文稱之為 sweet spots；而大量中間層的分布邊界模糊，在這些位置頻繁決策反而容易引入誤判。

因此，ECHO 采用 Sparse Confidence Gating：

只在 root、target depth，以及少量自適應選擇的中間深度進行門控；
通過 warm-up /calibration 階段識別高區分度位置；
在推理時根據路徑置信度判斷當前請求是繼續 deepen，還是 truncate 并釋放預算。

對于第 i 個請求在深度 d 的候選集合，ECHO 使用最大似然路徑概率作為置信度：

若 ci,d>τd，則認為當前路徑高置信，可以繼續向更深層擴展；否則提前截斷，將預算釋放給更高價值的請求或用于局部擴寬。

4. 彈性預算調度：從「多猜 token」到「驗證預算重分配」

ECHO 的第二個核心組件是Unified Elastic Budget Scheduler。它在全局預算下，同時處理兩類資源分配：

同一請求內部的 depth vs. width 調度：當深度擴展風險較高時，利用剩余預算在當前截斷深度擴寬候選集；
不同請求之間的預算重分配：當某些低置信度請求被截斷時，將節省出的預算轉移給其他高置信度請求，用于繼續加深。

具體來說，ECHO 采用兩級優先級：

Priority 1：Global Depth Extension

如果某個請求在 sparse gate 上通過置信度檢查，則優先將預算用于繼續加深，以減少后續全局驗證 step 數。

Priority 2：Opportunistic Width Expansion

如果沒有請求能夠繼續高置信度加深，剩余預算才用于擴寬被截斷請求的候選集合，提高當前深度覆蓋正確 token 的概率。

這種機制自然適配不同驗證預算狀態：

在低負載場景下，驗證預算相對充足，ECHO 可以將截斷節省下來的預算重新用于當前請求的 width expansion；
當系統逐漸進入 verification compute-bound 區間時，驗證預算競爭變強，低置信度請求釋放出的預算會被優先轉移給高置信度請求，用于 global depth extension。

這也是 ECHO 名稱中「Elastic」的含義：它不是固定地追求更深或更寬，而是在請求熵、batch 負載和硬件預算之間動態調整。

5. 面向系統落地：ECHO 集成到 SGLang

很多動態投機樹方法雖然在原始 transformer 實驗中有效，但一旦進入真實 serving 框架，就會遇到 ragged batch 與 kernel 兼容性問題。

ECHO 在系統層面專門處理了這一點。論文將 ECHO 集成到工業級推理框架SGLang中，并通過Flatten & Pack將不同請求產生的非規則候選 token 樹打包成 dense、kernel-compatible 的布局，再交給目標模型進行一次性驗證。

這一步非常關鍵：如果算法產生的動態樹結構無法高效進入 serving kernel，那么理論上的 token 節省很可能被系統開銷抵消。ECHO 的設計目標不是單點優化 MAT，而是在真實高并發推理系統中提升 end-to-end goodput。

目前團隊正在整理 ECHO 相關代碼和文檔，計劃于 6 月向 SGLang 提交 MR，進一步推動代碼開源、社區復現和系統集成。

6. 實驗：從 8B 到 235B，驗證預算受限區間收益更明顯

論文在多種模型規模上驗證了 ECHO，包括 Vicuna-13B、LLaMA-3.1-8B、LLaMA-3.3-70B，以及 Qwen3 系列的 8B、32B、235B。任務覆蓋 HumanEval、GSM8K、CNN/DM、Alpaca 和 MT-Bench，實驗在 8×NVIDIA H100 80GB GPU 上進行；低負載場景使用 HuggingFace transformers，高并發場景使用 SGLang。

在低負載 BS=1 的設置下，ECHO 在所有 benchmark 上達到1.63×–5.35×的 wall-time speedup。其中：

LLaMA3.3-70B上，ECHO 最高達到5.35×加速；
Qwen3-235B上，ECHO 平均加速達到2.02×，優于 DDD 的 1.77× 和 EAGLE-3 的 1.69×；
Qwen3-32B上，ECHO 相比代表性動態方法 DDD 帶來15.8%的提升。

ECHO 的主要有效區間，是 target verification 從近似免費并行逐漸進入 compute-bound 的驗證預算受限區間。論文在 MT-Bench、GSM8K、HumanEval 上評估了 4 個模型配置，并對比 EAGLE-3 以及兩個 ECHO 變體。結果顯示，當 verification compute 逐漸成為稀缺資源時，ECHO 依然能夠穩定提升吞吐，最大提升分別達到：

LLaMA3.1-8B：7.92%
LLaMA3.3-70B：12.96%
Qwen3-8B：10.00%
Qwen3-235B：14.95%

對于 Qwen3-235B 這類工業級大模型，verification compute 更早進入 compute-bound 區間，因此錯誤的預算分配會更快傷害吞吐。ECHO 通過將低置信度請求節省的 token 預算重新分配給高置信度請求，在 BS=256 時將吞吐從2,803 tok/s提升至3,207 tok/s，提升14.4%。

7. 消融實驗：為什么 sparse gating 和 depth-aware threshold 都重要

論文還比較了 ECHO 與兩個簡化變體：

Dense Gating：在每一層都做門控決策；
Fixed Threshold：所有深度共用同一個置信度閾值。

結果表明，完整 ECHO 表現最好。原因在于：

Dense Gating 雖然看似更精細，但在不可靠深度上頻繁決策會引入額外開銷與誤判；
Fixed Threshold 無法適應深度變化，因為 token 概率通常會隨 depth 下降，單一閾值容易在深層過度剪枝，或在淺層放入過多低價值 token。

在 LLaMA3.1-8B、BS=256 設置下，Dense Gating 比 ECHO 低約 5% 吞吐；在 Qwen3-235B 上，ECHO 相比 Fixed Threshold 提升5.3%（3,046 → 3,207 tok/s）。

結語：投機解碼進入「預算時代」

ECHO 的意義不只是提出了一個新的動態投機樹策略，更重要的是給出了一個面向生產 serving 的觀察：在高并發大模型推理中，投機解碼的核心不再是「猜得越多越好」，而是「在固定驗證預算內，讓每個被驗證 token 都更有價值」。通過 Super-Tree 視角、Sparse Confidence Gating、Elastic Budget Scheduling，以及面向 SGLang 的系統實現，ECHO 將投機解碼從局部樹結構優化推進到 batch-level 預算調度，為大模型高并發服務中的解碼加速提供了新的思路。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.