![]()
機器之心發布
隨著大模型推理服務部署走向成本與算力雙約束,Prefill-Decode(PD)分離的異構推理已從前沿方案進入生產落地。推理加速器的差異性體現在不同精度計算速度、訪存帶寬與存儲大小、機內機間通信帶寬等多方面。比如構建異構 Token 工廠時,可以選擇計算密集型的硬件算力運行 Prefill 階段,高通信帶寬的硬件算力運行 Decode 階段。此時 KV Cache 跨硬件、跨精度、跨互聯傳輸成為常態,但業界長期缺乏統一設計范式 —— 硬件、量化精度、網絡、KV Cache 分層存儲的選型互相耦合,部署運維人員只能靠試錯調參,極易出現字節傳輸成功但推理結果錯亂、首 Token 延遲飆升、KV Cache 數據污染、故障恢復失效等問題。
近日,上海創智學院、上海交大、復旦、人大、沐曦、基流、上海儀電多家產學研機構聯合發布論文《Demystifying the Design Space and Best Practices for Heterogeneous LLM Inference and Serving》,首次系統性地拆解了異構 Prefill-Decode 推理的設計空間,提煉出三個核心邊界決策與九條部署最佳實踐,并在沐曦 C600 GPU + 英偉達 Hopper GPU 的生產環境中完成驗證。
![]()
- 論文地址:https://arxiv.org/pdf/2606.29708
異構推理已成常態,但缺一張全景圖
大模型推理正在經歷一場靜默的架構變革。當前,異構推理已不再是可選項,GPU 供應緊張、多廠商混合部署成為常態、不同階段對算力和帶寬的需求天然不同。異構推理在性價比更優或供應更充足的芯片上運行 Prefill 階段,在帶寬更強的芯片上運行 Decode 階段,通過混合數值格式傳輸 KV Cache 狀態,跨越異構互聯完成一次完整的推理請求。
多數團隊仍在沿用同構時代的思路,DistServe、Splitwise、Mooncake、FlowKV 等系統各自解決了其中的一部分關鍵問題,但每個系統都在獨立地做決策,用什么加速器、什么精度、什么互聯、KV Cache 放在哪里,卻缺少一個統一的設計來回答:這些決策中,哪些必須聯合做出,哪些可以獨立決定?
核心問題:當異構推理組合了不同的加速器、數值格式、互聯路徑和 KV Cache 駐留層級時,哪些設計決策必須在 PD 邊界處聯合做出,哪些可以各自獨立?
論文正是要回答這個問題,為異構推理這一個正在快速膨脹的設計空間畫出了理論邊界。它不提出新的推理架構或調度算法,而是提供一份設計空間的系統性地圖,幫助工程團隊理解異構推理系統中那些看似獨立、實則耦合的設計選擇,以及它們如何在邊界處產生交互。
五個設計軸與一個關鍵抽象
論文跳出單一模塊優化思路,構建一套覆蓋全鏈路的標準化分析框架,將異構推理拆解為五個設計維度,并基于維度間的強耦合約束,收斂出異構部署必須解決的三大核心邊界問題。
![]()
在同構部署中,這五個設計維度大多可以獨立調節,當 Prefill 和 Decode 運行在不同硬件上,維度之間的耦合會進一步加強:一個在某款加速器上效果很好的精度格式,可能在另一款上沒有可執行的引擎路徑;一個傳輸引擎成功搬運了字節,但接收端可能在完全不同的數值語義下解讀這些字節。
論文引入了一個關鍵抽象 - Runtime KV State(運行時 KV 狀態),不僅包含 KV 張量本身,還包含表示格式、元數據、駐留信息和所有權狀態。所有異構推理的邊界問題,本質上都是圍繞這個對象的生產(Prefill 階段)、傳輸(PD 邊界交接)和消費(Decode 階段)展開的。
三個必須做出的邊界決策
通過分析五個設計軸之間的兩兩耦合關系,論文識別出六個緊耦合和兩個開放耦合,并將它們歸納為三個核心邊界決策:
決策一:計算放置(Compute Placement)
哪個加速器池服務 Prefill,哪個服務 Decode?這不是簡單地把最快的硬件分給最忙的階段。Prefill 是計算密集型的,受益于高算力;Decode 是帶寬密集型的,受制于內存帶寬和 KV 容量。同一款芯片在不同工作負載下的表現差異大,長輸入推高 Prefill 壓力,長生成和多并發則推高 Decode 壓力。
更關鍵的是,精度選擇與加速器綁定:一種數值格式是否可用,取決于該加速器上是否有成熟的內核實現,而不僅僅是硬件規格表上的理論支持。這意味著階段放置、精度選擇和負載均衡必須作為同一個決策聯合做出。
決策二:KV 表示(KV Representation)
運行時 KV 狀態如何在 PD 邊界上被表示、傳輸和消費?在同構部署中兩端共享相同的運行時環境,這個問題不存在。但在異構部署中,Prefill 和 Decode 可能使用不同的內核、不同的精度策略、甚至不同的張量布局。
論文指出了一個容易被忽視的失敗模式:現有的 KV Cache 傳輸引擎(如 NIXL、Mooncake)本質上在搬運字節,而非張量語義。如果生產者和消費者對數值格式的理解不一致,傳輸本身不會報錯,字節成功到達,但被錯誤地解釋。這不是傳輸故障,而是語義故障。
論文將 KV 可移植性定義為:Decode 必須能夠直接消費或通過顯式驗證的轉換來消費傳輸過來的狀態。兼容性檢查應被分為兩類 —— 不可轉換的不變量(模型身份、適配器、Token 范圍)和可轉換的差異(布局、分區、數值表示)。
決策三:KV 所有權與生命周期(KV Ownership & Lifecycle)
運行時 KV 狀態成功傳輸到 Decode 端并不意味著故事結束。系統還必須管理它的完整生命周期:何時預留容量、誰持有狀態、何時釋放資源、如何處理失敗和取消。
論文通過源碼級分析,對比了 vLLM 和 SGLang 兩大推理框架在 PD 交接路徑上的生命周期管理差異。例如在 vLLM 的 NIXL pull 模式中,Decode 端在 Prefill 返回坐標后才發起讀取、分配目標空間;而在 SGLang 中,Decode 端預分配目標并主動發送元數據。兩種模式在容量核算、故障恢復和擁塞控制上有著截然不同的特性。
九條部署最佳實踐
結合異構推理生產集群實測、vLLM/NIXL、SGLang/Mooncake 源碼審計、多組單節點對照實驗,論文輸出 9 條落地準則,覆蓋硬件選型、量化配置、KV Cache 傳輸、KV 緩存全生命周期管理:
![]()
沐曦 + 英偉達的異構 Token 工廠實踐
論文提供了一個關鍵的生產部署案例,CPHD-GLM5.1,在沐曦 C600 GPU 上執行 Prefill(INT8 / W8A8)階段,在英偉達 Hopper GPU 上執行 Decode(FP8)階段,提供 GLM-5.1 模型的推理服務。
![]()
該部署在輸入長度為 64K、90% 前綴緩存命中率下,關鍵指標如下:
![]()
在 AIME 25、AIME 26 和 SWE-Bench Verified 等基準測試上,異構執行的結果與官方參考值偏差在可接受范圍內,驗證了異構配置不會引入可測量的質量退化。
受控實驗揭示耦合效應
除了生產部署,論文還在單節點環境中進行了受控的 SLA 性能測量,系統性地驗證了設計軸之間的耦合效應。
計算放置與 KV 格式不可分離
在 Qwen3-32B、SGLang PD、NIXL 的單節點 SLA 壓測中,論文首先固定 BF16 KV 表示,比較不同 P:D 拓撲的服務上限:當配置從 6P2D 調整為 4P4D 時,最高可滿足 SLA 的請求注入率從 0.2 降至 0.1。隨后,在相同 4P4D 拓撲下,將 KV 表示從 BF16 切換為 FP8 e4m3,SLA 約束下的最高請求注入率提升至 1.0。這個結果說明,P:D 資源比例不能脫離 KV 表示單獨評估;KV dtype 會直接改變 Decode 側的帶寬、容量和尾延遲壓力,從而反過來影響計算資源放置的最優選擇。因此,計算放置與 KV 表示應作為異構 PD 部署中同一個決策的兩面。
精度策略的非對稱影響
在單機上做精度策略對全局影響,FP8 和 AWQ INT4 相比 BF16 都提升了 Decode 側效率,但代價不同:
![]()
FP8 改善了 TPOT,AWQ INT4 進一步提升了吞吐量增加了 TTFT。精度選擇在不同階段產生非對稱的延遲影響,再次強化了論點,精度策略應屬于運行時角色,而非全局設置。
兩個待解的開放問題
論文同時指出當前產業仍待突破的兩大開放耦合問題,為后續學術研究與工程落地指出方向:
- 跨廠商硬件 KV 統一傳輸棧:不同廠商加速器通信庫、內存注冊機制不互通,現有適配層僅能做封裝適配,缺少原生標準化跨硬件傳輸抽象,KV 傳輸本質上是端到端通信棧的屬性,而非單純的傳輸層特性。
- 互聯網絡與 PD 資源協同規劃:標準部署網絡帶寬固定,只能通過軟件調度適配 KV 流量;定制化場景可將網絡拓撲、網絡帶寬作為頂層設計變量,和 Prefill/Decode 硬件池同步規劃,目前缺少一體化規劃方法論。互聯帶寬、跨機架鏈路和集群級拓撲都會受 PD 工作負載結構的影響。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.