網易首頁 > 網易號 > 正文申請入駐

多機構聯合發布工業級設計實踐，拆解跨硬件推理服務的核心邊界

2026-07-03 15:56:45　來源: 機器之心Pro

河北舉報

分享至

機器之心發布

隨著大模型推理服務部署走向成本與算力雙約束，Prefill-Decode（PD）分離的異構推理已從前沿方案進入生產落地。推理加速器的差異性體現在不同精度計算速度、訪存帶寬與存儲大小、機內機間通信帶寬等多方面。比如構建異構 Token 工廠時，可以選擇計算密集型的硬件算力運行 Prefill 階段，高通信帶寬的硬件算力運行 Decode 階段。此時 KV Cache 跨硬件、跨精度、跨互聯傳輸成為常態，但業界長期缺乏統一設計范式 —— 硬件、量化精度、網絡、KV Cache 分層存儲的選型互相耦合，部署運維人員只能靠試錯調參，極易出現字節傳輸成功但推理結果錯亂、首 Token 延遲飆升、KV Cache 數據污染、故障恢復失效等問題。

近日，上海創智學院、上海交大、復旦、人大、沐曦、基流、上海儀電多家產學研機構聯合發布論文《Demystifying the Design Space and Best Practices for Heterogeneous LLM Inference and Serving》，首次系統性地拆解了異構 Prefill-Decode 推理的設計空間，提煉出三個核心邊界決策與九條部署最佳實踐，并在沐曦 C600 GPU + 英偉達 Hopper GPU 的生產環境中完成驗證。

論文地址：https://arxiv.org/pdf/2606.29708

異構推理已成常態，但缺一張全景圖

大模型推理正在經歷一場靜默的架構變革。當前，異構推理已不再是可選項，GPU 供應緊張、多廠商混合部署成為常態、不同階段對算力和帶寬的需求天然不同。異構推理在性價比更優或供應更充足的芯片上運行 Prefill 階段，在帶寬更強的芯片上運行 Decode 階段，通過混合數值格式傳輸 KV Cache 狀態，跨越異構互聯完成一次完整的推理請求。

多數團隊仍在沿用同構時代的思路，DistServe、Splitwise、Mooncake、FlowKV 等系統各自解決了其中的一部分關鍵問題，但每個系統都在獨立地做決策，用什么加速器、什么精度、什么互聯、KV Cache 放在哪里，卻缺少一個統一的設計來回答：這些決策中，哪些必須聯合做出，哪些可以獨立決定？

核心問題：當異構推理組合了不同的加速器、數值格式、互聯路徑和 KV Cache 駐留層級時，哪些設計決策必須在 PD 邊界處聯合做出，哪些可以各自獨立？

論文正是要回答這個問題，為異構推理這一個正在快速膨脹的設計空間畫出了理論邊界。它不提出新的推理架構或調度算法，而是提供一份設計空間的系統性地圖，幫助工程團隊理解異構推理系統中那些看似獨立、實則耦合的設計選擇，以及它們如何在邊界處產生交互。

五個設計軸與一個關鍵抽象

論文跳出單一模塊優化思路，構建一套覆蓋全鏈路的標準化分析框架，將異構推理拆解為五個設計維度，并基于維度間的強耦合約束，收斂出異構部署必須解決的三大核心邊界問題。

在同構部署中，這五個設計維度大多可以獨立調節，當 Prefill 和 Decode 運行在不同硬件上，維度之間的耦合會進一步加強：一個在某款加速器上效果很好的精度格式，可能在另一款上沒有可執行的引擎路徑；一個傳輸引擎成功搬運了字節，但接收端可能在完全不同的數值語義下解讀這些字節。

論文引入了一個關鍵抽象 - Runtime KV State（運行時 KV 狀態），不僅包含 KV 張量本身，還包含表示格式、元數據、駐留信息和所有權狀態。所有異構推理的邊界問題，本質上都是圍繞這個對象的生產（Prefill 階段）、傳輸（PD 邊界交接）和消費（Decode 階段）展開的。

三個必須做出的邊界決策

通過分析五個設計軸之間的兩兩耦合關系，論文識別出六個緊耦合和兩個開放耦合，并將它們歸納為三個核心邊界決策：

決策一：計算放置（Compute Placement）

哪個加速器池服務 Prefill，哪個服務 Decode？這不是簡單地把最快的硬件分給最忙的階段。Prefill 是計算密集型的，受益于高算力；Decode 是帶寬密集型的，受制于內存帶寬和 KV 容量。同一款芯片在不同工作負載下的表現差異大，長輸入推高 Prefill 壓力，長生成和多并發則推高 Decode 壓力。

更關鍵的是，精度選擇與加速器綁定：一種數值格式是否可用，取決于該加速器上是否有成熟的內核實現，而不僅僅是硬件規格表上的理論支持。這意味著階段放置、精度選擇和負載均衡必須作為同一個決策聯合做出。

決策二：KV 表示（KV Representation）

運行時 KV 狀態如何在 PD 邊界上被表示、傳輸和消費？在同構部署中兩端共享相同的運行時環境，這個問題不存在。但在異構部署中，Prefill 和 Decode 可能使用不同的內核、不同的精度策略、甚至不同的張量布局。

論文指出了一個容易被忽視的失敗模式：現有的 KV Cache 傳輸引擎（如 NIXL、Mooncake）本質上在搬運字節，而非張量語義。如果生產者和消費者對數值格式的理解不一致，傳輸本身不會報錯，字節成功到達，但被錯誤地解釋。這不是傳輸故障，而是語義故障。

論文將 KV 可移植性定義為：Decode 必須能夠直接消費或通過顯式驗證的轉換來消費傳輸過來的狀態。兼容性檢查應被分為兩類 —— 不可轉換的不變量（模型身份、適配器、Token 范圍）和可轉換的差異（布局、分區、數值表示）。

決策三：KV 所有權與生命周期（KV Ownership & Lifecycle）

運行時 KV 狀態成功傳輸到 Decode 端并不意味著故事結束。系統還必須管理它的完整生命周期：何時預留容量、誰持有狀態、何時釋放資源、如何處理失敗和取消。

論文通過源碼級分析，對比了 vLLM 和 SGLang 兩大推理框架在 PD 交接路徑上的生命周期管理差異。例如在 vLLM 的 NIXL pull 模式中，Decode 端在 Prefill 返回坐標后才發起讀取、分配目標空間；而在 SGLang 中，Decode 端預分配目標并主動發送元數據。兩種模式在容量核算、故障恢復和擁塞控制上有著截然不同的特性。

九條部署最佳實踐

結合異構推理生產集群實測、vLLM/NIXL、SGLang/Mooncake 源碼審計、多組單節點對照實驗，論文輸出 9 條落地準則，覆蓋硬件選型、量化配置、KV Cache 傳輸、KV 緩存全生命周期管理：

沐曦 + 英偉達的異構 Token 工廠實踐

論文提供了一個關鍵的生產部署案例，CPHD-GLM5.1，在沐曦 C600 GPU 上執行 Prefill（INT8 / W8A8）階段，在英偉達 Hopper GPU 上執行 Decode（FP8）階段，提供 GLM-5.1 模型的推理服務。

該部署在輸入長度為 64K、90% 前綴緩存命中率下，關鍵指標如下：

在 AIME 25、AIME 26 和 SWE-Bench Verified 等基準測試上，異構執行的結果與官方參考值偏差在可接受范圍內，驗證了異構配置不會引入可測量的質量退化。

受控實驗揭示耦合效應

除了生產部署，論文還在單節點環境中進行了受控的 SLA 性能測量，系統性地驗證了設計軸之間的耦合效應。

計算放置與 KV 格式不可分離

在 Qwen3-32B、SGLang PD、NIXL 的單節點 SLA 壓測中，論文首先固定 BF16 KV 表示，比較不同 P:D 拓撲的服務上限：當配置從 6P2D 調整為 4P4D 時，最高可滿足 SLA 的請求注入率從 0.2 降至 0.1。隨后，在相同 4P4D 拓撲下，將 KV 表示從 BF16 切換為 FP8 e4m3，SLA 約束下的最高請求注入率提升至 1.0。這個結果說明，P:D 資源比例不能脫離 KV 表示單獨評估；KV dtype 會直接改變 Decode 側的帶寬、容量和尾延遲壓力，從而反過來影響計算資源放置的最優選擇。因此，計算放置與 KV 表示應作為異構 PD 部署中同一個決策的兩面。

精度策略的非對稱影響

在單機上做精度策略對全局影響，FP8 和 AWQ INT4 相比 BF16 都提升了 Decode 側效率，但代價不同：

FP8 改善了 TPOT，AWQ INT4 進一步提升了吞吐量增加了 TTFT。精度選擇在不同階段產生非對稱的延遲影響，再次強化了論點，精度策略應屬于運行時角色，而非全局設置。

兩個待解的開放問題

論文同時指出當前產業仍待突破的兩大開放耦合問題，為后續學術研究與工程落地指出方向：

跨廠商硬件 KV 統一傳輸棧：不同廠商加速器通信庫、內存注冊機制不互通，現有適配層僅能做封裝適配，缺少原生標準化跨硬件傳輸抽象，KV 傳輸本質上是端到端通信棧的屬性，而非單純的傳輸層特性。
互聯網絡與 PD 資源協同規劃：標準部署網絡帶寬固定，只能通過軟件調度適配 KV 流量；定制化場景可將網絡拓撲、網絡帶寬作為頂層設計變量，和 Prefill/Decode 硬件池同步規劃，目前缺少一體化規劃方法論。互聯帶寬、跨機架鏈路和集群級拓撲都會受 PD 工作負載結構的影響。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.