網易首頁 > 網易號 > 正文申請入駐

小米MiMo推理系統全鏈路公開：一刀砍掉9成成本

2026-05-31 01:46:37　來源: 報錯免疫體

北京舉報

分享至

5月27日，小米MiMo-V2.5系列API完成永久降價，最高降幅達99%，不區分輸入長度。三天后，小米正式公開了支撐這次降價的全鏈路推理系統優化方案。團隊圍繞Hybrid SWA加MoE加多模態的復合架構，系統性重構了從KVCache管理、分級緩存、前綴緩存到調度策略與Prefill和Decode鏈路的完整推理棧。最終將KVCache存儲壓縮至同級方案的約七分之一，為長序列場景下的推理成本大幅下降掃清障礙。相關方案成為業內首篇全面覆蓋Hybrid SWA加MoE加多模態組合架構的大規模工程落地方案。團隊公開強調，模型能力沒有任何縮減，精進的是推理系統工程能力本身，同一個模型在相同硬件上實現更高吞吐、更低延遲，可以服務更多人。

大模型推理的核心開銷來自KVCache。模型每生成一個token，需要將全部歷史上下文以鍵值對形式緩存在GPU顯存中。上下文越長，緩存越大，可并發請求越少，單次推理成本越高。這是當前所有大模型服務共同面對的核心經濟約束。MiMo-V2.5-Pro的設計選擇是從架構層面打破這一約束。70層Transformer中，僅10層使用Full Attention，即完整注意力，其余60層使用Sliding Window Attention，即滑動窗口注意力，窗口大小為128 token。絕大部分網絡層只需存儲最近128個token的信息，整體KVCache存儲需求降至全Full Attention方案的約七分之一。

同時，由于SWA層的注意力計算量也從全序列縮減到窗口大小，Prefill階段的計算成本同樣降至約七分之一。Decode階段的延遲與KVCache讀取量正相關，長序列場景下這一存儲壓縮幾乎直接等價于推理成本的等比例下降。短文場景性價比接近，序列越長，推理成本優勢越大。但架構上的“應該省”和線上的“真的省”之間，隔著一整套推理系統的適配工程。MiMo-V2系列上線之初，主流開源推理框架對SWA的支持并不完整，早期實現實質上是“以存儲Full KVCache的代價來兼容SWA”。Hybrid SWA顯著增加了緩存命中判定、前綴匹配、雙語義一致性維護的復雜度。在真實系統中，多級存儲的數據搬運、異步預取與分布式緩存狀態的一致性問題，共同使理論收益難以直接落地。

團隊的工作圍繞三個遞進的問題展開：緩存能不能真正省下來？省下來的空間能不能真正用起來？最終的生成速度能不能真正快起來？

要兌現Hybrid SWA的效率優勢，第一步是讓KVCache管理系統真正區分兩種截然不同的緩存需求。團隊首先實施雙池分治策略。傳統推理系統為所有層統一分配KVCache空間，按最大需求配置。MiMo團隊將KVCache拆分為Full KV Pool與SWA KV Pool兩個獨立池：Full KV Pool按需增長、長期保存；SWA KV Pool僅按窗口大小配置容量，采用環形緩沖區設計，支持基于窗口的獨立淘汰，存儲嚴格限制在O(W)規模。對上層調度器和前綴樹仍暴露統一序列視圖，由Full Attention索引作為權威索引并維護到SWA的映射關系。通過這一設計，KVCache容量效率實現約7倍提升。SWA層的KVCache預取可在layerwise粒度實現完美overlap，Cache讀取成本接近于零。

存儲省下來了，下一個問題是已經算過的結果能不能復用。這取決于前綴緩存能否在SWA模式下正確工作。傳統前綴緩存的匹配規則建立在“token序列等于KV也相等”這一假設上。在SWA模式下這條假設被打破了，前綴樹節點的邏輯生命周期與SWA KV的物理生命周期不一致，一個節點對應的SWA KV可能只剩尾部一小段甚至已完全被釋放，傳統規則會給出“偽命中”。團隊從三處改造前綴樹語義：將匹配規則升級為“窗口安全長度”，尾部至少W個token仍有有效slot；將淘汰路徑與請求生命周期綁定，確保SWA池占用恒定在窗口量級；每個節點同時承載Full Attention段索引與SWA段映射，支持獨立淘汰策略。線上前綴緩存命中率平均達到93%，高頻用戶超過95%。

解決了“算過的能復用”之后，還有一個現實問題：用戶對話有時間間隔，緩存放在顯存里太貴，丟掉又要重算。小米存儲團隊自研GCache，一個同時支持GPU顯存、CPU內存和NVMe SSD的高性能分布式緩存系統。KVCache按訪問熱度在三級間自動流轉：活躍數據駐留顯存，冷數據降級到內存或SSD，用戶返回時快速恢復。GCache優先在GPU機器上混部，接管節點的部分內存與自帶SSD，額外存儲成本為零。通過RDMA通信實現單進程170 GB/s讀吞吐、280微秒延遲。結合SWA的極小存儲占用，相同成本下可承載的緩存量成倍提升，KVCache被迫淘汰的壓力大幅降低，留存窗口顯著延長。

緩存省下來了、復用率也上去了，但如果調度和計算鏈路不做相應適配，省出來的顯存空間和算力余量就只是“紙面富余”。Agentic場景下，請求長度差異巨大。傳統FCFS調度不區分命中率高低、計算量大小，導致緩存命中率高但實際計算量小的請求被長請求阻塞。團隊在Router側實現KVCache親和調度，優先選擇已緩存當前請求前綴的節點，同時兼顧負載均衡，L2緩存命中率提升約25%。同時引入計算量感知優先調度，優先處理真實計算token數更少的請求，輔以等待時間懲罰機制避免饑餓，TTFT P90降低30%。

調度把請求送到了正確的節點，接下來是Prefill鏈路本身的計算效率。SWA KVCache優化使GPU卡顯存余量大幅增加，團隊將Expert Parallelism縮減至原先的二分之一，跨機通信更少、負載差異更小、每臺機器承載expert更多。整套方案將理論上的架構優勢逐一兌現為工程收益，同一模型、相同硬件條件下實現了更高吞吐和更低延遲，最終支撐最高99%的API降價。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.