5月27日,小米MiMo-V2.5系列API完成永久降價,最高降幅達99%,不區分輸入長度。三天后,小米正式公開了支撐這次降價的全鏈路推理系統優化方案。團隊圍繞Hybrid SWA加MoE加多模態的復合架構,系統性重構了從KVCache管理、分級緩存、前綴緩存到調度策略與Prefill和Decode鏈路的完整推理棧。最終將KVCache存儲壓縮至同級方案的約七分之一,為長序列場景下的推理成本大幅下降掃清障礙。相關方案成為業內首篇全面覆蓋Hybrid SWA加MoE加多模態組合架構的大規模工程落地方案。團隊公開強調,模型能力沒有任何縮減,精進的是推理系統工程能力本身,同一個模型在相同硬件上實現更高吞吐、更低延遲,可以服務更多人。
大模型推理的核心開銷來自KVCache。模型每生成一個token,需要將全部歷史上下文以鍵值對形式緩存在GPU顯存中。上下文越長,緩存越大,可并發請求越少,單次推理成本越高。這是當前所有大模型服務共同面對的核心經濟約束。MiMo-V2.5-Pro的設計選擇是從架構層面打破這一約束。70層Transformer中,僅10層使用Full Attention,即完整注意力,其余60層使用Sliding Window Attention,即滑動窗口注意力,窗口大小為128 token。絕大部分網絡層只需存儲最近128個token的信息,整體KVCache存儲需求降至全Full Attention方案的約七分之一。
![]()
同時,由于SWA層的注意力計算量也從全序列縮減到窗口大小,Prefill階段的計算成本同樣降至約七分之一。Decode階段的延遲與KVCache讀取量正相關,長序列場景下這一存儲壓縮幾乎直接等價于推理成本的等比例下降。短文場景性價比接近,序列越長,推理成本優勢越大。但架構上的“應該省”和線上的“真的省”之間,隔著一整套推理系統的適配工程。MiMo-V2系列上線之初,主流開源推理框架對SWA的支持并不完整,早期實現實質上是“以存儲Full KVCache的代價來兼容SWA”。Hybrid SWA顯著增加了緩存命中判定、前綴匹配、雙語義一致性維護的復雜度。在真實系統中,多級存儲的數據搬運、異步預取與分布式緩存狀態的一致性問題,共同使理論收益難以直接落地。
團隊的工作圍繞三個遞進的問題展開:緩存能不能真正省下來?省下來的空間能不能真正用起來?最終的生成速度能不能真正快起來?
要兌現Hybrid SWA的效率優勢,第一步是讓KVCache管理系統真正區分兩種截然不同的緩存需求。團隊首先實施雙池分治策略。傳統推理系統為所有層統一分配KVCache空間,按最大需求配置。MiMo團隊將KVCache拆分為Full KV Pool與SWA KV Pool兩個獨立池:Full KV Pool按需增長、長期保存;SWA KV Pool僅按窗口大小配置容量,采用環形緩沖區設計,支持基于窗口的獨立淘汰,存儲嚴格限制在O(W)規模。對上層調度器和前綴樹仍暴露統一序列視圖,由Full Attention索引作為權威索引并維護到SWA的映射關系。通過這一設計,KVCache容量效率實現約7倍提升。SWA層的KVCache預取可在layerwise粒度實現完美overlap,Cache讀取成本接近于零。
存儲省下來了,下一個問題是已經算過的結果能不能復用。這取決于前綴緩存能否在SWA模式下正確工作。傳統前綴緩存的匹配規則建立在“token序列等于KV也相等”這一假設上。在SWA模式下這條假設被打破了,前綴樹節點的邏輯生命周期與SWA KV的物理生命周期不一致,一個節點對應的SWA KV可能只剩尾部一小段甚至已完全被釋放,傳統規則會給出“偽命中”。團隊從三處改造前綴樹語義:將匹配規則升級為“窗口安全長度”,尾部至少W個token仍有有效slot;將淘汰路徑與請求生命周期綁定,確保SWA池占用恒定在窗口量級;每個節點同時承載Full Attention段索引與SWA段映射,支持獨立淘汰策略。線上前綴緩存命中率平均達到93%,高頻用戶超過95%。
解決了“算過的能復用”之后,還有一個現實問題:用戶對話有時間間隔,緩存放在顯存里太貴,丟掉又要重算。小米存儲團隊自研GCache,一個同時支持GPU顯存、CPU內存和NVMe SSD的高性能分布式緩存系統。KVCache按訪問熱度在三級間自動流轉:活躍數據駐留顯存,冷數據降級到內存或SSD,用戶返回時快速恢復。GCache優先在GPU機器上混部,接管節點的部分內存與自帶SSD,額外存儲成本為零。通過RDMA通信實現單進程170 GB/s讀吞吐、280微秒延遲。結合SWA的極小存儲占用,相同成本下可承載的緩存量成倍提升,KVCache被迫淘汰的壓力大幅降低,留存窗口顯著延長。
緩存省下來了、復用率也上去了,但如果調度和計算鏈路不做相應適配,省出來的顯存空間和算力余量就只是“紙面富余”。Agentic場景下,請求長度差異巨大。傳統FCFS調度不區分命中率高低、計算量大小,導致緩存命中率高但實際計算量小的請求被長請求阻塞。團隊在Router側實現KVCache親和調度,優先選擇已緩存當前請求前綴的節點,同時兼顧負載均衡,L2緩存命中率提升約25%。同時引入計算量感知優先調度,優先處理真實計算token數更少的請求,輔以等待時間懲罰機制避免饑餓,TTFT P90降低30%。
調度把請求送到了正確的節點,接下來是Prefill鏈路本身的計算效率。SWA KVCache優化使GPU卡顯存余量大幅增加,團隊將Expert Parallelism縮減至原先的二分之一,跨機通信更少、負載差異更小、每臺機器承載expert更多。整套方案將理論上的架構優勢逐一兌現為工程收益,同一模型、相同硬件條件下實現了更高吞吐和更低延遲,最終支撐最高99%的API降價。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.