5月27日,小米宣布旗下MiMo-V2.5系列大模型API永久降價,最高降幅達99%,引發業界廣泛關注。討論焦點集中在一個問題上:降幅最高達99%,技術上如何實現?
5月30日,小米MiMo大模型團隊在官方技術博客發布題為《MiMo-V2.5 系列推理全鏈路優化:將 Hybrid SWA 效率推向極致》的長文,首次完整公開降價背后的技術路徑:一篇覆蓋Hybrid SWA + MoE + 多模態組合架構的推理系統全鏈路優化方案,系統性地將Hybrid SWA的推理效率推向極致。
![]()
技術細節首次公開:五大核心突破,實現萬億參數推理系統全鏈路優化
MiMo-V2.5-Pro是一個萬億參數MoE模型,采用Hybrid SWA架構:70層中60層僅計算局部窗口注意力,10層保留全局視野。理論上,這種設計能將KVCache存儲和計算量壓至Full Attention的1/7。
![]()
“理論上的架構優勢,并不會天然轉化為真實線上系統中的效率優勢。”MiMo團隊在技術博客中指出,在生產環境中,分布式緩存狀態不一致、前綴匹配語義失效、多級存儲搬運延遲等工程挑戰,會將理論收益大幅削減。以下五項突破,正是將這一差距補齊的關鍵。
突破一:KVCache 雙池 + SWA-aware 前綴樹
將Full和SWA的緩存拆為兩個獨立池,SWA 嚴格按窗口大小分配,容量效率提升約 7×。重新設計緩存命中規則,引入"窗口安全長度"匹配規則,解決 SWA 模式下的"偽命中"問題。
突破二:GCache 分布式緩存
直接在GPU機器上混布接管閑余內存與NVMe SSD。額外存儲成本為零,單進程RDMA讀吞吐170 GB/s,延遲僅280μs。
突破三:KVCache 親和調度
請求優先路由到已緩存其前綴的實例,L2 命中率 +25%,單機吞吐 +30%,P90 延遲 ?30%。
突破四:Decode階段MTP加速
Prefill階段同步開啟MTP,使其KVCache從首個輸出token即有效,前128 token加速2.3倍,128–256 token加速1.5倍,有效降低Agent場景下的實際等待時間。
突破五:多模態推理優化
視頻并行解碼、跨請求組Batch、GPU預處理、一致性哈希路由——1小時視頻端到端處理從156秒降至23秒,Encoder吞吐提升2倍、延時不變。
![]()
五項突破分別作用于推理鏈路的不同環節,存儲、緩存、調度、解碼、多模態。KVCache雙池釋放的顯存空間,被GCache用于擴大緩存容量;更大的緩存容量提高了命中率;更高的命中率減少了Prefill重算量;Prefill加速又為Decode騰出了更多調度余量。
最終,整條推理鏈路的成本結構被系統性地改變,這也是降價99%依然能維持收支平衡的技術底氣。
技術紅利釋放:降價節省的成本,全部回饋開發者
MiMo V2.5系列模型降價消息發布后,全球開發者社區迅速被點燃。在海外技術論壇和社交平臺上,圍繞"降價99%為什么還不虧"的討論熱度持續攀升,大量開發者自發分析 MiMo的推理架構和成本結構。
不少開發者驚嘆“優質模型的成本正在以驚人的速度下降,智能的發展速度快得真正無法衡量”。同時還有大量開發者點贊以MiMo為代表的中國模型性能強大、速度快,“中國AI模型比美國AI泡沫模型便宜90%到95%,不僅價格低廉、速度快,并且對于大多數現實世界用例來說足夠實用,AI泡沫未來可能被成本曲線崩塌所扼殺。”
![]()
在全球知名API調用平臺OpenRouter上,Xiaomi MiMo-V2.5系列大模型調用量在迅速攀升,截至5月30日,MiMo-V2.5躋身日榜第三、周榜第十,MiMo-V2.5-Pro躋身日榜第七、周榜第八。
![]()
![]()
此次技術博客的發布,也是小米MiMo對近期外界質疑的一次正面回應,不僅將一整套模型推理系統全鏈路優化所節省的成本通過API降價回饋給用戶,同時已將這次優化的技術細節以以 PR 形式回饋 SGLang 開源社區,希望盡早讓工程優化不再成為門檻,使這類兼具強度與效率的復合架構得到更廣泛的探索與應用。
除了降價和開源,MiMo對開發者生態的投入還在持續加碼。4月28日推出的“百萬億Token創造者激勵計劃”已圓滿收官:總申請人數超過54萬人,覆蓋科研學術、制造工業等行業,累計發放100萬億免費Token,折合人民幣超6500萬元。
同期啟動的「Agent生態共建計劃」面向Agent框架團隊提供Token扶持,首批13家合作伙伴名單已公布,小米為這些框架和合作方提供了限免Token支持。“開源的價值不止于權重公開,更在于生態共建。”小米MiMo團隊表示。
從開源模型權重、公開推理系統優化細節,到百億Token激勵、Agent生態共建,小米正在構建一條從技術底座到開發者生態的完整路徑:讓Token越來越便宜、越來越普惠,讓AI從少數人的工具變成人人可及的基礎設施。
在小米的推動下,Token有望成為拉動存儲芯片、算力芯片、電力基礎設施等上游產業鏈的全新增長極,驅動整個AI行業進入下一個發展周期。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.