![]()
智東西
作者 李水青
編輯 云鵬
智東西6月9日報道,今日,小米MiMo團隊與推理系統團隊TileRT聯合宣布,Xiaomi MiMo-V2.5-Pro的UltraSpeed模式已實現萬億參數(1T)旗艦模型輸出速度首次突破1000 tokens/s。
![]()
▲雷軍發文宣布MiMo-V2.5-Pro-UltraSpeed新進展(圖源:新浪微博)
1000 tokens/s是什么概念?從下面這個例子我們能有直觀的感受。以復雜可視化大屏生成任務為例,UltraSpeed版僅需13秒完成,標準版耗時6分15秒,同等效果下最高提速28倍。
![]()
提示詞:生成一個AI服務運營總覽大屏,深色科技風(深色底 + 藍青主色 + 紅色異常);頂部KPI卡片(在線服務數 / 今日總調用量 / 整體成功率 / 平均latency),左中實時調用趨勢折線圖(1min粒度,3s刷新)+ 并發用戶數 sparkline,右中型分布環形圖+接口成功率TOP5進度條,底部異常告警列表(脈沖紅點)+ 資源水位(CPU/GPU/ 內存);點擊趨勢圖展開60min明細浮層;純HTML+CSS+JS單文件,Canvas繪圖,KPI超大數字發光動畫。
背后,團隊僅用一個標準的8卡通用GPU節點,便讓1T模型突破了1000 tokens/s的輸出速度。涉及技術包含FP4量化、DFlash高效推測解碼,搭配TileRT定制編譯內核,通過軟硬件協同充分釋放算力等。
TileRT是一家聚焦AI推理系統的獨立技術團隊,其主營業務是高性能推理引擎。此前5月22日,該團隊與智譜聯合進行系統級優化,使得GLM-5.1高速版API輸出速度達400Tokens/s,創下彼時公開大模型商用API推理速度紀錄。
今日,Xiaomi MiMo-V2.5-Pro-UltraSpeed的API同步上線。該API采用限時體驗價,定價為MiMo-V2.5-Pro的3倍,同時提供約10倍的輸出速度提升。該模式僅支持API體驗,暫不支持Token Plan。
本次體驗采取申請制,6月9日至6月23日限時開放。通過審核的用戶可獲得兩周限時免費的Chat體驗。
團隊已開源MiMo-V2.5-Pro-FP4-DFlash checkpoint至HuggingFace,包含FP4量化權重與DFlash模型參數。MiMo-V2.5極致推理支持在后續將推出。
申請入口:
https://platform.xiaomimimo.com/ultraspeed
Chat體驗入口:
https://ultraspeed.xiaomimimo.com
Hugging Face地址:
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash一、每秒千token推理:10秒做貪吃蛇、1分鐘復刻 macOS
萬億參數尺度上突破1000 tps意味著什么?小米公告中稱,這有望帶來以下AI應用模式的底層改變:
速度轉化為智能:在相同等待時間內,模型可并行運行數十條推理路徑(Best-of-N/Tree Search),后臺自動驗證糾錯,用速度換取思考深度和推理質量。
解放Coding Agent生產力:極速推理下,開發者無需長時間等待代碼生成,大幅提升編碼效率。
進入實時決策閉環:毫秒級的“思考-響應”循環使萬億模型可以接入高頻量化交易信號生成、瞬時反欺詐風控攔截、智能競價及實時交互對話等對時間極度敏感的場景。
醫療場景的價值:在手術輔助、醫療影像分析等場景中,速度的提升可幫助AI更快完成病灶分析與風險預判,為醫生爭取更多處置時間。
如下圖所示,僅需10秒,Xiaomi MiMo-V2.5-Pro-UltraSpeed可生成一個貪吃蛇小游戲。
僅需1分鐘,Xiaomi MiMo-V2.5-Pro-UltraSpeed就能復刻一個macOS系統。
![]()
二、不走專用芯片路線,模型+系統雙向優化,通用8卡GPU跑出極速推理
與業界Cerebras晶圓級集成或Groq純片上SRAM定制芯片等專用硬件路線不同,小米和雙方TileRT系統團隊選擇在通用GPU上實現這一速度。
在模型側,他們針對通用硬件的帶寬瓶頸,進行了FP4量化,大幅縮減模型體積并減少訪存開銷;同時引入基于塊級Masked并行預測的高效推測解碼DFlash,大幅提升單次驗證的Token接受長度。
在系統側,TileRT適配算法的動態特性,為全新的量化和推測解碼流程量身定制專項優化的編譯引擎與計算核。
1、FP4量化:大幅瘦身不丟精度
在萬億參數尺度上,傳統8比特甚至16比特推理會帶來巨大的顯存占用和內存帶寬壓力。團隊采用了業界較為通用的MXFP4量化方案。
針對MiMo-V2.5-Pro的MoE(Mixture of Experts)架構特性,他們只對MoE Expert進行參數FP4量化,其他模塊保留原有精度。通過FP4量化感知訓練(QAT),在大幅縮減模型體積、榨干硬件帶寬的同時,模型整體能力與原模型基本持平。
![]()
▲FP4 vs FP8模型對比
2、DFlash投機解碼:單次驗證一口氣確認多段文本
傳統投機解碼依賴小型Draft模型猜測后續tokens,再由大模型驗證,瓶頸在于Draft模型質量與計算開銷難以兼得。團隊采用了DFlash塊級Masked并行預測方法:Draft模型在一次前向中同時填出一整塊Mask位置,解除Draft自回歸的串行約束。
針對MiMo-V2.5-Pro的萬億MoE與長上下文場景,團隊進行了定制優化:
(1)Draft模型采用滑動窗口注意力(SWA),與MiMo-V2系列自身設計對齊,單次預測算力從隨上下文線性增長變為常數級。
(2)訓練時Mask信號采樣下沉到GPU本地分片,單步產出數萬級獨立訓練信號,對齊MiMo-V2系列模型長上下文能力的同時避免跨設備通信開銷。
效果上,其并行預測推測解碼在多個Agent和Coding高價值場景實現了顯著的接受長度提升,意味著大模型每次驗證都能“一口氣”確認更多內容;此外,他們將Mask 塊大小限制為8以降低驗證開銷、提高并發水平,使得高接受長度直接轉換為高推理吞吐。
![]()
▲DFlash在不同場景下的接受長度
團隊在Coding場景中平均接受長度達到6.30,部分樣本最高7.14,每輪驗證8個Draft token中可接受6-7個。同時,在語義更發散、不確定性更高的通用對話場景中,當前的接受率仍不高,團隊正在持續優化。
3、TileRT超低延遲推理系統:打通算子壁壘,軟硬件協同破千Token吞吐
在1000 tokens/s的超高頻運行狀態下,傳統推理系統的算子邊界成為瓶頸。為了消滅算子邊界帶來的執行間隙,TileRT引入了新的執行模型:
(1)常駐內核引擎:摒棄逐算子啟動模式,讓計算流水線常駐在GPU內部持續流轉,實現數據搬運與計算的極致重疊。
(2)異構流水線協作:在Tile級別將通信、搬運和張量計算進行更精細的物理拆解,不同Warp(線程束)精密協作。
(3)微秒級軟硬件收斂:TileRT與MiMo團隊深度協同,針對FP4混合量化與DFlash投機解碼量身定制編譯引擎與計算核,讓執行壓力最終在硬件邊界內平穩閉環。
官方表示,1000 tokens/s的誕生,是高水平系統基礎設施與極致算法模型向著彼此深度收斂、共同演化的結果。
結語:10倍提速,萬億模型的“實時夢”更近了
小米MiMo與TileRT在通用GPU上實現1T模型千tps級輸出,驗證了軟硬件協同設計路徑的可行性。相比依賴專用芯片的方案,這一思路有望降低實時AI推理的硬件門檻,使更多場景能以可接受的成本獲得近實時響應能力。
不過,當前高接受率仍主要集中在Coding等結構化任務,通用對話場景尚存優化空間。同時,推理資源的緊張與申請制開放也反映出大規模商用仍需時間。1000 tokens/s的技術突破值得關注,同時距離普惠應用還有一段路要走。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.