无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

雷軍:3倍價格10倍速度!小米萬億參數模型1000 tokens/s狂飆,只需8張GPU

0
分享至


智東西
作者 李水青
編輯 云鵬

智東西6月9日報道,今日,小米MiMo團隊推理系統團隊TileRT聯合宣布,Xiaomi MiMo-V2.5-Pro的UltraSpeed模式已實現萬億參數(1T)旗艦模型輸出速度首次突破1000 tokens/s


▲雷軍發文宣布MiMo-V2.5-Pro-UltraSpeed新進展(圖源:新浪微博)

1000 tokens/s是什么概念?從下面這個例子我們能有直觀的感受。以復雜可視化大屏生成任務為例,UltraSpeed版僅需13秒完成,標準版耗時6分15秒,同等效果下最高提速28倍


提示詞:生成一個AI服務運營總覽大屏,深色科技風(深色底 + 藍青主色 + 紅色異常);頂部KPI卡片(在線服務數 / 今日總調用量 / 整體成功率 / 平均latency),左中實時調用趨勢折線圖(1min粒度,3s刷新)+ 并發用戶數 sparkline,右中型分布環形圖+接口成功率TOP5進度條,底部異常告警列表(脈沖紅點)+ 資源水位(CPU/GPU/ 內存);點擊趨勢圖展開60min明細浮層;純HTML+CSS+JS單文件,Canvas繪圖,KPI超大數字發光動畫。

背后,團隊僅用一個標準的8卡通用GPU節點,便讓1T模型突破了1000 tokens/s的輸出速度。涉及技術包含FP4量化、DFlash高效推測解碼,搭配TileRT定制編譯內核,通過軟硬件協同充分釋放算力等。

TileRT是一家聚焦AI推理系統的獨立技術團隊,其主營業務是高性能推理引擎。此前5月22日,該團隊與智譜聯合進行系統級優化,使得GLM-5.1高速版API輸出速度達400Tokens/s,創下彼時公開大模型商用API推理速度紀錄。

今日,Xiaomi MiMo-V2.5-Pro-UltraSpeed的API同步上線。該API采用限時體驗價,定價為MiMo-V2.5-Pro的3倍,同時提供約10倍的輸出速度提升。該模式僅支持API體驗,暫不支持Token Plan。

本次體驗采取申請制,6月9日至6月23日限時開放。通過審核的用戶可獲得兩周限時免費的Chat體驗。

團隊已開源MiMo-V2.5-Pro-FP4-DFlash checkpoint至HuggingFace,包含FP4量化權重與DFlash模型參數。MiMo-V2.5極致推理支持在后續將推出。

申請入口:
https://platform.xiaomimimo.com/ultraspeed
Chat體驗入口:
https://ultraspeed.xiaomimimo.com
Hugging Face地址:
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash一、每秒千token推理:10秒做貪吃蛇、1分鐘復刻 macOS

萬億參數尺度上突破1000 tps意味著什么?小米公告中稱,這有望帶來以下AI應用模式的底層改變:

速度轉化為智能:在相同等待時間內,模型可并行運行數十條推理路徑(Best-of-N/Tree Search),后臺自動驗證糾錯,用速度換取思考深度和推理質量

解放Coding Agent生產力:極速推理下,開發者無需長時間等待代碼生成,大幅提升編碼效率。

進入實時決策閉環:毫秒級的“思考-響應”循環使萬億模型可以接入高頻量化交易信號生成、瞬時反欺詐風控攔截、智能競價及實時交互對話等對時間極度敏感的場景。

醫療場景的價值:在手術輔助、醫療影像分析等場景中,速度的提升可幫助AI更快完成病灶分析與風險預判,為醫生爭取更多處置時間。

如下圖所示,僅需10秒,Xiaomi MiMo-V2.5-Pro-UltraSpeed可生成一個貪吃蛇小游戲。

僅需1分鐘,Xiaomi MiMo-V2.5-Pro-UltraSpeed就能復刻一個macOS系統。


二、不走專用芯片路線,模型+系統雙向優化,通用8卡GPU跑出極速推理

與業界Cerebras晶圓級集成或Groq純片上SRAM定制芯片等專用硬件路線不同,小米和雙方TileRT系統團隊選擇在通用GPU上實現這一速度。

在模型側,他們針對通用硬件的帶寬瓶頸,進行了FP4量化,大幅縮減模型體積并減少訪存開銷;同時引入基于塊級Masked并行預測的高效推測解碼DFlash,大幅提升單次驗證的Token接受長度。

在系統側,TileRT適配算法的動態特性,為全新的量化和推測解碼流程量身定制專項優化的編譯引擎與計算核

1、FP4量化:大幅瘦身不丟精度

在萬億參數尺度上,傳統8比特甚至16比特推理會帶來巨大的顯存占用和內存帶寬壓力。團隊采用了業界較為通用的MXFP4量化方案。

針對MiMo-V2.5-Pro的MoE(Mixture of Experts)架構特性,他們只對MoE Expert進行參數FP4量化,其他模塊保留原有精度。通過FP4量化感知訓練(QAT),在大幅縮減模型體積、榨干硬件帶寬的同時,模型整體能力與原模型基本持平。


▲FP4 vs FP8模型對比

2、DFlash投機解碼:單次驗證一口氣確認多段文本

傳統投機解碼依賴小型Draft模型猜測后續tokens,再由大模型驗證,瓶頸在于Draft模型質量與計算開銷難以兼得。團隊采用了DFlash塊級Masked并行預測方法:Draft模型在一次前向中同時填出一整塊Mask位置,解除Draft自回歸的串行約束。

針對MiMo-V2.5-Pro的萬億MoE與長上下文場景,團隊進行了定制優化:

(1)Draft模型采用滑動窗口注意力(SWA),與MiMo-V2系列自身設計對齊,單次預測算力從隨上下文線性增長變為常數級。

(2)訓練時Mask信號采樣下沉到GPU本地分片,單步產出數萬級獨立訓練信號,對齊MiMo-V2系列模型長上下文能力的同時避免跨設備通信開銷。

效果上,其并行預測推測解碼在多個Agent和Coding高價值場景實現了顯著的接受長度提升,意味著大模型每次驗證都能“一口氣”確認更多內容;此外,他們將Mask 塊大小限制為8以降低驗證開銷、提高并發水平,使得高接受長度直接轉換為高推理吞吐。


▲DFlash在不同場景下的接受長度

團隊在Coding場景中平均接受長度達到6.30,部分樣本最高7.14,每輪驗證8個Draft token中可接受6-7個。同時,在語義更發散、不確定性更高的通用對話場景中,當前的接受率仍不高,團隊正在持續優化。

3、TileRT超低延遲推理系統:打通算子壁壘,軟硬件協同破千Token吞吐

在1000 tokens/s的超高頻運行狀態下,傳統推理系統的算子邊界成為瓶頸。為了消滅算子邊界帶來的執行間隙,TileRT引入了新的執行模型:

(1)常駐內核引擎:摒棄逐算子啟動模式,讓計算流水線常駐在GPU內部持續流轉,實現數據搬運與計算的極致重疊。

(2)異構流水線協作:在Tile級別將通信、搬運和張量計算進行更精細的物理拆解,不同Warp(線程束)精密協作。

(3)微秒級軟硬件收斂:TileRT與MiMo團隊深度協同,針對FP4混合量化與DFlash投機解碼量身定制編譯引擎與計算核,讓執行壓力最終在硬件邊界內平穩閉環。

官方表示,1000 tokens/s的誕生,是高水平系統基礎設施與極致算法模型向著彼此深度收斂、共同演化的結果。

結語:10倍提速,萬億模型的“實時夢”更近了

小米MiMo與TileRT在通用GPU上實現1T模型千tps級輸出,驗證了軟硬件協同設計路徑的可行性。相比依賴專用芯片的方案,這一思路有望降低實時AI推理的硬件門檻,使更多場景能以可接受的成本獲得近實時響應能力。

不過,當前高接受率仍主要集中在Coding等結構化任務,通用對話場景尚存優化空間。同時,推理資源的緊張與申請制開放也反映出大規模商用仍需時間。1000 tokens/s的技術突破值得關注,同時距離普惠應用還有一段路要走。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
油價大降近0.9元/升,2026年兩次下降,下次今年油價第3跌來了!

油價大降近0.9元/升,2026年兩次下降,下次今年油價第3跌來了!

豬友巴巴
2026-06-10 09:31:44
防線全面崩潰,俄軍攻占羅斯科什,中方不愿看到的局面終究出現?

防線全面崩潰,俄軍攻占羅斯科什,中方不愿看到的局面終究出現?

林子說事
2026-06-12 16:13:25
高考剛結束蘋果商店就被擠爆:家長花2萬多扎堆為孩子購置蘋果四件套

高考剛結束蘋果商店就被擠爆:家長花2萬多扎堆為孩子購置蘋果四件套

快科技
2026-06-12 16:26:23
51歲傅程鵬風流成性,牡丹花下終得應有結果

51歲傅程鵬風流成性,牡丹花下終得應有結果

梁獼愛玩車
2026-06-12 11:27:32
一對黃埔兄弟:陳賡被捕宋希濂冒死相救,宋希濂被俘陳賡千里探望

一對黃埔兄弟:陳賡被捕宋希濂冒死相救,宋希濂被俘陳賡千里探望

北海史記
2026-06-12 06:38:55
為什么奉勸老年人少去打麻將?64歲阿姨哭訴:這種消遣方式很害人

為什么奉勸老年人少去打麻將?64歲阿姨哭訴:這種消遣方式很害人

烙任情感
2026-06-12 15:42:27
伊朗媒體:已故最高領袖葬禮推遲舉行

伊朗媒體:已故最高領袖葬禮推遲舉行

新華社
2026-06-12 06:32:01
1949年國民黨少將被俘,卻不急反笑:老同學,我可是軍委的人

1949年國民黨少將被俘,卻不急反笑:老同學,我可是軍委的人

涼州辭
2026-06-12 21:15:03
狗交配時屁股為什么會連在一起?是母狗不讓,還是公狗不想?

狗交配時屁股為什么會連在一起?是母狗不讓,還是公狗不想?

宇宙時空
2026-05-25 12:57:36
深圳又一新規要來了!停車管理將迎來重大調整,臨時停車位使用費上繳財政

深圳又一新規要來了!停車管理將迎來重大調整,臨時停車位使用費上繳財政

深圳夢
2026-06-11 22:31:43
奧巴馬是美國歷史上最壞的總統,沒有之一

奧巴馬是美國歷史上最壞的總統,沒有之一

阿豐聊娛
2026-06-12 08:25:29
背叛中國、又出賣美國!臭名昭著的華裔雙面間諜高瞻,下場如何?

背叛中國、又出賣美國!臭名昭著的華裔雙面間諜高瞻,下場如何?

黃麗搞笑小能手
2026-06-12 13:07:39
十月女嬰啼哭不止,體內被扎入12根鋼針,事情敗露兇手服農藥自殺

十月女嬰啼哭不止,體內被扎入12根鋼針,事情敗露兇手服農藥自殺

易玄
2026-06-12 02:29:12
富時中國A50指數期貨持續拉升漲超2%

富時中國A50指數期貨持續拉升漲超2%

每日經濟新聞
2026-06-12 11:06:08
不止“手伸進褲子”!那些片場潛規則,正在毀掉多少年輕女演員?

不止“手伸進褲子”!那些片場潛規則,正在毀掉多少年輕女演員?

川渝視覺
2026-06-10 08:59:23
立刻停止食用這些粗糧,吃得越多,腸癌風險越高?醫生告訴你真相

立刻停止食用這些粗糧,吃得越多,腸癌風險越高?醫生告訴你真相

敘說醫療健康
2026-06-12 05:00:08
世界杯:美國vs巴拉圭

世界杯:美國vs巴拉圭

足球賽事交流解析
2026-06-12 10:00:04
塞爾:馬競原計劃周四與B席簽約,結果卻被B席單方面終止協議

塞爾:馬競原計劃周四與B席簽約,結果卻被B席單方面終止協議

懂球帝
2026-06-12 14:30:33
利好來了!霍爾木茲海峽開放大消息,石油直線暴跌,全球股市拉升!

利好來了!霍爾木茲海峽開放大消息,石油直線暴跌,全球股市拉升!

中國基金報
2026-06-12 19:46:45
隨著韓國2-1逆轉捷克,墨西哥2-0南非,世界杯A組最新積分榜出爐

隨著韓國2-1逆轉捷克,墨西哥2-0南非,世界杯A組最新積分榜出爐

侃球熊弟
2026-06-12 11:57:18
2026-06-12 22:00:49
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
12033文章數 117101關注度
往期回顧 全部

科技要聞

鴻蒙7發布,余承東:首個完成AI化改造系統

頭條要聞

內塔尼亞胡:特朗普不打伊朗了 沒提前告訴我

頭條要聞

內塔尼亞胡:特朗普不打伊朗了 沒提前告訴我

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

本地
家居
游戲
數碼
公開課

本地新聞

AK劉彰邂逅河北南大港濕地

家居要聞

空間微調 移形換境

《羊蹄山之魂》PS5銷量近500萬 《馬拉松》不到35萬

數碼要聞

磐鐳HO5迷你主機HX 470款上市:32GB + 1TB,7599元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版