![]()
押注 2026 年 Token 大漲價的人,短短一周迎來兩次打臉。
5 月 22 日,DeepSeek 宣布 DeepSeek V4 Pro 永久降價;今天凌晨,小米 MiMo-V2.5 系列跟進降價,最高降幅達到 99%。
與此同時,小米 Token Plan 計費體系同步優化,定價不變,可用量提升至原來的 5 至 8 倍。
![]()
沒有出乎太多意料,海外 Reddit、X 平臺以及各大開發者論壇上關于小米 MiMo 模型降價的討論熱度也是迅速飆升。
![]()
只是,在全行業都在高喊 Token 成本吃不消的當下,小米為何敢于逆流降價?更重要的是,這波降價操作又會把 AI 行業推向何方
Token 價格打骨折,AI 行業迎來最嚴厲的父親
小米此次公告顯示,旗下 AI 大模型 MiMo-V2.5 系列 API 將進行永久降價,最高降幅達 99%,且不再區分輸入長度。新價格已于北京時間 5 月 27 日 0 點全球同步生效。
![]()
不過,99% 的降幅并不意味著每一次調用都會按最低價計費,關鍵變量在于輸入緩存是否命中。
以 MiMo-V2.5-Pro 為例,一旦命中緩存,輸入價格被擊穿至約 0.025 元每百萬 Tokens。而如果輸入緩存未命中,價格依然維持在 3 元每百萬 Tokens,輸出價格則為 6 元每百萬 Tokens。
也就是說,這個極低價格成立的先決條件,是請求必須大量命中緩存。
對于高重復上下文、高頻 Agent、多輪代碼任務以及批量推理任務來說,這個價格擁有極強的吸引力,但如果你的應用場景緩存命中率堪憂,真實成本顯然不會觸及最低點。
Token Plan 的玩法也有著相似的邏輯。
![]()
小米強調定價不變,Credits 大幅提升:Lite、Standard、Pro、Max 四檔月費仍是 39 元、99 元、329 元和 659 元, Credits 的額度,也從 0.6 億、2 億、7 億、16 億提升到對應的 41 億、110 億、380 億、820 億。
且按照新的換算關系,MiMo-V2.5-Pro 命中緩存只需 2.5 Credits / token,未命中緩存則要 300 Credits / token,輸出為 600 Credits / token。
![]()
![]()
這與 DeepSeek 的打法如出一轍。
簡單回顧一下時間線:4 月 24 日 DeepSeek V4 預覽版發布;次日 V4-Pro 開啟 2.5 折優惠;4 月 26 日,緩存命中價格暴降至首發價的十分之一;到 5 月 22 日,臨時折扣干脆變成了永久降價,V4-Pro 永久降至原價的四分之一。
一番調整過后,DeepSeek-V4-Pro 的輸入緩存命中價格從 0.1 元直接降到了 0.025 元。隨著小米 MiMo-V2.5-Pro 的火速跟進,國產模型的緩存命中輸入價已經被徹底焊死在了這一基準線上。
![]()
DeepSeek 和小米都把最有沖擊力的價格放在緩存命中和場景,原因并不復雜。大模型正在從聊天走向干活,而 Agent 才是 token 消耗真正放大的地方。
在聊天場景里,用戶問一句,模型答一句,成本相對容易估算。
但在 Agent 場景里,一個任務可能包含長上下文、多輪推理、代碼生成、工具調用、網頁讀取、文件分析和結果校驗。用戶看到的只是最后一次輸出,后臺卻可能已經發生了多次請求和大量上下文讀取。
這就是緩存命中重要的地方。
Agent、代碼助手和長上下文應用有一個共同特點:很多內容會反復出現。比如系統提示詞、項目代碼、API 文檔、工具說明、歷史對話、依賴文件等。這些內容如果每次都重新計算,成本會很高;但如果能被緩存,下次再用時只按緩存命中價格計費,推理成本就會明顯下降。
也就是說,緩存命中價格越低,越適合高頻、多輪、長上下文的真實工作場景。DeepSeek 和小米低價背后,其實也是為了先把開發者和高頻應用吸引進來,讓更多 Agent、代碼助手和辦公自動化應用愿意跑在自己的模型上。
![]()
小米此前通過 MiMo Orbit、百萬億 Token 創造者激勵計劃等活動,讓更多人體驗 MiMo,并解決真實問題。這個百萬億 Token 激勵計劃自 4 月 28 日上線,到 5 月 26 日 16:08,100T Tokens 已全部提前發放完畢。
從平臺視角看,低價 token 和免費額度換來的是海量真實調用。真實調用會帶來復雜任務、失敗樣本、用戶反饋、Agent 工作流、代碼場景和長上下文數據,這些都會反過來幫助模型和推理系統迭代。
社區里的「養蝦黨」現象,也可以放在這個邏輯里理解。用戶在最大化消耗額度的同時,也在幫助平臺制造壓力、暴露問題、積累調用數據。
所以這筆賬不能只看單次推理毛利。短期收入被壓低,換來的是開發者遷移、調用規模和真實反饋。對想爭奪 Agent 生態位置的模型廠商來說,這是一種非常劃算的平臺投入。
羅福莉的真香定律,背后是工程暴力
不過,光有意愿還不夠,關鍵是降得起。小米這次降價的特殊之處,正在于它和 MiMo 大模型負責人羅福莉此前的公開表態形成了反差。
一個月前,羅福莉曾公開反對 token 價格戰。她當時的判斷是,低價 token 加開放第三方 Agent 框架,容易讓平臺陷入成本失控。
她提到,第三方 Agent 框架往往上下文管理粗放。單次用戶查詢可能觸發多輪低價值工具調用,每次請求又攜帶超過 10 萬 token 的超長上下文。如果平臺無法約束這類浪費,真實 API 成本可能是訂閱價格的數十倍。
![]()
她還認為,全球算力供給已經跟不上 Agent 帶來的 token 需求增長。大模型公司在沒有厘清編程和 Agent 場景成本結構之前,盲目價格戰會導致限流、降配、穩定性下降,最終損害用戶體驗。
但小米這次降價沒有推翻此前判斷,而是改變了價格戰成立的前提。羅福莉此前反對的是沒有成本結構支撐的低價。小米現在展示的,是一套自認為能夠支撐低價的推理工程方案。
按照小米公告,其技術團隊基于 SGLang HiCache 完整支持 SWA,也就是 Sliding Window Attention,將 KV Cache 在 GPU 顯存、CPU 內存、SSD 等多級存儲之間的數據搬運量降低至優化前的近七分之一,并將可緩存 token 數量提升至優化前的近五倍。
與此同時,小米還優化了專家并行方案和輸入長度分桶策略,以提升集群輸入吞吐能力。沒有這層工程能力,低價很容易就會變成不可持續的補貼。有了足夠強的 Infra系統,低價才可能轉化為長期優勢。
![]()
價格戰考驗工程能力,也考驗后方厚度。
不同于純 AI 模型公司,小米的手機、汽車、IoT 和消費電子業務,給它提供了更長的投入周期和更大的戰略耐心。它可以把大模型服務看作 AI 生態入口,避免陷入只按短期 API 收入斤斤計較的困局。
這對中小模型公司并不友好。沒有主業輸血,沒有過硬的 Infra 實力,也沒有足夠調用規模攤薄成本的玩家,注定無法長期跟進這種價格。
DeepSeek 的低價已經直接威脅到不少國產模型的市場定位。而隨著小米 MiMo 的跟進,更多仍有體量的廠商會被迫調整價格或將重新定義產品價值。更小的模型服務商,則可能被推向更窄的垂直場景。
![]()
這輪降價某種程度上也是效率派模型廠商對市場的一次篩選。有工程能力、算力調度能力和生態入口的公司,可以承受更低價格帶來的壓力。只有模型能力、但推理成本壓不下來的公司,會越來越被動。
并且伴隨繼續下探的空間逐漸變窄,價格越接近物理成本,單純降價的價值越有限。下一階段,模型質量、Agent 適配、開發者工具、生態綁定、服務穩定性和企業交付能力,也都將迎來新一輪內卷。
模型能力決定了 AI 發展的上限,而推理成本決定了 AI 普及的規模。等到真正便宜的 Token 涌入應用層時,我們才會真正看清,屬于 AI 的下一個爆發時代會是什么模樣。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.