網易首頁 > 網易號 > 正文申請入駐

小米：請叫我 Token 價格屠夫

2026-05-27 18:03:22　來源: 愛范兒

廣東舉報

分享至

押注 2026 年 Token 大漲價的人，短短一周迎來兩次打臉。

5 月 22 日，DeepSeek 宣布 DeepSeek V4 Pro 永久降價；今天凌晨，小米 MiMo-V2.5 系列跟進降價，最高降幅達到 99%。

與此同時，小米 Token Plan 計費體系同步優化，定價不變，可用量提升至原來的 5 至 8 倍。

沒有出乎太多意料，海外 Reddit、X 平臺以及各大開發者論壇上關于小米 MiMo 模型降價的討論熱度也是迅速飆升。

只是，在全行業都在高喊 Token 成本吃不消的當下，小米為何敢于逆流降價？更重要的是，這波降價操作又會把 AI 行業推向何方

Token 價格打骨折，AI 行業迎來最嚴厲的父親

小米此次公告顯示，旗下 AI 大模型 MiMo-V2.5 系列 API 將進行永久降價，最高降幅達 99%，且不再區分輸入長度。新價格已于北京時間 5 月 27 日 0 點全球同步生效。

不過，99% 的降幅并不意味著每一次調用都會按最低價計費，關鍵變量在于輸入緩存是否命中。

以 MiMo-V2.5-Pro 為例，一旦命中緩存，輸入價格被擊穿至約 0.025 元每百萬 Tokens。而如果輸入緩存未命中，價格依然維持在 3 元每百萬 Tokens，輸出價格則為 6 元每百萬 Tokens。

也就是說，這個極低價格成立的先決條件，是請求必須大量命中緩存。

對于高重復上下文、高頻 Agent、多輪代碼任務以及批量推理任務來說，這個價格擁有極強的吸引力，但如果你的應用場景緩存命中率堪憂，真實成本顯然不會觸及最低點。

Token Plan 的玩法也有著相似的邏輯。

小米強調定價不變，Credits 大幅提升：Lite、Standard、Pro、Max 四檔月費仍是 39 元、99 元、329 元和 659 元， Credits 的額度，也從 0.6 億、2 億、7 億、16 億提升到對應的 41 億、110 億、380 億、820 億。

且按照新的換算關系，MiMo-V2.5-Pro 命中緩存只需 2.5 Credits / token，未命中緩存則要 300 Credits / token，輸出為 600 Credits / token。

這與 DeepSeek 的打法如出一轍。

簡單回顧一下時間線：4 月 24 日 DeepSeek V4 預覽版發布；次日 V4-Pro 開啟 2.5 折優惠；4 月 26 日，緩存命中價格暴降至首發價的十分之一；到 5 月 22 日，臨時折扣干脆變成了永久降價，V4-Pro 永久降至原價的四分之一。

一番調整過后，DeepSeek-V4-Pro 的輸入緩存命中價格從 0.1 元直接降到了 0.025 元。隨著小米 MiMo-V2.5-Pro 的火速跟進，國產模型的緩存命中輸入價已經被徹底焊死在了這一基準線上。

DeepSeek 和小米都把最有沖擊力的價格放在緩存命中和場景，原因并不復雜。大模型正在從聊天走向干活，而 Agent 才是 token 消耗真正放大的地方。

在聊天場景里，用戶問一句，模型答一句，成本相對容易估算。

但在 Agent 場景里，一個任務可能包含長上下文、多輪推理、代碼生成、工具調用、網頁讀取、文件分析和結果校驗。用戶看到的只是最后一次輸出，后臺卻可能已經發生了多次請求和大量上下文讀取。

這就是緩存命中重要的地方。

Agent、代碼助手和長上下文應用有一個共同特點：很多內容會反復出現。比如系統提示詞、項目代碼、API 文檔、工具說明、歷史對話、依賴文件等。這些內容如果每次都重新計算，成本會很高；但如果能被緩存，下次再用時只按緩存命中價格計費，推理成本就會明顯下降。

也就是說，緩存命中價格越低，越適合高頻、多輪、長上下文的真實工作場景。DeepSeek 和小米低價背后，其實也是為了先把開發者和高頻應用吸引進來，讓更多 Agent、代碼助手和辦公自動化應用愿意跑在自己的模型上。

小米此前通過 MiMo Orbit、百萬億 Token 創造者激勵計劃等活動，讓更多人體驗 MiMo，并解決真實問題。這個百萬億 Token 激勵計劃自 4 月 28 日上線，到 5 月 26 日 16:08，100T Tokens 已全部提前發放完畢。

從平臺視角看，低價 token 和免費額度換來的是海量真實調用。真實調用會帶來復雜任務、失敗樣本、用戶反饋、Agent 工作流、代碼場景和長上下文數據，這些都會反過來幫助模型和推理系統迭代。

社區里的「養蝦黨」現象，也可以放在這個邏輯里理解。用戶在最大化消耗額度的同時，也在幫助平臺制造壓力、暴露問題、積累調用數據。

所以這筆賬不能只看單次推理毛利。短期收入被壓低，換來的是開發者遷移、調用規模和真實反饋。對想爭奪 Agent 生態位置的模型廠商來說，這是一種非常劃算的平臺投入。

羅福莉的真香定律，背后是工程暴力

不過，光有意愿還不夠，關鍵是降得起。小米這次降價的特殊之處，正在于它和 MiMo 大模型負責人羅福莉此前的公開表態形成了反差。

一個月前，羅福莉曾公開反對 token 價格戰。她當時的判斷是，低價 token 加開放第三方 Agent 框架，容易讓平臺陷入成本失控。

她提到，第三方 Agent 框架往往上下文管理粗放。單次用戶查詢可能觸發多輪低價值工具調用，每次請求又攜帶超過 10 萬 token 的超長上下文。如果平臺無法約束這類浪費，真實 API 成本可能是訂閱價格的數十倍。

她還認為，全球算力供給已經跟不上 Agent 帶來的 token 需求增長。大模型公司在沒有厘清編程和 Agent 場景成本結構之前，盲目價格戰會導致限流、降配、穩定性下降，最終損害用戶體驗。

但小米這次降價沒有推翻此前判斷，而是改變了價格戰成立的前提。羅福莉此前反對的是沒有成本結構支撐的低價。小米現在展示的，是一套自認為能夠支撐低價的推理工程方案。

按照小米公告，其技術團隊基于 SGLang HiCache 完整支持 SWA，也就是 Sliding Window Attention，將 KV Cache 在 GPU 顯存、CPU 內存、SSD 等多級存儲之間的數據搬運量降低至優化前的近七分之一，并將可緩存 token 數量提升至優化前的近五倍。

與此同時，小米還優化了專家并行方案和輸入長度分桶策略，以提升集群輸入吞吐能力。沒有這層工程能力，低價很容易就會變成不可持續的補貼。有了足夠強的 Infra系統，低價才可能轉化為長期優勢。

價格戰考驗工程能力，也考驗后方厚度。

不同于純 AI 模型公司，小米的手機、汽車、IoT 和消費電子業務，給它提供了更長的投入周期和更大的戰略耐心。它可以把大模型服務看作 AI 生態入口，避免陷入只按短期 API 收入斤斤計較的困局。

這對中小模型公司并不友好。沒有主業輸血，沒有過硬的 Infra 實力，也沒有足夠調用規模攤薄成本的玩家，注定無法長期跟進這種價格。

DeepSeek 的低價已經直接威脅到不少國產模型的市場定位。而隨著小米 MiMo 的跟進，更多仍有體量的廠商會被迫調整價格或將重新定義產品價值。更小的模型服務商，則可能被推向更窄的垂直場景。

這輪降價某種程度上也是效率派模型廠商對市場的一次篩選。有工程能力、算力調度能力和生態入口的公司，可以承受更低價格帶來的壓力。只有模型能力、但推理成本壓不下來的公司，會越來越被動。

并且伴隨繼續下探的空間逐漸變窄，價格越接近物理成本，單純降價的價值越有限。下一階段，模型質量、Agent 適配、開發者工具、生態綁定、服務穩定性和企業交付能力，也都將迎來新一輪內卷。

模型能力決定了 AI 發展的上限，而推理成本決定了 AI 普及的規模。等到真正便宜的 Token 涌入應用層時，我們才會真正看清，屬于 AI 的下一個爆發時代會是什么模樣。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.