網易首頁 > 網易號 > 正文申請入駐

小米 MiMo-V2 三張牌：1T 參數旗艦、全模態 Omni、情感 TTS，分別在解決什么

2026-03-19 13:30:37　來源: 硅星GenAI

上海舉報

分享至

上周，OpenRouter 上悄悄出現了兩個沒有任何介紹的匿名模型：Hunter Alpha和Healer Alpha。沒有宣發，沒有官方認領，只有調用量在持續攀升——多天沖上日榜前列，開發者社區開始炸鍋。

有人猜這是 DeepSeek V4，參數規格高度吻合，連 OpenClaw 創始人 Peter Steinberger 也忍不住在 X 上公開發帖打聽身份。

3 月 19 日凌晨，謎底揭曉：Hunter Alpha 是MiMo-V2-Pro的早期測試版，Healer Alpha 是MiMo-V2-Omni的早期測試版。兩個模型的主人，是小米。

當天，小米 MiMo 官方同步正式發布三款新模型：MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS。只看名字可能會覺得這又是一輪常規迭代；把三者放在一起看，小米這次真正想講的是"我已經開始搭一整套 Agent 能力底座"。官方給 Pro 的定位是旗艦基座模型，給 Omni 的定位是全模態 Agent 模型，給 TTS 的定位是給 Agent 補上"聲音、情緒和表達力"。三個模型覆蓋了從"大腦"到"感知與執行"再到"輸出層"的完整鏈路。

MiMo-V2-Pro 負責想，MiMo-V2-Omni 負責看、聽、做，MiMo-V2-TTS 負責說。這波發布最值得看的，也正是這條清晰的路線：小米在把 AI 從"對話框里的回答機器"，往"能調用工具、理解界面、處理真實任務、自然表達"的系統層智能體方向推進。

一、MiMo-V2-Pro：對標 Claude 去的 Agent 旗艦，偏偏只賣五分之一的價

先看MiMo-V2-Pro。按照官方說法，這是面向真實世界 agentic workload 的旗艦基座模型，目標是去完成任務。模型總參數超過 1T，激活參數42B，支持1M token上下文；架構上延續上一代 Hybrid Attention，混合比例從 5:1 提升至 7:1，同時保留輕量級 MTP 層以提升生成效率。官方強調的關鍵詞很明確：complex workflows、production engineering tasks、tool-call stability、multi-step reasoning。

跑分上，MiMo-V2-Pro 是這次三款里官方公開數據最完整的。小米在官方頁直接標注：按 Artificial Analysis Intelligence Index，MiMo-V2-Pro 全球第 8、中文大模型第 2。

Agent 相關 benchmark 上，它在PinchBench 拿到 84.0，在ClawEval 拿到 61.5，兩項均為全球第 3，官方明確標注"接近 Claude Opus 4.6"。對照數據：PinchBench 上 Claude Sonnet 4.6 為 86.9、Claude Opus 4.6 為 86.3、Gemini 3 Pro 為 70.7；ClawEval 上 Claude Opus 4.6 和 Sonnet 4.6 均為 66.3，Gemini 3 Pro 為 51.9，GPT-5.2 為 50.0。這兩個評測考的是工具調用、多步規劃、復雜任務鏈上的穩定性——Agent 場景里最核心也最難做的部分。MiMo-V2-Pro 在這個維度上，已經和 Claude Opus 4.6 基本站在同一梯隊。

驗證方式上，小米沒有只放幾張實驗室對比圖。Hunter Alpha 在 OpenRouter 上跑了一周盲測——總調用量超過 1T tokens，多天登頂日榜。官方展示的調用來源幾乎全是 coding/agent 工具，尤以OpenClaw、Kilo Code、Roo Code為主。開發者對它的感知，從一開始就落在"能干活"上。

案例上，官方給了兩個方向。一個是前端開發：在 OpenClaw 里，MiMo-V2-Pro 可以根據一條 prompt 直接生成完整網頁，官方展示的例子是一個90 年代印刷雜志風格的網頁，版式、字體、噪點和翻頁感這些細節都有覆蓋。

用同樣的提示詞在 MiMo Claw 實測了一下，生成的網頁有目錄交互、完整頁面元素、整體排版也算得上美觀，圖片渲染稍有瑕疵，但完成度已經相當不錯。

不到三分鐘，一次性生成的版本，無抽卡

另一個官方案例更直接：讓它做一個 3D 塔防游戲，要求使用 Three.js 或 Babylon.js，實現 3D 渲染、關卡模式、敵人波次、升級路徑、動態背景和完整控制邏輯。官方想傳達的很清楚——這個模型瞄準的是端到端工程交付，代碼補全只是其中最基礎的一層。

價格是 MiMo-V2-Pro 另一個值得單獨說的點。官方頁把 API 價格和 Claude 4.6 系列并排列出：256K 以內，輸入/輸出分別為 $1/$3 每百萬 tokens；256K 到 1M 為 $2/$6。Claude Sonnet 4.6 是 $3/$15，Claude Opus 4.6 是 $5/$25。同等 Agent 能力梯隊，價格約為五分之一——這個價差對大規模調用的 agent 框架來說，是實質性的成本差異，也是小米最直接的市場切入點。

二、MiMo-V2-Omni：感知與行動原生綁定，最有想象空間的那款

如果說 Pro 是"大腦"，MiMo-V2-Omni才是這次最有未來感的東西。官方對它的定義是omni foundation model：把圖像、視頻、音頻編碼器直接融合進同一個共享 backbone，形成一條統一感知流。更關鍵的是訓練目標——這個模型從一開始，就同時學三件事：場景是什么、接下來會發生什么、現在該做什么。感知和行動在架構層就是綁定的。

官方公開的 benchmark 數據，感知側六個分數：MMAU-Pro 69.4、BigBench Audio 94.0、MMMU-Pro 76.8、CharXiv RQ 80.1、Video-MME 85.3、FutureOmni 66.7。從對照表可以直接讀出：MMAU-Pro 69.4高于 Gemini 3 Pro 的 67.0；CharXiv RQ 80.1高于 Claude Opus 4.6 的 77.4；FutureOmni 66.7高于 Gemini 3 Pro 的 62.9 和 Claude Opus 4.6 的 60.3。官方總結：音頻理解整體超過 Gemini 3 Pro，圖像理解超過 Claude Opus 4.6，視頻理解支持原生音視頻聯合輸入，并具備 future reasoning 能力。

行動側數據更值得關注：MM-BrowserComp 52.0、OmniGAIA 49.8、ClawEval 54.8、PinchBench 85.6。其中MM-BrowserComp 52.0明顯高于 Gemini 3 Pro 的 37.2 和 GPT-5.2 的 47.4；PinchBench 85.6高于 Gemini 3 Pro 的 70.7、Gemini 3 Flash 的 75.0 和 GPT-5.2 的 77.0，非常接近 Claude Opus 4.6 的 86.3。MM-BrowserComp 測的是模型在真實瀏覽器環境里完成任務的能力，這個分數比兩個主要對手高出 5-15 個百分點，是執行維度上相當顯著的差距。

代碼與任務能力上還有SWE-Bench Verified 74.8、GDPVal 1410。

官方給了三個案例，每個都指向一類具體場景。

第一個是自動駕駛視覺大腦：給它一段海邊小鎮的行車記錄儀視頻，讓它實時識別潛在風險。模型的輸出是"并線風險、盲區、行人橫穿、車道收窄、街邊雙排停車帶來的側向風險"——已經接近駕駛決策層的信息，目標檢測只是基礎。

第二個是跨平臺購物 Agent：任務是扮演一個喜歡旅行攝影的學生，在小紅書上搜三款小米 17 的選購建議，整理推薦，再去京東下單，并盡量和客服談到更低價格。整個流程里，MiMo-V2-Omni 在 OpenClaw 配合下自主瀏覽帖子、比較賣家、與客服自然語言談價、加購并走到結算，期間還處理了非標準 DOM、多標簽頁上下文管理、平臺反自動化打斷后的恢復，全程沒有人工干預。任務鏈結構——跨平臺、跨模態、遇到干擾后自主恢復——已經非常接近真實電商和辦公場景里 Agent 工作流的復雜度。

第三個案例更極端：從零做一個 15 秒介紹視頻，然后上傳到 TikTok。模型先自己設計 4 個鏡頭，再合成低頻 bass、電子音、轉場 whoosh 和 glitch 細節音效；渲染中碰到中文字體報錯，自己診斷并修復；打開 TikTok 上傳頁后，發現描述輸入框不是標準文本元素，自行分析 DOM、找到正確交互方式，填完文案、發布、點贊、評論，最后確認視頻通過審核公開上線。這個案例想說明的是：Omni 已經開始展現出閉環自主完成任務的能力——從內容生成到平臺發布，中間出了問題，自己解決。

三、MiMo-V2-TTS：給 Agent 裝上情感，被低估最久的那層體驗

第三個模型MiMo-V2-TTS，表面看起來最不"炸"，但可能是最容易直接走進產品的那一個。行業這兩年幾乎所有討論都集中在推理能力、工具調用、代碼質量上，但真正到產品里，用戶接觸到的是最后那層——它怎么說話，有沒有情緒，是否自然，是不是像一個真實存在的智能體。這層體驗長期被當成錦上添花，但在終端產品里，它直接影響用戶粘性。MiMo-V2-TTS 要做的，就是把這層認真填上。官方的說法很直接：給 Agent 一個聲音，甚至給它"靈魂"。

技術上，MiMo-V2-TTS 建在小米自研的Audio Tokenizer和multi-codebook joint speech-text modeling架構上，預訓練數據超過1 億小時語音數據，后續做了多維度強化學習。重點在三件事：多粒度風格控制、自然韻律還原、唱歌能力。它可以理解自由文本風格描述，比如"剛睡醒、略微沙啞"、"幾乎是耳語式的深情表達"、"憤怒但盡量克制"，而不是只能從 happy/sad/angry/neutral 的下拉菜單里選。

更細的一層，是它可以在生成時同步輸出非語言事件——咳嗽、停頓、遲疑、嘆氣、笑聲等，強調的是這些信號在建模階段就和上下文一并處理，而不是后期拼進去的音效。它還支持方言和角色音色，包括東北話、四川話、粵語、臺灣普通話，以及孫悟空、林黛玉這類角色風格。目標是把一段文本表演出來，而不只是念出來。

最值得單獨說的是唱歌。官方明確寫明支持 singing voice synthesis，并表示這可能是當前首個在商業可用 API 中原生同時支持說話和唱歌的 TTS 能力。同一套架構，既能做耳語式對話，也能生成帶音高和節奏的演唱，中間不用切模型、不用切模式。對內容生產、虛擬人、陪伴型 Agent、AI 主播和短視頻工具來說，這是非常直接的能力補充。

需要說明的是，目前官方公開頁里，MiMo-V2-TTS 沒有像 Pro 和 Omni 那樣給出一套完整的 benchmark 排名表，更多展示的是能力樣例和產品方向。TTS 的質量本身就很難量化，最終檢驗只能靠真實產品里的用戶體驗。這個模型的核心命題只有一個：能不能把人機交互的體驗往上拉一個臺階。

四、寫在最后

把這三款模型放在一起看，小米在推進的目標已經超出了"能對話、會回答的大模型"范疇，落點在 Agent 時代的系統層底座。MiMo-V2-Pro 負責規劃、推理、長上下文和復雜工具鏈；MiMo-V2-Omni 負責多模態理解、界面感知和跨環境執行；MiMo-V2-TTS 負責把這一切變成自然、可持續交互的產品體驗。

有意思的是，小米這次挑的案例——自動駕駛、電商談價、短視頻生成上傳、3D 游戲搭建、方言情緒語音——幾乎全是小米自己生態里能直接落地的場景。

至于最終效果怎樣，網址在此：

https://mimo.xiaomi.com/zh

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.