網易首頁 > 網易號 > 正文 申請入駐

小米 MiMo-V2 三張牌:1T 參數旗艦、全模態 Omni、情感 TTS,分別在解決什么

0
分享至


上周,OpenRouter 上悄悄出現了兩個沒有任何介紹的匿名模型:Hunter AlphaHealer Alpha。沒有宣發,沒有官方認領,只有調用量在持續攀升——多天沖上日榜前列,開發者社區開始炸鍋。


有人猜這是 DeepSeek V4,參數規格高度吻合,連 OpenClaw 創始人 Peter Steinberger 也忍不住在 X 上公開發帖打聽身份。

3 月 19 日凌晨,謎底揭曉:Hunter Alpha 是MiMo-V2-Pro的早期測試版,Healer Alpha 是MiMo-V2-Omni的早期測試版。兩個模型的主人,是小米。


當天,小米 MiMo 官方同步正式發布三款新模型:MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS。只看名字可能會覺得這又是一輪常規迭代;把三者放在一起看,小米這次真正想講的是"我已經開始搭一整套 Agent 能力底座"。官方給 Pro 的定位是旗艦基座模型,給 Omni 的定位是全模態 Agent 模型,給 TTS 的定位是給 Agent 補上"聲音、情緒和表達力"。三個模型覆蓋了從"大腦"到"感知與執行"再到"輸出層"的完整鏈路。

MiMo-V2-Pro 負責想,MiMo-V2-Omni 負責看、聽、做,MiMo-V2-TTS 負責說。這波發布最值得看的,也正是這條清晰的路線:小米在把 AI 從"對話框里的回答機器",往"能調用工具、理解界面、處理真實任務、自然表達"的系統層智能體方向推進。

一、MiMo-V2-Pro:對標 Claude 去的 Agent 旗艦,偏偏只賣五分之一的價

先看MiMo-V2-Pro。按照官方說法,這是面向真實世界 agentic workload 的旗艦基座模型,目標是去完成任務。模型總參數超過 1T,激活參數42B,支持1M token上下文;架構上延續上一代 Hybrid Attention,混合比例從 5:1 提升至 7:1,同時保留輕量級 MTP 層以提升生成效率。官方強調的關鍵詞很明確:complex workflows、production engineering tasks、tool-call stability、multi-step reasoning

跑分上,MiMo-V2-Pro 是這次三款里官方公開數據最完整的。小米在官方頁直接標注:按 Artificial Analysis Intelligence Index,MiMo-V2-Pro 全球第 8、中文大模型第 2


Agent 相關 benchmark 上,它在PinchBench 拿到 84.0,在ClawEval 拿到 61.5,兩項均為全球第 3,官方明確標注"接近 Claude Opus 4.6"。對照數據:PinchBench 上 Claude Sonnet 4.6 為 86.9、Claude Opus 4.6 為 86.3、Gemini 3 Pro 為 70.7;ClawEval 上 Claude Opus 4.6 和 Sonnet 4.6 均為 66.3,Gemini 3 Pro 為 51.9,GPT-5.2 為 50.0。這兩個評測考的是工具調用、多步規劃、復雜任務鏈上的穩定性——Agent 場景里最核心也最難做的部分。MiMo-V2-Pro 在這個維度上,已經和 Claude Opus 4.6 基本站在同一梯隊。


驗證方式上,小米沒有只放幾張實驗室對比圖。Hunter Alpha 在 OpenRouter 上跑了一周盲測——總調用量超過 1T tokens,多天登頂日榜。官方展示的調用來源幾乎全是 coding/agent 工具,尤以OpenClaw、Kilo Code、Roo Code為主。開發者對它的感知,從一開始就落在"能干活"上。

案例上,官方給了兩個方向。一個是前端開發:在 OpenClaw 里,MiMo-V2-Pro 可以根據一條 prompt 直接生成完整網頁,官方展示的例子是一個90 年代印刷雜志風格的網頁,版式、字體、噪點和翻頁感這些細節都有覆蓋。

用同樣的提示詞在 MiMo Claw 實測了一下,生成的網頁有目錄交互、完整頁面元素、整體排版也算得上美觀,圖片渲染稍有瑕疵,但完成度已經相當不錯。

不到三分鐘,一次性生成的版本,無抽卡

另一個官方案例更直接:讓它做一個 3D 塔防游戲,要求使用 Three.js 或 Babylon.js,實現 3D 渲染、關卡模式、敵人波次、升級路徑、動態背景和完整控制邏輯。官方想傳達的很清楚——這個模型瞄準的是端到端工程交付,代碼補全只是其中最基礎的一層。

價格是 MiMo-V2-Pro 另一個值得單獨說的點。官方頁把 API 價格和 Claude 4.6 系列并排列出:256K 以內,輸入/輸出分別為 $1/$3 每百萬 tokens;256K 到 1M 為 $2/$6。Claude Sonnet 4.6 是 $3/$15,Claude Opus 4.6 是 $5/$25。同等 Agent 能力梯隊,價格約為五分之一——這個價差對大規模調用的 agent 框架來說,是實質性的成本差異,也是小米最直接的市場切入點。


二、MiMo-V2-Omni:感知與行動原生綁定,最有想象空間的那款

如果說 Pro 是"大腦",MiMo-V2-Omni才是這次最有未來感的東西。官方對它的定義是omni foundation model:把圖像、視頻、音頻編碼器直接融合進同一個共享 backbone,形成一條統一感知流。更關鍵的是訓練目標——這個模型從一開始,就同時學三件事:場景是什么、接下來會發生什么、現在該做什么。感知和行動在架構層就是綁定的。

官方公開的 benchmark 數據,感知側六個分數:MMAU-Pro 69.4、BigBench Audio 94.0、MMMU-Pro 76.8、CharXiv RQ 80.1、Video-MME 85.3、FutureOmni 66.7。從對照表可以直接讀出:MMAU-Pro 69.4高于 Gemini 3 Pro 的 67.0;CharXiv RQ 80.1高于 Claude Opus 4.6 的 77.4;FutureOmni 66.7高于 Gemini 3 Pro 的 62.9 和 Claude Opus 4.6 的 60.3。官方總結:音頻理解整體超過 Gemini 3 Pro,圖像理解超過 Claude Opus 4.6,視頻理解支持原生音視頻聯合輸入,并具備 future reasoning 能力。


行動側數據更值得關注:MM-BrowserComp 52.0、OmniGAIA 49.8、ClawEval 54.8、PinchBench 85.6。其中MM-BrowserComp 52.0明顯高于 Gemini 3 Pro 的 37.2 和 GPT-5.2 的 47.4;PinchBench 85.6高于 Gemini 3 Pro 的 70.7、Gemini 3 Flash 的 75.0 和 GPT-5.2 的 77.0,非常接近 Claude Opus 4.6 的 86.3。MM-BrowserComp 測的是模型在真實瀏覽器環境里完成任務的能力,這個分數比兩個主要對手高出 5-15 個百分點,是執行維度上相當顯著的差距。


代碼與任務能力上還有SWE-Bench Verified 74.8、GDPVal 1410


官方給了三個案例,每個都指向一類具體場景。

第一個是自動駕駛視覺大腦:給它一段海邊小鎮的行車記錄儀視頻,讓它實時識別潛在風險。模型的輸出是"并線風險、盲區、行人橫穿、車道收窄、街邊雙排停車帶來的側向風險"——已經接近駕駛決策層的信息,目標檢測只是基礎。

第二個是跨平臺購物 Agent:任務是扮演一個喜歡旅行攝影的學生,在小紅書上搜三款小米 17 的選購建議,整理推薦,再去京東下單,并盡量和客服談到更低價格。整個流程里,MiMo-V2-Omni 在 OpenClaw 配合下自主瀏覽帖子、比較賣家、與客服自然語言談價、加購并走到結算,期間還處理了非標準 DOM、多標簽頁上下文管理、平臺反自動化打斷后的恢復,全程沒有人工干預。任務鏈結構——跨平臺、跨模態、遇到干擾后自主恢復——已經非常接近真實電商和辦公場景里 Agent 工作流的復雜度。

第三個案例更極端:從零做一個 15 秒介紹視頻,然后上傳到 TikTok。模型先自己設計 4 個鏡頭,再合成低頻 bass、電子音、轉場 whoosh 和 glitch 細節音效;渲染中碰到中文字體報錯,自己診斷并修復;打開 TikTok 上傳頁后,發現描述輸入框不是標準文本元素,自行分析 DOM、找到正確交互方式,填完文案、發布、點贊、評論,最后確認視頻通過審核公開上線。這個案例想說明的是:Omni 已經開始展現出閉環自主完成任務的能力——從內容生成到平臺發布,中間出了問題,自己解決。

三、MiMo-V2-TTS:給 Agent 裝上情感,被低估最久的那層體驗

第三個模型MiMo-V2-TTS,表面看起來最不"炸",但可能是最容易直接走進產品的那一個。行業這兩年幾乎所有討論都集中在推理能力、工具調用、代碼質量上,但真正到產品里,用戶接觸到的是最后那層——它怎么說話,有沒有情緒,是否自然,是不是像一個真實存在的智能體。這層體驗長期被當成錦上添花,但在終端產品里,它直接影響用戶粘性。MiMo-V2-TTS 要做的,就是把這層認真填上。官方的說法很直接:給 Agent 一個聲音,甚至給它"靈魂"。

技術上,MiMo-V2-TTS 建在小米自研的Audio Tokenizermulti-codebook joint speech-text modeling架構上,預訓練數據超過1 億小時語音數據,后續做了多維度強化學習。重點在三件事:多粒度風格控制、自然韻律還原、唱歌能力。它可以理解自由文本風格描述,比如"剛睡醒、略微沙啞"、"幾乎是耳語式的深情表達"、"憤怒但盡量克制",而不是只能從 happy/sad/angry/neutral 的下拉菜單里選。

更細的一層,是它可以在生成時同步輸出非語言事件——咳嗽、停頓、遲疑、嘆氣、笑聲等,強調的是這些信號在建模階段就和上下文一并處理,而不是后期拼進去的音效。它還支持方言和角色音色,包括東北話、四川話、粵語、臺灣普通話,以及孫悟空、林黛玉這類角色風格。目標是把一段文本表演出來,而不只是念出來。

最值得單獨說的是唱歌。官方明確寫明支持 singing voice synthesis,并表示這可能是當前首個在商業可用 API 中原生同時支持說話和唱歌的 TTS 能力。同一套架構,既能做耳語式對話,也能生成帶音高和節奏的演唱,中間不用切模型、不用切模式。對內容生產、虛擬人、陪伴型 Agent、AI 主播和短視頻工具來說,這是非常直接的能力補充。

需要說明的是,目前官方公開頁里,MiMo-V2-TTS 沒有像 Pro 和 Omni 那樣給出一套完整的 benchmark 排名表,更多展示的是能力樣例和產品方向。TTS 的質量本身就很難量化,最終檢驗只能靠真實產品里的用戶體驗。這個模型的核心命題只有一個:能不能把人機交互的體驗往上拉一個臺階。

四、寫在最后

把這三款模型放在一起看,小米在推進的目標已經超出了"能對話、會回答的大模型"范疇,落點在 Agent 時代的系統層底座。MiMo-V2-Pro 負責規劃、推理、長上下文和復雜工具鏈;MiMo-V2-Omni 負責多模態理解、界面感知和跨環境執行;MiMo-V2-TTS 負責把這一切變成自然、可持續交互的產品體驗。

有意思的是,小米這次挑的案例——自動駕駛、電商談價、短視頻生成上傳、3D 游戲搭建、方言情緒語音——幾乎全是小米自己生態里能直接落地的場景。

至于最終效果怎樣,網址在此:

https://mimo.xiaomi.com/zh

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
0-3命懸一線!火箭G3輸球4大元兇曝光,罪魁禍首無可辯駁!

0-3命懸一線!火箭G3輸球4大元兇曝光,罪魁禍首無可辯駁!

田先生籃球
2026-04-25 11:49:29
劉曉慶 75 歲聚餐照曝光!耳垂垂到嘴角,網友吵翻

劉曉慶 75 歲聚餐照曝光!耳垂垂到嘴角,網友吵翻

南萬說娛26
2026-04-26 10:26:45
清朝一個很特殊的官職,叫“道臺”,幾乎沒人能說清他是干啥的

清朝一個很特殊的官職,叫“道臺”,幾乎沒人能說清他是干啥的

抽象派大師
2026-04-24 12:23:42
兩性關系,四五十歲的女人,半推半就的時候,其實已經動情了

兩性關系,四五十歲的女人,半推半就的時候,其實已經動情了

荷蘭豆愛健康
2026-04-26 10:51:51
馬未都現身山東,身家上億卻在路邊攤喝羊湯,71歲還對瓶喝56°酒

馬未都現身山東,身家上億卻在路邊攤喝羊湯,71歲還對瓶喝56°酒

攬星河的筆記
2026-04-25 19:20:03
亨德利:艾倫這種打法拿不了冠軍!艾倫回懟:他的固執付出了代價

亨德利:艾倫這種打法拿不了冠軍!艾倫回懟:他的固執付出了代價

楊仔述
2026-04-26 11:14:19
5月1日起,抽煙、曬煙、買煙全變了!這些紅線碰了就罰

5月1日起,抽煙、曬煙、買煙全變了!這些紅線碰了就罰

李博世財經
2026-04-26 09:43:04
4月前進一小步,5月升官發大財的3生肖,未雨綢繆可堪大任!

4月前進一小步,5月升官發大財的3生肖,未雨綢繆可堪大任!

毅談生肖
2026-04-26 10:11:25
熱刺球迷:看球隊保級大戰讓我產生生理性厭惡,降級也是解脫

熱刺球迷:看球隊保級大戰讓我產生生理性厭惡,降級也是解脫

懂球帝
2026-04-26 11:20:11
又一總裁走上張雪峰老路,白天開會晚上去世,但二人結局大不相同

又一總裁走上張雪峰老路,白天開會晚上去世,但二人結局大不相同

瓦倫西亞月亮
2026-04-26 04:01:59
至今無解的3大災難:一次在印度,一次在俄國,中國的最“詭異”

至今無解的3大災難:一次在印度,一次在俄國,中國的最“詭異”

搜史君
2026-04-26 11:40:30
國乒男團名單敲定!關鍵二號位確定,王皓布陣高明球迷直呼穩了

國乒男團名單敲定!關鍵二號位確定,王皓布陣高明球迷直呼穩了

軍武英雄
2026-04-26 00:59:42
美菲軍演正酣,055直接亮劍!YJ-20試射,美軍航母這回真慌了

美菲軍演正酣,055直接亮劍!YJ-20試射,美軍航母這回真慌了

萬象森羅plus
2026-04-26 10:43:05
腿斷了、臉燒了、全家沒了,最高領袖出奇招,美以徹底傻眼

腿斷了、臉燒了、全家沒了,最高領袖出奇招,美以徹底傻眼

秋楓凋零
2026-04-26 04:30:38
國家防汛抗旱總指揮部通報2026年全國防汛抗旱責任人名單

國家防汛抗旱總指揮部通報2026年全國防汛抗旱責任人名單

界面新聞
2026-04-26 09:23:22
楊絳:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包時,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下。因為..

楊絳:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包時,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下。因為..

二胡的歲月如歌
2026-04-26 08:37:16
18歲康克清嫁43歲朱德,沒生半個親骨肉,晚年究竟憑啥讓十幾個子孫承歡膝下?

18歲康克清嫁43歲朱德,沒生半個親骨肉,晚年究竟憑啥讓十幾個子孫承歡膝下?

歷史回憶室
2026-04-23 22:43:15
5月1日起廣州早茶正式立法!去茶樓飲茶,這幾件事一定要留心

5月1日起廣州早茶正式立法!去茶樓飲茶,這幾件事一定要留心

房產衫哥
2026-04-26 03:13:51
球迷與勒布朗·詹姆斯在湖人隊的尷尬瞬間:球迷意外“撞臉”

球迷與勒布朗·詹姆斯在湖人隊的尷尬瞬間:球迷意外“撞臉”

好火子
2026-04-26 00:47:02
特朗普遭背刺,向全球宣布一件與中國有關大事,中方:日本沒資格

特朗普遭背刺,向全球宣布一件與中國有關大事,中方:日本沒資格

說宇宙
2026-04-26 11:15:03
2026-04-26 12:12:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

數碼要聞

京東“Aidol創造營”計劃正式啟動 面向全球孵化101個AI硬件新物種

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

親子
藝術
時尚
本地
手機

親子要聞

媽媽記錄下寶寶的第一次擁抱,最幸福的瞬間

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

伊姐周六熱推:電視劇《方圓八百米》;電視劇《金關》......

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

手機要聞

姚安娜喜提華為Pura X Max 網友:又美又颯

無障礙瀏覽 進入關懷版