IT之家 4 月 24 日消息,小米今日正式發布 MiMo-V2.5-TTS Series 與 MiMo-V2.5-ASR —— 一套面向 Agent 時代的全鏈路語音模型系列,覆蓋識別與合成兩大核心能力,讓語音的輸入與輸出都可以被語言自由調度。
![]()
IT之家從官方介紹獲悉,MiMo-V2.5-TTS Series 包含三款模型,現已登陸小米 MiMo 開放平臺,并且限時免費。三者共享統一的風格指令遵循、音頻標簽控制與文本理解能力,讓聲音表現可以被語言精細調度,分別覆蓋三種典型創作需求:
- MiMo-V2.5-TTS:內置多款高質量精品音色,支持語速、情緒、語氣等精細化控制,開箱即用,滿足多場景表達。
- MiMo-V2.5-TTS-VoiceDesign:一句話快速定義并生成全新音色,讓音色創作更直觀、更高效。
- MiMo-V2.5-TTS-VoiceClone:少量樣本高保真復刻目標音色,同時保持穩定的風格指令遵循與音頻標簽控制能力。
- MiMo-V2.5-ASR 正式開源。模型在中英雙語、中文方言、Code-Switch、強噪音、多說話人等復雜真實場景下的語音識別性能達到業界領先水平,為 Agent 提供清晰可靠的語音轉寫,確保每一次交互都建立在精準的理解之上。
MiMo-V2.5-TTS
精準的風格指令遵循能力
從簡短的單句指令,到一整份導演筆記,模型都能穩定理解并遵循,覆蓋情緒、語氣、語速、發聲方式、語言風格等多個維度。指令不必寫成結構化參數 —— 像給演員說戲一樣把想要的感覺描述出來,模型就會落到對應的演繹之中。
對于一致性要求更高的場景 —— 有聲劇、游戲 NPC、角色化對話等 —— 模型還支持導演劇本級的結構化輸入:把人物、場景、詳細指導分層描述,各層按自己的節奏獨立更新、自由組合。這種分層既讓角色的音色身份貫穿始終,也讓每一句話的表演都能被單獨控制。
靈活的音頻標簽控制能力
除了段落級的自然語言指令,模型還支持行內音頻標簽,用于在文本特定位置精準控制情緒、狀態或風格。標簽支持中英雙語和開放文本描述,允許在同一段文本中靈活混用。從簡單的情感標注,到多標簽疊加、細粒度排布的復雜編排,模型都能穩定表達,在標簽的表達力和組合穩定性上均有出色表現。
豐富的文本理解能力
即便沒有任何 prompt,也沒有任何標簽 —— 就是一段最普通的文本 —— 模型也能直接表現出其中的韻律與情感。標點的停頓、句式的起伏,會被自然呈現;文本中暗藏的情感弧線,從平靜敘述到激烈轉折,模型能主動捕捉;甚至連字里行間透露出的說話人身份(年齡、氣質、角色類型),也會自動落到聲音里。換句話說:最樸素的純文本,交給它,也能還你一段有血有肉的演繹。
MiMo-V2.5-ASR
如果說 TTS 是在“輸出”端讓聲音成為創作工具,那么 ASR 就是在“輸入”端為這一切打開大門。在真實場景下,語種切換、背景噪聲、說話人帶著濃重的方言口音,在這樣的環境里還能聽清、聽準,才是真正好用的語音識別。
MiMo-V2.5-ASR 作為全鏈路語音模型系列的聽覺基座,在中英雙語、中文方言、Code-Switch、強噪音、多說話人、高知識密度等復雜真實場景下均達到業界領先水平。它不只是為了把清晰的語音轉成文字,更是讓 Agent 在嘈雜的真實聲音里,抓住每一個值得被理解的字詞。
核心特點
- 中文方言:支持吳語、粵語、閩南語、四川話等方言
- 英文復雜場景:在 AMI 等復雜英文場景 Open ASR Leaderboard 上達到領先水平
- Code-Switch:中英 Code-Switch 語音轉錄自由流暢,無需預設語種標簽
- 歌曲識別:中英文歌曲歌詞識別,在伴奏與人聲混合場景下保持高精度
- 強噪音場景:在高噪音、遠場拾音等復雜聲學環境中保持魯棒識別
- 多說話人:支持多人交叉對話場景的準確轉錄,如會議場景
- 強知識關聯:古詩詞、專業術語、人名、地名等知識密集型內容的精準識別
- 原生標點:結合語音韻律與語義原生輸出標點,轉寫結果即拿即用,無需后處理
MiMo-V2.5-ASR 在中英文通用、中文方言、Code-Switch 及歌詞識別等多個維度上均取得當前最優或極具競爭力的結果,展現出跨場景、跨語種的穩定優勢。以下為代表性評測結果:
![]()
如何使用
MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign、MiMo-V2.5-TTS-VoiceClone 均在 Xiaomi MiMo API 開放平臺限時免費,同時,用戶可以到 Xiaomi MiMo Studio 進行快速體驗。
MiMo-V2.5-ASR 目前已開源模型權重和代碼,支持開發者和研究者直接使用或二次開發。
![]()
參考
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.