5月28日,全球AI評測平臺Artificial Analysis發布最新一期語音排行榜Speech Arena。阿里巴巴語音大模型Fun-Realtime-TTS-Preview以1190分的Elo評分位列全球第五、國產第一,在ASR、TTS和端到端語音對話Chat三個賽道均拿下國內榜首。
Artificial Analysis采用盲測Elo評分機制,用戶在不知道模型身份的情況下對多段語音進行聽感判斷,覆蓋客服、知識分享、數字助手等真實場景。
目前在榜單上排在前面的模型包括Inworld的Realtime TTS 15 Max、Google的Gemini 31 Flash TTS等。
緊隨阿里之后的是階躍星辰的StepAudio 2.5 TTS,以1187分位列全球第六。整體來看,國產語音模型已占據榜單前列多個席位,競爭激烈程度持續攀升。
技術層面,阿里這款模型采用新型流式生成架構,在保持128ms超低延遲的同時,通過動態注意力機制控制聲調韻律,語音合成速度較傳統方案提升約5倍。作為“Preview”版本,其產品化程度和穩定性仍需在實際部署中進一步驗證。
此前阿里語音家族另一成員Fun-Realtime-ASR的詞錯誤率低至1.8%,支持30多種語言和7種中文方言,但這些特性尚未全部復用到Fun-Realtime-TTS-Preview上。
從行業格局看,AliExpress已集成該模型提供多語言實時翻譯功能,釘釘和高德地圖也在日常場景中使用其語音技術。
與此同時,階躍星辰剛發布的StepAudio 2.5系列覆蓋TTS、ASR和Realtime全鏈路,意欲在語音交互市場追趕阿里;國際廠商ElevenLabs和Cartesia則在語音克隆、情感表達等垂直能力上更具優勢。云端接口的穩定性和企業定制成本,仍是各廠商需要持續優化的環節。
語音技術正在從實驗室實驗走向真實場景壓力測試。大模型架構開始取代傳統統計方法,將語音識別、語義理解、語音生成統一在Transformer架構下,形成從感知到認知的技術閉環。
但自然度97%和真人語調仍有感知差距,嘈雜環境下的識別準確率和系統延遲等方面同樣存在改善空間。能否在保持高分的同時,將成本壓縮到可大規模商用的水平,才是各廠商下一階段的關鍵課題。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.