![]()
新智元報道
![]()
【新智元導讀】全球第一!中國AI語音ViiTorVoice首創「局部編輯」神技:配音錯字告別重錄,像改Word一樣修語音。內附姆巴佩、哈蘭德爆笑實測,快來見證!
中國AI,登頂全球第一!
最近,在全球語音權威評測榜單 Seed-TTS 上,突然殺出了一匹令人膽寒的黑馬。
它就是ViiTorVoice 。
這個憑空出世的中國模型,將 Qwen3-TTS、CosyVoice3、Fish Audio 等一眾主流巨頭挑落馬下,徑直登頂綜合排名第一!
![]()
憑借英文詞錯率(WER)1.32、中文詞錯率0.99的恐怖數據,它一舉擊穿了行業的極限天花板,成為當前評測體系中,全球首個中文詞錯率突破 1.0 大關的里程碑模型。
這個登上榜首的AI語音大模型ViiTorVoice,來自國產公司云上曲率。它終結了長久以來的行業痛點:語音無法局部編輯。
這個全球首個具備「局部編輯」能力的AI,將徹底改變了整個行業!
![]()
Hugging Face Demo: https://huggingface.co/spaces/ZzWater/ViiTorVoice
GitHub: https://github.com/viitor-ai/viitor-voice-nar
模型權重: https://huggingface.co/ZzWater/ViiTorVoice-NAR
實測:怕餓暈找哈蘭德
所以,ViiTorVoice的上手效果究竟如何?
我們用它做了一些實測,看看它到底能不能扛住整活界的考驗。
![]()
實測一:哈蘭德的最新梗——挪威隊伙食不夠了
昨天,全網都被這條新聞笑噴了。
挪威隊參加世界杯,帶了3名主廚去美國,還從本國空運食材,就為了喂飽哈蘭德。網友熱評:哈蘭德一個人吃掉了挪威隊的伙食預算。
我們立刻整活,找來最近哈蘭德最火的廣告,用ViiTorVoice把原廣告詞變成了:「哈蘭德要一頭牛,怕餓暈找哈蘭德」。
![]()
結果讓人笑瘋了。ViiTorVoice新生成的這幾個字,不僅音色跟哈蘭德一模一樣,還完美保留了他那種低沉的嗓音特質。
前后的呼吸節奏和重音分布做到天衣無縫,新版廣告一出,效果絕了。
實測二:姆巴佩的「補水啦」,無縫植入任何正經場景
最近,姆巴佩廣告中那句魔性的「補水啦~ 」已經洗腦了無數網友。
![]()
那語調、那尾音上揚的「啦~」,堪稱2026年度鬼畜區預備役素材。
我們用ViiTorVoice直接把其中的臺詞替換成「我駕馭未來,補水啦~ 」。
結果非常搞笑,ViiTorVoice生成的「補水啦~」三個字,完美繼承了原廣告里魔性調調,尾音上揚的程度絲毫不差。
最絕的是,它還被無縫融合進了汽車廣告那種低沉穩重的旁白節奏里,前后語句在呼吸氣口和背景底噪上,完全看不出拼接痕跡。
另外,網站上還有個「AI會說話的照片」功能。
那就讓哈蘭德向我們吐露一下心聲,為什么在賽場上急得想吃人。
就如本文開頭所說,在真實環境中,更耗費時間的往往不是第一次生成,而是后期修改。
比如短劇已經完成配音,上線前發現角色人名需要調整;廣告文案臨時修改了產品名稱;課程內容更新了一個專業術語。
重新生成一句新的配音并不難,真正耗時耗力的,是如何讓修改后的內容與原有音頻保持一致,尤其在音色、情緒銜接、停頓突兀、時間軸同步這些細節上。
ViiTorVoice推出的片段級編輯能力,就解決了上述難題——你可以任意替換某個詞、某句話、某個片段。
從此,內容創作、廣告營銷、短劇配音、有聲書制作等全體語音生產工作流,都被徹底改變!
而且,ViiTor的網站上,還有多種實用功能。
比如這個視頻配音功能,讓鸚鵡小弟給黑道大哥講冷笑話,直接給它干崩潰了,語音效果自然逗趣,是網上玩梗的好素材。
下面是一對貓狗在分享對付人類的秘訣,輕松幽默的場景,非常適合替換臺詞,創作寵物擬人化的搞笑視頻。
權威評測領先,多語種語音達到行業先進水平
為什么ViiTorVoice會有如此驚艷的效果?成績來說話。
就如開頭所提,它的基準測試成績單十分亮眼。
在當前業界最嚴苛、公認度最高的 TTS 標準評測 Seed-TTS 中,ViiTorVoice 交出了一份驚艷的成績:英文詞錯率1.32,中文詞錯率0.99。
特別值得一提的是,ViiTorVoice 在中文詞錯率(WER)指標上取得當前公開評測最佳成績,在發音準確性和語義還原能力方面達到行業領先水平,為實時語音交互、視頻配音和Agent場景提供更可靠的語音基礎設施。
至此,它全面超越了包括 Qwen3-TTS、CosyVoice3、Fish Audio 等在內的主流競品。
錯詞率降到 1.0 以下,就意味著它極度穩定、幾乎不存在幻覺。而在如此恐怖的穩定性之上,ViiTorVoice 還帶來了市場上任何一家商業化產品都不具備的獨門絕技。
語音編輯:哪里不對改哪里
ViiTorVoice 最具顛覆性的核心能力,就是片段級定向編輯。
正如前文所述,行業內現有的 TTS 方案,無論是開源還是閉源,基本范式都是「整段重新生成」。
但 ViiTorVoice 實現了真正的局部修改:你可以指定某一個詞、某一個短語進行獨立重新生成,而音頻的其他所有部分——包括音色、節奏、背景底噪、前后文的情感連貫性,全部保持絕對穩定!
![]()
舉個直觀的例子。
在 ViiTor 官方提供的 Demo 中,一段英文演講音頻,如果你把其中的部分詞句改成其他詞,重新生成后,那股特有的拖音、演講時的呼吸節奏、獨特的情緒起伏,完全一模一樣,只有那個單詞被「無縫替換」了。
影視制作、有聲書錄制、短劇出海,再也不需要因為改了一句臺詞而重錄整集。
這對于影視后期而言,尤其具有革命性意義——因為它第一次將對白調整從「重資產、長周期的補錄流程」解放為「非線性時間線上的實時編輯」,讓導演的創作意圖得以實現。
在有聲書錄制中,如果錄錯專有名詞或口誤時,無需重錄整章,只需定向修改那一兩秒的音頻即可。幾十小時的有聲劇,后期修音時間能從幾天壓縮到幾十分鐘,且音色與呼吸節奏始終保持一致。
對于短劇出海,這個功能就更是意義重大,它解決了多語言版本「重錄成本高、周期長」的痛點,無需重新召集配音演員進棚。制作方只需在原始錄音上替換特定用詞,即可產出多個語言版本,每版聽感都像原生表演。
這種能力是如何實現的?這要歸功于 ViiTor 團隊在底層架構上做出的一種「反常識」的選擇。
為什么只有它,能做到局部編輯?
當今市面上最火的語音模型(比如 CosyVoice 等),大多采用的是 AR(自回歸) 架構。
自回歸模型的特點是「逐幀生成」,也就是預測下一個 Token 是什么。
這種模式的好處是順理成章,但致命弱點在于:它無法做到局部編輯。
因為當你改變中間的一個詞時,由于自回歸的鏈式反應,后續所有的 Token 都會發生改變。
此外,逐幀生成也導致了自回歸模型的推理延遲偏高,且容易在長文本中出現瑕疵。
為了攻克這個壁壘,ViiTor 團隊毅然選擇了難度極高的 NAR(非自回歸) 架構。
研發團隊用了一個精妙比喻,來解釋他們的技術路徑——「完形填空」。
ViiTor 使用的是類似于 Masked LM的方式。
當用戶需要修改音頻中間的 2-3 秒時,系統不需要從頭算起。它會將這需要修改的部分「挖空」,然后模型會根據這段音頻前面和后面的上下文,精準填補空缺。
正因為模型能夠「同時看到前后文」,它填進去的這個詞,不僅音色絕對一致,連前后情緒的銜接也能做到天衣無縫。
同時,非自回歸架構帶來了另一個巨大的紅利:極速的推理效率。
由于可以同時生成所有時間點的Token,ViiTorVoice 的首幀延遲被極大壓縮。在同等體量下,其他模型的延遲往往在 150ms-200ms 左右,而 ViiTor 的端到端首幀生成時間做到了 60 毫秒以內。
結合團隊在推理結構和算子層面的深度定制優化,以及一致性蒸餾(將推理步數從 32 步大幅壓縮至 4 步或 8 步),使得該模型在海量高并發環境下,依然能保持極低的計算成本。
告別「AI味」:精準情緒控制
很多人在刷短視頻時都有一個痛點:只要一聽到那種千篇一律、缺乏生氣的AI 機器音,就會立刻劃走,甚至產生生理性惡心。
人類的語言之所以生動,不僅僅是因為說了什么字,更因為包含了大量的副語言信息——呼吸、氣口、笑聲、嘆氣、猶豫、甚至是微弱的哭腔。
現有的 TTS 模型大多只能解決「說什么」的問題,而 ViiTor 卻著重解決了「怎么說」的問題,實現了令人驚嘆的副語言感知與控制能力!
它不需要你在提示詞里寫上長篇大論的情感描述,而是可以通過插入特殊 Token(比如笑聲、嘆氣),實現詞級別的精準控制。
甚至同樣是生氣,模型未來還能區分是暴怒還是隱忍的憤怒,還能精準控制重音、弱讀。
為了做到如此細膩的控制,ViiTor 引入了在圖像生成領域大放異彩的 CFG 技術應用在音頻推理中。
在生成特定情緒或笑聲時,模型在推理時會同時走兩條路徑——
條件路徑: 必須生成笑聲。
非條件路徑: 正常生成,不管笑聲。
通過將這兩條路徑的 Logits 做差值,模型能夠極大地強化笑聲這個條件的權重。
實測發現,這種機制的成功率和自然度,遠遠高于傳統模型僅靠自然語言去控制的效果。
這就是 ViiTor 在技術路線上與 ElevenLabs 等主流方案的根本差異,也是當前競爭格局下難以快速復制的核心壁壘。
無參考文本克隆:短劇出海的降維打擊
除了編輯和情緒控制,ViiTorVoice 還有一項絕殺技:首個可編輯、無參考文本(Zero-Shot)的跨語種語音克隆。
傳統的語音克隆,你需要提供一段說話人的音頻,以及對應的準確文字內容。模型本質上是在做「續寫」。
但在真實的商業場景中,這會遇到巨大的阻礙。比如短劇出海到巴西、中東,這些小語種(如葡萄牙語、阿拉伯語)的語音轉文字模型準確率較低,讓傳統克隆直接失敗。
ViiTorVoice的選擇是,直接甩開了文本的拐杖!
在訓練階段,團隊刻意丟棄了文本信息,逼迫模型直接從音頻的聲學特征中去學習說話人的發音習慣、音色和口癖。
結果就是:你只需要上傳一段純音頻,模型就能自動提取音色,并用這個音色生成中、英、日、韓等多個語種的內容。
這對于當前火爆的短劇出海、游戲配音、電影解說來說,無疑是降維打擊!
不少國內頭部企業,已經成為這家公司的合作客戶。
目前,在真實的付費生產環境中,ViiTor每天已穩定處理數十萬小時音頻,形成成熟的商業模式。
開源與商業化并進,擁抱開發者生態
而且非常可貴的是,面對如此強大的技術壁壘,ViiTor 團隊展現出了極大的開放格局。
目前,ViiTorVoice-NAR 已經正式開源了其 1B 左右參數量的模型,開發者可以直接在 GitHub 和 Hugging Face 上獲取包含 Qwen3 Forced Aligner、W2V-BERT 2.0 在內的完整本地模型組件,自由探索語音克隆、局部編輯和情感控制的無限可能。
AI 語音的發展,正在從能說話到說得像人,再到今天可以像剪輯文字一樣剪輯聲音。
ViiTorVoice 的出現,不僅是中國 AI 團隊在技術創新上的一次重大勝利,更是內容創作工作流的一次革命。
當聲音不再是一次性渲染的消耗品,而是可以被無縫編輯、注入靈魂的數字資產時,創作者的想象力,將不再受限于眼前的錄音設備。
在這個 AI 日新月異的時代,ViiTor 已經替所有創作者,推開了下一個時代的大門。
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.