網易首頁 > 網易號 > 正文申請入駐

全球第一！中國模型登頂榜首，首個可編輯AI語音來了

2026-07-02 13:27:07　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導讀】全球第一！中國AI語音ViiTorVoice首創「局部編輯」神技：配音錯字告別重錄，像改Word一樣修語音。內附姆巴佩、哈蘭德爆笑實測，快來見證！

中國AI，登頂全球第一！

最近，在全球語音權威評測榜單 Seed-TTS 上，突然殺出了一匹令人膽寒的黑馬。

它就是ViiTorVoice 。

這個憑空出世的中國模型，將 Qwen3-TTS、CosyVoice3、Fish Audio 等一眾主流巨頭挑落馬下，徑直登頂綜合排名第一！

憑借英文詞錯率（WER）1.32、中文詞錯率0.99的恐怖數據，它一舉擊穿了行業的極限天花板，成為當前評測體系中，全球首個中文詞錯率突破 1.0 大關的里程碑模型。

這個登上榜首的AI語音大模型ViiTorVoice，來自國產公司云上曲率。它終結了長久以來的行業痛點：語音無法局部編輯。

這個全球首個具備「局部編輯」能力的AI，將徹底改變了整個行業！

Hugging Face Demo： https://huggingface.co/spaces/ZzWater/ViiTorVoice

GitHub： https://github.com/viitor-ai/viitor-voice-nar

模型權重： https://huggingface.co/ZzWater/ViiTorVoice-NAR

實測：怕餓暈找哈蘭德

所以，ViiTorVoice的上手效果究竟如何？

我們用它做了一些實測，看看它到底能不能扛住整活界的考驗。

實測一：哈蘭德的最新梗——挪威隊伙食不夠了

昨天，全網都被這條新聞笑噴了。

挪威隊參加世界杯，帶了3名主廚去美國，還從本國空運食材，就為了喂飽哈蘭德。網友熱評：哈蘭德一個人吃掉了挪威隊的伙食預算。

我們立刻整活，找來最近哈蘭德最火的廣告，用ViiTorVoice把原廣告詞變成了：「哈蘭德要一頭牛，怕餓暈找哈蘭德」。

結果讓人笑瘋了。ViiTorVoice新生成的這幾個字，不僅音色跟哈蘭德一模一樣，還完美保留了他那種低沉的嗓音特質。

前后的呼吸節奏和重音分布做到天衣無縫，新版廣告一出，效果絕了。

實測二：姆巴佩的「補水啦」，無縫植入任何正經場景

最近，姆巴佩廣告中那句魔性的「補水啦~ 」已經洗腦了無數網友。

那語調、那尾音上揚的「啦~」，堪稱2026年度鬼畜區預備役素材。

我們用ViiTorVoice直接把其中的臺詞替換成「我駕馭未來，補水啦~ 」。

結果非常搞笑，ViiTorVoice生成的「補水啦~」三個字，完美繼承了原廣告里魔性調調，尾音上揚的程度絲毫不差。

最絕的是，它還被無縫融合進了汽車廣告那種低沉穩重的旁白節奏里，前后語句在呼吸氣口和背景底噪上，完全看不出拼接痕跡。

另外，網站上還有個「AI會說話的照片」功能。

那就讓哈蘭德向我們吐露一下心聲，為什么在賽場上急得想吃人。

就如本文開頭所說，在真實環境中，更耗費時間的往往不是第一次生成，而是后期修改。

比如短劇已經完成配音，上線前發現角色人名需要調整；廣告文案臨時修改了產品名稱；課程內容更新了一個專業術語。

重新生成一句新的配音并不難，真正耗時耗力的，是如何讓修改后的內容與原有音頻保持一致，尤其在音色、情緒銜接、停頓突兀、時間軸同步這些細節上。

ViiTorVoice推出的片段級編輯能力，就解決了上述難題——你可以任意替換某個詞、某句話、某個片段。

從此，內容創作、廣告營銷、短劇配音、有聲書制作等全體語音生產工作流，都被徹底改變！

而且，ViiTor的網站上，還有多種實用功能。

比如這個視頻配音功能，讓鸚鵡小弟給黑道大哥講冷笑話，直接給它干崩潰了，語音效果自然逗趣，是網上玩梗的好素材。

下面是一對貓狗在分享對付人類的秘訣，輕松幽默的場景，非常適合替換臺詞，創作寵物擬人化的搞笑視頻。

權威評測領先，多語種語音達到行業先進水平

為什么ViiTorVoice會有如此驚艷的效果？成績來說話。

就如開頭所提，它的基準測試成績單十分亮眼。

在當前業界最嚴苛、公認度最高的 TTS 標準評測 Seed-TTS 中，ViiTorVoice 交出了一份驚艷的成績：英文詞錯率1.32，中文詞錯率0.99。

特別值得一提的是，ViiTorVoice 在中文詞錯率（WER）指標上取得當前公開評測最佳成績，在發音準確性和語義還原能力方面達到行業領先水平，為實時語音交互、視頻配音和Agent場景提供更可靠的語音基礎設施。

至此，它全面超越了包括 Qwen3-TTS、CosyVoice3、Fish Audio 等在內的主流競品。

錯詞率降到 1.0 以下，就意味著它極度穩定、幾乎不存在幻覺。而在如此恐怖的穩定性之上，ViiTorVoice 還帶來了市場上任何一家商業化產品都不具備的獨門絕技。

語音編輯：哪里不對改哪里

ViiTorVoice 最具顛覆性的核心能力，就是片段級定向編輯。

正如前文所述，行業內現有的 TTS 方案，無論是開源還是閉源，基本范式都是「整段重新生成」。

但 ViiTorVoice 實現了真正的局部修改：你可以指定某一個詞、某一個短語進行獨立重新生成，而音頻的其他所有部分——包括音色、節奏、背景底噪、前后文的情感連貫性，全部保持絕對穩定！

舉個直觀的例子。

在 ViiTor 官方提供的 Demo 中，一段英文演講音頻，如果你把其中的部分詞句改成其他詞，重新生成后，那股特有的拖音、演講時的呼吸節奏、獨特的情緒起伏，完全一模一樣，只有那個單詞被「無縫替換」了。

影視制作、有聲書錄制、短劇出海，再也不需要因為改了一句臺詞而重錄整集。

這對于影視后期而言，尤其具有革命性意義——因為它第一次將對白調整從「重資產、長周期的補錄流程」解放為「非線性時間線上的實時編輯」，讓導演的創作意圖得以實現。

在有聲書錄制中，如果錄錯專有名詞或口誤時，無需重錄整章，只需定向修改那一兩秒的音頻即可。幾十小時的有聲劇，后期修音時間能從幾天壓縮到幾十分鐘，且音色與呼吸節奏始終保持一致。

對于短劇出海，這個功能就更是意義重大，它解決了多語言版本「重錄成本高、周期長」的痛點，無需重新召集配音演員進棚。制作方只需在原始錄音上替換特定用詞，即可產出多個語言版本，每版聽感都像原生表演。

這種能力是如何實現的？這要歸功于 ViiTor 團隊在底層架構上做出的一種「反常識」的選擇。

為什么只有它，能做到局部編輯？

當今市面上最火的語音模型（比如 CosyVoice 等），大多采用的是 AR（自回歸）架構。

自回歸模型的特點是「逐幀生成」，也就是預測下一個 Token 是什么。

這種模式的好處是順理成章，但致命弱點在于：它無法做到局部編輯。

因為當你改變中間的一個詞時，由于自回歸的鏈式反應，后續所有的 Token 都會發生改變。

此外，逐幀生成也導致了自回歸模型的推理延遲偏高，且容易在長文本中出現瑕疵。

為了攻克這個壁壘，ViiTor 團隊毅然選擇了難度極高的 NAR（非自回歸）架構。

研發團隊用了一個精妙比喻，來解釋他們的技術路徑——「完形填空」。

ViiTor 使用的是類似于 Masked LM的方式。

當用戶需要修改音頻中間的 2-3 秒時，系統不需要從頭算起。它會將這需要修改的部分「挖空」，然后模型會根據這段音頻前面和后面的上下文，精準填補空缺。

正因為模型能夠「同時看到前后文」，它填進去的這個詞，不僅音色絕對一致，連前后情緒的銜接也能做到天衣無縫。

同時，非自回歸架構帶來了另一個巨大的紅利：極速的推理效率。

由于可以同時生成所有時間點的Token，ViiTorVoice 的首幀延遲被極大壓縮。在同等體量下，其他模型的延遲往往在 150ms-200ms 左右，而 ViiTor 的端到端首幀生成時間做到了 60 毫秒以內。

結合團隊在推理結構和算子層面的深度定制優化，以及一致性蒸餾（將推理步數從 32 步大幅壓縮至 4 步或 8 步），使得該模型在海量高并發環境下，依然能保持極低的計算成本。

告別「AI味」：精準情緒控制

很多人在刷短視頻時都有一個痛點：只要一聽到那種千篇一律、缺乏生氣的AI 機器音，就會立刻劃走，甚至產生生理性惡心。

人類的語言之所以生動，不僅僅是因為說了什么字，更因為包含了大量的副語言信息——呼吸、氣口、笑聲、嘆氣、猶豫、甚至是微弱的哭腔。

現有的 TTS 模型大多只能解決「說什么」的問題，而 ViiTor 卻著重解決了「怎么說」的問題，實現了令人驚嘆的副語言感知與控制能力！

它不需要你在提示詞里寫上長篇大論的情感描述，而是可以通過插入特殊 Token（比如笑聲、嘆氣），實現詞級別的精準控制。

甚至同樣是生氣，模型未來還能區分是暴怒還是隱忍的憤怒，還能精準控制重音、弱讀。

為了做到如此細膩的控制，ViiTor 引入了在圖像生成領域大放異彩的 CFG 技術應用在音頻推理中。

在生成特定情緒或笑聲時，模型在推理時會同時走兩條路徑——

條件路徑：必須生成笑聲。

非條件路徑：正常生成，不管笑聲。

通過將這兩條路徑的 Logits 做差值，模型能夠極大地強化笑聲這個條件的權重。

實測發現，這種機制的成功率和自然度，遠遠高于傳統模型僅靠自然語言去控制的效果。

這就是 ViiTor 在技術路線上與 ElevenLabs 等主流方案的根本差異，也是當前競爭格局下難以快速復制的核心壁壘。

無參考文本克隆：短劇出海的降維打擊

除了編輯和情緒控制，ViiTorVoice 還有一項絕殺技：首個可編輯、無參考文本（Zero-Shot）的跨語種語音克隆。

傳統的語音克隆，你需要提供一段說話人的音頻，以及對應的準確文字內容。模型本質上是在做「續寫」。

但在真實的商業場景中，這會遇到巨大的阻礙。比如短劇出海到巴西、中東，這些小語種（如葡萄牙語、阿拉伯語）的語音轉文字模型準確率較低，讓傳統克隆直接失敗。

ViiTorVoice的選擇是，直接甩開了文本的拐杖！

在訓練階段，團隊刻意丟棄了文本信息，逼迫模型直接從音頻的聲學特征中去學習說話人的發音習慣、音色和口癖。

結果就是：你只需要上傳一段純音頻，模型就能自動提取音色，并用這個音色生成中、英、日、韓等多個語種的內容。

這對于當前火爆的短劇出海、游戲配音、電影解說來說，無疑是降維打擊！

不少國內頭部企業，已經成為這家公司的合作客戶。

目前，在真實的付費生產環境中，ViiTor每天已穩定處理數十萬小時音頻，形成成熟的商業模式。

開源與商業化并進，擁抱開發者生態

而且非常可貴的是，面對如此強大的技術壁壘，ViiTor 團隊展現出了極大的開放格局。

目前，ViiTorVoice-NAR 已經正式開源了其 1B 左右參數量的模型，開發者可以直接在 GitHub 和 Hugging Face 上獲取包含 Qwen3 Forced Aligner、W2V-BERT 2.0 在內的完整本地模型組件，自由探索語音克隆、局部編輯和情感控制的無限可能。

AI 語音的發展，正在從能說話到說得像人，再到今天可以像剪輯文字一樣剪輯聲音。

ViiTorVoice 的出現，不僅是中國 AI 團隊在技術創新上的一次重大勝利，更是內容創作工作流的一次革命。

當聲音不再是一次性渲染的消耗品，而是可以被無縫編輯、注入靈魂的數字資產時，創作者的想象力，將不再受限于眼前的錄音設備。

在這個 AI 日新月異的時代，ViiTor 已經替所有創作者，推開了下一個時代的大門。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

國產巨頭追趕Claude Code！阿里/騰訊/字節都聚齊了

雷科技 2026-07-02 10:47:07
1 跟貼 1
一個開源平臺，編織起了Agent「互聯網」

機器之心Pro 2026-07-02 12:02:36
0 跟貼 0

精打細算的AI時代到來了

鈦媒體APP 2026-07-02 10:55:18
0 跟貼 0

GaussianDWM：用3D高斯表示統一自動駕駛場景理解與多模態生成

機器之心Pro 2026-06-14 19:24:09
0 跟貼 0
跨會話不再「失憶」：openJiuwen社區開源 AutoGenetic Memory

機器之心Pro 2026-07-02 12:30:04
0 跟貼 0

美銀：Meta賣算力，意在講好AI投資回報故事

華爾街見聞官方 2026-07-02 15:37:27
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0

AI 伴讀引導獨立思辨猿輔導AI大閱讀正式上線

財聯社 2026-07-02 14:57:07
0 跟貼 0
新雙驕對決大戲被緊急調整，哈蘭德換新劇本一路通關？

Leslie潘偉力 2026-06-29 19:03:18
0 跟貼 0
挪威成功晉級世界杯16強哈蘭德頭戴維京牛角頭盔慶祝

RT今日俄羅斯 2026-07-01 18:05:25
13 跟貼 13
這狗糧我吃了！哈蘭德看臺擁抱女友

咪咕體育 2026-07-01 08:01:59
52 跟貼 52
哈蘭德父子32年之約當夢想跨越了32年，足球便有了最動人的意義！

咪咕體育 2026-07-02 06:03:31
11 跟貼 11
哈蘭德的逆天進球，腳抬起來都超過別人的頭頂

肆無忌憚的哭 2026-06-30 04:12:42
0 跟貼 0
挪威2比1戰勝科特迪瓦，哈蘭德絕殺進球，維京戰船晉級十六強！

左腳爆射得分 2026-07-01 13:04:53
0 跟貼 0
2-1后，世界杯上演震撼一幕！哈蘭德頭戴牛角盔，球迷劃槳慶祝

足球評論大家談 2026-07-01 07:15:00
438 跟貼 438
哈蘭德食量太夸張！挪威3名主廚全程待命，定制魔人高熱量營養餐

籃球過人技巧 2026-07-02 09:24:13
2 跟貼 2
最后時刻拯救球隊！哈蘭德空門吃餅推射絕殺科特迪瓦，挪威成功挺進16強

咪咕體育 2026-07-01 06:01:27
253 跟貼 253
世界杯再現震撼一幕！挪威球員和球迷一起劃槳慶祝，哈蘭德指揮

足球評論大家談 2026-07-02 08:05:14
0 跟貼 0
哈蘭德回應對戰五星巴西！直言兩隊差距懸殊，低調務實顯謙遜格局

籃球過人技巧 2026-07-01 18:08:49
1 跟貼 1
哈蘭德又上演名場面！激動人心！

我很乖 2026-07-02 02:38:30
8 跟貼 8
這絕對是哈蘭德最暴力的進球方式！

精彩背后的故事 2026-07-01 11:30:39
1 跟貼 1
哈蘭德這小伙子會做人！劉建宏稱贊哈蘭德人品，據說離開多特前送了所有人一塊價值不菲的手表！

咪咕體育 2026-07-02 06:04:54
6 跟貼 6
媽媽禮貌詢問能否錄音給爸爸聽，當然可以，我讓他們幫你錄個視頻

協和手足外科陳江海 2026-07-02 14:00:00
0 跟貼 0
7月1日凌晨1:00，科特迪瓦迎戰挪威，哈蘭德劍指金靴

咪咕體育 2026-06-30 21:03:02
0 跟貼 0
太會整活了！哈蘭德絕殺，甲亢哥模仿哈寶打坐慶祝動作

貓熊說體育 2026-07-01 05:26:37
3 跟貼 3
哈蘭德女友居然專門給中國球迷發感謝？我傻了

攜手游人間a 2026-07-01 23:03:46
1 跟貼 1
看哈蘭德踢球，總感覺他和這首歌比較搭

香香談談看 2026-07-02 11:57:00
1 跟貼 1
從答題到做實驗：SciAgentGym讓大模型進入科學工作流

機器之心Pro 2026-07-02 13:02:57
0 跟貼 0
事以密成言以泄敗

彬彬有理Li 2026-07-02 13:56:45
3 跟貼 3
世界杯墻頭草場面！甲亢哥藏挪威球衣，哈蘭德破門換裝秒變狂熱粉

籃球過人技巧 2026-07-02 09:27:04
1 跟貼 1
哈蘭德食譜曝光，每天攝入6000卡路里！有人想模仿

中國日報 2026-07-02 12:33:38
1 跟貼 1
哈蘭德VS凱恩！全方位PK！誰是世界第一中鋒？

足球故事GOAL 2026-07-02 11:23:36
0 跟貼 0
被人當眾羞辱時，默默打開手機錄音，對方瞬間慌了神再不敢造次

墨染塵香 2026-06-29 09:42:39
0 跟貼 0
哈蘭德夸夸群群主上線

咪咕體育 2026-06-30 10:32:20
0 跟貼 0
我來中國是為了錢：不是為了紅，李凱馨錄音曝光了！

離譜見聞收集社 2026-07-02 09:08:28
0 跟貼 0
原來那通深夜打來的電話，不是求救，而是兇手精心設計的一步

老紅點評社 2026-07-01 15:38:03
0 跟貼 0
新刊｜第942期《足球周刊》上市！

足球周刊 2026-07-02 15:51:23
0 跟貼 0
TTS新傳考研名詞解釋：隱私疲勞

禿頭研究所新傳考研 2026-06-29 22:10:48
0 跟貼 0
義烏9.42平方米商鋪拍出1700萬元，僅含使用權且只能經營飾品，商城：位置好人流量高

極目新聞 2026-07-01 18:30:15
19845 跟貼 19845

新智元

AI產業主平臺領航智能+時代

15588文章數 66945關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

房產

健康

手機

軍事航空

手機 / 數碼

房產 / 家居

全球第一！ 中國模型登頂榜首，首個可編輯AI語音來了

馬斯克不承認，但SpaceX就該造AI手機

特朗普乘"新空軍一號"首飛 官方稱改裝費不到4億美元

特朗普乘"新空軍一號"首飛 官方稱改裝費不到4億美元

韓國人，為什么恨透了洪明甫？

霍震霆回應霍啟山娜然結婚傳聞

千億茶市場無贏家：瀾滄巨虧 八馬停"蹄"

小鵬MONA L03 智能化水平拉滿 還有玩法多樣的巧思大空間

態度原創

中俄蒙“萬里茶道”國際旅游聯盟推出十大精品線路

匠造空間 筑美生活｜中旅投資2026上半年品牌實踐與長期主義答卷

這4類消化病患者 吃粘食管住嘴

2026年4000元左右高顏值手機推薦：學生、大屏、輕薄黨必看

萬斯：美伊間接會談進展順利

全球第一！中國模型登頂榜首，首個可編輯AI語音來了

特朗普乘"新空軍一號"首飛官方稱改裝費不到4億美元

特朗普乘"新空軍一號"首飛官方稱改裝費不到4億美元

千億茶市場無贏家：瀾滄巨虧八馬停"蹄"

小鵬MONA L03 智能化水平拉滿還有玩法多樣的巧思大空間

匠造空間筑美生活｜中旅投資2026上半年品牌實踐與長期主義答卷

這4類消化病患者吃粘食管住嘴