无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

全球第一! 中國模型登頂榜首,首個可編輯AI語音來了

0
分享至


新智元報道


【新智元導讀】全球第一!中國AI語音ViiTorVoice首創「局部編輯」神技:配音錯字告別重錄,像改Word一樣修語音。內附姆巴佩、哈蘭德爆笑實測,快來見證!

中國AI,登頂全球第一!

最近,在全球語音權威評測榜單 Seed-TTS 上,突然殺出了一匹令人膽寒的黑馬。

它就是ViiTorVoice 。

這個憑空出世的中國模型,將 Qwen3-TTS、CosyVoice3、Fish Audio 等一眾主流巨頭挑落馬下,徑直登頂綜合排名第一!


憑借英文詞錯率(WER)1.32、中文詞錯率0.99的恐怖數據,它一舉擊穿了行業的極限天花板,成為當前評測體系中,全球首個中文詞錯率突破 1.0 大關的里程碑模型。

這個登上榜首的AI語音大模型ViiTorVoice,來自國產公司云上曲率。它終結了長久以來的行業痛點:語音無法局部編輯。

這個全球首個具備「局部編輯」能力的AI,將徹底改變了整個行業!


Hugging Face Demo: https://huggingface.co/spaces/ZzWater/ViiTorVoice

GitHub: https://github.com/viitor-ai/viitor-voice-nar

模型權重: https://huggingface.co/ZzWater/ViiTorVoice-NAR

實測:怕餓暈找哈蘭德

所以,ViiTorVoice的上手效果究竟如何?

我們用它做了一些實測,看看它到底能不能扛住整活界的考驗。


實測一:哈蘭德的最新梗——挪威隊伙食不夠了

昨天,全網都被這條新聞笑噴了。

挪威隊參加世界杯,帶了3名主廚去美國,還從本國空運食材,就為了喂飽哈蘭德。網友熱評:哈蘭德一個人吃掉了挪威隊的伙食預算。

我們立刻整活,找來最近哈蘭德最火的廣告,用ViiTorVoice把原廣告詞變成了:「哈蘭德要一頭牛,怕餓暈找哈蘭德」。


結果讓人笑瘋了。ViiTorVoice新生成的這幾個字,不僅音色跟哈蘭德一模一樣,還完美保留了他那種低沉的嗓音特質。

前后的呼吸節奏和重音分布做到天衣無縫,新版廣告一出,效果絕了。

實測二:姆巴佩的「補水啦」,無縫植入任何正經場景

最近,姆巴佩廣告中那句魔性的「補水啦~ 」已經洗腦了無數網友。


那語調、那尾音上揚的「啦~」,堪稱2026年度鬼畜區預備役素材。

我們用ViiTorVoice直接把其中的臺詞替換成「我駕馭未來,補水啦~ 」。

結果非常搞笑,ViiTorVoice生成的「補水啦~」三個字,完美繼承了原廣告里魔性調調,尾音上揚的程度絲毫不差。

最絕的是,它還被無縫融合進了汽車廣告那種低沉穩重的旁白節奏里,前后語句在呼吸氣口和背景底噪上,完全看不出拼接痕跡。

另外,網站上還有個「AI會說話的照片」功能。

那就讓哈蘭德向我們吐露一下心聲,為什么在賽場上急得想吃人。

就如本文開頭所說,在真實環境中,更耗費時間的往往不是第一次生成,而是后期修改。

比如短劇已經完成配音,上線前發現角色人名需要調整;廣告文案臨時修改了產品名稱;課程內容更新了一個專業術語。

重新生成一句新的配音并不難,真正耗時耗力的,是如何讓修改后的內容與原有音頻保持一致,尤其在音色、情緒銜接、停頓突兀、時間軸同步這些細節上。

ViiTorVoice推出的片段級編輯能力,就解決了上述難題——你可以任意替換某個詞、某句話、某個片段。

從此,內容創作、廣告營銷、短劇配音、有聲書制作等全體語音生產工作流,都被徹底改變!

而且,ViiTor的網站上,還有多種實用功能。

比如這個視頻配音功能,讓鸚鵡小弟給黑道大哥講冷笑話,直接給它干崩潰了,語音效果自然逗趣,是網上玩梗的好素材。

下面是一對貓狗在分享對付人類的秘訣,輕松幽默的場景,非常適合替換臺詞,創作寵物擬人化的搞笑視頻。

權威評測領先,多語種語音達到行業先進水平

為什么ViiTorVoice會有如此驚艷的效果?成績來說話。

就如開頭所提,它的基準測試成績單十分亮眼。

在當前業界最嚴苛、公認度最高的 TTS 標準評測 Seed-TTS 中,ViiTorVoice 交出了一份驚艷的成績:英文詞錯率1.32,中文詞錯率0.99。

特別值得一提的是,ViiTorVoice 在中文詞錯率(WER)指標上取得當前公開評測最佳成績,在發音準確性和語義還原能力方面達到行業領先水平,為實時語音交互、視頻配音和Agent場景提供更可靠的語音基礎設施。

至此,它全面超越了包括 Qwen3-TTS、CosyVoice3、Fish Audio 等在內的主流競品。

錯詞率降到 1.0 以下,就意味著它極度穩定、幾乎不存在幻覺。而在如此恐怖的穩定性之上,ViiTorVoice 還帶來了市場上任何一家商業化產品都不具備的獨門絕技。

語音編輯:哪里不對改哪里

ViiTorVoice 最具顛覆性的核心能力,就是片段級定向編輯。

正如前文所述,行業內現有的 TTS 方案,無論是開源還是閉源,基本范式都是「整段重新生成」。

但 ViiTorVoice 實現了真正的局部修改:你可以指定某一個詞、某一個短語進行獨立重新生成,而音頻的其他所有部分——包括音色、節奏、背景底噪、前后文的情感連貫性,全部保持絕對穩定!


舉個直觀的例子。

在 ViiTor 官方提供的 Demo 中,一段英文演講音頻,如果你把其中的部分詞句改成其他詞,重新生成后,那股特有的拖音、演講時的呼吸節奏、獨特的情緒起伏,完全一模一樣,只有那個單詞被「無縫替換」了。

影視制作、有聲書錄制、短劇出海,再也不需要因為改了一句臺詞而重錄整集。

這對于影視后期而言,尤其具有革命性意義——因為它第一次將對白調整從「重資產、長周期的補錄流程」解放為「非線性時間線上的實時編輯」,讓導演的創作意圖得以實現。

在有聲書錄制中,如果錄錯專有名詞或口誤時,無需重錄整章,只需定向修改那一兩秒的音頻即可。幾十小時的有聲劇,后期修音時間能從幾天壓縮到幾十分鐘,且音色與呼吸節奏始終保持一致。

對于短劇出海,這個功能就更是意義重大,它解決了多語言版本「重錄成本高、周期長」的痛點,無需重新召集配音演員進棚。制作方只需在原始錄音上替換特定用詞,即可產出多個語言版本,每版聽感都像原生表演。

這種能力是如何實現的?這要歸功于 ViiTor 團隊在底層架構上做出的一種「反常識」的選擇。

為什么只有它,能做到局部編輯?

當今市面上最火的語音模型(比如 CosyVoice 等),大多采用的是 AR(自回歸) 架構。

自回歸模型的特點是「逐幀生成」,也就是預測下一個 Token 是什么。

這種模式的好處是順理成章,但致命弱點在于:它無法做到局部編輯。

因為當你改變中間的一個詞時,由于自回歸的鏈式反應,后續所有的 Token 都會發生改變。

此外,逐幀生成也導致了自回歸模型的推理延遲偏高,且容易在長文本中出現瑕疵。

為了攻克這個壁壘,ViiTor 團隊毅然選擇了難度極高的 NAR(非自回歸) 架構。

研發團隊用了一個精妙比喻,來解釋他們的技術路徑——「完形填空」。

ViiTor 使用的是類似于 Masked LM的方式。

當用戶需要修改音頻中間的 2-3 秒時,系統不需要從頭算起。它會將這需要修改的部分「挖空」,然后模型會根據這段音頻前面和后面的上下文,精準填補空缺。

正因為模型能夠「同時看到前后文」,它填進去的這個詞,不僅音色絕對一致,連前后情緒的銜接也能做到天衣無縫。

同時,非自回歸架構帶來了另一個巨大的紅利:極速的推理效率。

由于可以同時生成所有時間點的Token,ViiTorVoice 的首幀延遲被極大壓縮。在同等體量下,其他模型的延遲往往在 150ms-200ms 左右,而 ViiTor 的端到端首幀生成時間做到了 60 毫秒以內。

結合團隊在推理結構和算子層面的深度定制優化,以及一致性蒸餾(將推理步數從 32 步大幅壓縮至 4 步或 8 步),使得該模型在海量高并發環境下,依然能保持極低的計算成本。

告別「AI味」:精準情緒控制

很多人在刷短視頻時都有一個痛點:只要一聽到那種千篇一律、缺乏生氣的AI 機器音,就會立刻劃走,甚至產生生理性惡心。

人類的語言之所以生動,不僅僅是因為說了什么字,更因為包含了大量的副語言信息——呼吸、氣口、笑聲、嘆氣、猶豫、甚至是微弱的哭腔。

現有的 TTS 模型大多只能解決「說什么」的問題,而 ViiTor 卻著重解決了「怎么說」的問題,實現了令人驚嘆的副語言感知與控制能力!

它不需要你在提示詞里寫上長篇大論的情感描述,而是可以通過插入特殊 Token(比如笑聲、嘆氣),實現詞級別的精準控制。

甚至同樣是生氣,模型未來還能區分是暴怒還是隱忍的憤怒,還能精準控制重音、弱讀。

為了做到如此細膩的控制,ViiTor 引入了在圖像生成領域大放異彩的 CFG 技術應用在音頻推理中。

在生成特定情緒或笑聲時,模型在推理時會同時走兩條路徑——

條件路徑: 必須生成笑聲。

非條件路徑: 正常生成,不管笑聲。

通過將這兩條路徑的 Logits 做差值,模型能夠極大地強化笑聲這個條件的權重。

實測發現,這種機制的成功率和自然度,遠遠高于傳統模型僅靠自然語言去控制的效果。

這就是 ViiTor 在技術路線上與 ElevenLabs 等主流方案的根本差異,也是當前競爭格局下難以快速復制的核心壁壘。

無參考文本克隆:短劇出海的降維打擊

除了編輯和情緒控制,ViiTorVoice 還有一項絕殺技:首個可編輯、無參考文本(Zero-Shot)的跨語種語音克隆。

傳統的語音克隆,你需要提供一段說話人的音頻,以及對應的準確文字內容。模型本質上是在做「續寫」。

但在真實的商業場景中,這會遇到巨大的阻礙。比如短劇出海到巴西、中東,這些小語種(如葡萄牙語、阿拉伯語)的語音轉文字模型準確率較低,讓傳統克隆直接失敗。

ViiTorVoice的選擇是,直接甩開了文本的拐杖!

在訓練階段,團隊刻意丟棄了文本信息,逼迫模型直接從音頻的聲學特征中去學習說話人的發音習慣、音色和口癖。

結果就是:你只需要上傳一段純音頻,模型就能自動提取音色,并用這個音色生成中、英、日、韓等多個語種的內容。

這對于當前火爆的短劇出海、游戲配音、電影解說來說,無疑是降維打擊!

不少國內頭部企業,已經成為這家公司的合作客戶。

目前,在真實的付費生產環境中,ViiTor每天已穩定處理數十萬小時音頻,形成成熟的商業模式。

開源與商業化并進,擁抱開發者生態

而且非常可貴的是,面對如此強大的技術壁壘,ViiTor 團隊展現出了極大的開放格局。

目前,ViiTorVoice-NAR 已經正式開源了其 1B 左右參數量的模型,開發者可以直接在 GitHub 和 Hugging Face 上獲取包含 Qwen3 Forced Aligner、W2V-BERT 2.0 在內的完整本地模型組件,自由探索語音克隆、局部編輯和情感控制的無限可能。

AI 語音的發展,正在從能說話到說得像人,再到今天可以像剪輯文字一樣剪輯聲音。

ViiTorVoice 的出現,不僅是中國 AI 團隊在技術創新上的一次重大勝利,更是內容創作工作流的一次革命。

當聲音不再是一次性渲染的消耗品,而是可以被無縫編輯、注入靈魂的數字資產時,創作者的想象力,將不再受限于眼前的錄音設備。

在這個 AI 日新月異的時代,ViiTor 已經替所有創作者,推開了下一個時代的大門。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巴西網友:日本在全世界面前裝善良無辜!世界更愛中國而不是日本

巴西網友:日本在全世界面前裝善良無辜!世界更愛中國而不是日本

念洲
2026-07-02 10:07:38
六代機,就這么明晃晃的官宣了!

六代機,就這么明晃晃的官宣了!

新動察
2026-07-02 08:25:58
廣東一“00后”本科生抱兒子參加畢業典禮:大四生娃,老婆是大兩歲的學姐!本人最新回應

廣東一“00后”本科生抱兒子參加畢業典禮:大四生娃,老婆是大兩歲的學姐!本人最新回應

深圳晚報
2026-07-02 12:56:36
捐588萬出家!慧閔師父見女心切,因傷病無力干活被寺廟勸返紅塵

捐588萬出家!慧閔師父見女心切,因傷病無力干活被寺廟勸返紅塵

時尚的弄潮
2026-07-02 05:11:39
簽了簽了!正式加盟馬刺!3億前鋒聯手文班亞馬

簽了簽了!正式加盟馬刺!3億前鋒聯手文班亞馬

籃球實戰寶典
2026-07-02 11:57:54
解放軍首次官宣六代機,美軍絕望,中國六代機殲36離服役不遠了!

解放軍首次官宣六代機,美軍絕望,中國六代機殲36離服役不遠了!

胖福的小木屋
2026-06-30 23:32:12
世界杯裁判員馬寧言論引爭議:“我身后有14億人,我怕什么?”

世界杯裁判員馬寧言論引爭議:“我身后有14億人,我怕什么?”

麥杰遜
2026-07-02 11:25:03
“真希望他不是我親生的!”父親直言討厭兒子,引來千萬家長共鳴

“真希望他不是我親生的!”父親直言討厭兒子,引來千萬家長共鳴

妍妍教育日記
2026-07-01 20:48:04
日本太狠!要求30天離境,在日華商一夜破產,孩子被迫中斷學業!

日本太狠!要求30天離境,在日華商一夜破產,孩子被迫中斷學業!

共工之錨
2026-07-02 00:15:45
我的天!騎士,16年,老詹要回家了

我的天!騎士,16年,老詹要回家了

體育新角度
2026-07-02 16:01:21
泰山2500萬刺網拆除后,公眾仍在追問:這筆公共賬,最后誰買單

泰山2500萬刺網拆除后,公眾仍在追問:這筆公共賬,最后誰買單

川渝視覺
2026-07-02 09:04:15
中方宣布:全國人大常委會副委員長何維,將出席伊朗已故最高領袖哈梅內伊葬禮

中方宣布:全國人大常委會副委員長何維,將出席伊朗已故最高領袖哈梅內伊葬禮

政知新媒體
2026-07-02 15:27:58
對等報復正式開場!普京一口氣出動10架戰略轟炸機,重火力貫穿基輔核心區

對等報復正式開場!普京一口氣出動10架戰略轟炸機,重火力貫穿基輔核心區

起喜電影
2026-07-02 12:30:29
蘋果官方確認:iPhone關掉這3個設置,電池續航翻倍!老機型必關

蘋果官方確認:iPhone關掉這3個設置,電池續航翻倍!老機型必關

小柱解說游戲
2026-07-01 11:19:07
王健任臺州市委書記

王健任臺州市委書記

浙江發布
2026-07-02 10:07:47
生陽氣的3種食物,入伏前后多吃,把脾胃養好了,陽氣也補足了

生陽氣的3種食物,入伏前后多吃,把脾胃養好了,陽氣也補足了

阿龍美食記
2026-07-01 13:22:59
黃有龍澳洲賭債案落槌:2.8億輸光、2.7億本金償還、億元利息主張

黃有龍澳洲賭債案落槌:2.8億輸光、2.7億本金償還、億元利息主張

阿訊說天下
2026-07-02 09:56:50
6月共有25條中日航線取消全部航班,1488個赴日航班被取消

6月共有25條中日航線取消全部航班,1488個赴日航班被取消

揚子晚報
2026-07-02 12:32:59
李谷一大膽開麥,揭露宋祖英走上高位的真相,觀眾:原來如此!

李谷一大膽開麥,揭露宋祖英走上高位的真相,觀眾:原來如此!

妙知
2026-07-01 04:32:57
世界杯獨苗歸來!樸鎮燮已經落地中國,與浙江隊會合

世界杯獨苗歸來!樸鎮燮已經落地中國,與浙江隊會合

懂球帝
2026-07-02 15:43:02
2026-07-02 16:20:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15588文章數 66945關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

特朗普乘"新空軍一號"首飛 官方稱改裝費不到4億美元

頭條要聞

特朗普乘"新空軍一號"首飛 官方稱改裝費不到4億美元

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

霍震霆回應霍啟山娜然結婚傳聞

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

小鵬MONA L03 智能化水平拉滿 還有玩法多樣的巧思大空間

態度原創

旅游
房產
健康
手機
軍事航空

旅游要聞

中俄蒙“萬里茶道”國際旅游聯盟推出十大精品線路

房產要聞

匠造空間 筑美生活|中旅投資2026上半年品牌實踐與長期主義答卷

這4類消化病患者 吃粘食管住嘴

手機要聞

2026年4000元左右高顏值手機推薦:學生、大屏、輕薄黨必看

軍事要聞

萬斯:美伊間接會談進展順利

無障礙瀏覽 進入關懷版