无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

TTS也要真人感!首個字級內容、毫秒級停頓控制的語音合成系統

0
分享至


新智元報道

編輯:LRST

【新智元導讀】語音合成這兩年發展迅速:把一段話順順當當地念完,已經不算難事;難的是該慢的時候慢,該頓的時候頓,該強調的時候真能把重點托出來。

語音合成這些年最明顯的進展,是越來越會模擬真人輸出語音。

自然度更高了,聲音更像真人了,零樣本克隆也越來越成熟了。可一旦要求模型別再只是平著往下讀,而是對一句話內部的節奏做有選擇的安排,問題就暴露出來了。很多系統能做到整體變快、整體變慢,也能給整段話套一個風格標簽,但真到關鍵位置,往往還是一起變,很難做到只改重點區域。

而產品場景里,用戶在意的常常就是只改重點區域。

驗證碼播報里,數字之間要不要刻意拉開;導航播報里,動作信息要不要被單獨頂出來;教學糾音里,兩個容易混淆的詞能不能被故意說出差別;劇情化表達里,結尾那個關鍵詞之前能不能多留半拍。這些需求都不是靠整句降速就能混過去的。

華南理工最新工作MAGIC-TTS首次把字級時長和邊界停連同時拉到 token 級,做成了局部可控的語音生成能力。


論文鏈接: https://arxiv.org/abs/2604.21164v1

代碼鏈接: https://github.com/yongaifadian1/MAGIC-TTS/tree/main

演示鏈接: https://yongaifadian1.github.io/MAGIC-TTS/

所以,這篇工作真正值得看的點在于它在把一件以前很難穩定實現的能力往前推:讓模型不只是會發聲,還開始會安排一句話內部的節奏,同時不犧牲合成質量和克隆語音的相似程度。

如果把MAGIC-TTS放回真實使用場景里看,它最先改動的,其實是三類任務。

第一類,是高辨識播報。

這一類任務的核心不是更自然,而是更不容易聽錯。論文里拿了驗證碼播報做例子。作者先給整句內容設置均勻時長,再刻意把中間分組的停頓拉開,最后進一步把數字本身也放慢。這樣做的結果不是簡單的整句慢下來,而是用戶先聽清分組,再聽清每個數字。換到產品里,這種處理顯然不只適用于驗證碼,還適用于訂單號、取件碼、地址、藥品名這類高辨識內容。

地鐵播報也是同一路數。作者沒有讓整句一起拖慢,而是把站點出現前的停連做得更明顯,同時把真正需要乘客注意的站名壓得更重一些。對這類高實時任務來說,節奏是否準確,很多時候比聲音是否足夠像真人更有價值。

第二類,是教學和糾錯。

論文里給出的案例是英文近音詞糾正。作者通過縮短前一個詞、拉長后一個詞,并在糾正關系出現前加入短暫停頓,讓兩者之間的差異不再糊成一團。這個例子最關鍵的地方,不是能合成英文,而是模型開始能利用節奏本身去幫助區分語義關系。

這類能力一旦成熟,對外語學習、兒童跟讀、口語訓練會很直接。因為教學場景需要的從來不是一臺平鋪直敘的朗讀器,而是一個能把差異做出來、把重點放出來的示范系統。

第三類,是表達型語音。

論文還展示了一個戲劇化場景:在句尾關鍵詞出現之前先留一小段空白,再把最后那個詞拉開。這個動作非常小,但聽感會一下從把句子讀完變成把情緒送出來。也就是說,局部節奏控制影響的不只是信息清晰度,還會開始影響敘事張力和表現力。

過去,這類處理通常被認為屬于真人配音、導演調度或者后期剪輯的領地。現在,TTS 也開始往這個方向摸了。

為什么這件事早就該有

卻一直很難真正落地

第一,整句控制和句內控制,根本不是一回事。讓一整段話慢一點,本質上還是全局調節;但讓某個詞多占幾十毫秒、讓某個邊界多留一段停頓,要求的是模型在局部位置精確地重新分配時間。

第二,停頓和字時長也不是同一種難度。停頓更接近邊界留白,內容時長則直接涉及 token 內部的聲學展開。前者像在內容之間插空,后者則是改內容本身怎么展開。真正難啃的是后者。

第三,局部控制越細,對訓練時的監督邊界越苛刻。假如在訓練中,一個 token 的起止位置本來就不穩,那么后面在推理時不管是要拉長它,還是要在它后面加停頓,都會變成一件漂浮不定的事。

所以,這類問題真正卡住行業的,往往不是有沒有想法,而是能不能把它做成一個不會穩定的,可以應用在真實場景的模型。

方法

從方法上看,MAGIC-TTS 真正抓住的,是三個更底層的環節


第一,是把一句話里的兩種時間因素拆開。

這篇工作沒有再把節奏當成一個模糊的整體感覺去學,而是明確地區分每一個詞要占多久和每一個詞之后要停多久。前者對應 token 本身的展開長度,后者對應邊界停頓。把這兩件事拆開,等于承認了一句自然語音的節奏,本來就不是一個總時長數字能夠概括的。

第二,是先把每個詞的邊界監督校準。

論文里一個很關鍵的工程步驟,是先用 Stable-ts 在總時長為3萬小時大規模語音上構造 token 級時序標簽進行持續預訓練,再用 Stable-ts 和 MFA 做交叉驗證,篩掉不可靠樣本。最終留下來的高置信度子集總時長 230.72 小時,進行精細指令微調。這個步驟決定了后面的控制是不是建在堅實的基礎上。如果邊界不準,所有精細調節都會被噪聲吞掉。

第三,是解決停頓控制會不會污染內容控制。

這篇工作的一個現實問題:模型為每個位置都編碼了內容控制殘差和停頓殘差,但關鍵是,不是每個位置都應該有停頓,對于自然語音,大多數時候句子內的字都是黏連在一起發聲,因此很多位置的停頓殘差天然就該是 0。

但是如果模型單純采用MLP去編碼停頓殘差,這會導致如果模型將這些不存在的停頓都編碼成有偏信號,整句里就會不斷積累無意義干擾,最后把更難學的內容時長控制的影響削弱。論文里的零值校正,本質上就是在處理這個問題:該沒有影響的時候,就盡量真的沒有影響。

與此同時,作者還專門做了缺失控制魯棒性訓練。原因很現實,用戶不可能每次都給整句配一套精細時序。如果一個系統只有在滿配控制條件下才表現好,那它就更像實驗演示,而不是實際能力。把默認合成和局部調節同時保住,才更接近真正可用的方向。

最值得看的證據,不只是會不會停,而是能不能穩穩地控字。

這篇論文的數據結果里,最重要的其實不是停頓,而是內容時長。

在顯式給出token級內容時長和停頓條件之后,每個字的內容時長 MAE(平均絕對誤差) 從36.88ms 降到了10.56 ms,相關性從0.588提升到0.918。停頓方面,MAE從18.92 ms 降到8.32ms,相關性從0.283提升到0.793。

為什么說內容時長更關鍵?因為會停一下相對容易理解,也更容易被實現成邊界層面的動作;但把這個 token 本身說得更長一點、又不把整句帶壞,難度明顯更高。也正因為如此,內容時長指標的大幅提升,比單純的停頓跟隨更能說明問題。

應用場景

如果這條路線跑通,最先吃到紅利的那幾類產品

最先受益的,還是那些聽錯一個字都麻煩的場景。

高辨識播報會是第一批,包括驗證碼、訂單號、地址、藥品名、導航、車載播報。比起聲音不擬人,這些地方最怕的是信息沒聽清。過去很多系統只能靠整句放慢來保底,但那往往會犧牲效率,且對于重點的突出效果不是那么好;如果節奏能局部編排,系統就能把該重點聽的地方單獨拉出來。

第二批會是教學糾音。兒童跟讀、外語學習、示范式朗讀,都更需要一個會示范差異的系統,而不是一個把文本順著念完的系統。誰能把停連、重音、對比關系更清楚地演示出來,誰在這一類產品里就更有優勢。

再往后,是表達型語音。數字人、劇情化配音、音頻內容生成、故事講述,這些方向對局部節奏的要求更高,但一旦能力成熟,帶來的產品觀感提升也會更明顯。

小結

MAGIC-TTS的核心價值在于把語音合成從「把話念自然」推進到「能精細安排句內節奏」,如何同時控制 token 級字時長和邊界停頓,讓現實應用場景中的重點內容被更清楚、更有表現力地說出來,是下一階段要重視的問題。

參考資料:

https://arxiv.org/abs/2604.21164

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
初中生開竅的10大特征,具備兩個以上,就離開竅不遠了!

初中生開竅的10大特征,具備兩個以上,就離開竅不遠了!

好爸育兒
2026-05-12 16:20:45
黑尾醬,徹底消失了?

黑尾醬,徹底消失了?

生如稗草
2026-03-15 08:48:11
蚌埠演唱會驚天騙局?成龍20 分鐘撈金離場?觀眾花千元看場笑話

蚌埠演唱會驚天騙局?成龍20 分鐘撈金離場?觀眾花千元看場笑話

做一個合格的吃瓜群眾
2026-05-12 15:10:23
多項研究顯示:性生活頻率過低,男女容易早衰且患癌風險增高!

多項研究顯示:性生活頻率過低,男女容易早衰且患癌風險增高!

燈錦年
2026-05-05 21:55:51
某民航研究所員工曬出26年收入,真的讓人羨慕啊

某民航研究所員工曬出26年收入,真的讓人羨慕啊

微微熱評
2026-05-12 11:50:00
亞歷山大:毫不夸張地說 米切爾是這輪系列賽表現最出色的球員

亞歷山大:毫不夸張地說 米切爾是這輪系列賽表現最出色的球員

北青網-北京青年報
2026-05-12 20:22:04
恐怖 中國拳手赴非洲參賽被軟禁+下迷藥 綿軟無力上場 視頻已曝光

恐怖 中國拳手赴非洲參賽被軟禁+下迷藥 綿軟無力上場 視頻已曝光

風過鄉
2026-05-12 16:25:01
出乎所有人預料,特朗普修改訪華計劃,中方官宣,他必須多來一天

出乎所有人預料,特朗普修改訪華計劃,中方官宣,他必須多來一天

溫讀史
2026-05-11 18:52:22
微信點一下“+”號,你被誰刪了瞬間現形!

微信點一下“+”號,你被誰刪了瞬間現形!

呼呼歷史論
2026-05-12 07:55:47
假如許世友的兩套作戰方案得到采納,估計越南歷史會被重寫

假如許世友的兩套作戰方案得到采納,估計越南歷史會被重寫

近史談
2026-05-11 18:40:51
今日最慘股,月內股價腰斬,現又連遭跌停,抄底資金全被套!

今日最慘股,月內股價腰斬,現又連遭跌停,抄底資金全被套!

丁丁鯉史紀
2026-05-12 16:04:41
國乒雙冠還沒捂熱,韓媒日媒集體認慫!網友:這波反思太真實了

國乒雙冠還沒捂熱,韓媒日媒集體認慫!網友:這波反思太真實了

林子說事
2026-05-12 18:05:40
比小里還拉!全明星中鋒季后賽場均10+8,2.4億合同沒了,1億都難

比小里還拉!全明星中鋒季后賽場均10+8,2.4億合同沒了,1億都難

你的籃球頻道
2026-05-12 11:49:16
網紅教授鄭強“叛變了”,說年輕人不是沒工作,是不愿放下身段

網紅教授鄭強“叛變了”,說年輕人不是沒工作,是不愿放下身段

筆桿論道
2026-05-12 00:00:11
一算嚇一跳!公務員、事業編、企退人員撫恤金真實差額

一算嚇一跳!公務員、事業編、企退人員撫恤金真實差額

李博世財經
2026-05-12 14:28:25
西班牙邊翼恐無緣世界杯:威廉姆斯賽季報銷,自曝傷痛前所未有

西班牙邊翼恐無緣世界杯:威廉姆斯賽季報銷,自曝傷痛前所未有

林子說事
2026-05-12 00:21:29
5月,遇到這堿性水果,買它20斤,曬干囤起來,從夏天吃到秋天

5月,遇到這堿性水果,買它20斤,曬干囤起來,從夏天吃到秋天

阿龍美食記
2026-05-11 09:18:41
東北3歲小網紅吃播沉浸式吃飯,4大疑點持續引發爭議

東北3歲小網紅吃播沉浸式吃飯,4大疑點持續引發爭議

九方魚論
2026-05-11 09:16:33
央企也逃離!全國物業上演集中撤場!西安“爛物業”小區迎來曙光?

央企也逃離!全國物業上演集中撤場!西安“爛物業”小區迎來曙光?

木兮聊房
2026-05-12 18:20:25
剛通過彈劾案,轉頭自家老巢就被抄了!菲律賓這出大戲太狗血了

剛通過彈劾案,轉頭自家老巢就被抄了!菲律賓這出大戲太狗血了

菁菁子衿
2026-05-12 09:29:01
2026-05-12 20:52:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15194文章數 66863關注度
往期回顧 全部

科技要聞

宇樹發布載人變形機甲,定價390萬元起

頭條要聞

男子自帶挖掘機為社區修路墜崖身亡 社區不認可系工亡

頭條要聞

男子自帶挖掘機為社區修路墜崖身亡 社區不認可系工亡

體育要聞

總是掉鏈子的“倒霉蛋”,闖進了歐戰決賽

娛樂要聞

白鹿風波升級!掉粉20萬評論區淪陷

財經要聞

黃仁勛真是被白宮徹底封殺了

汽車要聞

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態度原創

游戲
本地
親子
旅游
公開課

大司馬找小團團一起玩遭拒 直言不喜歡粉絲刷大禮物

本地新聞

用蘇繡的方式,打開江西婺源

親子要聞

amh值0.95怎么調理?吃什么可以讓卵泡長得好又大又圓?

旅游要聞

上海赴金門旅游正式重啟,金門在滬發布4大特色主題線路

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版