金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
終于,郭德綱最難的貫口——《莽撞人》,被免費(fèi)的2B國(guó)產(chǎn)AI給復(fù)刻出來了!
來,展示~
![]()
△圖片和音頻均為AI生成
視頻地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
這段《莽撞人》是被公認(rèn)的難度頂尖,甚至成為北影臺(tái)詞課的教科書范本,很多專業(yè)演員面對(duì)它也是望而卻步。
而之前AI語音模型要復(fù)刻這段貫口,要么速度不夠快,要么咬字、節(jié)奏錯(cuò)誤,要么就是莫得感情。
但這一次,AI“無中生有”自行音色設(shè)計(jì)出來的女聲版貫口,不僅把節(jié)奏拿捏到位,甚至連百(bē)戰(zhàn)百(bē)勝、白(bē)盔白(bē)甲白(bē)旗靠……這些特殊發(fā)音也是讀對(duì)了!
包括這兩天在網(wǎng)上包括的沈陽(yáng)翻譯片段,這個(gè)免費(fèi)國(guó)產(chǎn)AI也是分分鐘能復(fù)刻出來男聲版:
![]()
△圖片和音頻均為AI生成
視頻地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
那幾個(gè)被網(wǎng)友們笑瘋了的小詞兒:“音樂會(huì)兒”、“害有”、啊,國(guó)產(chǎn)AI把大姨東北話的靈魂給抓得穩(wěn)穩(wěn)的。
不止是東北話,這個(gè)語言模型已經(jīng)可以cover九種方言,像四川話版《大話西游》經(jīng)典名場(chǎng)面,是這樣的:
(注:九種方言分別是四川話、粵語、吳語、東北話、河南話、陜西話、山東話、天津話、閩南語。)
![]()
△圖片和音頻均為AI生成
視頻地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
“巴適得板”、“悔得摳腳”、“女娃兒”……
這小味兒確實(shí)有點(diǎn)滿級(jí)四川方言的味道了,而且還把周星馳原配音的聲色給保住了。
除了方言啊,這個(gè)國(guó)產(chǎn)2B模型還有一技——同一段語音可以用不同國(guó)家的語言來演繹!
例如這段原先是中文的《甄嬛傳》滴血驗(yàn)親的名片段,就秒變成了韓語版:
![]()
△圖片和音頻均為AI生成
視頻地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
不論是語氣還是人聲,都有點(diǎn)中文原版的那個(gè)味道了。
當(dāng)然,泰語版和西語版,也是手拿把掐:
![]()
△圖片和音頻均為AI生成
視頻地址:
https://mp.weixin.qq.com/s/77mbsD2cSqW8_NIMW6LE2Q
不僅如此啊,這個(gè)語音模型是直接可以cover三十門外語的那種。
來聽一下30種不同風(fēng)格的“你好”:
![]()
如此好玩,還免費(fèi)開源的國(guó)產(chǎn)語音模型,到底是何許AI是也?
不賣關(guān)子,它正是面壁智能聯(lián)合OpenBMB開源社區(qū)、清華大學(xué)人機(jī)語音交互實(shí)驗(yàn)室新升級(jí)的VoxCPM 2。
整體看下來,除了多語種、多方言之外,VoxCPM 2在音色設(shè)計(jì)、音色可控和高表現(xiàn)力方面也是較為亮眼。
不少歪果仁在VoxCPM 2發(fā)布之后就立馬去嘗了下鮮,紛紛表示“自家語言的效果針不戳!”
![]()
而且在音質(zhì)方面,市面一般是24000Hz,但VoxCPM 2這次直接拔高到了48000Hz(CD音質(zhì))!
這下子,游戲、動(dòng)畫、影視、有聲書等領(lǐng)域的人可以說是有福了。
生成只需1秒鐘的語音模型
開源的VoxCPM 2,我們現(xiàn)在就可以在在線體驗(yàn)的網(wǎng)站上體驗(yàn)了(地址見文末):
![]()
接下來,我們就一起手把手,搓一個(gè)東北話版的《火影忍者》。
首先在界面的左上角,我們上傳一段宋小寶的原聲片段,大概20秒左右:
![]()
然后在它的下方,我們填一個(gè)“東北話”的指令,再把臺(tái)詞寫進(jìn)要合成的文本里,例如:
擱這兒用穢土轉(zhuǎn)生跟我嘮嗑,可真夠損的奧。
![]()
最后點(diǎn)擊下面的“Generate Speech”按鈕,不到一秒鐘的時(shí)間,宋小寶味兒的《火影》宇智波斑的臺(tái)詞就誕生了:
![]()
接下來,我們只需要配上一小段視頻,齊活兒:
細(xì)心的小伙伴可能發(fā)現(xiàn)了,剛才宋小寶音頻的demo里其實(shí)是有背景雜音的,但到視頻里就沒有了。
這其實(shí)是VoxCPM 2的參考音頻降噪功能,只要勾選一下,聲音就會(huì)變得清晰:
![]()
還有值得注意的是,視頻里二代土影的聲音,是沒有上傳任何參考音頻的情況下生成。
如果你找不到合適的靈感,大可以讓VoxCPM 2自由發(fā)揮。
然后如果想克隆聲音的質(zhì)量有保證,建議上傳的參考音頻盡量大于等于5秒;以及你還可以在“Control Instruction”里面添加提示詞,改變參考聲音的情緒和語速等等。
(但克隆聲音的時(shí)候,是不能改變性別的哦~)
除此之外,還有3個(gè)小細(xì)節(jié):
![]()
第一個(gè)是文本規(guī)范化,這是在你輸入的臺(tái)詞里有日期、符號(hào)、阿拉伯?dāng)?shù)字等AI讀不明白的內(nèi)容時(shí),你就可以點(diǎn)它,讓AI讀得規(guī)范起來。
第二個(gè)CFG Value,它的作用是用來控制AI的聽話程度,數(shù)值越高就越聽你的要求,反之,AI會(huì)自由發(fā)揮。
第三個(gè)就是LocDiT,設(shè)置它的步數(shù)越高,音頻效果就會(huì)越好,但生成的速度就會(huì)變慢。
除此之外,臺(tái)詞中間停頓的音效,現(xiàn)在可以用[laughing](笑聲)、[sigh](嘆氣)、[Uhm](嗯……)這些標(biāo)簽來控制:
![]()
總而言之,現(xiàn)在要玩兒逼真、有趣的聲音,簡(jiǎn)直太簡(jiǎn)單了。
怎么做到的?
看到這里,肯定有不少的小伙伴要問了:
只有2B大小,還免費(fèi)開源的語音模型,到底是怎么做到的?
來,咱們這就扒一波。
首先就是VoxCPM 2走了一條跟市面上大多數(shù)模型不太一樣的路線——采用擴(kuò)散自回歸連續(xù)表征(Diffusion Autoregressive Continuous Representation)。
和市面上主流的Token-based傳統(tǒng)方案不同的是,它是基于Tokenizer-Free的TTS系統(tǒng)來做的設(shè)計(jì),通過端到端擴(kuò)散自回歸架構(gòu)直接生成連續(xù)語音表征,實(shí)現(xiàn)了隱式語義-聲學(xué)的解耦。
簡(jiǎn)單來說,傳統(tǒng)方案在語音轉(zhuǎn)換時(shí)極易出現(xiàn)信息損失,而這套技術(shù)能最大程度保留原始聲音的聲學(xué)細(xì)節(jié)、情感基調(diào)和方言特色。
這也就是它既能完美復(fù)刻周星馳配音的聲色,又能把東北話、四川話說得地道入味的核心原因。
與此同時(shí),這款模型的底氣,還來自面壁智能深耕多年的高密度小模型技術(shù)壁壘。VoxCPM 2完全基于面壁智能自研的MiniCPM基座打造,延續(xù)了系列模型“小身板、大能量”的特質(zhì)。
此前VoxCPM系列就已經(jīng)在Hugging Face斬獲超千點(diǎn)贊、5.5k+下載量,這次升級(jí)更是把多語種、高保真、音色可控等核心能力拉到了行業(yè)新高度。
更難得的是,VoxCPM 2不止開源了完整的模型權(quán)重,更提供了從一鍵上手到大規(guī)模部署的全套工具鏈,支持原生Torch推理、LoRA及全參數(shù)微調(diào),還適配了多端UI擴(kuò)展,上手使用變得超簡(jiǎn)單。
最后回到國(guó)產(chǎn)這個(gè)點(diǎn)。
放眼全球范圍內(nèi),目前除了基座大模型牢牢占據(jù)了開源領(lǐng)先地位,在小模型、端側(cè)模型上,中國(guó)公司也在持續(xù)領(lǐng)先。
體驗(yàn)地址:
https://voxcpm.modelbest.cn/
GtiHub地址:
https://github.com/OpenBMB/VoxCPM/
HuggingFace地址:
https://huggingface.openbmb.com/model/openbmb/VoxCPM2
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.