无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

4步出聲,單卡0.24秒!Noiz AI攜港科大清華,開源音頻生成大模型

0
分享至

允中 發自 凹非寺
量子位 | 公眾號 QbitAI

“先來一段蟬鳴,然后吉他聲切入?!?/p>

對于這樣一段看似簡單的文字指令,現有的音頻大模型不僅“聽不懂”(搞錯順序或數量),而且“出得慢”(生成10秒聲音,往往需要等待幾秒甚至十幾秒)。

這成了AI音頻從“玩具”走向專業工作流和實時交互的最大絆腳石。

為了解決這一行業痛點,Noiz AI聯合香港科技大學、清華大學等機構,正式推出了支持Anything-to-Audio的極速音頻生成大模型AudioX-Turbo

AudioX-Turbo不僅僅是一個能處理多種模態輸入的生成器,更是將矛頭直指“極速推理”“精準可控”兩大難題。

通過分布匹配蒸餾和對抗蒸餾,AudioX-Turbo將原本50-200步的擴散生成過程暴減至4步,模型前向次數驟降約25倍;

再配合全新標注的920萬量級“強指令”語料,模型終于“聽懂了時間戳”。

而且,推理代碼、訓練代碼、模型權重等全部開源。

論文與項目頁面:https://zeyuet.github.io/AudioX-Turbo/
項目代碼:https://github.com/NoizAI/AudioX-Turbo

核心突破一:用4步打敗100步,單卡0.24秒出聲

現有的主流音頻模型,如MMAudio,Stable Audio Open,它們多依賴Diffusion(擴散)或Flow Matching,通常需要幾十到上百步迭代。

AudioX-Turbo的解法是分布匹配對抗蒸餾

1. 原生多模態骨干打底

全面采用原生適合多模態融合的Multimodal Diffusion Transformer (MMDiT)作為模型骨架,配合MAF模塊從零訓練了2.7B參數,確保了極高的音畫同頻與跨模態控制力。


△圖1.預訓練階段

2. Turbo蒸餾加速

基于Flow Matching框架,引入分布匹配蒸餾(DMD)對抗蒸餾將模型蒸餾至4步,同時應用CFG蒸餾去掉了CFG引入的額外NFE開銷。

“簡單說,就像把一幅需要涂100遍才能完成的畫,提煉成只涂4遍的模板——AudioX-Turbo用蒸餾技術把這個‘模板’提煉出來了。”


△圖2. 分布匹配對抗蒸餾

結果驚人,AudioX-Turbo僅需4個采樣步數就逼近Teacher模型100步的音質,再得益于擴散判別器,學生模型輸出和真實樣本的對抗訓練,使少步模型在部分性能指標上反超了100步教師模型。

單張RTX 4090上,生成10秒音頻僅需0.24秒(RTF僅0.02),打開了實時音頻生成的想象空間。


△圖3. Audiox-Turbo對比其它模型的全面評測

核心突破二:數據大換血,920萬樣本讓模型“聽懂人話”

之前很多音頻模型無法精確控制,根源在于數據里的文本標簽太“糊”(比如只有簡單的環境音概括)。

為此,Noiz AI與港科大團隊專門打造了超大規模的多模態音頻數據集IF-caps-Pro,總規模約920萬

團隊搭建了“大模型級聯標注”的方案——

先構建海量高質量視頻-音頻對,然后用Gemini 2.5 Pro模型生成帶時間戳、樂器、事件數量的結構化模板,再用Qwen2-Audio進行大規模擴寫。

喂給模型的數據從“模糊的摘要”變成了“帶有精確時間軸的劇本”


△圖4. 數據構造流程

與此同時,研究團隊意外發現,文本標簽寫得越細,模型不僅文本生音頻效果變好,連帶著“只看無聲視頻配音”時的對齊度也跟著大幅提升。

霸榜級的實驗表現

在經典的AudioCaps、MusicCaps等測試集中,4步的AudioX-Turbo模型在核心音質指標上打敗或戰平了需要50-200步的眾多基線模型。

而為了評測模型的指令跟隨能力,團隊構造了專門的benchmarkT2A-bench

測試結果顯示,在針對聲音類別、數量、時間戳和先后順序的評測中,AudioX-Turbo的效果對比其它基線方法呈現出碾壓態勢(部分指標較基線提升超一倍)。


△圖5. AudioX-Turbo的指令跟隨能力

總結與傳送門

AudioX-Turbo三大亮點

  • 4步推理,相比教師模型減少25倍計算量,效果更優,RTF僅0.02(4090);
  • 920萬強指令數據集,首次實現精確時間戳控制;
  • Anything-to-Audio:文本、視頻、圖像全支持,一個模型搞定;

該項目所有訓練代碼及模型權重,已全部開源。

Noiz AI與港科大、清華的這項聯合工作,證明了音頻大模型完全可以打破“慢吞吞”和“不受控”的刻板印象。

隨著4步極速推理的實現,互動劇配音、游戲引擎實時擬音,甚至是AI直播伴奏,都將變得觸手可及。

而這正是Noiz AI正在推進的方向——讓音效、有聲內容制作、實時互動語音,都能實時重建。

論文信息:
論文標題:AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation
核心團隊:Noiz AI、香港科技大學、清華大學
項目主頁:https://zeyuet.github.io/AudioX-Turbo/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
金澤和鈣子大佬的瓜!

金澤和鈣子大佬的瓜!

八卦瘋叔
2026-06-14 10:33:45
菲律賓哭都沒門,中國精準點殺,甩一紙制裁文書,絕不姑息白眼狼

菲律賓哭都沒門,中國精準點殺,甩一紙制裁文書,絕不姑息白眼狼

陳輝論劍
2026-06-15 17:22:15
“好好的孩子喂成了低能兒!”孩子奶奶的發型,預示了家教水平!

“好好的孩子喂成了低能兒!”孩子奶奶的發型,預示了家教水平!

林林先生
2026-06-10 07:10:03
榮家后人重回無錫,想要收回祖輩遺留廠房,國資委檔案他沉默三天

榮家后人重回無錫,想要收回祖輩遺留廠房,國資委檔案他沉默三天

磊子講史
2026-06-08 15:27:27
拉塞爾拒聯手阻漢密爾頓爭冠

拉塞爾拒聯手阻漢密爾頓爭冠

體壇周報
2026-06-15 16:18:46
整個明朝幾乎都有倭寇之亂,為何到了清朝,倭寇之亂就突然消失了

整個明朝幾乎都有倭寇之亂,為何到了清朝,倭寇之亂就突然消失了

掠影后有感
2026-06-15 09:48:02
危機來了!5天未被發現,美無人艇潛入臺海,接近中國護衛艦拍照

危機來了!5天未被發現,美無人艇潛入臺海,接近中國護衛艦拍照

超喜歡我的狗子
2026-06-13 16:29:43
深夜撞了29只羊,女司機賠了32只:多出來的那3只,才是一個人走到哪都站得住的本錢!

深夜撞了29只羊,女司機賠了32只:多出來的那3只,才是一個人走到哪都站得住的本錢!

犀利辣椒
2026-06-15 06:23:13
墻倒眾人扶!被人民日報點名的李維剛,再次證明真誠才是必殺技

墻倒眾人扶!被人民日報點名的李維剛,再次證明真誠才是必殺技

舊事別提
2026-06-12 07:09:01
無解的陽謀!菲律賓傻眼,美國做夢也不敢想,黃巖島中國會這樣干

無解的陽謀!菲律賓傻眼,美國做夢也不敢想,黃巖島中國會這樣干

杰絲聊古今
2026-06-14 01:07:38
朝鮮霸占四個世界第一,至今無人超越,難怪美國對朝鮮如此客氣

朝鮮霸占四個世界第一,至今無人超越,難怪美國對朝鮮如此客氣

今夜繁星墜落
2026-06-13 05:28:13
蔚來再發三款車!

蔚來再發三款車!

電動知家
2026-06-15 11:33:35
快入伏了,牛肉雞肉少吃,這3種肉敞開吃,營養滋補,好吃不上火

快入伏了,牛肉雞肉少吃,這3種肉敞開吃,營養滋補,好吃不上火

秀廚娘
2026-06-13 22:02:20
性生活時長并非越久越好?多項研究給出答案,7分鐘才是最佳時間

性生活時長并非越久越好?多項研究給出答案,7分鐘才是最佳時間

思思夜話
2026-06-15 16:06:22
暴跌40%!奢侈品巨頭跌落神壇,買不起的中產,開始跑去奧萊了

暴跌40%!奢侈品巨頭跌落神壇,買不起的中產,開始跑去奧萊了

財經八卦
2026-06-13 16:53:11
白鹿問丞磊:下次我找你拍戲,零片酬行嗎?丞磊回應顯情商

白鹿問丞磊:下次我找你拍戲,零片酬行嗎?丞磊回應顯情商

寶哥精彩賽事
2026-06-15 16:37:22
2026事業編迎來大調整,五類崗位必須轉企,編制從此退出歷史舞臺

2026事業編迎來大調整,五類崗位必須轉企,編制從此退出歷史舞臺

芳姐侃社會
2026-06-12 23:43:24
俄羅斯歷史上從不畏懼戰爭,為何唯獨對烏克蘭作戰取勝極難

俄羅斯歷史上從不畏懼戰爭,為何唯獨對烏克蘭作戰取勝極難

非虛構人間
2026-06-14 18:26:42
《迷墻》20集大結局: 3人入獄,4人受重傷,余鳴 文一彤上交六千萬

《迷墻》20集大結局: 3人入獄,4人受重傷,余鳴 文一彤上交六千萬

小椰的奶奶
2026-06-15 17:17:28
網友說現在感覺進不了體制內就會死一樣!

網友說現在感覺進不了體制內就會死一樣!

黯泉
2026-06-15 16:11:47
2026-06-15 18:04:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12794文章數 176496關注度
往期回顧 全部

科技要聞

外媒體驗新版Siri:蘋果AI危機暫時緩過來了

頭條要聞

北京男子家中離奇中毒身亡 岳母再婚丈夫為奪財產下毒

頭條要聞

北京男子家中離奇中毒身亡 岳母再婚丈夫為奪財產下毒

體育要聞

殘陣日本2比2荷蘭:漫畫里不是這樣的呀

娛樂要聞

要求演員必須用原名,誰最尷尬!

財經要聞

活鼠、活蛆、農殘超標 山姆回應被約談

汽車要聞

網易X智己 夏日尊享內購會,熱力收官

態度原創

房產
本地
旅游
手機
公開課

房產要聞

324畝!41億!三亞這個大城更,開始征收!

本地新聞

當年輕人重新愛上黃金,非遺有了新的打開方式

旅游要聞

超300項文旅惠民活動!重慶文旅夏季“寵粉計劃”來了

手機要聞

1999元起 榮耀X70 Pro Max悄然發布:行業抗摔天花板、8560mAh大電池

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版