无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Speech LLM 的下一個突破口:語音大模型可以是帶韻律的文本模型

0
分享至



語音大模型的最大瓶頸:“模型降智”

相信大家都有過這樣的體驗:同一個系列的模型,使用文本交互的時候,模型就像開啟了 “最強大腦”,數學代碼等各種復雜推理任務樣樣精通,可是一旦將其改造成語音對話模型之后,性能就猛烈下降,嚴重 “降智”,經常會犯很多基本的邏輯錯誤。

這個讓整個行業十分頭疼的現象,學術界將其定義為 “模態代溝”(Modality Gap)。

為了降低 Modality Gap,整個 Speech AI 行業在過去幾年里進行了兩波主要的改進。

第一波改進,大家發現應該 “換模態”。既然傳統端到端的語音大模型嚴重降智,那就通過文本模態進行緩沖,也就是讓模型先 “想” 出文本,再將文本轉換成對應的語音輸出。這便催生了目前語音大模型的主流架構:Thinker-Talker。大家發現讓 Thinker 輸出文本的模式可以一定程度上拉高模型的性能上限。

第二波改進,大家開始在模型的輸出端對齊(Output Alignment)上面下功夫。即使是用 Thinker 做文本輸出,還是有相當一部分的 Modality Gap。于是大家希望大模型在面對文本輸入和語音輸入的時候能 “一模一樣” 的輸出,從而拉高智商。于是行業中出現了各種各樣專門緩解 Modality Gap 的文章。他們大多數通過知識蒸餾(Knowledge Distillation),表示對齊(Representation Alignment)等方法來拉近兩個模式下輸出的距離。

然而,我們發現,在這兩波改進之后,即使語音預訓練數據被拉到了百萬小時甚至千萬小時的級別,降智問題依舊存在。強如 Qwen2.5-Omni,在復雜的數學推理任務上依然會面臨超過 15% 的性能下降。

這讓我們思考:這些方法為什么無法從根本上解決問題?我們是不是要換一個角度來思考降智的問題?



Figure 1 以往的架構死磕輸出端,而 TextPro-SLM 選擇從輸入端破局

最近,一篇來自香港中文大學的最新力作,一下子戳破了重點:“為什么 Speech LLM 還是做的不夠好?因為真正的瓶頸,已經不在輸出端,而在輸入端!”

這篇論文名為《Minimizing Modality Gap from the Input Side: Your Speech LLM can be a Prosody-Aware Text LLM》。研究者們提出了一種極其反直覺卻又非常優雅的新架構 ——TextPro-SLM。他們發現在這種新架構下,僅僅需要約1000 小時的語音訓練數據,就可以在 3B 和 7B 參數規模上,實現業界最低 Modality Gap!



  • 論文標題:Minimizing Modality Gap from the Input Side: Your Speech LLM can be a Prosody-Aware Text LLM
  • 論文鏈接:https://arxiv.org/abs/2605.05927

重點中的重點:你的語音大模型何必是一個 “語音” 大模型?

我們知道,現在的語音大模型都是從文本大模型的基礎上訓練而來。想象一下,如果你是一個文本大模型(TLM),你最習慣的輸入是什么?是干凈純潔、高度濃縮而有效的,帶有人類語義邏輯的文本 tokens。

但現在的主流的語音大模型,也就是 Thinker-Talker 架構中,它的輸入是什么樣的?我們把輸入語音變成一長串連續的,但語義缺極其稀疏的向量表示(Speech Embeddings),然后一下子的強行塞進大模型里。

這種表征之中,無論是語義信息,副語言信息等等,都在這個極度龐雜的聲學信號中被瞬間稀釋。 在這樣的輸入下,大模型連聽清你具體在問什么,都要消耗巨量的腦細胞,這讓模型哪還有功夫去做深度邏輯推理?

基于這個觀察,香港中文大學的研究人員提出了一個極其犀利的 insight :

既然現在 Speech LLM 的輸出端已經和文本大模型保持了一致(Thinker-Talker 中 Thinker 只輸出文本 tokens),那為什么輸入端不能也像文本大模型來靠攏呢?從架構設計的角度來講,我們不需要逼著大模型去理解原聲雜亂的語音信號,我們只需要把它變成一個 “聽得懂語氣的文本大模型(Prosody-Aware Text LLM)!”。

想想看,人類的語音其實核心就包含兩個維度的信息:說了什么(語義內容,semantics)和怎么說的(韻律 / 副語言信息,Prosody)。

主流做法是把這兩個信息揉在同一批 Speech Embedding 中,而 TextPro-SLM 則將兩種信息徹底解耦。它在輸入端直接把語音拆分成兩路:純粹的文本 Token(保留大模型最愛的極致語義。是的,不用任何語音 semantic embedding),和高度濃縮的韻律 Embedding(如情緒、口音、年齡、音色等)。

? 核心方法:1000 小時訓練數據干翻百萬小時商業模型



Figure 2 WhisperPro 加上重構損失,實現文本與韻律的雙流輸出。

研究團隊設計了兩個十分優雅的模塊來實現語義與韻律的徹底解耦:

1. 文本聲音雙全的統一的 Speech Encoder:WhisperPro。研究團隊通過改造強大的語音識別(ASR)模型來實現大一統:讓 Whisper-large-v3 在文本轉錄的同時保留韻律特征。核心做法是在 Whisper 后面額外加入了一個 decoder 模塊,并使用重構損失(Reconstruction Loss)讓 Whisper 學會語音還原。這逼著 Whisper 的底層特征不僅要準確輸出文字,還必須把情緒、語氣等信息高度保留在 hidden states 中。最終模型輸出對齊的 Text Token + Prosody Embedding。

2. 讓 LLM 同時理解文本語義與韻律特征:如何把 Speech Encoder 的兩路輸出喂給大模型?文章中提出了兩種極其巧妙的投喂方式,將語音信息完美偽裝成大模型最熟悉的形態:

  • 模式一:全局前置(Global Prepending),極度極簡卻異常有效的注入方式。這個方法把一整個用戶語音中的 Prosody Embedding 壓縮成一個單一的濃縮向量,并將其直接放在整個輸入序列的最前面。這就相當于輸入層面提供了一個高效的 < 情緒標簽 >。這種注入方式極其簡單輕量。大模型只是感受到了一個小小的額外信息,完全不影響 LLM 激發起強大邏輯推理能力。

  • 模式二:交織注入(Interleaving),照顧細粒度情緒特征。有時候,用戶可能會在一段輸入中同時展現多種情緒(比如先笑后哭)。這該怎么辦呢?交織模式按照一定比例(文章中采用 5:1),將壓縮后的韻律 Embedding 均勻地穿插在文本 Token 之間。這種模式使得細粒度(fine-grained)的韻律得以保留,即使有非常復雜的副語言理解任務,模型也能輕松拿捏。

這種數據輸入方式完美匹配了文本大模型的舒適區,因此整個訓練過程極其省數據:僅僅用了約 1000 小時的音頻做知識蒸餾和副語言訓練。對比目前主流的商業模型,動不動就需要幾百萬甚至幾千萬小時訓練數據,TextPro-SLM 簡直是降維打擊。

實驗結果:代溝消失了??

一句話來形容 TextPro-SLM,那就是 “四兩撥千斤”。它在多個 benchmark 上展現出了近乎消失的 Modality Gap:



  • 最最最低的 Modality Gap:TextPro-SLM 在 3B 和 7B 參數下的語義表現遠超 baseline 模型。TextPro-SLM-7B 的平均代溝低至驚人的0.7%,遠超 Qwen2.5-Omni (3.1%) 和 SALAD (7.1%)。



  • 數學推理能力碾壓 baseline:研究人員采用 VoxEval 中的語音復雜數學題進行測試。Baseline 模型都在嚴重降智:公認擁有超高水準的 Kimi-Audio-7B,在高中數學(High School)上的 Modality Gap 竟達到了驚人的17.5%。反觀 TextPro-SLM,憑借優雅的模型設計與訓練,Modality Gap 僅為不可思議的1.8%!



  • 副語言理解任務的性能同樣是統治級的:雖然 TextPro-SLM 中 Prosody Embedding 采用了高度壓縮的方式,但在眾多副語言理解任務上超越了所有基線模型。并且交織注入(Interleaving 5:1)進一步拔高了副語言性能的上限。這反映出,在語音大模型的設計中,文字以外的信息 “給一點” 就夠了,重中之重還是語義理解。這也是 TextPro-SLM 能在各項任務中表現的如此優異的原因。

行業意義:對于 Speech LLM 下半場的思考

TextPro-SLM 的出現,不僅僅是為了解決 Modality Gap,它對整個多模態模型設計具有極強的啟發意義。

當全行業都在用無盡算力和海量數據強行連接各個極度差異的模態時,這篇論文提出了一個不同的聲音:有時候,巧妙的特征解耦(Decoupling),比暴力的特征融合更符合第一性原理。

對于正在 Speech LLM 行業深耕的創業者和開發者來說,TextPro-SLM 指出了一條明路:與其說暴力的消耗算力和瘋狂的采集數據,不如深入思考下究竟目前的 gap 在哪里。當你利用輸入端的巧妙設計,只需 1000 小時便可讓你的語音 Agent 同時實現天花板級別的文本能力和超高的共情能力。

語音大模型的進化,不一定非要讓它 “長出順風耳”,去試圖聽懂嘈雜的世界;有時候,給它配一個巧妙的 “信息助聽器”,反而能激發出最純粹的智慧。

真正的多模態融合,或許不是強行把各種雜亂的信息揉在一起,而是讓每種模態的信息,都能以它最舒適的姿態被理解。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

家居
房產
本地
手機
公開課

家居要聞

云棲 舒展如流云

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

本地新聞

用剪紙的方式,打開江蘇揚州

手機要聞

REDMI K90至尊版入網?K90單品激活破200萬

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版