網易首頁 > 網易號 > 正文申請入駐

Speech LLM 的下一個突破口：語音大模型可以是帶韻律的文本模型

2026-05-27 17:45:18　來源: 機器之心Pro

天津舉報

分享至

語音大模型的最大瓶頸：“模型降智”

相信大家都有過這樣的體驗：同一個系列的模型，使用文本交互的時候，模型就像開啟了 “最強大腦”，數學代碼等各種復雜推理任務樣樣精通，可是一旦將其改造成語音對話模型之后，性能就猛烈下降，嚴重 “降智”，經常會犯很多基本的邏輯錯誤。

這個讓整個行業十分頭疼的現象，學術界將其定義為 “模態代溝”（Modality Gap）。

為了降低 Modality Gap，整個 Speech AI 行業在過去幾年里進行了兩波主要的改進。

第一波改進，大家發現應該 “換模態”。既然傳統端到端的語音大模型嚴重降智，那就通過文本模態進行緩沖，也就是讓模型先 “想” 出文本，再將文本轉換成對應的語音輸出。這便催生了目前語音大模型的主流架構：Thinker-Talker。大家發現讓 Thinker 輸出文本的模式可以一定程度上拉高模型的性能上限。

第二波改進，大家開始在模型的輸出端對齊（Output Alignment）上面下功夫。即使是用 Thinker 做文本輸出，還是有相當一部分的 Modality Gap。于是大家希望大模型在面對文本輸入和語音輸入的時候能 “一模一樣” 的輸出，從而拉高智商。于是行業中出現了各種各樣專門緩解 Modality Gap 的文章。他們大多數通過知識蒸餾（Knowledge Distillation），表示對齊（Representation Alignment）等方法來拉近兩個模式下輸出的距離。

然而，我們發現，在這兩波改進之后，即使語音預訓練數據被拉到了百萬小時甚至千萬小時的級別，降智問題依舊存在。強如 Qwen2.5-Omni，在復雜的數學推理任務上依然會面臨超過 15% 的性能下降。

這讓我們思考：這些方法為什么無法從根本上解決問題？我們是不是要換一個角度來思考降智的問題？

Figure 1 以往的架構死磕輸出端，而 TextPro-SLM 選擇從輸入端破局

最近，一篇來自香港中文大學的最新力作，一下子戳破了重點：“為什么 Speech LLM 還是做的不夠好？因為真正的瓶頸，已經不在輸出端，而在輸入端！”

這篇論文名為《Minimizing Modality Gap from the Input Side: Your Speech LLM can be a Prosody-Aware Text LLM》。研究者們提出了一種極其反直覺卻又非常優雅的新架構 ——TextPro-SLM。他們發現在這種新架構下，僅僅需要約1000 小時的語音訓練數據，就可以在 3B 和 7B 參數規模上，實現業界最低 Modality Gap！

論文標題：Minimizing Modality Gap from the Input Side: Your Speech LLM can be a Prosody-Aware Text LLM
論文鏈接：https://arxiv.org/abs/2605.05927

重點中的重點：你的語音大模型何必是一個 “語音” 大模型？

我們知道，現在的語音大模型都是從文本大模型的基礎上訓練而來。想象一下，如果你是一個文本大模型（TLM），你最習慣的輸入是什么？是干凈純潔、高度濃縮而有效的，帶有人類語義邏輯的文本 tokens。

但現在的主流的語音大模型，也就是 Thinker-Talker 架構中，它的輸入是什么樣的？我們把輸入語音變成一長串連續的，但語義缺極其稀疏的向量表示（Speech Embeddings），然后一下子的強行塞進大模型里。

這種表征之中，無論是語義信息，副語言信息等等，都在這個極度龐雜的聲學信號中被瞬間稀釋。在這樣的輸入下，大模型連聽清你具體在問什么，都要消耗巨量的腦細胞，這讓模型哪還有功夫去做深度邏輯推理？

基于這個觀察，香港中文大學的研究人員提出了一個極其犀利的 insight ：

既然現在 Speech LLM 的輸出端已經和文本大模型保持了一致（Thinker-Talker 中 Thinker 只輸出文本 tokens），那為什么輸入端不能也像文本大模型來靠攏呢？從架構設計的角度來講，我們不需要逼著大模型去理解原聲雜亂的語音信號，我們只需要把它變成一個 “聽得懂語氣的文本大模型（Prosody-Aware Text LLM）！”。

想想看，人類的語音其實核心就包含兩個維度的信息：說了什么（語義內容，semantics）和怎么說的（韻律 / 副語言信息，Prosody）。

主流做法是把這兩個信息揉在同一批 Speech Embedding 中，而 TextPro-SLM 則將兩種信息徹底解耦。它在輸入端直接把語音拆分成兩路：純粹的文本 Token（保留大模型最愛的極致語義。是的，不用任何語音 semantic embedding），和高度濃縮的韻律 Embedding（如情緒、口音、年齡、音色等）。

? 核心方法：1000 小時訓練數據干翻百萬小時商業模型

Figure 2 WhisperPro 加上重構損失，實現文本與韻律的雙流輸出。

研究團隊設計了兩個十分優雅的模塊來實現語義與韻律的徹底解耦：

1. 文本聲音雙全的統一的 Speech Encoder：WhisperPro。研究團隊通過改造強大的語音識別（ASR）模型來實現大一統：讓 Whisper-large-v3 在文本轉錄的同時保留韻律特征。核心做法是在 Whisper 后面額外加入了一個 decoder 模塊，并使用重構損失（Reconstruction Loss）讓 Whisper 學會語音還原。這逼著 Whisper 的底層特征不僅要準確輸出文字，還必須把情緒、語氣等信息高度保留在 hidden states 中。最終模型輸出對齊的 Text Token + Prosody Embedding。

2. 讓 LLM 同時理解文本語義與韻律特征：如何把 Speech Encoder 的兩路輸出喂給大模型？文章中提出了兩種極其巧妙的投喂方式，將語音信息完美偽裝成大模型最熟悉的形態：

模式一：全局前置（Global Prepending），極度極簡卻異常有效的注入方式。這個方法把一整個用戶語音中的 Prosody Embedding 壓縮成一個單一的濃縮向量，并將其直接放在整個輸入序列的最前面。這就相當于輸入層面提供了一個高效的 < 情緒標簽 >。這種注入方式極其簡單輕量。大模型只是感受到了一個小小的額外信息，完全不影響 LLM 激發起強大邏輯推理能力。
模式二：交織注入（Interleaving），照顧細粒度情緒特征。有時候，用戶可能會在一段輸入中同時展現多種情緒（比如先笑后哭）。這該怎么辦呢？交織模式按照一定比例（文章中采用 5:1），將壓縮后的韻律 Embedding 均勻地穿插在文本 Token 之間。這種模式使得細粒度（fine-grained）的韻律得以保留，即使有非常復雜的副語言理解任務，模型也能輕松拿捏。

這種數據輸入方式完美匹配了文本大模型的舒適區，因此整個訓練過程極其省數據：僅僅用了約 1000 小時的音頻做知識蒸餾和副語言訓練。對比目前主流的商業模型，動不動就需要幾百萬甚至幾千萬小時訓練數據，TextPro-SLM 簡直是降維打擊。

實驗結果：代溝消失了？？

一句話來形容 TextPro-SLM，那就是 “四兩撥千斤”。它在多個 benchmark 上展現出了近乎消失的 Modality Gap：

最最最低的 Modality Gap：TextPro-SLM 在 3B 和 7B 參數下的語義表現遠超 baseline 模型。TextPro-SLM-7B 的平均代溝低至驚人的0.7%，遠超 Qwen2.5-Omni (3.1%) 和 SALAD (7.1%)。

數學推理能力碾壓 baseline：研究人員采用 VoxEval 中的語音復雜數學題進行測試。Baseline 模型都在嚴重降智：公認擁有超高水準的 Kimi-Audio-7B，在高中數學（High School）上的 Modality Gap 竟達到了驚人的17.5%。反觀 TextPro-SLM，憑借優雅的模型設計與訓練，Modality Gap 僅為不可思議的1.8%！

副語言理解任務的性能同樣是統治級的：雖然 TextPro-SLM 中 Prosody Embedding 采用了高度壓縮的方式，但在眾多副語言理解任務上超越了所有基線模型。并且交織注入（Interleaving 5:1）進一步拔高了副語言性能的上限。這反映出，在語音大模型的設計中，文字以外的信息 “給一點” 就夠了，重中之重還是語義理解。這也是 TextPro-SLM 能在各項任務中表現的如此優異的原因。

行業意義：對于 Speech LLM 下半場的思考

TextPro-SLM 的出現，不僅僅是為了解決 Modality Gap，它對整個多模態模型設計具有極強的啟發意義。

當全行業都在用無盡算力和海量數據強行連接各個極度差異的模態時，這篇論文提出了一個不同的聲音：有時候，巧妙的特征解耦（Decoupling），比暴力的特征融合更符合第一性原理。

對于正在 Speech LLM 行業深耕的創業者和開發者來說，TextPro-SLM 指出了一條明路：與其說暴力的消耗算力和瘋狂的采集數據，不如深入思考下究竟目前的 gap 在哪里。當你利用輸入端的巧妙設計，只需 1000 小時便可讓你的語音 Agent 同時實現天花板級別的文本能力和超高的共情能力。

語音大模型的進化，不一定非要讓它 “長出順風耳”，去試圖聽懂嘈雜的世界；有時候，給它配一個巧妙的 “信息助聽器”，反而能激發出最純粹的智慧。

真正的多模態融合，或許不是強行把各種雜亂的信息揉在一起，而是讓每種模態的信息，都能以它最舒適的姿態被理解。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.