![]()
機器之心編輯部
「語言是離散的,但語言模型不一定是。」
去年,一個名為 LLaDA 的項目在 AI 圈引發了不小的討論。這個基于「掩碼擴散」原理的語言模型,宣稱在若干基準測試上能與同規模的自回歸大模型(即 GPT 為代表的逐字生成模型)一較高下。
消息一出,擴散語言模型(Diffusion Language Model,DLM)這個此前略顯小眾的研究方向,突然進入了更多人的視野。
我們知道,文字是離散的 token,而擴散模型天然擅長處理連續數據,這讓視覺生成領域的主流技術,天然地難以運用在語言大模型上。
而在 LLaDA 說明擴散模型可行后,各路團隊相繼跟進。研究者們普遍承認,擴散模型在文本生成上確實大有潛力 —— 它天然支持并行解碼,理論上可以比逐字輸出的自回歸模型快得多,也更容易實現「填空」、「雙向修改」等自回歸模型難以完成的任務。
在這一大方向上,研究者走出了兩條路:
- 離散擴散語言模型(Discrete DLM):直接在 token 空間里定義擴散過程,比如用 MASK 遮蓋 token 再逐步還原(MDLM)、或者把 token 往均勻分布擴散再逐步修正(Duo)。這條路近年來一直是主流,效果更好。
- 連續擴散語言模型(Continuous DLM):先把 token 映射到連續的嵌入向量,在連續空間里做去噪,最后再轉回 token。這條路理論上更優雅,但實際效果長期落后于離散派。
何愷明團隊的這篇新論文則選擇了明顯更加困難的后者。
他們提出的模型叫做ELF(Embedded Language Flows,嵌入式語言流),核心思路只有一句話:把擴散過程搬進連續的向量空間,只在最后一步才把結果翻譯成詞
![]()
論文共一作者 Linlu Qiu 的推文
實驗結果顯示,這個思路不僅可行,效果還出人意料地好:用不到其它方法十分之一的訓練數據,生成質量就已經全面領先。
![]()
- 論文標題:ELF: Embedded Language Flows
- 論文地址:https://arxiv.org/pdf/2605.10938v1
- 代碼倉庫:https://github.com/lillian039/ELF
何愷明的答案:只在最后一步變成詞
這篇論文來自 MIT 的一支八人團隊,其中兩位是共同第一作者(胡珂雅和 Linlu Qiu),通訊作者則是計算機視覺領域的標志性人物之一 ——何愷明
何愷明的名字,對于稍微了解深度學習歷史的讀者并不陌生。2015 年,他在微軟亞洲研究院提出了殘差網絡(ResNet),一舉解決了深層神經網絡難以訓練的瓶頸,這篇論文至今仍是 AI 領域被引用次數最多的論文之一,其提出的殘差連接結構已滲透進 Transformer、AlphaGo Zero、AlphaFold 等幾乎所有現代 AI 系統。2024 年,他從 Meta AI 加盟 MIT,開始系統研究生成模型。
![]()
「我看到何愷明的論文,我就點進去。」
![]()
ELF,是這支團隊迄今在語言生成方向上最獨具一格的創新。
既然擴散模型最擅長處理連續空間,何不讓它在連續空間里走完整段旅程,只在終點才做一次「翻譯」?
具體來說,ELF 的做法是這樣的:
首先,把一句話的每個詞,通過一個預訓練好的編碼器(論文中使用的是 T5 編碼器),轉換成一組連續的高維向量。這個向量不只代表單個詞,而是捕捉了上下文語義的「語境嵌入」。
然后,用「流匹配」(Flow Matching),一種近年在圖像生成中大行其道的連續擴散框架,在這些向量上做去噪:從一團高斯噪聲出發,沿著學到的速度場,一步步把噪聲推向干凈的嵌入向量。
最后,也只有在最后這一步,ELF 才把去噪后的連續向量,通過一個「反嵌入層」映射回詞匯表,輸出具體的詞。
![]()
與之前的連續擴散語言模型不同的是,ELF 在整個去噪過程中,從不中途把連續向量變回到詞的空間。不打斷流動的連續性,讓擴散動力學有最大的自由度。而正因為全程都在向量空間里,圖像擴散領域開發的各種技術可以幾乎原封不動地搬進來使用,比如「無分類器引導」(Classifier-Free Guidance,CFG)。
一個網絡,兩種模式
ELF 設計上另一個值得一提的巧思,是用一個網絡同時承擔「去噪」和「解碼」兩個功能,靠一個「mode token」來切換。
訓練時,同一個網絡的 80% 時間用于學習去噪(MSE 損失),剩下 20% 時間學習如何把最終的嵌入向量映射回詞(交叉熵損失)。
![]()
推理時,在最后一步之前,網絡一直處于去噪模式;到了最后時刻,它切換成解碼模式,將連續向量翻譯成詞輸出。這樣,不需要額外訓練一個獨立的解碼器,整個流程簡潔而統一。
![]()
此外,ELF 還引入了「自條件」(Self-Conditioning)機制:網絡在每一步去噪時,可以把自己上一步的預測結果當作參考輸入,而不是從零開始猜測。這不僅提高了生成質量,還為 CFG 提供了現成的「條件信號」來源,幾乎不帶來額外的計算負擔。
實驗結果:用十分之一的訓練量,碾壓對手
論文的實驗結果很有說服力。
研究者選取的基準測試,是擴散語言模型領域通行的標準設定:在 OpenWebText 語料庫上訓練,用生成困惑度(Generative Perplexity,值越低越好,代表生成文本越流暢自然)和詞匯熵(Entropy,值越高越好,代表生成多樣性越豐富)衡量質量。
![]()
ELF 只用了 32 個采樣步數就達到了困惑度 24。 相比之下,目前主流的離散擴散語言模型(MDLM、Duo 等)即便經過專門的「蒸餾」訓練來加速推理,在同等步數下的表現也不及 ELF,而 ELF 完全沒有做蒸餾。
訓練成本的差距更加懸殊。論文統計,MDLM、Duo、FLM 等主流方法各自使用了約 5000 億個 Token 的訓練數據,ELF 只用了約 450 億 ——大約是它們的十分之一
![]()
在更具實際意義的條件生成任務上,ELF 同樣表現突出。在 WMT14 德英機器翻譯基準上,ELF 取得了 26.4 的 BLEU 分數,超過了同等規模的自回歸模型(25.2)以及 MDLM(18.4)、CDCD(24.9)等對手。在 XSum 新聞摘要任務上,ELF 在 ROUGE-1、ROUGE-2、ROUGE-L 三項指標上也均居首位。
過去兩年,擴散語言模型的研究進展幾乎都集中在離散空間 —— 更精巧的掩碼策略、更高效的解碼方式、更大規模的訓練。連續擴散路線因為與語言「離散本質」之間存在天然張力,一直處于相對邊緣的位置。
ELF 的出現,提供了一個不同的參照點:連續擴散不是語言建模的障礙,而可能是一個尚未充分開發的優勢所在。連續空間里的流動更平滑,更容易借用圖像生成領域積累的技術,也更容易做引導和控制。ELF 在規模測試中表現出的良好擴展性(從 1 億參數到 6.5 億參數,質量持續提升),也說明這條路上仍有相當大的空間。
當然,ELF 目前的評估還主要停留在中等規模模型和學術基準測試上。它能否在更大規模、更廣泛的任務上與當前最強的自回歸大模型形成真實競爭,還有待后續驗證。但就當下的結果而言,它至少清晰地回答了一個懸而未決的問題:
連續擴散語言模型,似乎終于找對了方法。
更多詳情,請參閱原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.