網易首頁 > 網易號 > 正文申請入駐

ACL 2026｜塊越大，推理越差？擴散語言模型的新難題被T*破解了

2026-07-05 21:04:57　來源: 機器之心Pro

天津舉報

分享至

本文第一作者夏翰宸為上海科學智能研究院研究員，主要研究方向有Agentic RL和多模態擴散語言模型。共同一作是上海科學智能研究院主任研究員陳保友，通訊作者是復旦大學教授、上海科學智能研究院AI科學家、上海創智學院全時導師朱思語。

擴散語言模型想用更大的生成塊換取更高并行度，卻常常先丟掉數學推理，直接在大塊模型上做強化訓練甚至會出現訓練崩塌。

本文中，來自上海科學智能研究院等機構的研究者提出T*，給出一套「先小后大」的課程：先在小塊上學穩去噪軌跡，再逐級擴展到 B=8、16、32。4B 模型在 B=8 的 MATH500 設置下，相較原始 SDAR checkpoint 從 60.73 提升到 76.00。

論文標題：T*: Progressive Block Scaling for Masked Diffusion Language Models Through Trajectory Aware Reinforcement Learning
論文鏈接：https://arxiv.org/pdf/2602.09375

擴散語言模型的兩難：塊越大，并行潛力越高，推理也越脆弱

今天的大語言模型大多采用自回歸生成：每次前向計算確定一個新 token，再繼續生成下一個。它的因果順序清晰，但天然帶有串行瓶頸。

掩碼擴散語言模型走的是另一條路線。模型先面對一段仍包含多個掩碼位置的序列，再通過多輪去噪逐步確定答案。采用分塊擴散時，塊大小 B 決定了每一塊中有多少 token 可以共同更新。塊越大，模型在一次前向中同時定稿多個 token 的空間越大；但模型同時面對的未決位置也更多，條件信息更弱，去噪決策更難。

這一矛盾在強化學習階段被進一步放大。論文分析認為，大塊設置會帶來置信度更低、噪聲更大的 rollout；當同一個優勢信號被分配給更多 token 時，策略更新更容易發生概率漂移，最終出現訓練崩塌。

論文的 1.7B 實驗給出了一個直觀例子：直接應用 TraceRL 時，MATH500 準確率在 B=8 階段由約 56% 快速跌入 40% 出頭，在 B=16 階段末又跌至約 30%；T* 的曲線則在連續擴塊過程中保持相對穩定。

圖 1｜擴塊訓練過程中的 MATH500 驗證準確率。藍線為 T*，綠色虛線為直接 TraceRL；縱向虛線對應 B=4→8→16 的階段切換。

核心方法：T * 先把「小步」走穩，再逐級放大生成塊

T* 的核心并不是增加一個更復雜的模型模塊，而是重新安排強化學習的難度順序。

它從一個由自回歸模型初始化、已經具備推理能力的小塊擴散模型出發。在固定塊大小 B 的每個階段，模型先用 TraceRL 重新適配當前的去噪軌跡；完成規定的更新步數后，再把塊大小擴大為原來的兩倍。

實驗中的典型路徑是：B=4 → B=8 → B=16 → B=32。

實驗結果：T * 在大塊設置更穩定

論文在 SDAR-1.7B-Chat 和 SDAR-4B-Chat 上進行實驗，評測覆蓋 MATH500、GSM8K 和 AIME24，統一報告 Pass@3。對照組包括原始 SDAR checkpoint，以及在同一目標塊大小上直接應用 TraceRL 的模型。

經過 T* 訓練，SDAR-4B-Chat, B=8 在 MATH500 上達到 76.00%，相比原始模型提升15.27%，相比直接 TraceRL 提升13.90%。在 GSM8K 和 AIME24 上，也取得了更高結果。

在更大的 B=32 設置下，1.7B 模型仍能看到一致趨勢：T* 的 MATH500 準確率為 59.00，超過原始模型的準確率 54.20 和 TraceRL 的 54.10；GSM8K 則由原始模型的 78.31 提升至82.00。

圖 2｜不同模型規模和塊大小下的性能。黑色為原始模型，綠色為直接 TraceRL，藍色為 T*。

推理能力提高后，并行性并沒有被「換回」自回歸

一個自然疑問是：T* 會不會只是讓擴散模型重新退回逐 token、從左到右的生成方式，從而換回準確率？

論文使用TPF（tokens per forward）衡量每次模型前向平均能定稿多少個輸出 token。自回歸模型為 1.0；分塊擴散模型可以在同一塊內并行確定多個 token，因此 TPF 越高，說明塊內并行性越強。

在 1.7B 模型上，T* 的 TPF 隨塊大小從 B=8 的2.95，提升到 B=16 的3.38，再到 B=32 的3.80。

表 1｜去噪順序、準確率與 TPF。LocalStrict 越接近 1.0，生成順序越接近嚴格從左到右。

論文還報告，對于原始 SDAR-1.7B，從 B=8 擴到 B=16 和 B=32，TPF 分別提高約 16% 和 29%；在固定輸出長度下，對應所需前向次數約減少 14% 和 22%。T* 和 TraceRL 并沒有消除這一隨塊大小增加的并行性趨勢。

論文進一步使用 LocalStrict 衡量去噪順序與標準從左到右順序的接近程度。嚴格自回歸順序的 LocalStrict 為 1；數值越低，表示模型保留了更多非單調的掩碼更新。T* 在 B=8、16、32 下的 LocalStrict 分別為 0.854、0.804 和 0.730，并未回到 1。以 B=32 為例，T* 在 LocalStrict=0.730、TPF=3.80 的同時取得 59.0 的 MATH500 準確率。這說明準確率改善不能簡單解釋為 “模型重新變成自回歸”，而是策略在目標塊大小下形成了另一種 token 定稿順序。

圖 4｜TraceRL 與 T* 的 token 首次解掩碼步驟。顏色越深，代表該 token 越晚定稿；兩種方法均保留非單調更新，但在目標塊大小下學到的調度不同。

上圖結果也提供了一個更具研究意味的觀察：除在外部顯式構造樹搜索、圖搜索等推理腳手架外，強化學習還可能直接重塑模型內部的 token 定稿順序。論文將其視為一條互補方向，而不是對現有搜索式推理方法的替代。

【ICML 2026首爾 · 云帆AI Talent Meetup】最后報名中

7月9日晚，首爾ICML會場旁，上海人工智能實驗室、上海科技大學、上海創智學院、階躍星辰、Sharpa Robotics等20余家上海頂尖AI單位現場設展，開放100+崗位。專場招聘、學術分享、圓桌交流、自由Networking一站式搞定。

掃碼即刻報名。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.