![]()
本文第一作者夏翰宸為上海科學智能研究院研究員,主要研究方向有Agentic RL和多模態擴散語言模型。共同一作是上海科學智能研究院主任研究員陳保友,通訊作者是復旦大學教授、上海科學智能研究院AI科學家、上海創智學院全時導師朱思語。
擴散語言模型想用更大的生成塊換取更高并行度,卻常常先丟掉數學推理,直接在大塊模型上做強化訓練甚至會出現訓練崩塌。
本文中,來自上海科學智能研究院等機構的研究者提出T*,給出一套「先小后大」的課程:先在小塊上學穩去噪軌跡,再逐級擴展到 B=8、16、32。4B 模型在 B=8 的 MATH500 設置下,相較原始 SDAR checkpoint 從 60.73 提升到 76.00。
![]()
- 論文標題:T*: Progressive Block Scaling for Masked Diffusion Language Models Through Trajectory Aware Reinforcement Learning
- 論文鏈接:https://arxiv.org/pdf/2602.09375
擴散語言模型的兩難:塊越大,并行潛力越高,推理也越脆弱
今天的大語言模型大多采用自回歸生成:每次前向計算確定一個新 token,再繼續生成下一個。它的因果順序清晰,但天然帶有串行瓶頸。
掩碼擴散語言模型走的是另一條路線。模型先面對一段仍包含多個掩碼位置的序列,再通過多輪去噪逐步確定答案。采用分塊擴散時,塊大小 B 決定了每一塊中有多少 token 可以共同更新。塊越大,模型在一次前向中同時定稿多個 token 的空間越大;但模型同時面對的未決位置也更多,條件信息更弱,去噪決策更難。
這一矛盾在強化學習階段被進一步放大。論文分析認為,大塊設置會帶來置信度更低、噪聲更大的 rollout;當同一個優勢信號被分配給更多 token 時,策略更新更容易發生概率漂移,最終出現訓練崩塌。
論文的 1.7B 實驗給出了一個直觀例子:直接應用 TraceRL 時,MATH500 準確率在 B=8 階段由約 56% 快速跌入 40% 出頭,在 B=16 階段末又跌至約 30%;T* 的曲線則在連續擴塊過程中保持相對穩定。
![]()
圖 1|擴塊訓練過程中的 MATH500 驗證準確率。藍線為 T*,綠色虛線為直接 TraceRL;縱向虛線對應 B=4→8→16 的階段切換。
核心方法:T * 先把「小步」走穩,再逐級放大生成塊
T* 的核心并不是增加一個更復雜的模型模塊,而是重新安排強化學習的難度順序。
它從一個由自回歸模型初始化、已經具備推理能力的小塊擴散模型出發。在固定塊大小 B 的每個階段,模型先用 TraceRL 重新適配當前的去噪軌跡;完成規定的更新步數后,再把塊大小擴大為原來的兩倍。
實驗中的典型路徑是:B=4 → B=8 → B=16 → B=32。
實驗結果:T * 在大塊設置更穩定
論文在 SDAR-1.7B-Chat 和 SDAR-4B-Chat 上進行實驗,評測覆蓋 MATH500、GSM8K 和 AIME24,統一報告 Pass@3。對照組包括原始 SDAR checkpoint,以及在同一目標塊大小上直接應用 TraceRL 的模型。
經過 T* 訓練,SDAR-4B-Chat, B=8 在 MATH500 上達到 76.00%,相比原始模型提升15.27%,相比直接 TraceRL 提升13.90%。在 GSM8K 和 AIME24 上,也取得了更高結果。
在更大的 B=32 設置下,1.7B 模型仍能看到一致趨勢:T* 的 MATH500 準確率為 59.00,超過原始模型的準確率 54.20 和 TraceRL 的 54.10;GSM8K 則由原始模型的 78.31 提升至82.00。
![]()
圖 2|不同模型規模和塊大小下的性能。黑色為原始模型,綠色為直接 TraceRL,藍色為 T*。
推理能力提高后,并行性并沒有被「換回」自回歸
一個自然疑問是:T* 會不會只是讓擴散模型重新退回逐 token、從左到右的生成方式,從而換回準確率?
論文使用TPF(tokens per forward)衡量每次模型前向平均能定稿多少個輸出 token。自回歸模型為 1.0;分塊擴散模型可以在同一塊內并行確定多個 token,因此 TPF 越高,說明塊內并行性越強。
在 1.7B 模型上,T* 的 TPF 隨塊大小從 B=8 的2.95,提升到 B=16 的3.38,再到 B=32 的3.80。
![]()
表 1|去噪順序、準確率與 TPF。LocalStrict 越接近 1.0,生成順序越接近嚴格從左到右。
論文還報告,對于原始 SDAR-1.7B,從 B=8 擴到 B=16 和 B=32,TPF 分別提高約 16% 和 29%;在固定輸出長度下,對應所需前向次數約減少 14% 和 22%。T* 和 TraceRL 并沒有消除這一隨塊大小增加的并行性趨勢。
論文進一步使用 LocalStrict 衡量去噪順序與標準從左到右順序的接近程度。嚴格自回歸順序的 LocalStrict 為 1;數值越低,表示模型保留了更多非單調的掩碼更新。T* 在 B=8、16、32 下的 LocalStrict 分別為 0.854、0.804 和 0.730,并未回到 1。以 B=32 為例,T* 在 LocalStrict=0.730、TPF=3.80 的同時取得 59.0 的 MATH500 準確率。這說明準確率改善不能簡單解釋為 “模型重新變成自回歸”,而是策略在目標塊大小下形成了另一種 token 定稿順序。
![]()
圖 4|TraceRL 與 T* 的 token 首次解掩碼步驟。顏色越深,代表該 token 越晚定稿;兩種方法均保留非單調更新,但在目標塊大小下學到的調度不同。
上圖結果也提供了一個更具研究意味的觀察:除在外部顯式構造樹搜索、圖搜索等推理腳手架外,強化學習還可能直接重塑模型內部的 token 定稿順序。論文將其視為一條互補方向,而不是對現有搜索式推理方法的替代。
【ICML 2026首爾 · 云帆AI Talent Meetup】最后報名中
7月9日晚,首爾ICML會場旁,上海人工智能實驗室、上海科技大學、上海創智學院、階躍星辰、Sharpa Robotics等20余家上海頂尖AI單位現場設展,開放100+崗位。專場招聘、學術分享、圓桌交流、自由Networking一站式搞定。
掃碼即刻報名。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.