无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

ACL 2026|塊越大,推理越差?擴散語言模型的新難題被T*破解了

0
分享至




本文第一作者夏翰宸為上海科學智能研究院研究員,主要研究方向有Agentic RL和多模態擴散語言模型。共同一作是上海科學智能研究院主任研究員陳保友,通訊作者是復旦大學教授、上海科學智能研究院AI科學家、上海創智學院全時導師朱思語。

擴散語言模型想用更大的生成塊換取更高并行度,卻常常先丟掉數學推理,直接在大塊模型上做強化訓練甚至會出現訓練崩塌。

本文中,來自上海科學智能研究院等機構的研究者提出T*,給出一套「先小后大」的課程:先在小塊上學穩去噪軌跡,再逐級擴展到 B=8、16、32。4B 模型在 B=8 的 MATH500 設置下,相較原始 SDAR checkpoint 從 60.73 提升到 76.00。



  • 論文標題:T*: Progressive Block Scaling for Masked Diffusion Language Models Through Trajectory Aware Reinforcement Learning
  • 論文鏈接:https://arxiv.org/pdf/2602.09375

擴散語言模型的兩難:塊越大,并行潛力越高,推理也越脆弱

今天的大語言模型大多采用自回歸生成:每次前向計算確定一個新 token,再繼續生成下一個。它的因果順序清晰,但天然帶有串行瓶頸。

掩碼擴散語言模型走的是另一條路線。模型先面對一段仍包含多個掩碼位置的序列,再通過多輪去噪逐步確定答案。采用分塊擴散時,塊大小 B 決定了每一塊中有多少 token 可以共同更新。塊越大,模型在一次前向中同時定稿多個 token 的空間越大;但模型同時面對的未決位置也更多,條件信息更弱,去噪決策更難。

這一矛盾在強化學習階段被進一步放大。論文分析認為,大塊設置會帶來置信度更低、噪聲更大的 rollout;當同一個優勢信號被分配給更多 token 時,策略更新更容易發生概率漂移,最終出現訓練崩塌。

論文的 1.7B 實驗給出了一個直觀例子:直接應用 TraceRL 時,MATH500 準確率在 B=8 階段由約 56% 快速跌入 40% 出頭,在 B=16 階段末又跌至約 30%;T* 的曲線則在連續擴塊過程中保持相對穩定。



圖 1|擴塊訓練過程中的 MATH500 驗證準確率。藍線為 T*,綠色虛線為直接 TraceRL;縱向虛線對應 B=4→8→16 的階段切換。

核心方法:T * 先把「小步」走穩,再逐級放大生成塊

T* 的核心并不是增加一個更復雜的模型模塊,而是重新安排強化學習的難度順序。

它從一個由自回歸模型初始化、已經具備推理能力的小塊擴散模型出發。在固定塊大小 B 的每個階段,模型先用 TraceRL 重新適配當前的去噪軌跡;完成規定的更新步數后,再把塊大小擴大為原來的兩倍。

實驗中的典型路徑是:B=4 → B=8 → B=16 → B=32。

實驗結果:T * 在大塊設置更穩定

論文在 SDAR-1.7B-Chat 和 SDAR-4B-Chat 上進行實驗,評測覆蓋 MATH500、GSM8K 和 AIME24,統一報告 Pass@3。對照組包括原始 SDAR checkpoint,以及在同一目標塊大小上直接應用 TraceRL 的模型。

經過 T* 訓練,SDAR-4B-Chat, B=8 在 MATH500 上達到 76.00%,相比原始模型提升15.27%,相比直接 TraceRL 提升13.90%。在 GSM8K 和 AIME24 上,也取得了更高結果。

在更大的 B=32 設置下,1.7B 模型仍能看到一致趨勢:T* 的 MATH500 準確率為 59.00,超過原始模型的準確率 54.20 和 TraceRL 的 54.10;GSM8K 則由原始模型的 78.31 提升至82.00。



圖 2|不同模型規模和塊大小下的性能。黑色為原始模型,綠色為直接 TraceRL,藍色為 T*。

推理能力提高后,并行性并沒有被「換回」自回歸

一個自然疑問是:T* 會不會只是讓擴散模型重新退回逐 token、從左到右的生成方式,從而換回準確率?

論文使用TPF(tokens per forward)衡量每次模型前向平均能定稿多少個輸出 token。自回歸模型為 1.0;分塊擴散模型可以在同一塊內并行確定多個 token,因此 TPF 越高,說明塊內并行性越強。

在 1.7B 模型上,T* 的 TPF 隨塊大小從 B=8 的2.95,提升到 B=16 的3.38,再到 B=32 的3.80。



表 1|去噪順序、準確率與 TPF。LocalStrict 越接近 1.0,生成順序越接近嚴格從左到右。

論文還報告,對于原始 SDAR-1.7B,從 B=8 擴到 B=16 和 B=32,TPF 分別提高約 16% 和 29%;在固定輸出長度下,對應所需前向次數約減少 14% 和 22%。T* 和 TraceRL 并沒有消除這一隨塊大小增加的并行性趨勢。

論文進一步使用 LocalStrict 衡量去噪順序與標準從左到右順序的接近程度。嚴格自回歸順序的 LocalStrict 為 1;數值越低,表示模型保留了更多非單調的掩碼更新。T* 在 B=8、16、32 下的 LocalStrict 分別為 0.854、0.804 和 0.730,并未回到 1。以 B=32 為例,T* 在 LocalStrict=0.730、TPF=3.80 的同時取得 59.0 的 MATH500 準確率。這說明準確率改善不能簡單解釋為 “模型重新變成自回歸”,而是策略在目標塊大小下形成了另一種 token 定稿順序。



圖 4|TraceRL 與 T* 的 token 首次解掩碼步驟。顏色越深,代表該 token 越晚定稿;兩種方法均保留非單調更新,但在目標塊大小下學到的調度不同。

上圖結果也提供了一個更具研究意味的觀察:除在外部顯式構造樹搜索、圖搜索等推理腳手架外,強化學習還可能直接重塑模型內部的 token 定稿順序。論文將其視為一條互補方向,而不是對現有搜索式推理方法的替代。

【ICML 2026首爾 · 云帆AI Talent Meetup】最后報名中

7月9日晚,首爾ICML會場旁,上海人工智能實驗室、上海科技大學、上海創智學院、階躍星辰、Sharpa Robotics等20余家上海頂尖AI單位現場設展,開放100+崗位。專場招聘、學術分享、圓桌交流、自由Networking一站式搞定。

掃碼即刻報名。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
14球對70球,15球對19球!大羅徹底淪為笑話,被姆巴佩全面碾壓!

14球對70球,15球對19球!大羅徹底淪為笑話,被姆巴佩全面碾壓!

陌識
2026-07-05 07:18:08
韓國央行警示三星、SK海力士杠桿ETF或加劇市場波動

韓國央行警示三星、SK海力士杠桿ETF或加劇市場波動

財聯社
2026-07-05 15:50:10
賈玲巴黎周“一臉男相”!不愛笑也沒梨渦眼神犀利,梳大背頭好酷

賈玲巴黎周“一臉男相”!不愛笑也沒梨渦眼神犀利,梳大背頭好酷

軒逸阿II
2026-01-20 07:54:29
先進封裝迎來新風口!這個新方向要走出長期行情

先進封裝迎來新風口!這個新方向要走出長期行情

花小貓的美食日常
2026-07-05 19:55:29
淘汰賽變成全武行!這個主裁太離譜,前裁判怒了:應取消執法資格

淘汰賽變成全武行!這個主裁太離譜,前裁判怒了:應取消執法資格

萌蘭聊個球
2026-07-05 08:21:47
日本若與中國交戰,賴岳謙:中國可能會讓日本把二戰的血債血還

日本若與中國交戰,賴岳謙:中國可能會讓日本把二戰的血債血還

精彩一網打盡
2026-05-22 03:51:48
東北3歲網紅小吃播不是侏儒癥,掉下每一粒米飯都撿起來吃

東北3歲網紅小吃播不是侏儒癥,掉下每一粒米飯都撿起來吃

九方魚論
2026-07-05 20:27:49
馬赫雷斯宣布退出國家隊:12年國腳生涯落幕

馬赫雷斯宣布退出國家隊:12年國腳生涯落幕

快樂加載中21
2026-07-04 01:19:36
韓紅被罵才幾天,黑歷史被扒,央媒出手銳評,句句說到打工人心坎

韓紅被罵才幾天,黑歷史被扒,央媒出手銳評,句句說到打工人心坎

聊歷史的阿稼
2026-07-05 20:41:16
0比2北京國安不到24小時,山東泰山作出重要決定,期待有最新結果

0比2北京國安不到24小時,山東泰山作出重要決定,期待有最新結果

王大發不懂球
2026-07-05 20:31:10
快訊!臺灣官員:大陸又有新動作了!

快訊!臺灣官員:大陸又有新動作了!

故事終將光明磊落
2026-07-05 12:10:21
“女兒沒做過的醫美60歲老爸先做上了…?”哈哈哈做完瞬間解鎖善良人格!

“女兒沒做過的醫美60歲老爸先做上了…?”哈哈哈做完瞬間解鎖善良人格!

浪花媽媽
2026-07-04 20:49:38
陪盧秀燕赴臺南幫謝龍介輔選,連勝文:藍色是不放棄的顏色

陪盧秀燕赴臺南幫謝龍介輔選,連勝文:藍色是不放棄的顏色

海峽導報社
2026-07-04 21:43:09
我59歲才頓悟一個道理:如果別人請客不想去,千萬別傻傻地回“有事去不了,下次再約”,高情商的人這樣回應

我59歲才頓悟一個道理:如果別人請客不想去,千萬別傻傻地回“有事去不了,下次再約”,高情商的人這樣回應

心理觀察局
2026-05-13 09:07:23
碾壓級平替!曼聯 8000 萬撿漏真核,完爆熱刺 8500 萬水貨新援

碾壓級平替!曼聯 8000 萬撿漏真核,完爆熱刺 8500 萬水貨新援

瀾歸序
2026-07-05 08:11:44
穆里尼奧力保!皇馬鐵了心甩賣,邊緣替補世界杯封神打臉高層

穆里尼奧力保!皇馬鐵了心甩賣,邊緣替補世界杯封神打臉高層

瀾歸序
2026-07-05 05:37:57
杜鋒卸任后廣東放大招!1舉動引猜想,新帥露端倪,11冠王換玩法

杜鋒卸任后廣東放大招!1舉動引猜想,新帥露端倪,11冠王換玩法

萌蘭聊個球
2026-07-05 14:43:29
女單4強全部出爐!誕生3大不可思議,孫穎莎強勢,蒯曼極限大逆轉

女單4強全部出爐!誕生3大不可思議,孫穎莎強勢,蒯曼極限大逆轉

南海浪花
2026-07-05 13:12:34
Netflix出品,這部韓劇后勁太大了

Netflix出品,這部韓劇后勁太大了

來看美劇
2026-07-04 23:53:53
下午2點!CCTV5全程直播 中國男籃生死戰一觸即發 贏球出線輸球回家

下午2點!CCTV5全程直播 中國男籃生死戰一觸即發 贏球出線輸球回家

云隱南山
2026-07-05 15:50:22
2026-07-05 23:27:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13442文章數 142688關注度
往期回顧 全部

科技要聞

華為:邏輯折疊將大幅提升麒麟CPU核心頻率

頭條要聞

未獲明確同意民辦社康給女患者打激素 處罰決定書披露

頭條要聞

未獲明確同意民辦社康給女患者打激素 處罰決定書披露

體育要聞

姆巴佩點走巴拉圭:巴黎三代左鋒傳承

娛樂要聞

霉霉婚禮照片泄露 有四人違規

財經要聞

揭秘跨境“對敲”換匯黑產

汽車要聞

方程豹鈦9內飾曝光 用上了長聯屏設計/下半年上市

態度原創

本地
親子
藝術
時尚
公開課

本地新聞

國內足球之旅?這座小城給你高分答案

親子要聞

奉勸大家:超市里這5種食物少給孩子吃,看似有營養,實則沒好處

藝術要聞

畫布上邂逅一場光影之戀:俄羅斯油畫大師的溫柔人間

3年賺46億,楊冪喊出一個安徽富豪

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版