![]()
這項由俄羅斯MWS AI與ITMO大學聯合開展的研究,以預印本形式于2026年4月發布,論文編號為arXiv:2604.02340。感興趣的讀者可通過該編號在arXiv平臺查閱完整論文。
一臺高性能電腦生成一段文字,背后究竟要經歷什么?大多數人可能以為,AI說話就像打字一樣,一個字一個字地蹦出來。而有一類新興的AI文字生成技術,走的是完全不同的路:它不是從左到右依次生成,而是像一個反復修改草稿的作者——先把整篇文章"涂黑",然后一遍又一遍地把涂黑的部分猜出來,直到整篇文章清晰成形。這種技術叫做"掩碼擴散語言模型"(Masked Diffusion Language Model,簡稱MDLM)。
這種方式有個大問題:每一輪"猜測和修改",都需要調用一個體積龐大的神經網絡從頭運算一遍。如果要修改一千輪,就得跑一千次完整的大模型。計算成本相當驚人,而且和傳統的逐字生成AI不同,這種模型還無法借助"記憶機制"(即KV緩存)節省重復計算。
MWS AI與ITMO大學的研究團隊提出了一個頗具創意的問題:這一千輪修改,真的每一輪都同樣重要嗎?有沒有哪些輪次其實可以"偷懶",用一個更小、更便宜的模型來代替?研究結果給出了一個出乎意料卻又在情理之中的答案:不是每一輪都同等重要,而且"哪些輪次可以偷懶"這件事有清晰的規律可循。
一、從"全力以赴"到"按需分配":為什么這個問題值得研究
回到那個"反復修改草稿"的比喻。一個作者在修改一篇文章的時候,不同階段的工作難度是不一樣的。第一遍修改,面對的是滿紙涂黑,幾乎什么都看不清,任務更像是憑直覺猜測大方向,比較粗糙。最后幾遍修改,大部分內容已經成形,只剩下零星幾個空白需要填補,也相對簡單。真正燒腦的是中間階段——文章已經有了雛形,但還有大量內容懸而未決,每個空白的填法都會牽一發而動全身,需要高度的理解力和判斷力。
MDLM的生成過程和這個場景幾乎一模一樣。生成開始時,整篇文字都是空白,模型需要決定大體方向;生成結束前,大部分詞語已經確定,只剩少數收尾工作;而中間階段,已知信息和未知信息交織在一起,模型需要在復雜的上下文中做出精準判斷。
順著這個邏輯,研究團隊的核心假設便呼之欲出:中間階段的修改可能最需要"聰明的大腦",而開頭和結尾階段或許用一個"普通水平的替代者"就足夠了。如果這個假設成立,就可以在保證質量的前提下,大幅降低整體計算成本。
二、"替換實驗":用小模型頂替大模型,看看哪里會出問題
為了驗證這個假設,研究團隊設計了一個簡潔而直接的實驗框架。他們訓練了一系列深度不同的Transformer模型——從4層到12層不等,架構相同,只是"樓層數"有多有少。12層的模型是"重量級選手"(簡稱Heavy),4層的是"輕量級選手"(簡稱Light)。兩者在同樣的數據上、用同樣的方法訓練,唯一區別就是復雜程度不同。
由于Transformer的計算量和層數近似成正比,用4層替代12層,大約可以節省三分之二的單步計算量。如果將25%的生成步驟替換為輕量模型,整體計算量大約減少16.7%。
實驗在兩個不同的數據集上分別進行:一個是OpenWebText(一個廣泛使用的英文網頁文本數據集,序列長度1024個詞),另一個是LM1B(One Billion Word Benchmark,序列長度128個詞)。這兩個數據集風格迥異,可以檢驗結論是否具有普遍性。
生成質量的衡量標準,是用一個預先訓練好的GPT-2模型來"評分":如果生成的文章在GPT-2看來越像正常英文,分數就越低(困惑度越低代表質量越高)。此外,研究團隊還額外記錄了生成文字的"多樣性",確保降低計算成本的同時,模型不會開始生成重復單調的內容。
實驗的核心環節,是把1000步生成過程中的250步(即25%)分配給輕量模型,然后系統地嘗試不同的"分配方案",看哪種方案的生成質量最好、哪種最差。
三、中間最脆弱,兩端最皮實:實驗揭示的清晰規律
研究團隊測試了多種分配方案,就像排班表一樣安排輕重模型出場順序。前250步用輕量模型,后750步用重量級模型(方案A);前750步重量級,后250步輕量(方案B);全部250步集中在第二段(方案C);全部集中在第三段(方案D);或者"三明治"式——前125步輕量、中間750步重量級、最后125步輕量(方案E)。
結果相當明確。把輕量模型放在生成過程的第二段或第三段,也就是中間位置,生成質量明顯下降,困惑度急劇升高——文章變得語無倫次,GPT-2都看不懂。而"三明治"方案表現最好,其次是把輕量步驟集中在最前面的方案。
換句話說,中間階段對模型能力的依賴最強,一旦換成"普通水平的替代者",生成質量就會顯著受損。而開頭和結尾兩端,則對模型替換的容忍度要高得多。
更值得關注的是,這一規律在兩個完全不同的數據集上都得到了印證。無論是OpenWebText還是LM1B,無論是長序列還是短序列,中間階段的脆弱性都穩定出現。而且,在"有前綴輔助的生成"(即給出開頭幾百個詞,讓模型續寫)和"完全自由生成"兩種模式下,規律同樣成立。所有方案的生成多樣性(用詞的豐富程度)也幾乎沒有差異,說明這種"偷懶"策略不會讓模型開始偷懶到只會說一句話。
四、窮舉搜索:用暴力驗證,讓結論無懈可擊
僅靠幾種手工設計的方案,結論或許還有偶然性。為此,研究團隊進行了一項更徹底的"窮舉搜索"實驗。
他們把1000步生成過程均勻切成10段,每段100步,然后從中選擇4段交給輕量模型(共400步,即40%),剩余600步由重量級模型完成。這樣的組合方式共有210種,研究團隊對每一種都進行了實際測試,用160個隨機生成的樣本來評估質量。
在所有210種組合中,表現最好的前5名和表現最差的后5名呈現出了極其鮮明的對比。最佳方案無一例外地將輕量步驟集中在最前面幾段和最后面幾段;最差方案則無一例外地把輕量步驟堆在中間幾段。
研究團隊進一步統計了每一段在表現最好的前20名方案和表現最差的后20名方案中出現的頻率,發現中間段在最差方案中頻繁現身,而兩端的段落在最佳方案中穩定高頻出現。這種統計上的一致性,讓"中間最敏感、兩端最穩健"這個結論從經驗觀察上升為可信賴的規律。
基于這個發現,研究團隊提煉出一條實用的操作建議:當需要節省計算成本時,應該把"省錢步驟"分散到生成過程的兩端,而不是集中在中間。比如,如果要用60%的步驟都走輕量路線,可以采用"前300步輕量、中間400步重量級、后300步輕量"的對稱安排。
五、省多少,差多少:量化成本與質量的交換關系
確定了最優布局之后,研究團隊進一步量化了"省錢比例"和"質量損失"之間的換算關系。
固定采用"三明治"布局,僅調整輕量模型的層數,可以發現一條平滑的質量曲線。用4層輕量模型替代12層重量級模型,替換25%的步驟,困惑度從42.85上升到44.31,上升約3.41%,節省16.67%的計算量。換用6層輕量模型,困惑度上升1.94%,節省12.5%。8層模型,上升1.4%,節省8.33%。10層模型,上升幅度微乎其微,只有0.12%,節省4.17%。
另一個維度是固定輕量模型為4層,調整它承擔的步驟比例。從輕量模型承擔10%的步驟(節省6.7%計算量,困惑度上升約0.5%)到50%的步驟(節省33.3%,困惑度上升約10%),再到100%步驟全走輕量路線(節省66.7%,困惑度上升約24.5%),整條曲線平滑遞進,沒有出現突變或斷崖。
這說明,這套"混合調度"策略提供了一個連續的質量-效率旋鈕,研究者和開發者可以根據自己的實際需求自由調節,而不是面臨"要么完整質量,要么糟糕輸出"的二選一困境。
值得一提的是,實驗中記錄的實際墻鐘時間(Wall-clock time)節省幅度,比理論FLOPs節省幅度要小。這是因為在當前的模型實現中,詞匯表投影層(將模型內部表示轉換為具體詞語概率的最后一步)的計算開銷相當大,而這部分計算量在輕量模型和重量級模型中是相同的。對于4層輕量模型,這個詞匯投影層占用了約81.6%的運行時間,Transformer層本身只占18.2%;對于12層重量級模型,比例分別是59.9%和40%。這意味著在當前實現下,減少Transformer層數能節省的只是"可壓縮部分"。但研究團隊指出,這個瓶頸并非不可克服——已有更高效的詞匯投影與概率計算內核可以大幅壓縮這部分開銷,一旦引入,實際加速效果將向理論值靠攏。
六、為什么中間最難?從"模型分歧"看背后機制
發現規律是第一步,理解規律為什么存在則更有意義。研究團隊對此給出了兩種互相印證的解釋。
第一種解釋來自"模型分歧分析"。研究團隊在每個生成時間點上,讓輕量模型和重量級模型對同一批部分涂黑的文字同時進行預測,然后比較兩者的預測結果有多大差異。這個差異用兩種方式來衡量:一是預測損失的差值(輕量模型猜得比重量級模型差多少),二是KL散度(兩個模型對詞匯表中每個詞的概率估計相差多遠)。
兩種衡量方式都給出了同樣的結論:在生成過程的中間階段(大約在整個時間軸的40%到60%區間),輕量模型和重量級模型的分歧達到頂峰,而在兩端,兩者的預測則相當接近。
為了排除"文字本身在中間階段就更難預測"這一干擾因素,研究團隊還專門計算了兩個使用不同隨機種子訓練的重量級模型之間的分歧作為基準線,然后用輕量-重量之間的分歧減去這條基準線,得到"超額分歧"。結果同樣顯示,中間階段的超額分歧最大,說明輕量模型在中間階段的表現不只是"客觀上更難",而是真正落后于重量級模型。
這一現象在LM1B數據集上同樣出現,進一步證明這是掩碼擴散生成機制的內在屬性,而非特定數據集的偶然特征。
第二種解釋來自對窮舉搜索結果的"反向分析"。研究團隊統計了每一段在最佳和最差方案中的出現頻率,發現中間段在被替換時會導致質量明顯變差,而兩端的段落被替換時影響相對中性甚至略有改善。這與模型分歧分析的結論高度吻合,形成了相互支撐的證據鏈。
值得特別指出的是,連續圖像擴散模型(如Stable Diffusion這類生成圖片的AI)的研究顯示,它們的時間步重要性通常呈現單調趨勢——越接近某一端越重要。而掌聲擴散語言模型(MDLM)這里出現的"中間最重要、兩端最次要"的"駝峰形"規律,是一個之前未被發現的獨特模式,說明文字的離散掩碼擴散和圖像的連續擴散在內在機制上確實存在本質差異。
七、關于這套方法還需要知道的幾件事
這套"混合調度"策略最大的優勢是簡單。它不需要重新訓練大模型,不需要進行任何"知識蒸餾"(把大模型的知識壓縮進小模型的特殊訓練過程),也不需要修改生成算法的任何邏輯,只是在推理時決定"這一步用哪個模型"。兩個模型各自獨立訓練,各司其職,需要時切換,不需要時退場。
另一個值得關注的點是,這套策略與其他加速方法天然兼容。如果未來的MDLM系統引入了類似KV緩存的機制(目前有研究團隊在探索這個方向),可以在輕量和重量級模型上分別獨立應用緩存;如果未來的系統采用了"跳步解碼"(減少總步數),可以在剩余的步驟中繼續應用混合調度。兩種加速手段疊加,理論上能實現乘法效應的提速。
研究團隊也坦誠指出了當前工作的局限。目前的實驗規模相對適中,12層模型并非現實部署中的超大規模語言模型。隨著預訓練的多尺度MDLM系列(類似自回歸領域的Qwen或LLaMA系列)逐漸出現,將這套方法遷移到更大規模并用標準化基準進行驗證,是下一步自然的延伸。此外,當前的調度方案是固定的,未來可以探索"動態調度"——根據每一步當前序列的狀態,實時決定是否需要調用重量級模型。
說到底,這項研究做的事情,本質上是在一個長長的流水線里找出哪些工序真正需要"高級工匠",哪些工序交給"普通幫手"就夠了。答案是:首尾兩端的工序相對簡單,中間的關鍵工序才是真正考驗能力的地方。一旦認清這一點,就能在不顯著犧牲最終產品質量的前提下,顯著降低整體成本。
這對AI文字生成技術的實際應用意味著,掩碼擴散模型將來不一定總是那個"又貴又慢"的選項。通過合理的"任務分配",它完全有可能在保持輸出質量的同時,將運算開銷壓縮到一個更易接受的范圍。這讓更多資源有限的研究者和開發者有機會使用和探索這類模型,也為未來將其集成到實際產品中開辟了一條更經濟的路徑。
Q&A
Q1:掩碼擴散語言模型(MDLM)和常見的ChatGPT這類AI在生成文字時有什么本質區別?
A:ChatGPT這類自回歸模型是從左到右一個詞一個詞地生成文字,每次只預測下一個詞。掩碼擴散語言模型(MDLM)則完全不同,它先把整段文字全部"涂黑"變成空白,然后反復運行數百到數千次,每次從空白中"猜測"出一部分詞語,直到所有空白都被填滿。這種方式可以并行處理整段文字,但每一輪都需要完整運行一次大模型,計算代價相當高。
Q2:混合模型調度策略為什么能節省計算量,節省的幅度大概有多少?
A:混合調度策略的核心是用一個"層數更少、計算更快"的小模型來承擔部分生成步驟。由于Transformer模型的計算量和層數近似成正比,用4層模型替代12層模型,單步計算量約減少三分之二。實驗結果顯示,在生成質量損失約3.41%的前提下,可以節省約16.7%的總計算量。隨著替換比例提高,可以節省更多計算量,但質量損失也會隨之增大,兩者之間存在平滑的權衡曲線。
Q3:為什么掩碼擴散語言模型在生成中間階段比圖像擴散模型更敏感?
A:圖像擴散模型處理的是連續數值(像素值),其步驟重要性通常單調遞變;而掩碼擴散語言模型處理的是離散詞語,中間階段面臨的是"已有部分詞語成形但大量詞語仍懸而未決"的復雜局面,每個空白的填法都高度依賴上下文,需要更強的語言理解能力。這種離散符號預測的特殊復雜性,使得輕量模型和重量級模型在中間階段的預測分歧最大,因此替換中間階段代價最高。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.