網易首頁 > 網易號 > 正文申請入駐

清華聯手千問重塑歸一化范式，讓 Transformer 回歸「深度」學習

2026-02-10 18:50:12　來源: 機器之心Pro

河北舉報

分享至

在十九世紀的暹羅王國曾誕生過這樣一對連體兄弟：他們分別擁有完整的四肢和獨立的大腦，但他們六十余年的人生被腰部相連著的一段不到十厘米的組織帶永遠綁定在了一起。他們的連體曾帶來無盡的束縛，直到他們離開暹羅，走上馬戲團的舞臺。十年間，兩兄弟以近乎合二為一的默契巡演歐美，獲得巨大成功。

此后，人們曾用他們的故鄉之名，將這種連體現象稱作 Siamese Twins（暹羅雙胞胎）。后來，這一命名跨越了生物學的邊界。1993 年，Yann LeCun 將其引入神經網絡，創造了共享權重的 Siamese Network（孿生網絡），用于衡量輸入的相似性。

時光流轉，在二十一世紀的今天，人工智能領域也有一對 “雙胞胎”——Pre-Norm（前置歸一化）和 Post-Norm（后置歸一化）。他們為解決大模型訓練穩定性而生，迅速成為 Transformer 架構中用于穩定信號流的關鍵范式。

然而，歸一化帶來的訓練穩定性并非沒有代價，兩種歸一化范式之間似乎面臨著難以調和的權衡取舍。

盡管近年來 Pre-Norm 被 GPT-3、LLaMA、DeepSeek、Qwen 等知名開源基座所采用，但多項研究共同指向了一個嚴峻事實：Pre-Norm 架構存在嚴重的 “深度失效” 問題 —— 大量深層參數雖在參與計算，卻無法拓展模型的表征能力，致使模型的 “有效深度” 嚴重受限。

與之相對的，盡管從表征能力角度 Post-Norm 擁有更高潛力，但其訓練不穩定性在現代 Transformer 的預訓練范式下是毀滅性的。于是，Pre-Norm 與 Post-Norm 這一對為解決同一難題而誕生的雙胞胎，在各自追求 “穩定” 與 “深度” 的道路上分道揚鑣。

難道穩定與深度，注定是一場無法調和的零和博弈嗎？

近日，清華大學黃高 Leap Lab 團隊聯合千問 C 端團隊給出了一份全新的答案 —— SiameseNorm。

論文標題：SiameseNorm: Breaking the Barrier to Reconciling Pre/Post-Norm
論文鏈接：https://arxiv.org/abs/2602.08064

這一創新的孿生雙流架構，巧妙地解耦了優化動力學：它并未在 Pre-Norm 與 Post-Norm 之間做二選一的取舍，而是構建了兩條參數共享的平行通路。

在這一架構下，一條流通過 Pre-Norm 機制保證訓練的穩定性，另一條流則利用 Post-Norm 特性極大地釋放模型的表征潛力。這種設計讓每個殘差塊都能接收到來自兩種范式的組合梯度，在幾乎不增加計算開銷的前提下，實現了高學習率下的穩定訓練。這一精巧的雙流協作，恰如默契的暹羅雙胞胎，將兩種范式的對立轉化為深度融合的協同優勢。

可以看到，SiameseNorm 可以被看做 Pre-Norm 和 Post-Norm 的耦合

1. 困境：單主干架構的先天缺陷與范式對立

前置還是后置？這仿佛是 Transformer 世界的 “魚與熊掌”。研究者不得不在 “訓練穩定但可能平庸” 的 Pre-Norm 與 “潛力巨大卻難以駕馭” 的 Post-Norm 之間做出艱難抉擇。更令人困擾的是，任何試圖在單主干（Single-Stream）架構 —— 即在共享同一條信息主干線的經典設計中調和二者的努力，都遭遇了數學上的根本性障礙。

痛點 1：Pre-Norm 的 “稀釋” 與 Post-Norm 的 “畸變”

Transformer 的設計核心在于殘差連接。然而，現有的兩種主流范式都存在致命的結構性缺陷：

Pre-Norm (稀釋問題):為了保證梯度暢通，Pre-Norm 保留了一條干凈的恒等路徑（Identity Path）。但這導致主干流的信號幅度隨深度巨幅增長。到了深層，層歸一化（LN）后的輸入相對于巨大的主干流來說微乎其微，導致深層網絡的貢獻被 “稀釋”，模型實際上退化成了 “淺層” 網絡。最直觀的實驗證據來自于層剪枝（Layer Pruning）實驗：將 Pre-Norm 模型 30% 的層直接移除，在零微調的情況下，其評估指標竟幾乎沒有損失。

Post-Norm (畸變問題):Post-Norm 強制在殘差相加后進行歸一化，保證了表示的效率，理論上限更高。但這也意味著它在每一步都在強行 “壓縮” 信號，導致梯度的傳導被破壞，容易引發梯度消失或爆炸。

痛點 2：兩大范式的不可兼容性

目前的混合方案（Hybrid）試圖在兩者間尋找平衡，但論文深刻地揭示了，這兩種結構在單主干設計中本質上是互斥的：

梯度的 “無損傳輸” vs. 信號的 “尺度束縛”： Pre-Norm 的穩定性依賴于保留嚴格的恒等路徑（Identity Path），這意味著必須允許信號幅度在主干中自然增長，以確保梯度能夠無損傳播。相反，Post-Norm 的高效性依賴于嚴格規范（Regulation），即在主干中通過歸一化限制信號幅度，以維持特征的表達效率。
單主干的理論極限：論文指出，在共享同一條主干路徑的前提下，在數學上不可能同時做到兩件事：既保留一條完全干凈、不受阻礙的梯度通道（Pre-Norm 的要求），又同時對主干信號強制施加嚴格的幅度約束（Post-Norm 的要求）。

因此，任何試圖在單主干結構內強行融合兩者的嘗試（如交替使用或混合歸一化），最終都只能是一種 “妥協”：它們不僅無法兼得二者之長，反而繼承了 Post-Norm 的不穩定性，導致在高學習率下訓練崩潰。要打破這個僵局，必須從結構上進行徹底的解耦（Decoupling）。

2. 破局：SiameseNorm 的雙流解耦之道

兩條流擁有相同的輸入，而通過不同的 LayerNorm 位置，兩條流隨后分化。

SiameseNorm 的核心洞察在于：我們無法在單一信號流中同時滿足 “梯度傳導” 和 “表示規范” 這兩個互斥的需求。

因此，SiameseNorm 引入了 “孿生雙流”（Siamese）機制：

1. Pre-Norm 流（Y 流）：負責 “穩”。它保留未歸一化的狀態，確保擁有一條干凈的梯度高速公路。

2. Post-Norm 流（X 流）：負責 “強”。它時刻保持歸一化，確保特征表示不會發生坍塌或發散。

從圖中也可以看出，把下一半遮住，它退化成 post-norm；把上一半遮住，它退化成 pre-norm。而在訓練過程中，LayerNorm 的可學習權重可以調整兩條流的大小關系。通過將支流上的 LayerNorm 調整為 0，可以退化成現有的 Pre-Norm、Post-Norm、Mix-LN 范式。

這一架構的核心在于高效的 “參數共享” 機制：雙流路徑并非獨立存在，而是共享殘差塊（Attention/MLP）的權重。這意味著 SiameseNorm 幾乎沒有帶來參數量與計算的增長。為降低這種耦合結構的訓練難度，架構中進一步引入了 Normalized Input（歸一化輸入）與 Depth-wise Scaling（深度縮放），有效解決了參數共享的雙流架構帶來的優化對齊挑戰。

3. 硬核實測：拯救 Post-Norm，數學任務暴漲 40%

在 1.3B 參數模型、100B/350B tokens、總計算成本超過 50,000 A100 GPU 小時的預訓練實驗中，SiameseNorm 展現了驚人的統治力：

直面公平對比的挑戰：研究者首先在不同的學習率下對比了現有各種 Pre-Norm 和 Post-Norm/HybridNorm 變體的表現，發現兩類范式的最優學習率存在顯著差異，這揭示了一個長期被忽視的問題：超參（尤其學習率）的選擇足以改變架構對比的結論。

換言之，過往許多研究因未能適配 Pre-Norm 的最優配置，實際上人為地壓低了基線的性能天花板，從而制造了 “性能顯著提升” 的假象。因此，一個公平的比較應該對不同方法分別做超參搜索，而這在大模型預訓練中成本極高。在本篇論文中，研究者直接沿用了主流 Pre-Norm 的訓練超參。這一策略旨在證明，SiameseNorm 無需依賴特定的參數微調，即可展現出超越基線的魯棒性與性能。

無懼高學習率：實驗表明，當學習率激進地提升至2e-3時，傳統的 Post-Norm 及 HybridNorm 架構均出現了不可逆的訓練發散（Divergence）。相比之下，SiameseNorm 展現了卓越的優化穩定性，不僅成功收斂，其訓練 Loss 更是顯著優于 Pre-Norm 基線，實現了高達 0.41 的 PPL 收益。

進一步的消融實驗揭示了其內在的協同增益機制：在同等實驗設置下，通過 Siamese 拓撲將 “易發散” 的 HybridNorm 流與 “基線級” 的 Pre-Norm 流（PPL 10.84）進行無任何輔助機制的直接耦合，模型取得了 10.68 的更優 PPL。這一結果有力地證明，Siamese 設計并非簡單的堆砌，而是成功實現了兩大范式的互補，從而突破了單一范式的性能天花板。

通用基準的全面提升與推理能力的質變：SiameseNorm 不僅在通用語言理解任務上確立了領先地位，更在邏輯推理中實現了突破。在 HellaSwag、OpenBookQA、PIQA 等涵蓋常識與知識問答的廣泛基準測試中，該模型均取得了最佳成績。

尤為引人注目的是，在最依賴模型有效深度的算術任務（Arithmetic）上，Pre-Norm 的準確率僅為 28.1%，而 SiameseNorm 躍升至 39.6%，相對提升高達 40.9%。這一結果有力地證明，雙流架構在保持通用能力全面領先的同時，成功喚醒了 Transformer 深層網絡的潛能，顯著修復了模型的鏈式推理能力。

實驗結果一覽，* 表示訓練 loss 出現顯著尖峰

4. 機制探究：各流的貢獻分析

研究人員首先通過提取兩條流中 LayerNorm 的可學習縮放參數，計算了它們對模塊輸入的相對貢獻比例。實驗結果顯示，在絕大多數殘差塊中，兩條流均保持了顯著的權重占比。這表明網絡并未出現單側退化現象，而是有效地利用了來自兩端的隱藏表征進行聯合特征提取。

通過 Logit Lens 技術分析，研究人員發現了一個有趣的現象：在 SiameseNorm 的最終輸出中，Post-Norm 流（X 流）占據了主導地位，其對最終預測的貢獻度顯著高于 Pre-Norm 流。

上述現象支持了一種直觀的解釋：Pre-Norm 流主要充當了 “訓練腳手架” 的角色，負責在訓練初期保障穩定性；而一旦模型步入正軌，具有更強特征表達能力的 Post-Norm 流的潛力便被釋放出來，在形成最終決策時發揮主導作用。

結語

長期以來，為了 “跑得通”，我們不得不接受 Pre-Norm 對有效深度的犧牲；而 Post-Norm 雖然更具表達潛力，卻又常因不穩定而難以進入大規模預訓練的主流配置。

SiameseNorm 給出了一個優雅的答案：不再做選擇題。它以近乎不增加成本的方式，把 Pre-Norm 的優化魯棒性與 Post-Norm 的表征潛力統一在同一個框架內。對于追求更高學習率、更深網絡、更強推理能力的大模型研發者而言，SiameseNorm 指明了一條清晰的路徑：讓 Transformer 走出 “淺層困境”，回歸原始意義上的 “深度學習”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.