網易首頁 > 網易號 > 正文申請入駐

加州大學圣地亞哥分校用動力系統理論馴服循環神經網絡不穩定性

2026-04-23 21:28:22　來源: 科技行者

北京舉報

分享至

這項由加州大學圣地亞哥分校（University of California, San Diego）與Together AI聯合開展的研究，發表于2026年4月的arXiv預印本平臺，論文編號為arXiv:2604.12946v1，收錄于cs.LG（機器學習）方向。有興趣深入了解的讀者可通過該編號查詢完整論文。

**一、一塊芯片能跑多強的大腦？讓AI"原地踏步"反而變強的秘密**

當我們談論AI變得更聰明時，腦海中浮現的畫面往往是一臺越來越大的機器——更多的參數、更多的層數、更多的芯片堆砌。這就好比你想讓廚房做出更好的菜，方法只有一個：把廚房擴建得更大，買更多的鍋碗瓢盆。然而這條路終究有盡頭。當AI模型越來越龐大，把它們部署到手機、平板乃至小型邊緣設備上就會變得極其困難，因為這些設備的內存和計算資源是有限的。

這項研究的出發點正是這個現實困境：有沒有辦法在不增加參數（不擴建廚房）的前提下，讓AI變得更聰明？研究團隊給出的答案是——讓AI反復"咀嚼"同一塊內容。具體來說，就是讓神經網絡的某些層在處理一段數據時不是經歷一次就算了，而是繞圈子、循環地走過同樣的層好幾遍，每次都能基于上一輪的理解再深入一層。這就像一個廚師在同一口鍋里反復翻炒，而不是用更多的鍋同時操作。這類模型被稱為"循環（looped）架構"，而研究團隊提出的新方法就叫做**Parcae**，名字來自羅馬神話中掌控命運線的三位命運女神。

然而這條路并不平坦。在此之前，已有研究者嘗試過這種循環架構，但訓練過程極不穩定——模型時常崩潰，損失值突然飆升，就像那口反復翻炒的鍋突然燒穿了底一樣。沒有人能清楚地說明，究竟是什么原因讓這口鍋如此脆弱。正是這個尚未解答的問題，驅使這支團隊展開了這項研究。

**二、問題的根源：那口鍋為什么總在燒穿？**

要修好一口反復翻炒會燒穿的鍋，首先得弄清楚它為什么會燒穿。研究團隊采用了一個來自工程控制領域的經典工具——**線性時不變系統（LTI系統）**的分析框架。這聽起來很學術，但核心思路其實非常直白：把AI模型內部的信息流動，看成一條隨時間演化的"水流"，然后分析這條水流在反復循環過程中會不會越流越大、直到決堤。

具體來說，當信息在循環層中不斷流動時，每一次循環都可以用一個簡化的數學公式來描述：新的狀態等于"舊狀態乘以一個矩陣A，再加上輸入信號乘以一個矩陣B"。這里的矩陣A就像一個"放大器"——它決定了信息在每一輪循環后會被放大、縮小還是保持不變。

控制理論早就告訴我們，這個放大器有一個關鍵性質，叫做**譜范數**（可以通俗地理解為這個矩陣能把向量放大的最大倍數）。如果譜范數大于1，信息就會在每輪循環中持續放大，最終變成天文數字，導致整個系統崩潰——這就是研究者們觀察到的"殘差狀態爆炸"現象。如果譜范數等于1，系統處于一種勉強穩定的臨界狀態，隨時可能失控。只有譜范數嚴格小于1，信息流才會在循環過程中逐漸收斂，就像一個穩定振蕩最終趨于平靜的秋千。

研究團隊對此前已有的幾種循環注入方式進行了分析，發現了令人擔憂的結論。其中一種采用"加法注入"的方法（即把輸入直接加到隱藏狀態上），其矩陣A實際上就是單位矩陣I，譜范數恰好等于1，處于臨界不穩定狀態。另一種采用"拼接投影"的方法，其矩陣A是一個完全不受約束的可學習矩陣，譜范數可以任意大，穩定性完全依賴于訓練過程中的運氣。

實驗數據清晰地印證了這一分析。研究團隊在不同學習率下訓練這些模型，觀察到：凡是發散的訓練運行，其矩陣A的譜范數都會超過1；而那些勉強收斂的運行，譜范數始終保持在1以下。這就像在實驗室里清楚地看到，水溫超過100攝氏度就沸騰一樣直接。與此同時，即便是那些沒有完全發散的訓練，在長時間訓練后（比如超過17萬步之后）仍然會出現損失值突然抖動的現象，說明問題并未從根本上解決。

**三、Parcae的設計：給那口鍋加上一個溫度調節器**

既然問題已經找到，解決方案就有了明確的方向：必須從架構層面約束矩陣A的譜范數，使其始終小于1，而不是依靠運氣或者復雜的超參數調整來維持穩定。

研究團隊采用的具體方案有幾個環環相扣的設計。首先，他們把矩陣A設計成一個**負對角矩陣**的離散化形式。所謂負對角矩陣，就是只有對角線上有值（其余全為零），而且每個對角線上的值都是負數。這樣的矩陣天然保證了其特征值為負數，經過指數函數映射（離散化步驟）之后，所有特征值都落在0到1之間，譜范數自然嚴格小于1。這就好比在放大器上安裝了一個硬性限流器，無論外部條件怎么變化，電流都不會超過安全上限。具體的數學形式是：A := Diag(–exp(log A))，其中log A是可學習的參數向量，整個結構通過零階保持（ZOH）方案進行離散化，而矩陣B則采用歐拉方案離散化，搭配一個可學習的步長參數Δ。

其次，為了解決那種在訓練后期出現的損失抖動問題，研究團隊在輸入信號e進入循環層之前加入了一個**歸一化層（Prelude Norm）**。這相當于在食材入鍋之前先統一切成相同大小，防止某塊過大的食材突然把鍋撐壞。這個設計的必要性在1.3B參數規模的大模型訓練中尤為突出——在沒有歸一化保護的情況下，模型在訓練到約15萬步后開始出現狀態爆炸，進一步追蹤發現爆炸的根源正是預處理塊輸出的數值過大，而歸一化層直接切斷了這一隱患。

第三個改進來自訓練算法層面。在訓練循環模型時，每個批次（batch）中循環次數T是隨機采樣的，目的是讓模型既能應對少量循環（快速推理），也能利用多次循環（深度推理）。以往的做法是整個批次共用一個循環次數，這就像一桌人只能點同一道菜——有的人吃撐了，有的人沒吃飽。Parcae引入了**逐序列深度采樣**，即同一個批次里，每條序列可以被分配不同的循環次數，就像每個人各自點菜。實驗表明，這一改進能顯著減少訓練過程中的損失抖動，尤其提升了在低循環次數下的測試性能。

此外，研究團隊還糾正了此前一個微妙但重要的采樣偏差。在先前的工作中，循環次數T的采樣方式實際上是先從分布中采樣一個"無梯度步驟數"n，再固定加上一個"有梯度步驟數"μbwd，導致實際的總循環分布被壓縮和偏移，并不等于原本希望的目標分布。新方法改為直接從目標分布中采樣總循環次數T，再根據T和μbwd推算無梯度步驟數，兩者相互解耦，分布得以忠實還原。這一改變對于訓練后模型在測試時使用不同循環次數的泛化能力有顯著改善，尤其是在使用比訓練時更少或更多循環次數的情況下。

**四、和前輩們的對比：Parcae到底強在哪里？**

研究團隊從兩個維度對Parcae進行了全面評估：一是和同類循環架構的比較，二是和固定深度的標準Transformer的比較。

在與同類循環架構的比較中，Parcae對標的是Geiping等人提出的RDM（循環深度模型）。在100M和350M參數規模下，以完全相同的數據量進行訓練，Parcae在保留驗證集上的困惑度（一種衡量語言模型預測準確性的指標，數值越低越好，可以理解為模型"猜對下一個詞"的能力）分別降低了約6.2%和6.3%，在WikiText基準上分別降低了4.9%和9.1%。更直觀的是，Parcae還在Hellaswag、ARC、PIQA、BoolQ、SciQ等多個常識推理下游任務上平均提升了約1.8個百分點的準確率。更重要的是，穩定性對比如同天壤之別：在相同設置下，RDM在多個學習率下無法收斂，而Parcae在從2e-4到1e-3的全部學習率設置下均能穩定訓練，對超參數的魯棒性遠超先前方法。

在與固定深度Transformer的比較中，實驗覆蓋了140M、370M、770M、1.3B四個參數規模，采用完全相同的數據量和超參數（超參數基于Transformer進行調優，Parcae直接沿用，并未另行調參）。在所有規模上，Parcae的驗證困惑度均低于同等規模的Transformer，降幅在4.3%到9.2%之間。在Core和Core-Extended兩個綜合下游評測基準上，Parcae的得分分別比同規模Transformer高出最多2.99分和1.18分。尤其引人注目的是，770M參數的Parcae在Core基準上的得分與1.3B參數的Transformer相當——用大約一半的參數量達到了同等的實際能力水平。如果用"參數效率"來量化（即縮小了多少與下一個更大規模模型之間的性能差距），Parcae在Core基準上的參數效率提升幅度在23.3%到87.5%之間。

**五、循環就是一種新的"擴展軸"：計算預算該怎么分配？**

在確認Parcae能在固定參數下超越Transformer之后，研究團隊把目光投向了一個更宏觀的問題：在給定固定的總計算預算（FLOPs）和固定參數量的情況下，把計算投入到"更多數據"上更好，還是投入到"更多循環次數"上更好？換句話說，這兩種"投資方向"的最優比例是什么？

這本質上是在問：循環次數是不是一個獨立的、可以規律性預測的擴展維度，就像參數量和數據量那樣？

研究團隊在140M和370M兩個規模上，系統地訓練了大量模型，每個模型使用不同的訓練循環次數μrec（范圍從2到12），同時相應調整訓練數據量以保持總FLOPs不變。結果呈現出非常清晰的規律：對于每一個固定的FLOPs預算，存在一個最優的循環次數，在這個循環次數下驗證損失最低；增加循環次數的同時減少相應數據量，比單純增加數據量（固定循環次數為1）能達到更低的損失。這說明循環確實是一個正交的（獨立的）擴展軸。

更進一步，研究團隊擬合了兩條冪律（power law）曲線，分別描述最優循環次數和最優訓練數據量如何隨FLOPs預算的增加而增長。結果顯示，最優循環次數大約按照FLOPs的0.40次方增長（在140M和370M上分別為0.40和0.38，高度一致），最優數據量大約按照FLOPs的0.77到0.78次方增長。這意味著隨著計算預算的增加，應該同步增加循環次數和數據量，但數據量應該增長得更快一些（指數0.78對比0.40）。這個發現的重要性在于它的可預測性——你可以依據公式提前規劃，而不是靠經驗摸索。

研究團隊還擬合了一個參數化的預測函數，形式為：預測損失 = E + X × N(μrec)^(-x) + Y × D^(-y)，其中N(μrec)是將循環展開后的等效參數量，D是訓練數據量。用這個函數預測第五節中那些"留出"模型（參見第四節的實驗模型）的驗證損失，在140M和370M規模上的預測誤差分別僅為1.3%和0.8%，驗證了該函數的外推能力。

在下游評測任務上，最優循環策略相比于"只用更多數據"（固定循環次數為1）的策略，在Core和Core-Extended兩個綜合基準上的得分高出1.2到2.0分，進一步佐證了循環作為獨立擴展軸的價值。

**六、測試時也能"越想越準"：但有上限，而且上限是可以預測的**

除了訓練時擴展FLOPs的規律，研究團隊還研究了另一個問題：訓練完成后，在測試（推理）階段讓模型多循環幾次，能不能讓它表現更好？

答案是肯定的，但有一個重要的"但是"——收益是有上限的，而且這個上限與訓練時使用的循環次數密切相關。

研究團隊把第四節中的四個規模模型（140M、370M、770M、1.3B）在測試階段使用的循環次數從1一直增加到約μrec的兩倍（每個模型訓練時的均值循環次數μrec均為8）。結果顯示，性能隨著測試循環次數的增加而提升，但提升曲線是典型的"飽和型"——一開始提升較快，之后越來越慢，最終幾乎停止在一個固定水平附近。這個飽和水平大致對應模型在訓練時所使用的最大循環次數，說明訓練深度決定了測試時擴展的天花板。

對于這個飽和曲線，研究團隊發現一個非常簡潔的函數形式能夠精確描述它：L(T) = L∞ + Z × exp(–z × T)，其中L∞是最終的不可約損失下界，Z和z是兩個形狀參數，T是測試時的循環次數。這是一個標準的指數衰減函數——性能以指數速度向下界逼近。這個函數形式在所有測試循環次數和所有訓練深度配置下都擬合得非常好，平均擬合誤差僅為約2.5×10??（140M）和1.8×10??（370M）。

值得一提的是，這種指數衰減的形式與Parcae的動力系統框架之間存在一個耐人尋味的理論呼應：在經典控制理論中，譜范數小于1的穩定離散線性系統的狀態范數本身就以指數速度收斂。Parcae通過設計保證了譜范數小于1，而這一保證在理論層面與測試時觀察到的指數衰減規律形成了一致。當然，研究團隊也坦承，這種聯系目前還是推測性的，而非嚴格證明的。

**七、訓練與測試的"統一方程"：把兩條規律合而為一**

擁有了訓練時的擴展規律和測試時的衰減規律之后，研究團隊進一步把它們整合成一個統一的預測公式，形式如下：

預測損失 = [訓練規律給出的損失下界] + Z × exp(–z × T / μrec)

其中，方括號內的部分由訓練規律決定，是當測試循環次數T等于訓練均值μrec時預測的損失值；括號外的指數衰減項描述了從初始損失（T很小時）向這個下界逼近的過程；衰減速率被設計為與μrec成反比，即訓練時循環次數越多，測試時每增加一次循環的額外收益越小（衰減越慢），這也符合直覺。

用這個統一公式對第四節中那些留出的模型進行驗證，在140M和370M規模上預測測試時損失曲線的平均誤差分別為0.85%和1.31%。如果直接用模型在T=μrec處的實測損失代替訓練規律的預測值（相當于消除訓練規律的約1%預測誤差），誤差進一步降至0.10%到0.17%，說明統一公式中的測試時衰減部分本身是高度準確的，整體誤差幾乎全部來自訓練規律的外推偏差。

這條統一方程的意義在于：給定一個模型的參數規模、訓練數據量和訓練循環次數，你可以在不實際運行模型的情況下，預測它在任意測試循環次數下的大致性能，從而在設計階段就優化訓練與推理的資源分配決策。

**八、局限與未來：這口鍋還能做哪些菜？**

研究團隊對這項工作的局限性做出了坦誠的說明。目前所有的擴展規律實驗都在140M和370M參數規模下進行，尚未驗證這些規律能否平滑地外推到更大的模型和更高的FLOPs預算。此外，當前的循環次數均在個位數到十幾次的范圍內，對"極端循環"（比如均值循環次數達到幾十甚至上百次）的行為還不清楚。在架構層面，目前的A矩陣采用對角負矩陣這一簡單形式，未來可以探索全秩參數化、不同的離散化方案以及不同的循環更新規則，以支持更深的循環深度。最后，一個值得關注的實際限制是：隨著訓練時均值循環次數μrec的增加，在測試時需要更多循環次數才能達到等效質量，這增加了推理延遲，如何在保持質量的同時減少推理時所需循環次數是一個開放的工程挑戰。

說到底，這項研究用一個來自工程控制領域的古老理論——線性時不變系統的穩定性分析——為深度學習領域一個長期懸而未決的實際問題給出了清晰的診斷和處方。那口反復翻炒的鍋之所以總在燒穿，根本原因就是"放大器"沒有被約束住；而Parcae做的事情，就是在鍋底裝了一個永遠不會超溫的調節器。

歸根結底，這項工作告訴我們：擴展AI能力不一定總是要買更大的鍋，有時候改造一下翻炒方式，在有限的廚房里也能做出令人滿意的大餐。對于那些資源受限但又希望部署更強AI能力的場景——邊緣設備、移動端應用、低功耗服務器——這個方向提供了一條真實可行的技術路徑。

有興趣深入了解技術細節的讀者，可以通過論文編號arXiv:2604.12946在arXiv平臺上查閱完整原文。

Q&A

Q1：Parcae架構為什么比普通循環架構訓練更穩定？

A：Parcae把循環過程中的"狀態轉移矩陣"A設計成負對角矩陣的離散化形式，從數學上保證了矩陣的譜范數始終嚴格小于1。譜范數小于1意味著每次循環信息不會被放大，只會逐漸收斂，避免了狀態爆炸。同時引入輸入歸一化層和逐序列深度采樣，進一步減少了訓練中的損失抖動，整體對超參數的魯棒性遠超先前方法。

Q2：循環架構和普通增加模型層數有什么本質區別？

A：普通增加層數意味著模型參數量增加，存儲和部署成本隨之上升。循環架構是用同一組參數反復執行多次，參數量不變但計算量增加。因此循環架構更適合在有限內存或低功耗設備上部署，而不需要把完整的多層模型全部加載進內存。

Q3：Parcae的測試時循環次數越多效果是否會一直提升？

A：不會無限提升。研究發現測試時增加循環次數的收益會逐漸飽和，飽和水平大致對應訓練時所用的最大循環次數。曲線符合指數衰減規律，即前幾次循環收益顯著，之后邊際收益迅速下降，最終趨近于一個由訓練深度決定的性能下界。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.