網易首頁 > 網易號 > 正文申請入駐

剛剛，翁荔博客上新：謹慎對待Scaling Law

2026-06-26 11:02:54　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

剛剛，翁荔（Lilian Weng）的博客 Lil'Log 終于更新了！要知道，自從她聯合創立了 Thinking Machines Lab 之后，她那讓許多人受益良多的博客就鮮少更新了——距離她上一次更新，已經過去了 13 個月。

就在幾個小時前，翁荔新作《謹慎對待 Scaling Law》上線，瞬間引爆社交網絡。

博客鏈接：https://lilianweng.github.io/posts/2026-06-24-scaling-laws/

翁荔表示，這篇關于 Scaling Law 的博客文章遲到了 3 年多，而這篇文章涵蓋了 Scaling Law 的預測內容、計算最優分配的原理、Kaplan 等與 Chinchilla 的分歧原因，以及數據限制與擬合細節如何讓外推變得困難等內容。

對此，網友們排隊表示歡迎：

在分享博客的推文下方，翁荔自己評論感嘆說，想必很多人會直接讓 AI 來總結這篇文章，而不是真正地閱讀這篇文章。

她還進一步表示，她很快還會設置一個模型來自動更新 Lil'Log。

機器之心也在 AI 的輔助下對翁荔大神這篇新作進行了整理翻譯：

謹慎對待 Scaling Law

Scaling law 是深度學習領域中最關鍵的經驗發現之一。這一觀察結果的形式很簡單。隨著我們擴大模型規模 N 、數據集規模 D 和計算量 C ，訓練損失會以可預測的方式降低。這種降低趨勢遵循冪律曲線，在雙對數坐標圖上表現為一條直線。我們可以將 Scaling law 視為一個框架。它描述了計算量、損失、模型規模與數據之間的關系。其核心在于如何將寶貴的計算資源在 N 和 D 之間進行最優分配。

這種可預測性讓 Scaling law 在實踐中具有極高的價值。一種常見的工作流程是，在少量小型訓練任務上擬合 Scaling law，然后進行外推，以此估算更大模型所需的 token 數量和計算資源

早期階段：機器學習損失的可預測性

在 Scaling law 成為主流概念之前，研究人員就已經探討過泛化誤差隨規模變化的可預測性。

Amari et al. (1992) 使用貝葉斯方法和退火近似推導出了四種類型的學習曲線。

其中 E 可以為 0 ，并且 α=-2,-1,-1/2。雖然他們的理論設定基于簡化的二分類任務，但這也為構建經驗性的機器學習損失預測模型指明了有用的方向。

早期的一項實證研究（Hestness et al. (2017)）解釋了泛化誤差、模型規模和數據之間的關系。對于給定的訓練數據規模，他們通過網格搜索確定最佳擬合的模型規模，然后繪制損失與訓練數據集規模的關系圖。在深度學習的四個不同領域（神經機器翻譯、圖像分類、語言建模和語音識別）中，研究人員觀察到了一個反復出現的模式：

泛化誤差作為一組因素（如數據規模）的冪律函數進行縮放。
模型的改進會改變誤差曲線的位置，但似乎并未改變冪律指數。
有趣的是，架構的變化會改變冪律擬合的截距 (E)，但對指數 (α) 基本沒有影響。冪律的斜率似乎是問題領域的屬性，與模型架構關系不大。
擬合規模為 D 的數據集所需的大致模型參數 N 的數量同樣遵循冪律縮放。

圖1: Deep-Speech-2 (DS2) 與注意力語音模型的學習曲線（左圖），以及各種規模的 DS2 模型的學習曲線（右圖）。當訓練數據量變得很大時，小模型的損失會趨于平緩。（圖片來源：Hestness et al. 2017）

冪律學習曲線各階段的概念圖解分為三個階段。在小數據區域，當沒有足夠的學習信號時，模型的表現僅略好于隨機猜測。在中間的「冪律區域」，我們觀察到了損失、數據與模型規模之間的冪律關系。最后的不可約誤差區域可歸因于數據中的噪聲等因素。

圖2: 冪律學習曲線各階段的概念圖解。（圖片來源：Hestness et al. 2017）

Rosenfeld et al. (2020) 進一步推進了這項工作。他們試圖將誤差建模為模型規模 N 和數據規模 D 的聯合函數。這項研究跨越了多種不同的架構（ResNet、WRN、LSTM、Transformer）和優化器（Adam、SGD 變體）。在經驗上，他們觀察到，保持一個軸不變時，誤差在另一個軸上按冪律衰減

這些可以組合成一個聯合形式：

其中是標量常數，且 E 既不依賴于 N 也不依賴于 D。

圖3: 在雙對數坐標系下，數據規模、模型規模與泛化誤差的三維等高線圖。藍點源自經驗實驗，曲面是藍點之間的線性插值。（圖片來源：Rosenfeld et al. 2020）

因此，他們可以構建一個簡單參數函數形式的預測模型。利用來預測 N, D 大于特定閾值時的預期損失。訓練過程只需在一組較小的訓練配置（ N, D 小于特定閾值）上進行即可。

圖4:在小規模配置上擬合參數化誤差模型，并外推到更大規模的模型與數據體系：(a) 實驗設置圖解；(b) ImageNet、(c) WikiText-103 和 (d) CIFAR100 上的實驗結果。包含三種架構（WRN、VGG、DenseNet）和兩種優化器（SGD、Adam）的誤差估計。（圖片來源：Rosenfeld et al. 2020）

補充說明：這些早期的工作依賴于經典的分類學習理論直覺，例如將 VC 維度（模型可以打散的最大點集的基數）作為容量的代理。但在現代深度學習研究中，VC 維度往往過于粗糙，難以解釋模型的行為。事實證明，經驗性的冪律比理論提供的最壞情況邊界清晰且實用得多。

數據無限區域的 Scaling Law

Kaplan 等人提出的 Scaling Law

Kaplan et al. (2020) 在語言建模社區普及了 Scaling law 的概念。他們發現交叉熵測試損失 L 分別與模型規模 N（不包括嵌入層）、數據集規模 D 和訓練計算量 C 呈冪律縮放關系，跨越了多個數量級。這些發現與上一節中的早期工作保持一致。

Kaplan 等人將這一概念形式化，重點關注 Transformer 語言模型，并在更大規模上進行了實證實驗。其實驗模型規模從 7.68 億到 15 億非嵌入參數不等，數據集規模從 2200 萬到 230 億 token 不等。論文中的所有訓練運行都使用了包含 3000 步線性預熱的學習率調度，隨后余弦衰減至零。

主要發現包括：

損失 L 與 N、D 和 C 分別呈冪律縮放。為了獲得最佳性能，這三者必須同步擴展。
訓練曲線遵循可預測的冪律，其參數大致獨立于模型規模。
更大的模型具有更高的樣本效率。這意味著，與小模型相比，大模型可以用更少的優化步數和數據點達到給定的損失水平。
架構細節（寬度、縱橫比等）的重要性不及純粹的規模。
訓練損失和測試損失呈正相關。（這聽起來顯而易見，但卻是預訓練工作的基礎。另一方面，預訓練損失的改善是否能轉移到后訓練評估中，還需要單獨的研究。）
在計算預算給定的情況下，訓練一個超大模型并在收斂前停止，比將一個小模型訓練到完全收斂更高效。這一發現與后續的 Chinchilla scaling law 存在分歧。由于擬合指數偏大，Kaplan 等人高估了最優模型規模。

他們將對 N 和 D 的聯合依賴性總結在一個等式中：

這種形式帶來了一個很好的結論：過擬合的程度（即模型過于復雜或數據量過小）主要取決于比率。這表明

數據需要按照與模型規模增長成特定比例的速度增長，以避免訓練受到數據限制

圖5: 測試損失作為計算量、數據集規模和參數量的冪律函數，跨越了多個數量級。（圖片來源：Kaplan et al. 2020）

最具影響力、且在事后看來也備受爭議的結論是計算最優分配。Kaplan 等人發現，并且，由此得出模型規模的增長速度應快于數據集規模。具體來說，當計算量增加 10 倍時，他們建議將模型規模擴大約 5.5 倍，而訓練 token 僅擴大約 1.8 倍。后來的 Chinchilla 論文推翻了這一建議，認為這種分配會導致大模型嚴重訓練不足。

Kaplan 等人另一項有用的分析是根據 N 和 D 估算所需的訓練 FLOPs。每次乘加運算計為大約 2 個 FLOPs。

圖6: 在給定層數 n_layer 、模型寬度 d_model （等于 d ；原始表格中的符號不一致）、前饋層維度 d_ff（通常相當于 4d_model ）、注意力維度 d_attn （通常相當于 d_model ）、上下文長度 n_ctx 和詞匯表大小 n_vocab 的情況下，對 Transformer 不同架構組件的參數量和計算量進行估算。（圖片來源：Kaplan et al. 2020）

然后，我們將反向傳播的 FLOPs 計為前向傳播 FLOPs 的兩倍。因為反向傳播需要運行兩次矩陣乘法，分別用于計算輸入激活和權重的梯度。因此，每個 token 的訓練總 FLOPs 約為 6N ，在 D 個 token 上訓練的總 FLOPs 為 C ≈ 6ND 。

Chinchilla Scaling Law

Chinchilla 論文（Hoffmann et al. 2022）研究了在固定計算預算 C 下，最優模型規模 N（總參數量，包含嵌入層）與 token 數量 D 之間的關系。該研究采用了更加嚴謹的實驗設計，得出了與 Kaplan 等人有所不同的結論。

圖7: 你應該知道龍貓（chinchilla）長什么樣（圖片來源：由 ChatGPT 生成）

Chinchilla 論文提出了三種設計巧妙的 Scaling law 擬合方法。

實證實驗掃描了 400 多個模型。這些模型的參數量從 7000 萬到超過 160 億不等，訓練 token 數量從 50 億到 5000 億不等。這些實驗基于一個假設：每個訓練 token 都是獨一無二的（即無限數據區域）。所有訓練都采用了余弦學習率調度，在整個訓練周期內衰減 10 倍。通過對不同模型規模的掃描，他們描繪出了計算最優邊界。

方法 1：固定模型規模，改變 token 預算

對于每個參數量 N ，使用不同的 token 預算進行多次訓練。隨后記錄每個 FLOP 預算 C 下達到的最小損失。

圖8: Chinchilla 方法 1：對一系列模型規模進行掃描時，不同 FLOP 預算下的訓練損失曲線。（圖片來源：Hoffmann et al. 2022）

方法 2：IsoFLOP曲線

固定計算預算 C ，繪制最終損失與參數量 N 的關系圖。在對數空間中，每條等 FLOP 曲線大致呈拋物線狀。其最低點標志著該計算預算下的最優模型規模。然后，在不同的預算上重復這一過程，就能在圖中描繪出一條冪律線。

圖9: Chinchilla 方法 2：IsoFLOP 拋物線；每條曲線的最低點代表了該預算下的計算最優模型規模。（圖片來源：Hoffmann et al. 2022）

方法 3：參數化擬合

直接擬合與 Rosenfeld et al. (2020) 相同的參數化函數：

我們實際上可以通過在約束條件下最小化，獲得最優的閉式近似值。

Chinchilla 通過三種互補的方法得出了結論。這些方法的最終結果相互吻合，這也是該結果極具說服力的原因之一。

但與 Kaplan 等人的結論存在分歧。值得注意的是，方法 3 的結果與其他兩種方法略有偏差，我們稍后將對此進行解釋。（圖片來源：Hoffmann et al. 2022）

圖11: Chinchilla 的三種不同方法的預測圖，以及 Kaplan 等人 (2020) 的預測。這三種方法都表明，當時的一些主流大語言模型訓練不足。（圖片來源：Hoffmann et al. 2022）

Chinchilla 論文聲稱當時（約 2022 年）大多數大模型訓練不足，這一主張得到了一次著名演示的支持。在與 Gopher （Rae et al. 2021；2800 億參數，3000 億 token 預算）相同的計算預算下，他們訓練了 Chinchilla（700 億參數，1.4 萬億 token 預算）。這是一個體積僅為四分之一，但訓練 token 量大約是其四倍的模型。結果顯示，Chinchilla 在各項指標上全面超越了 Gopher。

調和 Kaplan 與 Chinchilla 的分歧

Chinchilla scaling law 與 Kaplan 等人的研究在以下方面存在分歧：

兩篇論文在基本原則上依然保持一致，只是在最優規模與 token 的權衡點上存在分歧。為什么分歧會如此之大？

差異 1：Kaplan 等人主要在小模型上進行實驗。Kaplan 等人大多在較小的模型上進行測試，而 Chinchilla 論文的實驗規模要大 10 倍以上。當我們在雙對數空間中進行外推時，微小的擬合差異都可能導致結果出現巨大偏差（參見模擬測試小節）。

圖12: 局部冪律指數隨 C_\E 增長的可視化。（圖片來源：Pearce & Song 2024）

如上圖所示，隨著變大， g 會收斂到 Chinchilla 的估計值。通過利用上述等式生成合成的訓練曲線，在 7.68 億到 15 億的模型規模范圍內（正如 Kaplan 等人所做），他們估算出 g 接近 Kaplan 在該區域給出的 0.73 系數。

為什么是冪律？

冪律現象在人工智能以外的許多領域都能被廣泛觀察到。例如齊夫定律（Zipf's law）、無標度網絡、城市縮放定律以及許多其他復雜系統。反復出現的模式是：大事件少見，小事件常見，且規模與頻率之間的關系在雙對數尺度上通常呈現為一條直線。

為什么大語言模型的 Scaling law 也呈現出冪律的形式？

后續的一個假說（Michaud et al. 2023, Brill 2024）認為，知識或技能是以離散塊的形式進行學習的（即「量化」），且這些技能的頻率分布遵循冪律。模型會先學習常見的技能，隨后再學習罕見的技能。這一過程使得損失呈現平滑的冪律衰減。

我在這里僅列舉了兩種假設。此外還有更多研究嘗試通過數據的譜尾、核特征值、自然語言統計特征，或訓練動態中的相變現象來解釋冪律縮放的形態。

數據受限區域的 Scaling Law

經典的 Scaling law 假設存在幾乎無限的去重數據，沒有重復，也沒有多輪次訓練。隨著模型規模的顯著增長，我們逐漸面臨高質量去重 token 數量不足的問題。事實上，關于人工智能的規模化還能持續多久的爭論，核心焦點往往在于我們是否觸及了「數據墻」。

另外值得強調的是，D 背后所代表的數據集應該是已經清理過的。預訓練數據管道通常是高效預訓練流程的重要組成部分。常見的步驟包括去重（精確去重和模糊去重）、質量過濾、樣板去除、安全過濾、個人身份信息 / 版權脫敏、基準污染處理，以及根據語言、質量、內容類型等對數據混合成分進行仔細重加權。即使兩個數據集包含相同數量的 token 數 D ，一個高質量的數據集和一堆互聯網垃圾數據產生的計算效率也可能截然不同。

Hernandez et al. (2022) 的研究專注于一種受控場景：一個包含小比例重復數據的去重數據集。他們從一個大型數據集開始配置數據混合比例，保留 90% 的去重數據，并將剩余的 10% 替換為原始數據集一小部分的重復內容。在用 1000 億個 token 訓練 Transformer 模型后，他們觀察到了雙重下降現象。測試損失會隨著重復數據占比的增加而變差，然后再變好。重復數據的比例越高，這種影響就越明顯。

圖 13. 隨著重復率增加，測試損失中出現雙重下降現象（左圖重復率為 90% ，右圖重復率為 50% ）。（圖片來源：Hernandez et al. 2022）

訓練中期出現的平滑或上升趨勢，可能是由于模型記住了重復的數據。這種形態的學習曲線會降低 Scaling law 擬合的準確性。研究人員還得出結論，重復數據會損害某些分布外（OOD）評估和下游微調的效果。然而，他們的數據組合方式建立在偏向實驗室環境的設定上。在真實世界的數據中，重復情況通常更加復雜微妙（例如，不同數據存在著不同程度的重復、語義上的重復等）。

考慮到高質量的去重數據并非無窮無盡，我們在訓練期間不可避免地需要重復使用數據。相較于探討數據重復對訓練的不利影響，我們更關注在這樣的條件下應該如何擬合 Scaling law。

Muennighoff et al. (2023) 探討了當模型訓練受到數據限制時，應該如何最優分配計算資源。具體而言，他們通過大約 400 次實驗實證研究了數據重復帶來的影響。實驗涵蓋了 1000 萬到 90 億參數，數據量高達 9000 億個 token，訓練輪次高達 1500 輪。在每個輪次中都重復完全相同的數據集，在輪次之間進行洗牌，并在獨立的測試集上進行評估。

它體現了「模型越大，重復數據上的過擬合速度越快」以及「模型可能對于其數據集而言過大」的觀點。這一部分不太直觀，我也沒有找到令人滿意的解釋來說明為什么模型大小需要以這種對稱形式出現在重復數據中。Lovelace 等人(2026)的后續研究改變了這一假設。

他們的實證擬合結果表明，多余參數在價值上的衰減速度快于重復數據。這表明我們在分配資源時，應該優先考慮增加訓練輪次，而不是一味擴大模型規模。這種建模方式的弱點正如作者所指出的，它嚴重低估了出現失敗的模型的最終測試損失（即訓練中途損失開始增加的模型），例如那些訓練了 44 個輪次的模型。

圖14: 在數據受限并帶有重復數據的情況下進行縮放，比忽略數據重復情況的擬合能更好地捕捉實驗結果。重復 token 的價值會向著一個上限呈現指數衰減。隨著輪次增加，由于高度重復導致測試損失在訓練中途增加（圖中未顯示），擬合效果會變差。（圖片來源：Muennighoff et al. 2023）

最近，Lovelace et al. (2026) 用一種不同的方法重新審視了這個問題。與其將過度參數化建模為對有效模型規模的遞減收益，Lovelace 等人選擇對模型規模與數據重復之間的相互作用進行顯式建模。在實證研究中，他們訓練了大約 300 個模型，參數范圍從 1500 萬到 10 億，去重 token 數量從 5000 萬到 60 億。

當他們在不同的數據重復水平下繪制固定規模模型的擬合殘差圖時，觀察結果非常直觀：輪次越多，造成的損害就越大。有趣的是，模型規模越大，對重復數據就越敏感。這暗示損失懲罰可能是模型規模和數據規模的共同函數。

圖15:有效規模擬合的殘差顯示，過擬合造成的損害會隨著輪數和模型規模的增加而增大。（圖片來源：Lovelace et al. 2026）

研究人員引入了一個顯式的過擬合懲罰項，它建立在容量比（參數量相對于去重 token 數量的比例， N/D_U ）的基礎之上：

其中：

增加的（紅色部分）一項是直接的過擬合懲罰。這種懲罰會隨著數據重復次數的增加，以及相對于可用去重數據模型過度參數化程度的增加而變得更加嚴重。

他們還進行了一項案例研究，探討了在數據受限的條件下權重衰減對訓練的影響。研究發現，強烈的權重衰減能減少因數據重復而引起的過擬合懲罰。

圖16: 強烈的權重衰減能減輕數據重復帶來的過擬合懲罰。（圖片來源：Lovelace et al. 2026）

Muennighoff 等人和 Lovelace 等人提出的兩種建模方法都是建立在經驗曲線擬合的基礎上的。因此目前仍不清楚為什么受數據限制的 Scaling laws 必須采用這些特定的形式，以及為什么需要引入這些自由參數。期待這一領域能有更多相關的理論研究。

在現實中擬合 Scaling Law 的微妙之處

盡管形式上很簡潔，但在實踐中，Scaling law 的擬合卻對一些看似微不足道的流程選擇出人意料地敏感。這包括如何計算參數量、如何進行精度四舍五入，以及如何求和或平均損失等操作。

這是因為 Scaling law 通常是在我們負擔得起的（相對較小、成本較低的）模型上擬合出來的，而相關預測則是要外推到規模大上幾個數量級的模型。在這樣的設定下，看似舍入誤差的細微選擇，都可能導致預測結果大相徑庭。

同時，Scaling law 的擬合假設唯一的變量就是規模。這意味著模型架構、優化器、學習率調度、批量大小預熱、數據混合、分詞器和其他設計選擇都應保持不變。另一個潛在的假設是，所有這些設置都已經經過了仔細的調整。因為像模型訓練不足這樣的情況會導致截然不同的結論。

Kaplan 等人與 Chinchilla 的結果存在分歧，就是一個證明 Scaling law 擬合具有微妙之處的例子。

第二個例子是一項后續的分析。該分析調查了為什么 Chinchilla 的方法 3 與其他兩種方法存在輕微偏差。Besiroglu et al. (2024) 從 Hoffmann et al. (2022) 論文的圖 4 中提取了原始數據點，并重新運行了方法 3 的參數化擬合。他們發現了幾個具體的問題：

L-BFGS-B 最小化器中的損失刻度過高。這主要是因為對樣本的 Huber 損失值進行了求平均而非求和。這導致了優化過程過早終止。在原始擬合和 bootstrapping 重采樣過程中，損失最小化提前停止，這產生了不一致的估計值和令人難以置信的狹窄置信區間。
報告的 α 和 β 被四舍五入到了 2 位精度。這使得推導出的 A,B 看起來比實際偏差更大。

模擬測試

這是一個由 ChatGPT 創建的模擬測試小部件，旨在演示三種特定的故障模式。

我們假設真實函數為：

因此，

這是 Besiroglu et al. (2024). 的估計。

該模擬繪制了損失預測值與數據集大小 D 的關系圖，同時提供了一組 slider 來展示案例：

損失精度：將損失值從高位小數四舍五入到低位小數可能會改變擬合參數值。
損失噪聲：僅以千分之一損失（0.001）為倍率擾動損失值，就會產生不同的擬合效果。
擬合區域敏感性：僅擬合小型模型、僅擬合中型模型或擬合全部模型，會得出不同的 scaling law。

原圖為交互圖，請移步原文體驗交互效果。

參考文獻：

[1] S. Amari, N. Fujita, and S. Shinomoto. “Four Types of Learning Curves. Neural Computation.” 4 (4):605–618, 1992.

[2] Hestness et al. “Deep Learning Scaling is Predictable, Empirically.” arXiv preprint arXiv:1712.00409, 2017.

[3] Rosenfeld et al. “A Constructive Prediction of the Generalization Error Across Scales.” ICLR 2020.

[4] Kaplan et al. “Scaling Laws for Neural Language Models.” arXiv preprint arXiv:2001.08361, 2020.

[5] Hoffmann et al. “Training Compute-Optimal Large Language Models.” NeurIPS 2022.

[6] Pearce and Song. “Reconciling Kaplan and Chinchilla Scaling Laws.” TMLR 2024.

[7] Bahri et al. “Explaining Neural Scaling Laws.” arXiv preprint arXiv:2102.06701, 2021.

[8] Sharma and Kaplan. “A Neural Scaling Law from the Dimension of the Data Manifold.” arXiv preprint arXiv:2004.10802, 2020.

[9] Hernandez et al. “Scaling Laws and Interpretability of Learning from Repeated Data.” arXiv preprint arXiv:2205.10487, 2022.

[10] Muennighoff et al. “Scaling Data-Constrained Language Models.” NeurIPS 2023.

[11] Lovelace et al. “Prescriptive Scaling Laws for Data Constrained Training.” arXiv preprint arXiv:2605.01640, 2026.

[12] Besiroglu et al. “Chinchilla Scaling: A Replication Attempt.” arXiv preprint arXiv:2404.10102, 2024.

[13] Michaud et al. “The Quantization Model of Neural Scaling” NeurIPS 2023.

[14] Brill. “Neural Scaling Laws Rooted in the Data Distribution.” arXiv preprint arXiv:2412.07942, 2024.

[15] Rae et al. “Scaling Language Models: Methods, Analysis & Insights from Training Gopher.” arXiv preprint arXiv:2112.11446, 2021.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.