![]()
6 月 24 日,前 OpenAI 安全研究副總裁、Thinking Machines Lab 聯合創始人翁荔(Lilian Weng)在她的個人技術博客 Lil'Log 上發表了最新長文《Scaling Laws, Carefully》。這篇大概兩萬多字的文章,對深度學習中最重要的經驗發現之一:縮放定律(Scaling Laws),進行了一次從起源到前沿的系統性梳理。
同時,翁荔也以少見的審慎態度指出:這套被 AI 行業奉為圭臬的理論工具,在實際擬合和外推過程中充滿了容易被忽視的陷阱。
“AI 圈最好的技術博客”再次更新
對于關注 AI 研究的從業者來說,Lil'Log 是一個不需要介紹的名字。
自 2017 年起,翁荔就開始在這個博客上記錄學習筆記,從強化學習入門綜述寫到擴散模型、LLM 自主智能體、對抗攻擊、推理時計算(test-time compute)等前沿話題,每篇文章都以數萬字的篇幅,將某一研究領域從理論基礎到最新進展系統串聯,配上清晰的數學推導和精心繪制的圖表。因為兼具深度與可讀性, Lil'Log 成為機器學習領域被引用和推薦最多的個人技術博客之一。
這背后也有翁荔本人履歷的支撐。她本科畢業于北京大學信息管理與信息系統專業,本科期間曾赴香港大學交流,后前往美國印第安納大學伯明頓分校攻讀博士學位,研究方向為復雜網絡與系統。
2018 年,她加入 OpenAI,先后參與機器人和應用研究工作,后升任研究與安全副總裁,負責 OpenAI 的安全系統建設等工作。2024 年 11 月,她從工作了近七年的 OpenAI 離職。2025 年 2 月,翁荔與前 OpenAI 首席技術官 Mira Murati、OpenAI 聯合創始人 John Schulman 等人共同創立了 Thinking Machines Lab。這是一家以公益公司形式注冊的 AI 研究與產品公司,首輪融資即達 20 億美元,估值 120 億美元,是硅谷歷史上規模最大的種子輪融資之一。
盡管已經躋身創業公司聯合創始人之列,翁荔始終沒有停止在 Lil'Log 上寫作,她持續以長篇綜述機器學習的重要研究方向的形式梳理。2023 年,她發表的《LLM Powered Autonomous Agents》成為 AI Agent 浪潮中最具影響力的技術綜述之一;2025 年,她又推出關于推理時計算(Test-Time Compute)的長文《Why We Think》。而這篇最新的《Scaling Laws, Carefully》,則是她加入 Thinking Machines Lab 后發布的第二篇博文。
![]()
(來源:Lil'Log)
從經驗到公式:縮放定律的來龍去脈
這篇文章開篇便點明了縮放定律(Scaling Laws)的核心發現:隨著模型規模(參數量 N)、數據集規模(Token 數 D)和計算量(FLOPs,C)的增加,訓練損失會按照冪律(power law)持續下降,在 log-log 坐標系中近似表現為一條直線。正是這種高度可預測的規律,使研究者能夠先在一系列小規模實驗上擬合縮放曲線,再據此外推更大模型所需的參數規模、訓練數據和計算資源,從而成為大模型預訓練階段最重要的規劃工具之一。
![]()
(來源:Lil'Log)
翁荔將縮放定律的發展歷程梳理為幾個關鍵階段。
首先是早期的學術奠基。她將這一研究脈絡追溯到 1992 年 Amari 等人的理論工作。研究者利用貝葉斯框架推導出四類學習曲線,發現無論是確定性還是隨機學習算法、有噪聲還是無噪聲數據,其泛化誤差都呈現冪律下降。隨后,Hestness 等人在 2017 年開展的大規模經驗研究進一步驗證了這一現象:在機器翻譯、圖像分類、語言建模和語音識別等多個任務中,泛化誤差與訓練數據規模之間都表現出穩定的冪律關系。更重要的是,冪律指數更多由任務本身決定,而非模型架構;不同架構主要改變的是整條曲線的位置,而不是下降趨勢。
其次是 Kaplan 縮放定律的確立。2020 年,Kaplan 等人首次系統建立了現代意義上的語言模型縮放定律。基于參數規模從約 77M 到 1.5B 的 Transformer 模型實驗,他們發現模型損失分別與參數規模 N、數據規模 D 和計算量 C 均滿足穩定的冪律關系。其中影響最深遠的一條結論是:在固定計算預算下,與其把一個較小模型訓練到充分收斂,不如優先擴大模型規模。論文給出的最優縮放關系顯示,當計算預算增加 10 倍時,模型參數約增加 5.5 倍,而訓練 Token 只需增加約 1.8 倍。
![]()
(來源:Lil'Log)
最后是 Chinchilla 論文的修正。兩年后,Hoffmann 等人在 2022 年發表的 Chinchilla 論文重新審視了這一結論。通過固定模型變數據、IsoFLOP 分析和參數化擬合三種方法,他們發現,在固定計算預算下,模型規模與訓練數據應近似同比例增長,而不是像 Kaplan 所建議的那樣優先擴大模型參數。
為驗證這一觀點,他們在與 Gopher(280B 參數、約 300B Token)相同的計算預算下,訓練了 Chinchilla(70B 參數、約 1.4T Token)。盡管模型參數縮小了約四倍,但由于訓練數據增加到四倍以上,最終性能全面超過 Gopher。這一結果也促使行業重新認識到,當時的大語言模型普遍存在“訓練不足”(undertrained)的問題。
![]()
(來源:Lil'Log)
兩篇里程碑論文,得出相反結論?
由于 Kaplan 與 Chinchilla 之間的分歧十分重要,翁荔在文中專門用一節討論。她指出,兩篇論文看似相互矛盾,但真正的問題并非誰對誰錯,而是實驗規模、參數定義和外推方式的不同,共同放大了兩者之間的差異。
第一個原因是實驗規模的不同。Kaplan 等人的實驗主要集中在相對較小的模型區間,而 Chinchilla 的實驗規模則擴大了一個數量級以上。在縮放定律中,研究者通常需要在有限規模的數據上擬合冪律曲線,再將結果外推到遠大于實驗范圍的模型。當擬合曲線的指數存在細微差異時,這種差異在 log-log 空間經過長距離外推后,會演變成截然不同的資源配置建議。
第二個原因較為隱蔽,主要在于兩位學者采用的模型參數的統計口徑并不一致。Kaplan 論文在統計模型規模時排除了 Token embedding 參數,而 Chinchilla 則采用了模型全部參數。在早期較小規模的 Transformer 中,嵌入層參數占總參數的比例并不低,因此兩篇論文雖然分析的是“模型規模”,實際上使用的卻不是同一個變量。
翁荔也進一步引用 Pearce 和 Song 于 2024 年的研究指出,只要將嵌入層參數重新納入計算,并建立總參數與非嵌入參數之間的映射關系,Kaplan 與 Chinchilla 的縮放曲線便能夠在相當程度上統一起來。
![]()
(來源:Lil'Log)
換句話說,Kaplan 的結論不是錯誤,而是在其所覆蓋的小模型區間內,對更一般縮放規律的一種局部近似;隨著模型規模繼續擴大,最優計算分配才逐漸過渡到 Chinchilla 所描述的“模型規模與數據規模近似同比增長”的規律。
當縮放定律回到現實
除了回顧縮放定律的發展歷史,翁荔還專門討論了一個越來越現實的問題:當高質量訓練數據不再無限時,經典縮放定律還能成立嗎?
早期的縮放定律幾乎都建立在一個隱含假設之上。訓練數據充足且不會重復。然而,隨著大語言模型不斷擴張,可用于訓練的高質量文本正在逐漸逼近上限,業界近年來頻繁提及的“數據墻”(Data Wall)正是由此而來。在這樣的背景下,如何刻畫重復數據的價值,開始成為縮放定律研究的新方向。
翁荔重點介紹了兩項代表性工作。Muennighoff 等人于 2023 年提出,將訓練 Token 拆分為唯一 Token 數和重復次數兩個維度,并發現重復數據帶來的收益會呈指數衰減:每增加一次重復,每個 Token 所能貢獻的信息量都會按固定比例遞減,而不是像經典縮放定律假設的那樣始終等價。
![]()
(來源:Lil'Log)
更進一步,Lovelace 等人在 2026 年提出了新的經驗模型,在縮放公式中顯式加入過擬合懲罰項。研究發現,模型規模越大,對重復數據越敏感;而增強權重衰減等正則化方法,則能夠在一定程度上緩解重復訓練導致的過擬合。
不過,翁荔也特別提醒,這兩類模型目前都仍然屬于經驗擬合,其背后的理論機制尚未建立。為什么重復數據會呈現這樣的收益曲線?不同模型為何會表現出不同的敏感性?這些問題至今仍缺乏統一解釋,也是未來縮放定律研究的重要方向。
細節決定成敗
最后,如果只用一句話概括整篇文章的核心觀點,那就是:縮放定律或許是深度學習最成功的經驗規律之一,但它遠不是一條可以機械套用的自然定律。
為了說明這一點,翁荔詳細分析了 Besiroglu 等人于 2024 年對 Chinchilla 方法三(Method 3)的復現工作。這項研究發現,一些看似無關緊要的實現細節,足以改變最終得到的縮放規律。例如,原論文采用 L-BFGS-B 優化器進行參數擬合,但由于目標函數使用的是平均損失而非損失總和,數值尺度過小,優化過程會提前停止;此外,論文中公開的數據僅保留兩位有效數字,進一步增加了擬合誤差,使最終推導出的最優模型規模與數據配比產生明顯偏移。
這些問題并不會推翻縮放定律本身,卻說明它對擬合過程異常敏感:數據精度、優化器設置、擬合區間、參數定義等每一個細節,都可能影響最終得到的冪律指數,進而改變對未來更大模型的資源規劃。
為了讓這種敏感性更加直觀,翁荔還在文章最后加入了一個交互式模擬工具。讀者可以自行調整損失精度、噪聲水平、擬合區間等參數,實時觀察這些看似微小的變化,如何一步步放大為完全不同的縮放曲線和資源預測結果。
![]()
(來源:Lil'Log)
Careful,Scalling Laws
過去幾年,縮放定律已經從一條經驗規律,逐漸演變成整個大模型行業最重要的規劃工具之一。對于 OpenAI、Anthropic、Google DeepMind 等前沿實驗室來說,它的意義早已不僅僅是解釋模型為什么會變強,更重要的是回答一個更現實的問題:下一代模型究竟值不值得訓練,以及應該如何訓練。
今天,一個 Frontier Model 的訓練成本往往高達數十億美元。模型應該做多大?需要準備多少訓練數據和 GPU?不同的資源如何分配才能獲得最大的性能提升?這些問題不可能依靠一次次完整訓練來試錯,而必須先借助縮放定律,在小規模實驗上擬合曲線,再據此外推未來模型的表現。縮放定律開始承擔著整個行業資源規劃和資本投入的預測功能。
也正因為如此,翁荔討論的并不是一個純粹的學術問題,這關乎整個 AI 產業的決策。
她沒有否定縮放定律,而是重新審視了這套工具本身的可信邊界。從 Kaplan 與 Chinchilla 的分歧,到數據受限條件下的新模型,再到 Besiroglu 對擬合過程的重新復現,她不斷強調一個事實:縮放定律的預測能力,很大程度上依賴于模型參數如何定義、損失函數如何擬合、實驗覆蓋了哪些規模區間,以及訓練數據是否滿足其隱含假設。
對于一個正在依據縮放定律決定未來數十億美元乃至上百億美元算力投資方向的行業而言,這些是決定資源配置是否正確、模型路線是否合理的關鍵前提。
或許,這也是她將文章命名為《Scaling Laws, Carefully》的真正含義:真正需要謹慎的,不是縮放定律本身,而是人們對縮放定律的使用方式。它仍然是深度學習最有價值的經驗工具之一,但只有在充分理解其假設、適用范圍和局限性的前提下,它才能成為可靠的指南針。
https://lilianweng.github.io/posts/2026-06-24-scaling-laws/
運營/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.