无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

翁荔新博文拆解Scaling Laws:AI行業最信賴的公式,沒有那么可靠

0
分享至



6 月 24 日,前 OpenAI 安全研究副總裁、Thinking Machines Lab 聯合創始人翁荔(Lilian Weng)在她的個人技術博客 Lil'Log 上發表了最新長文《Scaling Laws, Carefully》。這篇大概兩萬多字的文章,對深度學習中最重要的經驗發現之一:縮放定律(Scaling Laws),進行了一次從起源到前沿的系統性梳理。

同時,翁荔也以少見的審慎態度指出:這套被 AI 行業奉為圭臬的理論工具,在實際擬合和外推過程中充滿了容易被忽視的陷阱。

“AI 圈最好的技術博客”再次更新

對于關注 AI 研究的從業者來說,Lil'Log 是一個不需要介紹的名字。

自 2017 年起,翁荔就開始在這個博客上記錄學習筆記,從強化學習入門綜述寫到擴散模型、LLM 自主智能體、對抗攻擊、推理時計算(test-time compute)等前沿話題,每篇文章都以數萬字的篇幅,將某一研究領域從理論基礎到最新進展系統串聯,配上清晰的數學推導和精心繪制的圖表。因為兼具深度與可讀性, Lil'Log 成為機器學習領域被引用和推薦最多的個人技術博客之一。

這背后也有翁荔本人履歷的支撐。她本科畢業于北京大學信息管理與信息系統專業,本科期間曾赴香港大學交流,后前往美國印第安納大學伯明頓分校攻讀博士學位,研究方向為復雜網絡與系統。

2018 年,她加入 OpenAI,先后參與機器人和應用研究工作,后升任研究與安全副總裁,負責 OpenAI 的安全系統建設等工作。2024 年 11 月,她從工作了近七年的 OpenAI 離職。2025 年 2 月,翁荔與前 OpenAI 首席技術官 Mira Murati、OpenAI 聯合創始人 John Schulman 等人共同創立了 Thinking Machines Lab。這是一家以公益公司形式注冊的 AI 研究與產品公司,首輪融資即達 20 億美元,估值 120 億美元,是硅谷歷史上規模最大的種子輪融資之一。

盡管已經躋身創業公司聯合創始人之列,翁荔始終沒有停止在 Lil'Log 上寫作,她持續以長篇綜述機器學習的重要研究方向的形式梳理。2023 年,她發表的《LLM Powered Autonomous Agents》成為 AI Agent 浪潮中最具影響力的技術綜述之一;2025 年,她又推出關于推理時計算(Test-Time Compute)的長文《Why We Think》。而這篇最新的《Scaling Laws, Carefully》,則是她加入 Thinking Machines Lab 后發布的第二篇博文。


(來源:Lil'Log)

從經驗到公式:縮放定律的來龍去脈

這篇文章開篇便點明了縮放定律(Scaling Laws)的核心發現:隨著模型規模(參數量 N)、數據集規模(Token 數 D)和計算量(FLOPs,C)的增加,訓練損失會按照冪律(power law)持續下降,在 log-log 坐標系中近似表現為一條直線。正是這種高度可預測的規律,使研究者能夠先在一系列小規模實驗上擬合縮放曲線,再據此外推更大模型所需的參數規模、訓練數據和計算資源,從而成為大模型預訓練階段最重要的規劃工具之一。


(來源:Lil'Log)

翁荔將縮放定律的發展歷程梳理為幾個關鍵階段。

首先是早期的學術奠基。她將這一研究脈絡追溯到 1992 年 Amari 等人的理論工作。研究者利用貝葉斯框架推導出四類學習曲線,發現無論是確定性還是隨機學習算法、有噪聲還是無噪聲數據,其泛化誤差都呈現冪律下降。隨后,Hestness 等人在 2017 年開展的大規模經驗研究進一步驗證了這一現象:在機器翻譯、圖像分類、語言建模和語音識別等多個任務中,泛化誤差與訓練數據規模之間都表現出穩定的冪律關系。更重要的是,冪律指數更多由任務本身決定,而非模型架構;不同架構主要改變的是整條曲線的位置,而不是下降趨勢。

其次是 Kaplan 縮放定律的確立。2020 年,Kaplan 等人首次系統建立了現代意義上的語言模型縮放定律。基于參數規模從約 77M 到 1.5B 的 Transformer 模型實驗,他們發現模型損失分別與參數規模 N、數據規模 D 和計算量 C 均滿足穩定的冪律關系。其中影響最深遠的一條結論是:在固定計算預算下,與其把一個較小模型訓練到充分收斂,不如優先擴大模型規模。論文給出的最優縮放關系顯示,當計算預算增加 10 倍時,模型參數約增加 5.5 倍,而訓練 Token 只需增加約 1.8 倍。


(來源:Lil'Log)

最后是 Chinchilla 論文的修正。兩年后,Hoffmann 等人在 2022 年發表的 Chinchilla 論文重新審視了這一結論。通過固定模型變數據、IsoFLOP 分析和參數化擬合三種方法,他們發現,在固定計算預算下,模型規模與訓練數據應近似同比例增長,而不是像 Kaplan 所建議的那樣優先擴大模型參數。

為驗證這一觀點,他們在與 Gopher(280B 參數、約 300B Token)相同的計算預算下,訓練了 Chinchilla(70B 參數、約 1.4T Token)。盡管模型參數縮小了約四倍,但由于訓練數據增加到四倍以上,最終性能全面超過 Gopher。這一結果也促使行業重新認識到,當時的大語言模型普遍存在“訓練不足”(undertrained)的問題。


(來源:Lil'Log)

兩篇里程碑論文,得出相反結論?

由于 Kaplan 與 Chinchilla 之間的分歧十分重要,翁荔在文中專門用一節討論。她指出,兩篇論文看似相互矛盾,但真正的問題并非誰對誰錯,而是實驗規模、參數定義和外推方式的不同,共同放大了兩者之間的差異。

第一個原因是實驗規模的不同。Kaplan 等人的實驗主要集中在相對較小的模型區間,而 Chinchilla 的實驗規模則擴大了一個數量級以上。在縮放定律中,研究者通常需要在有限規模的數據上擬合冪律曲線,再將結果外推到遠大于實驗范圍的模型。當擬合曲線的指數存在細微差異時,這種差異在 log-log 空間經過長距離外推后,會演變成截然不同的資源配置建議。

第二個原因較為隱蔽,主要在于兩位學者采用的模型參數的統計口徑并不一致。Kaplan 論文在統計模型規模時排除了 Token embedding 參數,而 Chinchilla 則采用了模型全部參數。在早期較小規模的 Transformer 中,嵌入層參數占總參數的比例并不低,因此兩篇論文雖然分析的是“模型規模”,實際上使用的卻不是同一個變量。

翁荔也進一步引用 Pearce 和 Song 于 2024 年的研究指出,只要將嵌入層參數重新納入計算,并建立總參數與非嵌入參數之間的映射關系,Kaplan 與 Chinchilla 的縮放曲線便能夠在相當程度上統一起來。


(來源:Lil'Log)

換句話說,Kaplan 的結論不是錯誤,而是在其所覆蓋的小模型區間內,對更一般縮放規律的一種局部近似;隨著模型規模繼續擴大,最優計算分配才逐漸過渡到 Chinchilla 所描述的“模型規模與數據規模近似同比增長”的規律。

當縮放定律回到現實

除了回顧縮放定律的發展歷史,翁荔還專門討論了一個越來越現實的問題:當高質量訓練數據不再無限時,經典縮放定律還能成立嗎?

早期的縮放定律幾乎都建立在一個隱含假設之上。訓練數據充足且不會重復。然而,隨著大語言模型不斷擴張,可用于訓練的高質量文本正在逐漸逼近上限,業界近年來頻繁提及的“數據墻”(Data Wall)正是由此而來。在這樣的背景下,如何刻畫重復數據的價值,開始成為縮放定律研究的新方向。

翁荔重點介紹了兩項代表性工作。Muennighoff 等人于 2023 年提出,將訓練 Token 拆分為唯一 Token 數和重復次數兩個維度,并發現重復數據帶來的收益會呈指數衰減:每增加一次重復,每個 Token 所能貢獻的信息量都會按固定比例遞減,而不是像經典縮放定律假設的那樣始終等價。


(來源:Lil'Log)

更進一步,Lovelace 等人在 2026 年提出了新的經驗模型,在縮放公式中顯式加入過擬合懲罰項。研究發現,模型規模越大,對重復數據越敏感;而增強權重衰減等正則化方法,則能夠在一定程度上緩解重復訓練導致的過擬合。

不過,翁荔也特別提醒,這兩類模型目前都仍然屬于經驗擬合,其背后的理論機制尚未建立。為什么重復數據會呈現這樣的收益曲線?不同模型為何會表現出不同的敏感性?這些問題至今仍缺乏統一解釋,也是未來縮放定律研究的重要方向。

細節決定成敗

最后,如果只用一句話概括整篇文章的核心觀點,那就是:縮放定律或許是深度學習最成功的經驗規律之一,但它遠不是一條可以機械套用的自然定律。

為了說明這一點,翁荔詳細分析了 Besiroglu 等人于 2024 年對 Chinchilla 方法三(Method 3)的復現工作。這項研究發現,一些看似無關緊要的實現細節,足以改變最終得到的縮放規律。例如,原論文采用 L-BFGS-B 優化器進行參數擬合,但由于目標函數使用的是平均損失而非損失總和,數值尺度過小,優化過程會提前停止;此外,論文中公開的數據僅保留兩位有效數字,進一步增加了擬合誤差,使最終推導出的最優模型規模與數據配比產生明顯偏移。

這些問題并不會推翻縮放定律本身,卻說明它對擬合過程異常敏感:數據精度、優化器設置、擬合區間、參數定義等每一個細節,都可能影響最終得到的冪律指數,進而改變對未來更大模型的資源規劃。

為了讓這種敏感性更加直觀,翁荔還在文章最后加入了一個交互式模擬工具。讀者可以自行調整損失精度、噪聲水平、擬合區間等參數,實時觀察這些看似微小的變化,如何一步步放大為完全不同的縮放曲線和資源預測結果。


(來源:Lil'Log)

Careful,Scalling Laws

過去幾年,縮放定律已經從一條經驗規律,逐漸演變成整個大模型行業最重要的規劃工具之一。對于 OpenAI、Anthropic、Google DeepMind 等前沿實驗室來說,它的意義早已不僅僅是解釋模型為什么會變強,更重要的是回答一個更現實的問題:下一代模型究竟值不值得訓練,以及應該如何訓練。

今天,一個 Frontier Model 的訓練成本往往高達數十億美元。模型應該做多大?需要準備多少訓練數據和 GPU?不同的資源如何分配才能獲得最大的性能提升?這些問題不可能依靠一次次完整訓練來試錯,而必須先借助縮放定律,在小規模實驗上擬合曲線,再據此外推未來模型的表現。縮放定律開始承擔著整個行業資源規劃和資本投入的預測功能。

也正因為如此,翁荔討論的并不是一個純粹的學術問題,這關乎整個 AI 產業的決策。

她沒有否定縮放定律,而是重新審視了這套工具本身的可信邊界。從 Kaplan 與 Chinchilla 的分歧,到數據受限條件下的新模型,再到 Besiroglu 對擬合過程的重新復現,她不斷強調一個事實:縮放定律的預測能力,很大程度上依賴于模型參數如何定義、損失函數如何擬合、實驗覆蓋了哪些規模區間,以及訓練數據是否滿足其隱含假設。

對于一個正在依據縮放定律決定未來數十億美元乃至上百億美元算力投資方向的行業而言,這些是決定資源配置是否正確、模型路線是否合理的關鍵前提。

或許,這也是她將文章命名為《Scaling Laws, Carefully》的真正含義:真正需要謹慎的,不是縮放定律本身,而是人們對縮放定律的使用方式。它仍然是深度學習最有價值的經驗工具之一,但只有在充分理解其假設、適用范圍和局限性的前提下,它才能成為可靠的指南針。

https://lilianweng.github.io/posts/2026-06-24-scaling-laws/

運營/排版:何晨龍

注:封面/首圖由 AI 輔助生成

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
董宇輝突然自曝:陷入嚴重的財務困境時,把能貸的款全都貸完了!

董宇輝突然自曝:陷入嚴重的財務困境時,把能貸的款全都貸完了!

財經要參
2026-06-20 21:31:28
《妻旅》格格不入的夫妻:懶、不上道、脾氣大,還沒孫楊這對舒服

《妻旅》格格不入的夫妻:懶、不上道、脾氣大,還沒孫楊這對舒服

一娛三分地
2026-06-25 19:09:02
數百名醫生已證實:維生素B12的真相,最好花點時間看看

數百名醫生已證實:維生素B12的真相,最好花點時間看看

岐黃傳人孫大夫
2026-06-19 18:45:03
深圳最牛街道突然“涼了”?房東慌了

深圳最牛街道突然“涼了”?房東慌了

地產一品塘
2026-06-26 08:00:32
兩戰轟27分+8記三分!中國男籃16歲新星閃耀:惠州庫里劍指世少賽

兩戰轟27分+8記三分!中國男籃16歲新星閃耀:惠州庫里劍指世少賽

李喜林籃球絕殺
2026-06-26 12:34:11
悉尼大學發布緊急禁令!全面終止與“非友好國家”一切合作

悉尼大學發布緊急禁令!全面終止與“非友好國家”一切合作

澳洲紅領巾
2026-06-26 15:27:31
大S終究是愛錯了人!院長曝出具俊曄不續約原因,就連小S也被拿捏

大S終究是愛錯了人!院長曝出具俊曄不續約原因,就連小S也被拿捏

小瘋子耶
2026-06-24 08:38:45
國家為什么要禁用“衛星鍋”?看它到底能看到什么,你就明白了

國家為什么要禁用“衛星鍋”?看它到底能看到什么,你就明白了

探謎未知世界
2026-06-26 13:44:33
所有部門規模至少擴大一倍!DeepSeek發布“英雄帖”:人類正處于AGI前夜

所有部門規模至少擴大一倍!DeepSeek發布“英雄帖”:人類正處于AGI前夜

澎湃新聞
2026-06-26 07:24:26
泰國租妻產業年賺數十億美元,退休老頭:租一個妻子,買一段晚年

泰國租妻產業年賺數十億美元,退休老頭:租一個妻子,買一段晚年

星星會墜落
2026-06-24 09:29:50
1960年毛澤東在北戴河偶遇曾碧漪,失落詢問:你怎么不聽我的話?

1960年毛澤東在北戴河偶遇曾碧漪,失落詢問:你怎么不聽我的話?

浩渺青史
2026-06-26 14:29:56
“武大郎”再現?36歲妻子投喂鼠藥!丈夫沒死就再投一次

“武大郎”再現?36歲妻子投喂鼠藥!丈夫沒死就再投一次

深夜探案館
2026-06-02 03:02:04
臺海還沒動武,另一場惡戰已撲向中國?美不再遮掩,基辛格說中了

臺海還沒動武,另一場惡戰已撲向中國?美不再遮掩,基辛格說中了

云上烏托邦
2026-06-26 17:28:32
戈恩又發聲:日產再不改變,將成為中國企業的附庸

戈恩又發聲:日產再不改變,將成為中國企業的附庸

觀察者網
2026-06-26 13:55:07
資治通鑒:大半的文化都是為了讓你安分守己,而且貧窮,有用的思想從不在臺面上流通,要么自己悟,要么在社會里被人一腳一腳踢到自己開竅

資治通鑒:大半的文化都是為了讓你安分守己,而且貧窮,有用的思想從不在臺面上流通,要么自己悟,要么在社會里被人一腳一腳踢到自己開竅

心理觀察局
2026-06-23 07:30:23
服刑人員利用親情會見操縱販毒,檢察機關深挖毒品來源追捕漏犯!

服刑人員利用親情會見操縱販毒,檢察機關深挖毒品來源追捕漏犯!

崇州市人民檢察院
2026-06-26 11:11:17
3+1!迪班薩正式確定球衣號碼!這個NBA狀元掌握流量密碼

3+1!迪班薩正式確定球衣號碼!這個NBA狀元掌握流量密碼

世界體育圈
2026-06-26 14:08:08
我跟女總裁開玩笑:千萬別讓我媽看見你,否則她非讓你當兒媳

我跟女總裁開玩笑:千萬別讓我媽看見你,否則她非讓你當兒媳

千秋文化
2026-06-20 19:32:25
湖南女子浸豬籠后續,知情人曝內幕,組織者被刑拘,8人全被控制

湖南女子浸豬籠后續,知情人曝內幕,組織者被刑拘,8人全被控制

許三歲
2026-06-26 10:22:06
美光科技盤前跌幅迅速擴大至5%,上一交易日收漲16%

美光科技盤前跌幅迅速擴大至5%,上一交易日收漲16%

每日經濟新聞
2026-06-26 16:21:18
2026-06-26 18:43:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16884文章數 515053關注度
往期回顧 全部

科技要聞

拿了500億的梁文鋒,只挖地基,不信銷售

頭條要聞

已有19支隊伍晉級32強 盤點世界杯小組出線形勢

頭條要聞

已有19支隊伍晉級32強 盤點世界杯小組出線形勢

體育要聞

我在世界杯的每次奔跑,都為了證明你沒看錯

娛樂要聞

玥兒不回北京,馬筱梅解釋后媽身份

財經要聞

懸在科技頭上的達摩克利斯之劍

汽車要聞

老板們的新座駕!65萬元起,尊界V800/V680開啟預訂

態度原創

健康
親子
家居
教育
手機

“無糖湯圓”是否隱藏著健康陷阱?

親子要聞

科普|備孕第一步:讀懂身體“悄悄話”

家居要聞

綠意盎然 自然之境

教育要聞

全程免費!面向河南等省高一高二學生,海軍工程大學夏令營開始報名

手機要聞

蘋果折疊屏iPhone Ultra售價突破1.5萬元:刷新iPhone產品價格紀錄

無障礙瀏覽 進入關懷版