无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI塌房!Scaling law原作曝bug,萬億算力全白燒

0
分享至


新智元報道


【新智元導讀】DeepMind研究員深夜爆料:OpenAI的Scaling Law原始論文竟有致命bug!全球AI白白燒掉萬億算力,GPT-3其實嚴重「虛胖」。

OpenAI誤導了整個AI圈好幾年!

過去五年,整個AI行業都被Scaling Law推著往前沖。

奧特曼堅信AGI的底氣就來自這條曲線。

現在,有人站出來說:這條曲線,一開始就錯了。

不是事后諸葛。說這話的,是當年就在OpenAI做大模型優化的研究員Diogo Almeida

剛剛,他發出一篇博客,標題冷得發指——《Scaling Laws, Honestly》。

開頭一句直接把話說死:最初那版scaling law是錯的,因為存在一個bug。


傳送門:https://www.completeskeptic.com/p/scaling-laws-honestly

DeepMind那位以擴散模型封神的Sander Dieleman,轉頭就在推特上把它頂了上去,說這是一段有意思的LLM往事:

原始scaling law因為一個bug而錯了,大概率害得業界在一堆「體量過大、訓練不足」的模型上,白白燒掉了海量算力。


一個bug,燒掉兩年。

當bug被撕開,我們看到的,不僅是算力的黑洞,更是一條被語言本身重塑的、遠比想象中更深刻的智能邊界。

Scaling Law竟是LLM版「地心說」

2020年,OpenAI給出結論:在固定的算力預算下,你應該優先把模型做大,而不是拿更多數據去喂它。

用公式說,最優參數量正比于算力的0.73次方——參數,是那個更該猛沖的變量。


這句話,直接定義了GPT-3那一代的長相。堆參數。往死里堆。1750億。

它告訴全世界的開發者:別問,問就是堆參數;只要你把模型做得足夠大,神跡就會發生。

兩年后,DeepMind甩出Chinchilla,把這個結論掀了個底朝天:模型和數據,應該差不多同等重要地一起放大,大約每個參數配20個token才劃算。


他們訓了一個700億參數的Chinchilla,喂了1.4萬億token——體量不到GPT-3的一半,數據是它的四倍多。

結果,同樣的算力預算,全面反超2800億參數、卻只喂了3000億token的Gopher。

翻譯成人話:同樣一筆錢,一個把它養成了"虛胖"的壯漢,一個把它練成了精瘦的拳手。

拖更三年,北大校友翁荔深入探討了后續研究中對兩者差異的主流解釋,即差異在于他們計算參數總數的方式。


而這還沒完。就連「正確」的那個Chinchilla,自己也不干凈。

2024年,Besiroglu等人把Chinchilla原文的數據點扒出來重跑,發現它自己那套擬合里也藏著bug:

優化器里的loss尺度設得過高,把Huber損失按樣本求了平均、而不是求和,導致擬合過早終止。


糾正bug的論文,自己帶著另一個bug。

到這兒,那句被無數人掛在嘴邊的「第一性原理」,忽然有點站不住了。

所謂Scaling Law,從來就不是牛頓三定律那種鐵打的物理規律,它只是一條經驗擬合出來的曲線。


Diogo Almeida認為真相并非如此,不是方法不一樣,「是最初那版scaling law本身有個bug。」

OpenAI三招騙了全球AI同行?

要制造一個讓全球AI集體相信的謊言,只需要三步。

第一步:囚禁數據。

OpenAI論文給所有模型——不管它是還在學習走路的孩子(小模型),還是已經長成巨人的模型,喂了完全相同的「飯量」。大約130B tokens數據。

小模型因此被「喂飽」甚至「撐到」,而真正需要海量數據來填滿其容量的大模型,卻在同一token預算下嚴重營養不良。



Chinchilla論文后來一針見血地指出:他們對所有模型使用了「對所有模型使用了固定的訓練Token數和學習率調度方案。」(fixed number of training tokens and learning rate schedule)。


這就像讓幼兒園小朋友和博士生用同一張試卷、同一時間考試,然后宣稱「成績只與天賦有關」。

第二步:掩耳盜鈴的LR衰減。

他們使用了余弦學習率衰減(Cosine Decay),讓學習率在訓練接近終點時平滑地趨近于零。


訓練快到預設的終點時,學習率被人為地一點點摁到零,模型的進步自然就「平」下來了。

曲線一走平,看上去就像:這模型已經學到頭了,再喂也沒用了。

研究者們于是得出結論:「加數據沒用了,模型已經飽和。」

這不是模型的極限,這是學習率把模型的成長之路人為掐斷。它制造出一種完美的假象:性能已經到達天花板,再加數據也無用。

可我們現在知道,那些大模型根本沒到頭。

第三步:權威的傲慢。

第三步,也是最陰的一步:論文里寫了一句,結果「基本不受學習率曲線影響」(largely independent of learning rate schedule)。


雖然包括當時在OpenAI的Diogo Almeida的不少人都隱約感覺到不對勁,但在固定token上限下,這個結論技術上正確。

可它偏偏不適用于scaling law真正想描述的那個「數據無限」的理想世界。

他們把有限條件下的局部真理,當成了普適的宇宙法則。

三步疊在一起,你就得到了一條既錯、又極難debug的定律。

連Diogo自己都承認:當年他也在OpenAI做優化,也沒看出這個bug——那條學習率曲線看著太像是「精心設定」的了,誰會去懷疑呢。

GPU被白白浪費

算力錯配嚴重

受OpenAI錯誤公式的指引,AI行業進入了「大力出奇跡」的時代。

意味著在過去的幾年里,全球最聰明的頭腦、最稀缺的算力,都浪費在了無效的規模擴張上。

這不僅僅是錢的問題,這是在通往AGI(通用人工智能)的生死時速中,人類因學習率設置,集體在錯誤的跑道上狂奔了數千公里。

如果說Bug的發現讓人心痛,那么隨后引出的深度反思則讓人不寒而栗。

研究者Adam Zachary Wasserman指出了一個被所有人忽略的盲點:即便公式修正了,目前的Scaling Law也只是「英語Scaling Law」。


他做了一個反直覺的實驗:用同樣的架構、同樣的算力訓練模型。

結果發現,法語模型達到某種語法能力的效率,竟然比英語模型高出50到100倍


為什么?因為英語是一種「形態貧乏」的語言。

它太依賴分布規律,需要模型在海量數據中去猜詞義;而像法語、中文這種形態豐富或結構嚴密的語言,在詞匯本身就帶有大量明確信息。


這意味著,我們現在所有的算力配比方案,都是基于一種最「吃數據」、最低效的語言制定的。

當你以為你在探索「通用智能」的物理定律時,你其實只是在測量「英語這門語言有多浪費算力」。

這就像是你試圖通過研究一頭豬的胃口來制定全宇宙生物的營養標準——這不僅是偏見,更是認知的局限。

我們本可以用更小的模型、更多的優質數據,實現更強的性能。

我們本可以節省下數以萬計的H100運行時的電力和熱量。

我們本可以提前兩年進入「高效AI」時代。

參考資料:

https://www.completeskeptic.com/p/scaling-laws-honestly

https://lilianweng.github.io/posts/2026-06-24-scaling-laws/

編輯:大衛




特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
淺黃修身長袖+白色微喇褲|熟女人妻通勤穿搭,面料勾勒飽滿曲線

淺黃修身長袖+白色微喇褲|熟女人妻通勤穿搭,面料勾勒飽滿曲線

只要高興就好
2026-07-04 09:29:24
外媒中國KJ-500已經超過50架!數量比全球總和還多

外媒中國KJ-500已經超過50架!數量比全球總和還多

矚望云霄
2026-07-02 18:19:06
太離譜!林更新只是來客串綜藝,硬生生把飛行嘉賓玩成主場

太離譜!林更新只是來客串綜藝,硬生生把飛行嘉賓玩成主場

鄉野小珥
2026-07-05 08:52:15
國足天塌了!佛得角足協希望和中國隊打友誼賽,結果會如何?

國足天塌了!佛得角足協希望和中國隊打友誼賽,結果會如何?

文刀貳
2026-07-04 23:15:30
賽后巴拉圭門將想與姆巴佩握手,姆巴佩無視并在他面前開始慶祝

賽后巴拉圭門將想與姆巴佩握手,姆巴佩無視并在他面前開始慶祝

懂球帝
2026-07-05 08:14:18
大戰當前怕違規,墨西哥隊將士退還收到的價值百萬美元的勞力士手表,贈送者為一美國網紅

大戰當前怕違規,墨西哥隊將士退還收到的價值百萬美元的勞力士手表,贈送者為一美國網紅

紅星新聞
2026-07-05 14:16:21
南美第2蹊蹺出局,英格蘭或轟然倒下,球迷:冠軍提前預定了?

南美第2蹊蹺出局,英格蘭或轟然倒下,球迷:冠軍提前預定了?

我就是一個說球的
2026-07-04 16:53:46
姆巴佩:我可以把手伸進屎里!謝爾基:姆總別伸手 一頭扎進去

姆巴佩:我可以把手伸進屎里!謝爾基:姆總別伸手 一頭扎進去

念洲
2026-07-05 08:46:09
2022年港獨分子逃亡英國,每天一頓飯付不起房租,最終留遺書自盡

2022年港獨分子逃亡英國,每天一頓飯付不起房租,最終留遺書自盡

流史歲月
2026-07-03 14:30:08
“臺獨記者”范琪斐,狂黑大陸幾十年,親赴大陸后下場大快人心

“臺獨記者”范琪斐,狂黑大陸幾十年,親赴大陸后下場大快人心

舊事別提
2026-07-05 10:29:57
文娛榜第一!短劇頂流郭宇欣錄音流出:“我和周也還不一定誰蹭誰呢”

文娛榜第一!短劇頂流郭宇欣錄音流出:“我和周也還不一定誰蹭誰呢”

新腕兒
2026-07-04 16:34:05
知名連鎖餐飲,爆雷?

知名連鎖餐飲,爆雷?

中國新聞周刊
2026-07-04 13:34:25
重磅!蘇群曝杜鋒下課,新去向出爐,球迷喊話楊鳴接手,能行嗎?

重磅!蘇群曝杜鋒下課,新去向出爐,球迷喊話楊鳴接手,能行嗎?

萌蘭聊個球
2026-07-05 13:30:30
快訊!臺灣官員:大陸又有新動作了!

快訊!臺灣官員:大陸又有新動作了!

故事終將光明磊落
2026-07-05 12:10:21
別硬扛高溫!1.5匹空調開24小時,電費真相讓你大跌眼鏡

別硬扛高溫!1.5匹空調開24小時,電費真相讓你大跌眼鏡

小兔子發現大事情
2026-07-04 16:22:21
特殊規則助力絕境重生!蒯曼4-3佐藤瞳,為師姐復仇約戰張本美和

特殊規則助力絕境重生!蒯曼4-3佐藤瞳,為師姐復仇約戰張本美和

釘釘陌上花開
2026-07-05 12:00:28
360萬元法拉利被4名兒童劃損,最新進展:4名家長均已道歉,共計賠償2萬元,車主表示將不再追究責任

360萬元法拉利被4名兒童劃損,最新進展:4名家長均已道歉,共計賠償2萬元,車主表示將不再追究責任

大風新聞
2026-07-04 09:50:03
伊布:C羅3場禁賽被撤銷!國際足聯總給他和葡萄牙優待 萊萬轉發

伊布:C羅3場禁賽被撤銷!國際足聯總給他和葡萄牙優待 萊萬轉發

念洲
2026-07-05 10:30:01
第十四屆全國政協委員、國家發展改革委原黨組成員、國家能源局原黨組書記、局長章建華到綠能公司調研

第十四屆全國政協委員、國家發展改革委原黨組成員、國家能源局原黨組書記、局長章建華到綠能公司調研

新浪財經
2026-07-05 03:43:01
韓紅深陷危機!百人援蒙送別現場輿論升級,網友怒斥不容造神作秀

韓紅深陷危機!百人援蒙送別現場輿論升級,網友怒斥不容造神作秀

火山詩話
2026-07-04 09:40:29
2026-07-05 14:47:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15610文章數 66948關注度
往期回顧 全部

科技要聞

華為:邏輯折疊將大幅提升麒麟CPU核心頻率

頭條要聞

日本史上最年輕民選女市長因休16周產假遭全國圍攻

頭條要聞

日本史上最年輕民選女市長因休16周產假遭全國圍攻

體育要聞

姆巴佩點走巴拉圭:巴黎三代左鋒傳承

娛樂要聞

王力宏成都舞臺受傷 仍然堅持三小時

財經要聞

揭秘跨境“對敲”換匯黑產

汽車要聞

方程豹鈦9內飾曝光 用上了長聯屏設計/下半年上市

態度原創

房產
教育
藝術
公開課
軍事航空

房產要聞

總裁空缺17個月、現金缺口超1000億:金融局“局外人”入局萬科

教育要聞

暑假想廢掉一個孩子,就讓他長期宅在恒溫26度的家里

藝術要聞

24幅 當代畫家靜物油畫

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京與特朗普通話85分鐘 細節公布

無障礙瀏覽 進入關懷版