網易首頁 > 網易號 > 正文申請入駐

斯坦福新論文揭底：大模型碾壓小模型，根源竟是神經元「搶地盤」！

2026-06-10 15:01:25　來源: 人工智能學家

北京舉報

分享至

導讀
【導讀】斯坦福 Christopher Potts 團隊新論文給出了一個被忽視已久的答案：大模型之所以更強，核心原因在于訓練過程中神經元資源的爭奪——小模型的神經元被高頻簡單任務占滿，低頻復雜能力根本擠不進去。團隊從數學證明一路做到 4B 參數真實預訓練驗證，結論高度一致。

一個所有人都接受、但沒人說清的問題

大模型比小模型強。

這件事在 2026 年的 AI 圈幾乎算常識。做產品選模型時大家默認"能上大的就上大的"，做 benchmark 排行也總是參數量和分數正相關。

但如果認真追問一句：為什么更大的模型能學會更小模型學不會的任務？

答案往往停在"參數更多、容量更大"這種同義反復上。它沒有錯，但也沒有解釋任何東西——就像說"他考得好是因為腦子夠大"，聽起來像回答了，其實什么都沒說。

斯坦福大學的 Christopher Potts 團隊最近發了一篇論文，標題開門見山：

《Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention》

▲ Christopher Potts 在 X 上發布論文線程，8.4 萬次瀏覽

"We take for granted that larger models are better than smaller ones, but why is this so? Our new paper, led by Jing Huang and @EkdeepL, traces this to a data-induced competition for resources (neurons), using formal analysis, idealized tasks, and real pretraining."

「我們都默認大模型比小模型強，但為什么會這樣？我們的新論文把這個現象追溯到了一個由數據分布誘發的資源競爭——對神經元的爭奪。」

論文沒有停在"參數多所以能力強"這一層，而是往下挖了一整條因果鏈。

訓練過程里的「搶課時」現象

論文的核心發現可以用一個比喻來理解。

想象一個班級只有 10 節自習課的時間。班里有 30 道題要練：20 道高頻基礎題，10 道低頻難題。如果學生只有 10 節課，他大概率會把時間全花在那 20 道基礎題上——因為它們出現得最頻繁、最容易產出成績。那 10 道難題？永遠排不上日程。

神經網絡訓練面臨的困境一模一樣。

論文指出，模型訓練時，不同任務會爭搶有限的神經元資源和梯度更新預算。當數據分布里既有高頻簡單任務、又有低頻復雜任務時，小模型會優先把神經元分配給那些出現頻率高、復雜度低的任務。

"smaller models allocate their neurons to high frequency or low complexity tasks"

「小模型會把神經元優先分給高頻或低復雜度任務。」

結果就是：低頻、復雜的任務被系統性地擠壓。它們能分到的神經元預算太少，學到的表示要么不穩定、要么直接被覆蓋。

▲ 論文 arXiv 頁面，作者陣容覆蓋斯坦福、哈佛 Kempner 研究所、MIT、Anthropic

論文把這種機制叫做data-induced competition over resources（數據誘導的資源競爭）。聽起來學術，核心意思就四個字：神經元不夠分。

大模型憑什么能贏？答案藏在梯度里

那為什么放大參數就能解決問題？

論文給出的解釋比"容量變大了"要精確得多。

關鍵在于訓練動力學。大模型因為神經元預算充裕，能更快把常見任務學到位。當常見任務被充分學習之后，它們產生的梯度更新會顯著減弱——因為模型對它們已經"足夠熟悉"了，沒有更多需要調整的空間。

"larger models can allocate enough resources to common tasks that the gradient updates for those tasks become weak"

「更大的模型能給常見任務分配足夠多資源，以至于這些任務的梯度更新會變弱。」

這才是大模型的真正優勢：常見任務學完之后，它們不再持續"霸占"更新方向。

在小模型里，情況剛好相反。常見任務因為資源不足，一直"沒學完"，梯度始終保持高強度。這些高強度的梯度更新會反復覆蓋低頻任務剛剛積累的一點特征——就像黑板上剛寫好的筆記，轉頭就被擦掉重寫了。

論文把這個過程叫interference（干擾），把大模型的優勢歸結為兩個詞：interference reduction（干擾減少）和rare-task retention（稀有任務保留）。

模型更大，任務間的梯度踩踏更輕，低頻任務的特征才有機會慢慢積累、穩定保存。

1 個神經元 vs 2 個神經元：最小案例講透原理

為了讓這個機制變得直觀，論文設計了一個極簡實驗。

一個只有1 個神經元的模型，同時學習兩個任務：一個高頻、一個低頻。結果是——高頻任務的更新持續壓制低頻任務的更新，兩者擠在同一塊參數空間里，低頻任務始終學不會。

換成2 個神經元的模型呢？高頻任務很快學完，占據了一個神經元；第二個神經元被空出來，專門給低頻任務用。低頻任務終于有了自己的表示空間，能夠穩定學習。

▲ 論文用數學證明和理想化實驗展示：更大模型如何緩解任務間的資源競爭

這個極簡案例揭示了一個直覺：

大模型能學到更多，不完全是因為"更大更聰明"，而是因為它終于有余力把不同任務分開處理，減少相互干擾。

當然，真實的大語言模型遠比"2 個神經元"復雜得多。但論文的價值在于，它用最小化的設定把訓練動力學里的資源爭奪機制拆解得清清楚楚——然后證明這個機制在更大規模上依然成立。

Scaling Law 早就暗示了這一點

論文還有一個很有意思的推導：

哪怕只從 power-law scaling 的角度出發，就已經能預測——在某些任務混合分布下，小模型就算給它無限訓練數據，也學不會部分任務。

"We first observe that scaling laws already predict that smaller models will fail to learn data mixtures that larger models do learn, even with infinite training data."

「我們首先發現，scaling laws 已經預測了：更小的模型會在某些數據混合中失敗，而更大的模型能學會——哪怕訓練數據無限多。」

注意這個結論的強度。它講的已經不是"小模型練得還不夠久"的問題了——即使數據無限，小模型也學不會，因為它的資源分配結構就決定了某些低頻復雜任務會被永遠擠出去。

這就把"模型小所以不行"從一個模糊印象，變成了一個可分析的命題：容量被高頻任務優先占用，某些特征永遠沒有穩定保留的空間。

4M 到 4B：真實預訓練驗證

論文沒有止步于理論推導和理想化實驗。

作者團隊把 novel tasks（新任務）注入到 OLMo-style 的真實預訓練流程中，用從4M 到 4B參數量的模型做了完整驗證。這些注入的任務包括 comparison（比較）和 modular addition（模加法），全部用隨機 token 定義，確保模型不可能從已有語料中"抄答案"。

▲ OLMo-style 模型實驗：只有更大參數量的模型能穩定學會低頻復雜任務

結果和理論預測完全吻合：

"only the larger OLMo models learn the infrequent and complex tasks"

「只有更大的 OLMo 模型學會了那些低頻且復雜的任務。」

4M 到 4B，三個數量級的跨度，趨勢始終一致：模型越小，低頻復雜任務的學習表現越差，直到越過某個參數量門檻才開始穩定。

這組實驗的說服力在于，它把前面的理論和 toy experiment 拉回到了真實的語言模型預訓練環境。機制解釋經得起真實規模的檢驗。

"涌現能力"可能沒那么神秘

這篇論文還間接回應了過去幾年 AI 圈一個反復爭論的概念：涌現能力（emergent abilities）。

很多人習慣把大模型的某些能力描述為"規模到了，能力就突然出現了"，仿佛存在某種神秘的質變。但按照這篇論文的框架來看，所謂的"涌現"可能有一個更具體的解釋：

低頻復雜任務在小模型里一直被梯度干擾壓住，無法形成穩定表示。當模型規模越過某個門檻，干擾減輕，這些任務的特征才開始積累，看起來就像是"突然出現"了。

這個解釋比"涌現"更工程化，也更有操作空間。因為如果問題的本質是干擾和保留，那工程師理論上可以通過調整數據配比、提高目標任務頻率、使用課程學習、甚至設計模塊化路由來緩解——思路遠不止堆參數這一條。

社區已經在追問：小模型能不能靠重配數據追上來？

論文在 X 和 Hacker News 上都引發了技術社區的關注。

▲ 論文已進入 Hacker News 技術社區流通

其中一條很有價值的追問來自讀者 bellamy：

"this predicts that a N(small) param model on some reweighted data mixture can match a f(N) param(large) model on some rare task, why didn't you try this"

「這個理論預測了：在重配數據混合之后，一個小參數模型能在某些稀有任務上追上大參數模型——你們為什么沒做這個實驗？」

這個問題直指論文的延伸空間。如果問題核心是數據分布誘發的資源競爭，那通過重加權數據分布，小模型能不能在特定任務上逼近大模型？

目前這還只是社區追問，論文并未直接驗證。但這個方向對行業來說非常關鍵——如果成立，意味著"堆參數"不再是獲取稀有能力的唯一路徑。

另一條有意思的回復來自 Daniel Fein：

"Very cool synthesis of continual learning and scaling! From this pov maybe EWC, replay, etc. are basically a poor man's manual gradient protection?"

「很酷的 continual learning 和 scaling 綜合！從這個角度看，EWC、replay 這些方法是不是本質上就是'窮人版的人工梯度保護'？」

這條回復把論文和終身學習（continual learning）領域的經典問題連接起來了。災難性遺忘（catastrophic forgetting）這個老概念，在這篇論文的框架下有了新解讀：它不僅發生在按時間順序切換任務時，也潛伏在單一預訓練分布的內部——只不過以前沒人這樣拆解過。

對行業意味著什么

如果把論文的發現翻譯成實務語言，至少有三層啟發。

第一，模型尺寸是稀有能力的預算，而非只是成本變量。如果你的產品核心賣點依賴長尾復雜能力——冷門專業知識、罕見組合推理、復雜格式約束——那參數規模可能直接決定了這些能力的下限。壓縮模型時需要評估的，不僅是平均分下降多少，還有哪些長尾能力會被徹底犧牲。

第二，數據混合策略直接影響"小模型學不會什么"。如果訓練語料里高頻簡單模式過強，小模型更可能把全部資源投入這些模式，長尾能力被訓練動力學壓住。這對合成數據生成、curriculum learning、mixture weighting 都有直接指導意義。

第三，稀有任務的瓶頸往往卡在"能不能保住"，樣本量反而是次要的。很多人直覺覺得低頻任務學不會是因為見得太少。但論文補充了另一層：就算偶爾學到了，也可能被高頻任務的梯度更新反復覆蓋。保留，比學到更難。

邊界在哪里

需要指出的是，這篇論文有明確的適用范圍。

它解釋的是：在混合任務訓練中，模型規模如何通過資源競爭和梯度干擾影響不同任務的學習成敗。

它沒有證明的是：更大模型在所有場景都更劃算；更大模型一定更對齊、更可靠；只要堆參數就能解決一切。

作者自己把"數據混合物"放在了非常靠前的位置。這篇論文的貢獻在于提供了一個精細的機制解釋——參數容量 × 數據分布 × 訓練動力學的聯合作用——而非給"無腦堆參數"背書。

▲ 論文摘要詳情，明確指出實驗覆蓋 formal analysis、idealized tasks 和 real pretraining 三個層面

回到最初的問題：為什么大模型往往比小模型更強？

這篇論文給出的答案，不再是"因為參數多"這種同義反復，而是一條完整的因果鏈：訓練數據的混合分布誘發了神經元資源競爭 → 小模型的資源被高頻簡單任務優先占用 → 低頻復雜任務的特征被反復覆蓋、無法保留 → 更大的模型能更早讓常見任務收斂，釋放更新空間給稀有任務 → 稀有任務終于能跨過學習門檻。

從"大就是好"到理解"為什么大能好"，這一步跨得不算遠，但足夠重要。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.