无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

斯坦福新論文揭底:大模型碾壓小模型,根源竟是神經元「搶地盤」!

0
分享至

導讀
【導讀】斯坦福 Christopher Potts 團隊新論文給出了一個被忽視已久的答案:大模型之所以更強,核心原因在于訓練過程中神經元資源的爭奪——小模型的神經元被高頻簡單任務占滿,低頻復雜能力根本擠不進去。團隊從數學證明一路做到 4B 參數真實預訓練驗證,結論高度一致。

一個所有人都接受、但沒人說清的問題

大模型比小模型強。

這件事在 2026 年的 AI 圈幾乎算常識。做產品選模型時大家默認"能上大的就上大的",做 benchmark 排行也總是參數量和分數正相關。

但如果認真追問一句:為什么更大的模型能學會更小模型學不會的任務?

答案往往停在"參數更多、容量更大"這種同義反復上。它沒有錯,但也沒有解釋任何東西——就像說"他考得好是因為腦子夠大",聽起來像回答了,其實什么都沒說。

斯坦福大學的 Christopher Potts 團隊最近發了一篇論文,標題開門見山:

《Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention》


▲ Christopher Potts 在 X 上發布論文線程,8.4 萬次瀏覽


"We take for granted that larger models are better than smaller ones, but why is this so? Our new paper, led by Jing Huang and @EkdeepL, traces this to a data-induced competition for resources (neurons), using formal analysis, idealized tasks, and real pretraining."

「我們都默認大模型比小模型強,但為什么會這樣?我們的新論文把這個現象追溯到了一個由數據分布誘發的資源競爭——對神經元的爭奪。」

論文沒有停在"參數多所以能力強"這一層,而是往下挖了一整條因果鏈。

訓練過程里的「搶課時」現象

論文的核心發現可以用一個比喻來理解。

想象一個班級只有 10 節自習課的時間。班里有 30 道題要練:20 道高頻基礎題,10 道低頻難題。如果學生只有 10 節課,他大概率會把時間全花在那 20 道基礎題上——因為它們出現得最頻繁、最容易產出成績。那 10 道難題?永遠排不上日程。

神經網絡訓練面臨的困境一模一樣。

論文指出,模型訓練時,不同任務會爭搶有限的神經元資源和梯度更新預算。當數據分布里既有高頻簡單任務、又有低頻復雜任務時,小模型會優先把神經元分配給那些出現頻率高、復雜度低的任務。

"smaller models allocate their neurons to high frequency or low complexity tasks"

「小模型會把神經元優先分給高頻或低復雜度任務。」

結果就是:低頻、復雜的任務被系統性地擠壓。它們能分到的神經元預算太少,學到的表示要么不穩定、要么直接被覆蓋。


▲ 論文 arXiv 頁面,作者陣容覆蓋斯坦福、哈佛 Kempner 研究所、MIT、Anthropic

論文把這種機制叫做data-induced competition over resources(數據誘導的資源競爭)。聽起來學術,核心意思就四個字:神經元不夠分。

大模型憑什么能贏?答案藏在梯度里

那為什么放大參數就能解決問題?

論文給出的解釋比"容量變大了"要精確得多。

關鍵在于訓練動力學。大模型因為神經元預算充裕,能更快把常見任務學到位。當常見任務被充分學習之后,它們產生的梯度更新會顯著減弱——因為模型對它們已經"足夠熟悉"了,沒有更多需要調整的空間。

"larger models can allocate enough resources to common tasks that the gradient updates for those tasks become weak"

「更大的模型能給常見任務分配足夠多資源,以至于這些任務的梯度更新會變弱。」

這才是大模型的真正優勢:常見任務學完之后,它們不再持續"霸占"更新方向。

在小模型里,情況剛好相反。常見任務因為資源不足,一直"沒學完",梯度始終保持高強度。這些高強度的梯度更新會反復覆蓋低頻任務剛剛積累的一點特征——就像黑板上剛寫好的筆記,轉頭就被擦掉重寫了。

論文把這個過程叫interference(干擾),把大模型的優勢歸結為兩個詞:interference reduction(干擾減少)rare-task retention(稀有任務保留)

模型更大,任務間的梯度踩踏更輕,低頻任務的特征才有機會慢慢積累、穩定保存。

1 個神經元 vs 2 個神經元:最小案例講透原理

為了讓這個機制變得直觀,論文設計了一個極簡實驗。

一個只有1 個神經元的模型,同時學習兩個任務:一個高頻、一個低頻。結果是——高頻任務的更新持續壓制低頻任務的更新,兩者擠在同一塊參數空間里,低頻任務始終學不會。

換成2 個神經元的模型呢?高頻任務很快學完,占據了一個神經元;第二個神經元被空出來,專門給低頻任務用。低頻任務終于有了自己的表示空間,能夠穩定學習。


▲ 論文用數學證明和理想化實驗展示:更大模型如何緩解任務間的資源競爭

這個極簡案例揭示了一個直覺:

大模型能學到更多,不完全是因為"更大更聰明",而是因為它終于有余力把不同任務分開處理,減少相互干擾。

當然,真實的大語言模型遠比"2 個神經元"復雜得多。但論文的價值在于,它用最小化的設定把訓練動力學里的資源爭奪機制拆解得清清楚楚——然后證明這個機制在更大規模上依然成立。

Scaling Law 早就暗示了這一點

論文還有一個很有意思的推導:

哪怕只從 power-law scaling 的角度出發,就已經能預測——在某些任務混合分布下,小模型就算給它無限訓練數據,也學不會部分任務。

"We first observe that scaling laws already predict that smaller models will fail to learn data mixtures that larger models do learn, even with infinite training data."

「我們首先發現,scaling laws 已經預測了:更小的模型會在某些數據混合中失敗,而更大的模型能學會——哪怕訓練數據無限多。」

注意這個結論的強度。它講的已經不是"小模型練得還不夠久"的問題了——即使數據無限,小模型也學不會,因為它的資源分配結構就決定了某些低頻復雜任務會被永遠擠出去。

這就把"模型小所以不行"從一個模糊印象,變成了一個可分析的命題:容量被高頻任務優先占用,某些特征永遠沒有穩定保留的空間。

4M 到 4B:真實預訓練驗證

論文沒有止步于理論推導和理想化實驗。

作者團隊把 novel tasks(新任務)注入到 OLMo-style 的真實預訓練流程中,用從4M 到 4B參數量的模型做了完整驗證。這些注入的任務包括 comparison(比較)和 modular addition(模加法),全部用隨機 token 定義,確保模型不可能從已有語料中"抄答案"。


▲ OLMo-style 模型實驗:只有更大參數量的模型能穩定學會低頻復雜任務

結果和理論預測完全吻合:

"only the larger OLMo models learn the infrequent and complex tasks"

「只有更大的 OLMo 模型學會了那些低頻且復雜的任務。」

4M 到 4B,三個數量級的跨度,趨勢始終一致:模型越小,低頻復雜任務的學習表現越差,直到越過某個參數量門檻才開始穩定。

這組實驗的說服力在于,它把前面的理論和 toy experiment 拉回到了真實的語言模型預訓練環境。機制解釋經得起真實規模的檢驗。

"涌現能力"可能沒那么神秘

這篇論文還間接回應了過去幾年 AI 圈一個反復爭論的概念:涌現能力(emergent abilities)

很多人習慣把大模型的某些能力描述為"規模到了,能力就突然出現了",仿佛存在某種神秘的質變。但按照這篇論文的框架來看,所謂的"涌現"可能有一個更具體的解釋:

低頻復雜任務在小模型里一直被梯度干擾壓住,無法形成穩定表示。當模型規模越過某個門檻,干擾減輕,這些任務的特征才開始積累,看起來就像是"突然出現"了。

這個解釋比"涌現"更工程化,也更有操作空間。因為如果問題的本質是干擾和保留,那工程師理論上可以通過調整數據配比、提高目標任務頻率、使用課程學習、甚至設計模塊化路由來緩解——思路遠不止堆參數這一條。

社區已經在追問:小模型能不能靠重配數據追上來?

論文在 X 和 Hacker News 上都引發了技術社區的關注。


▲ 論文已進入 Hacker News 技術社區流通

其中一條很有價值的追問來自讀者 bellamy:

"this predicts that a N(small) param model on some reweighted data mixture can match a f(N) param(large) model on some rare task, why didn't you try this"

「這個理論預測了:在重配數據混合之后,一個小參數模型能在某些稀有任務上追上大參數模型——你們為什么沒做這個實驗?」

這個問題直指論文的延伸空間。如果問題核心是數據分布誘發的資源競爭,那通過重加權數據分布,小模型能不能在特定任務上逼近大模型?

目前這還只是社區追問,論文并未直接驗證。但這個方向對行業來說非常關鍵——如果成立,意味著"堆參數"不再是獲取稀有能力的唯一路徑。

另一條有意思的回復來自 Daniel Fein:

"Very cool synthesis of continual learning and scaling! From this pov maybe EWC, replay, etc. are basically a poor man's manual gradient protection?"

「很酷的 continual learning 和 scaling 綜合!從這個角度看,EWC、replay 這些方法是不是本質上就是'窮人版的人工梯度保護'?」

這條回復把論文和終身學習(continual learning)領域的經典問題連接起來了。災難性遺忘(catastrophic forgetting)這個老概念,在這篇論文的框架下有了新解讀:它不僅發生在按時間順序切換任務時,也潛伏在單一預訓練分布的內部——只不過以前沒人這樣拆解過。

對行業意味著什么

如果把論文的發現翻譯成實務語言,至少有三層啟發。

第一,模型尺寸是稀有能力的預算,而非只是成本變量。如果你的產品核心賣點依賴長尾復雜能力——冷門專業知識、罕見組合推理、復雜格式約束——那參數規模可能直接決定了這些能力的下限。壓縮模型時需要評估的,不僅是平均分下降多少,還有哪些長尾能力會被徹底犧牲。

第二,數據混合策略直接影響"小模型學不會什么"。如果訓練語料里高頻簡單模式過強,小模型更可能把全部資源投入這些模式,長尾能力被訓練動力學壓住。這對合成數據生成、curriculum learning、mixture weighting 都有直接指導意義。

第三,稀有任務的瓶頸往往卡在"能不能保住",樣本量反而是次要的。很多人直覺覺得低頻任務學不會是因為見得太少。但論文補充了另一層:就算偶爾學到了,也可能被高頻任務的梯度更新反復覆蓋。保留,比學到更難。

邊界在哪里

需要指出的是,這篇論文有明確的適用范圍。

它解釋的是:在混合任務訓練中,模型規模如何通過資源競爭和梯度干擾影響不同任務的學習成敗。

它沒有證明的是:更大模型在所有場景都更劃算;更大模型一定更對齊、更可靠;只要堆參數就能解決一切。

作者自己把"數據混合物"放在了非常靠前的位置。這篇論文的貢獻在于提供了一個精細的機制解釋——參數容量 × 數據分布 × 訓練動力學的聯合作用——而非給"無腦堆參數"背書。


▲ 論文摘要詳情,明確指出實驗覆蓋 formal analysis、idealized tasks 和 real pretraining 三個層面

回到最初的問題:為什么大模型往往比小模型更強?

這篇論文給出的答案,不再是"因為參數多"這種同義反復,而是一條完整的因果鏈:訓練數據的混合分布誘發了神經元資源競爭 → 小模型的資源被高頻簡單任務優先占用 → 低頻復雜任務的特征被反復覆蓋、無法保留 → 更大的模型能更早讓常見任務收斂,釋放更新空間給稀有任務 → 稀有任務終于能跨過學習門檻。

從"大就是好"到理解"為什么大能好",這一步跨得不算遠,但足夠重要。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

我愛英超
2026-07-02 22:05:30
早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

葉青足球世界
2026-07-02 17:12:02
一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

借你一生
2026-07-02 10:26:03
成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

東京在線
2026-07-02 16:57:07
里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

往史過眼云煙
2026-07-02 09:55:26
首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

策前論
2026-07-02 17:21:49
“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
從699分到愛心接力:少年向上 社會向善丨中聽

從699分到愛心接力:少年向上 社會向善丨中聽

大象新聞
2026-07-01 16:30:12
六代機,就這么明晃晃的官宣了!

六代機,就這么明晃晃的官宣了!

新動察
2026-07-02 08:25:58
韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

可達鴨面面觀
2026-07-02 19:44:03
曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

我愛英超
2026-07-02 21:40:07
80%變0!里奇·保羅曝光詹姆斯離湖心路

80%變0!里奇·保羅曝光詹姆斯離湖心路

籃壇第一線
2026-07-02 00:47:17
地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

瀟湘晨報
2026-07-02 16:32:20
賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

背包旅行
2026-07-02 11:45:23
西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

李晚書
2026-07-02 18:44:26
故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

全景體育V
2026-07-02 21:38:20
成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

背包旅行
2026-07-02 14:33:11
中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

極目新聞
2026-07-02 22:47:55
加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

證券時報
2026-07-02 21:53:03
扎哈羅娃:馮德萊恩是個“出色的騙子”

扎哈羅娃:馮德萊恩是個“出色的騙子”

參考消息
2026-07-02 14:14:08
2026-07-03 02:28:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4864文章數 37483關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態度原創

本地
教育
親子
時尚
游戲

本地新聞

這場穿越酉陽的光影之旅,張張都是壁紙!

教育要聞

初二期末只在校內第120名、第125名,四年后在全省站到了狀元榜眼

親子要聞

從新生兒到學齡期全覆蓋:兒童被子成長型選型的策略與實用方法

這個夏天,你一定吃過她們的瓜

國產外設廠"宣布"放棄實體手柄!數字化徹底解決漂移

無障礙瀏覽 進入關懷版