无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Anthropic參與新論文：大模型為何學得更多？答案藏在Scaling里

2026-06-05 15:20:44　來源: 人工智能學家

北京舉報

0

分享至

來源：PaperWeekly

這篇論文給出一個數據中心視角：大模型更強，不只因為能表示更多，也因為更能保留長尾任務。

大模型為什么比小模型強？

參數更多、數據更多、算力更多，模型能力也隨之提高，似乎已經成了過去幾年大模型發展的穩定經驗。

更難的問題是，大模型到底比小模型多學到了什么？是小模型完全表示不了這些任務，還是它其實能表示，只是在預訓練中很難穩定學到？如果給小模型更多數據、更長訓練，它是否總有機會追上？

Stanford、Harvard、MIT、Anthropic 等機構參與的這篇新論文，給出了一個更具體的解釋：大模型的優勢不只是表達能力更強，也不只是樣本效率更高。

很多時候，小模型不是完全學不會，而是在混合數據訓練中留不住那些低頻、復雜的任務信號。

論文標題：

Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention

論文地址：

https://arxiv.org/abs/2605.29548

大模型多出來的容量，降低了高頻任務對低頻任務的覆蓋，讓稀有任務的微弱信號不至于在后續訓練中馬上被沖掉。

〓數據擴展可以彌補一部分差距，但另一部分需要模型擴展

大模型多出的能力

論文先把“大模型更強”拆成兩種情況。

一類差距可以靠數據擴展彌補。小模型在有限算力下不如大模型，但如果繼續增加數據或訓練資源，理論上仍有機會追上。這里的大模型更像是學得更快、更省樣本。

另一類差距必須依賴模型擴展。即使考慮無限數據下的極限表現，小模型仍達不到大模型在有限算力下取得的 loss。這意味著訓練分布中存在一部分內容，是小模型在同樣訓練條件下難以學到的。

在同一份混合訓練數據里，哪些任務會先被學到，哪些任務會被擠出去？

真實預訓練語料中的任務并不均勻。語言建模目標背后混著大量子任務：有的高頻，有的低頻；有的簡單，有的需要更多結構才能泛化。模型容量有限時，這些任務會競爭同一批表示資源。

模型會先學什么？

作者構造了一個合成多任務回歸實驗。每個任務有兩個關鍵屬性：出現頻率和復雜度。

任務在數據中出現越頻繁，對整體 loss 的影響越大。復雜度則通過任務特征譜來刻畫。譜衰減越慢，說明任務需要更多特征方向才能學好，也就更難被有限寬度的模型充分保留。

最核心的排序規則是：

其中是任務頻率，是任務中某個特征方向的重要性。二者相乘，就是這個特征的效用。

模型寬度為時，會優先保留效用最大的前個特征。模型不會均勻分配容量，而是優先保留最能降低整體 loss 的特征。

因此，高頻任務和低復雜度任務更容易被學到。低頻、復雜任務不一定不可表達，但在資源競爭中排位更靠后。小模型容量被高效用特征占滿后，長尾任務就很難進入模型表示。

〓模型寬度增加后，低頻任務開始被逐步學到

上圖中，作者訓練不同寬度的模型，并混合 32 個頻率不同的回歸任務。結果顯示，隨著模型寬度增加，模型開始保留更低效用的特征，并更好學習低頻任務。實驗趨勢與定理 3 中的效用排序基本一致。

大模型多出來的參數，讓原本排在后面的任務也有機會進入表示空間。

梯度干擾與信號保留

低頻任務很少出現，模型要學會它，必須能在多次稀有樣本出現之間保留已有信號。

稀有任務樣本出現時，小模型參數確實會朝這個任務更新。但在下一次稀有任務出現前，大量高頻任務樣本會繼續更新同一批參數，剛寫入的稀有任務信號很快被覆蓋。

論文把這種動態概括為更新—遺忘循環：稀有任務出現一次，小模型短暫寫入相關信號；高頻任務繼續訓練，信號逐步衰減；下一次稀有任務再出現時，模型幾乎又回到起點。

模型寬度足夠大時，可以先把常見任務解釋得更充分。常見任務的殘差信號下降后，對參數的梯度拉力也會變弱。稀有任務帶來的更新不再那么容易被沖掉，模型就能把多次低頻觀察累積起來。

定理 4 給出的直觀結論是：常見任務的整體梯度受殘差信號控制。常見任務還沒學好時，會持續占用更新方向；解釋得越充分，干擾越弱，剩余容量越可能留給稀有任務。

〓常見任務殘差下降后，稀有任務信號才穩定進入表示

上圖中，小模型仍有大量常見任務殘差信號需要解釋，稀有任務信號接近隨機；當模型寬度跨過論文預測的閾值，常見任務殘差下降，稀有任務才開始被穩定編碼。

〓小模型短暫編碼稀有任務后很快衰減，大模型能保留并累積信號

在上圖中，作者保持稀有任務的總體頻率不變，只改變相鄰兩次注入之間的間隔。小模型在每次注入后會短暫編碼稀有任務，但隨后迅速衰減；大模型則能在注入間隔之間保留更多信號，并在訓練中逐步累積。

這意味著，大模型優勢不只來自可表示內容更多，也來自對低頻任務信號的保留能力更強。

OLMo 預訓練驗證

論文還把這套機制放到 OLMo 預訓練 pipeline 里驗證。實驗訓練了 4M、20M、300M、1B、4B 五個檔位的 OLMo 模型，最多訓練到 210B tokens。

預訓練語料使用 Dolma v1.7。為了控制任務頻率，作者向語料中注入兩個在常規預訓練數據中不太可能自然出現的任務：比較任務 TCMP 和模加任務 TADD。

這兩個任務不是簡單記憶題。每個任務有 10K 個實例，訓練和測試各一半。比較任務要求模型學到 token 的全局順序結構，模加任務則需要捕捉傅里葉模式。測試準確率衡量的是模型是否學到可泛化結構，而不是只記住訓練樣本。

〓在 OLMo 預訓練中，大模型更能學會低頻注入任務

行為結果和合成實驗一致：模型越大，越能學到更低頻的注入任務；小模型在低頻任務上的訓練 loss 更高，測試準確率更低。

作者不只看 loss，還繼續追到表示和梯度層面。

表示層面，隨著模型規模和任務頻率提升，TCMP 的全局順序特征、TADD 的傅里葉特征會更明顯地出現在模型內部表示中。

〓模型更大、任務頻率更高時，任務相關特征更清晰地進入表示空間

梯度層面，作者聚焦 TCMP 訓練運行中的一組任務相關神經元，分析 batch 梯度與任務參考方向的余弦相似度。

隨后，他們把 batch 梯度拆成任務 token 梯度和非任務 token 梯度。

〓大模型的非任務梯度對任務方向干擾更小

結果顯示，大模型在任務注入時攜帶更清晰的任務信號，非任務 token 梯度幾乎不干擾任務方向；小模型則更容易出現隨機碰撞和干擾。

三層證據指向同一個結論：模型越大，任務之間的互相覆蓋越少。

Scaling 之外的啟示

這篇論文并沒有把 scaling 的優勢歸結為單一原因。大模型當然有更強的表達能力，也常常有更好的樣本效率。

論文討論部分也強調，這里的解釋不是 scaling 的完整理論，而是與表達能力、樣本效率互補。

這篇論文真正補充的是另一層問題。在混合數據訓練中，能力不只由模型能不能表示決定，還取決于梯度優化能不能從當前數據分布里穩定學到。

如果目標能力本身是低頻、復雜任務，擴大模型并不是唯一選擇。調整數據配比、提高目標任務頻率，可能比單純擴大模型更高效。至于如何系統性降低任務間梯度干擾，仍然需要后續研究。

論文還提示，記憶并不總是訓練中的副作用。在稀有任務上，它可能是模型跨 batch 累積信號、最終學到抽象結構的前提。

大模型比小模型強，不只是因為參數更多、容量更大。更具體地說，它讓常見任務和稀有任務少了一些正面競爭。

那些在小模型里剛寫入、又很快被沖掉的稀有任務信號，可能正是大模型真正多學到的部分。

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

中央巡查組明查暗訪發現：南寧邕江水上運動已形成重大安全隱患，再不治理遲早出大事

上觀新聞 2026-07-02 16:14:42
1 跟貼 1
7月1日起，江蘇最低生活保障標準上調！

環球網 2026-07-02 10:47:00
624 跟貼 624

媒體：烏軍更能打了掌握"有效打法"跟俄打得有來有回

中國新聞周刊 2026-07-01 22:57:06
6644 跟貼 6644

開了一次就“頭暈”？看到機器上的英文單詞，他覺得自己被罵了

北青網-北京青年報 2026-06-28 14:48:24
1826 跟貼 1826
泰山景區回應修建滾筒式刀片刺繩隔離鐵絲網：與正常游覽路線不交叉不重疊

北京日報客戶端 2026-07-02 08:55:17
15701 跟貼 15701

點球絕殺比利時3-2塞內加爾晉級16強

央視新聞客戶端 2026-07-02 06:54:57
1626 跟貼 1626

剛剛 | 天津津門虎公告：續約于根偉、基萊斯、閆炳良、黃嘉輝等！

天津廣播 2026-07-02 11:09:28
194 跟貼 194
總統的女兒，成為“第一夫人”，又成為總統

中國新聞周刊 2026-07-02 18:27:12
311 跟貼 311

西班牙6月上千人因高溫死亡！中國空調、電扇企業加班趕訂單

山西晚報 2026-07-02 12:46:16
373 跟貼 373
扎哈羅娃：馮德萊恩是個“出色的騙子”

參考消息 2026-07-02 14:14:08
7384 跟貼 7384
中國電動汽車要來了加拿大想搞小動作中國先出手警告

澎湃新聞 2026-07-02 14:54:10
141 跟貼 141
Shams：布朗7月底可續2年1.42億綠軍用交易表達態度

北青網-北京青年報 2026-07-02 20:02:01
61 跟貼 61
河北一景區山頂礦泉水售價1元被贊“良心”，景區：成本價遠高于1元售價，沒想過靠賣水賺錢

都市快報橙柿互動 2026-07-02 04:17:54
564 跟貼 564
70歲老人剛拿證就高速逆行，被記12分需重考

新京報 2026-07-02 18:33:06
35 跟貼 35
蘇州一醫院現低矮“丁義珍式”窗口，院方回應

界面新聞 2026-07-02 18:46:01
323 跟貼 323
創業板指跌逾6%，全市場超3300家個股下跌

界面新聞 2026-07-02 15:09:02
226 跟貼 226
WTI原油日內跌幅達1%，現報67.34美元/桶

每日經濟新聞 2026-07-02 19:35:21
27 跟貼 27
暗訪西安賽格商鋪工作人員：直營店無法“拆券”

看看新聞Knews 2026-07-03 01:38:13
0 跟貼 0
世衛組織宣布與郵輪相關的漢坦病毒疫情結束

界面新聞 2026-07-02 21:31:04
23 跟貼 23
“深圳將全域開放無人駕駛”系誤讀（2026·07·02）

今日辟謠 2026-07-02 16:03:02
42 跟貼 42
奶奶微信上有77萬條未讀消息，孫女崩潰：根本刪不完！

掌上春城 2026-07-03 01:41:38
0 跟貼 0
我準備給高中母校捐款三萬元

晏凌羊 2026-07-03 01:46:33
0 跟貼 0

中足聯官宣重磅罰單！52歲于根偉禁賽5場罰5萬辱罵+率隊圍堵裁判

中足聯官宣重磅罰單！52歲于根偉禁賽5場罰5萬辱罵+率隊圍堵裁判

我愛英超

2026-07-02 22:05:30

早上7點世界杯14億大戰！C羅深陷20年魔咒必有1巨星出局

早上7點世界杯14億大戰！C羅深陷20年魔咒必有1巨星出局

葉青足球世界

2026-07-02 17:12:02

一路走好！1天時間4位名人被曝去世，最大78歲，最小才30歲

一路走好！1天時間4位名人被曝去世，最大78歲，最小才30歲

借你一生

2026-07-02 10:26:03

成田機場的一張廣告牌，讓日本攝影師恍惚：“瞬間以為回到了中國”

成田機場的一張廣告牌，讓日本攝影師恍惚：“瞬間以為回到了中國”

東京在線

2026-07-02 16:57:07

里子面子都丟了！管不住下半身的任素汐，一場演唱會撕下她的體面

里子面子都丟了！管不住下半身的任素汐，一場演唱會撕下她的體面

往史過眼云煙

2026-07-02 09:55:26

首都保衛戰打響后，普京發表全國講話，俄羅斯對美西方發出通牒

首都保衛戰打響后，普京發表全國講話，俄羅斯對美西方發出通牒

策前論

2026-07-02 17:21:49

“一個月600塊你要餓死他？”大學男生吃飯被偷拍，看的人心疼！

“一個月600塊你要餓死他？”大學男生吃飯被偷拍，看的人心疼！

林林先生

2026-07-01 12:30:03

從699分到愛心接力：少年向上社會向善丨中聽

從699分到愛心接力：少年向上社會向善丨中聽

大象新聞

2026-07-01 16:30:12

六代機，就這么明晃晃的官宣了！

六代機，就這么明晃晃的官宣了！

新動察

2026-07-02 08:25:58

韓紅一句“走個面兒”引全網聲討，這屆觀眾不伺候了

韓紅一句“走個面兒”引全網聲討，這屆觀眾不伺候了

可達鴨面面觀

2026-07-02 19:44:03

曝38歲德國主帥下課足協開會3小時要求他辭職愿付700萬歐補償金

曝38歲德國主帥下課足協開會3小時要求他辭職愿付700萬歐補償金

我愛英超

2026-07-02 21:40:07

80%變0！里奇·保羅曝光詹姆斯離湖心路

80%變0！里奇·保羅曝光詹姆斯離湖心路

籃壇第一線

2026-07-02 00:47:17

地鐵吐血女孩半月內多次收到病危通知單，當事人：自己的生命已經進入倒計時，但還是希望能夠有人關注到自己手里仍在運行的公益項目

地鐵吐血女孩半月內多次收到病危通知單，當事人：自己的生命已經進入倒計時，但還是希望能夠有人關注到自己手里仍在運行的公益項目

瀟湘晨報

2026-07-02 16:32:20

賈玲直言自己又活過來了，大方承認體重反彈了，坦言不再逼自己極端自律，活得太通透了

賈玲直言自己又活過來了，大方承認體重反彈了，坦言不再逼自己極端自律，活得太通透了

背包旅行

2026-07-02 11:45:23

西安賽格墜樓熱搜刷屏：我看到謀生的嚴總，走上絕路時的無助

西安賽格墜樓熱搜刷屏：我看到謀生的嚴總，走上絕路時的無助

李晚書

2026-07-02 18:44:26

故意剝奪伊朗隊勝利！伊朗裔美國專家起訴國際足聯，索賠10億美元

故意剝奪伊朗隊勝利！伊朗裔美國專家起訴國際足聯，索賠10億美元

全景體育V

2026-07-02 21:38:20

成都一女子不洗手抱孫子，兒媳怒斥不衛生，兒子一拳打面中，母親揚言要兒子坐牢，兒子卻說：她活該！6年后現狀曝光...

成都一女子不洗手抱孫子，兒媳怒斥不衛生，兒子一拳打面中，母親揚言要兒子坐牢，兒子卻說：她活該！6年后現狀曝光...

背包旅行

2026-07-02 14:33:11

中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀，目前已交往超過半年，兩人曾合作電影

中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀，目前已交往超過半年，兩人曾合作電影

極目新聞

2026-07-02 22:47:55

加息，突變！美國重磅數據出爐！美股、黃金、比特幣全線拉升

加息，突變！美國重磅數據出爐！美股、黃金、比特幣全線拉升

證券時報

2026-07-02 21:53:03

扎哈羅娃：馮德萊恩是個“出色的騙子”

扎哈羅娃：馮德萊恩是個“出色的騙子”

參考消息

2026-07-02 14:14:08

人工智能學家

人工智能領域權威媒體

4864文章數 37483關注度

往期回顧全部

科技要聞

馬斯克不承認，但SpaceX就該造AI手機

頭條要聞

商戶在西安賽格商場墜亡好友：他曾變賣門店發工資

頭條要聞

商戶在西安賽格商場墜亡好友：他曾變賣門店發工資

體育要聞

韓國人，為什么恨透了洪明甫？

娛樂要聞

眾星祝福祖國，曾沛慈原形畢露？

財經要聞

千億茶市場無贏家:瀾滄巨虧八馬停"蹄"

汽車要聞

有純電有增程還有二代VLA支持小鵬MONA L03預售價14.38萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

時尚

旅游

公開課

軍事航空

本地新聞

這場穿越酉陽的光影之旅，張張都是壁紙！

這個夏天，你一定吃過她們的瓜

旅游要聞

135公里鐵絲網圍泰山，論證過必要性了嗎

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
布洛芬是怎么給人止痛的？
李彥宏：百度離破產30天

軍事要聞

美軍“航母殺手”首次公開此前從未展示

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版