![]()
來源:PaperWeekly
這篇論文給出一個數據中心視角:大模型更強,不只因為能表示更多,也因為更能保留長尾任務。
大模型為什么比小模型強?
參數更多、數據更多、算力更多,模型能力也隨之提高,似乎已經成了過去幾年大模型發展的穩定經驗。
更難的問題是,大模型到底比小模型多學到了什么?是小模型完全表示不了這些任務,還是它其實能表示,只是在預訓練中很難穩定學到?如果給小模型更多數據、更長訓練,它是否總有機會追上?
Stanford、Harvard、MIT、Anthropic 等機構參與的這篇新論文,給出了一個更具體的解釋:大模型的優勢不只是表達能力更強,也不只是樣本效率更高。
很多時候,小模型不是完全學不會,而是在混合數據訓練中留不住那些低頻、復雜的任務信號。
![]()
論文標題:
Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention
論文地址:
https://arxiv.org/abs/2605.29548
大模型多出來的容量,降低了高頻任務對低頻任務的覆蓋,讓稀有任務的微弱信號不至于在后續訓練中馬上被沖掉。
![]()
〓 數據擴展可以彌補一部分差距,但另一部分需要模型擴展
![]()
大模型多出的能力
論文先把“大模型更強”拆成兩種情況。
一類差距可以靠數據擴展彌補。小模型在有限算力下不如大模型,但如果繼續增加數據或訓練資源,理論上仍有機會追上。這里的大模型更像是學得更快、更省樣本。
另一類差距必須依賴模型擴展。即使考慮無限數據下的極限表現,小模型仍達不到大模型在有限算力下取得的 loss。這意味著訓練分布中存在一部分內容,是小模型在同樣訓練條件下難以學到的。
在同一份混合訓練數據里,哪些任務會先被學到,哪些任務會被擠出去?
真實預訓練語料中的任務并不均勻。語言建模目標背后混著大量子任務:有的高頻,有的低頻;有的簡單,有的需要更多結構才能泛化。模型容量有限時,這些任務會競爭同一批表示資源。
![]()
模型會先學什么?
作者構造了一個合成多任務回歸實驗。每個任務有兩個關鍵屬性:出現頻率和復雜度。
任務在數據中出現越頻繁,對整體 loss 的影響越大。復雜度則通過任務特征譜來刻畫。譜衰減越慢,說明任務需要更多特征方向才能學好,也就更難被有限寬度的模型充分保留。
最核心的排序規則是:
![]()
其中 是任務頻率, 是任務中某個特征方向的重要性。二者相乘,就是這個特征的效用。
模型寬度為 時,會優先保留效用最大的前 個特征。模型不會均勻分配容量,而是優先保留最能降低整體 loss 的特征。
因此,高頻任務和低復雜度任務更容易被學到。低頻、復雜任務不一定不可表達,但在資源競爭中排位更靠后。小模型容量被高效用特征占滿后,長尾任務就很難進入模型表示。
![]()
〓 模型寬度增加后,低頻任務開始被逐步學到
上圖中,作者訓練不同寬度的模型,并混合 32 個頻率不同的回歸任務。結果顯示,隨著模型寬度增加,模型開始保留更低效用的特征,并更好學習低頻任務。實驗趨勢與定理 3 中的效用排序基本一致。
大模型多出來的參數,讓原本排在后面的任務也有機會進入表示空間。
![]()
梯度干擾與信號保留
低頻任務很少出現,模型要學會它,必須能在多次稀有樣本出現之間保留已有信號。
稀有任務樣本出現時,小模型參數確實會朝這個任務更新。但在下一次稀有任務出現前,大量高頻任務樣本會繼續更新同一批參數,剛寫入的稀有任務信號很快被覆蓋。
論文把這種動態概括為更新—遺忘循環:稀有任務出現一次,小模型短暫寫入相關信號;高頻任務繼續訓練,信號逐步衰減;下一次稀有任務再出現時,模型幾乎又回到起點。
模型寬度足夠大時,可以先把常見任務解釋得更充分。常見任務的殘差信號下降后,對參數的梯度拉力也會變弱。稀有任務帶來的更新不再那么容易被沖掉,模型就能把多次低頻觀察累積起來。
定理 4 給出的直觀結論是:常見任務的整體梯度受殘差信號控制。常見任務還沒學好時,會持續占用更新方向;解釋得越充分,干擾越弱,剩余容量越可能留給稀有任務。
![]()
〓 常見任務殘差下降后,稀有任務信號才穩定進入表示
上圖中,小模型仍有大量常見任務殘差信號需要解釋,稀有任務信號接近隨機;當模型寬度跨過論文預測的閾值,常見任務殘差下降,稀有任務才開始被穩定編碼。
![]()
〓 小模型短暫編碼稀有任務后很快衰減,大模型能保留并累積信號
在上圖中,作者保持稀有任務的總體頻率不變,只改變相鄰兩次注入之間的間隔。小模型在每次注入后會短暫編碼稀有任務,但隨后迅速衰減;大模型則能在注入間隔之間保留更多信號,并在訓練中逐步累積。
這意味著,大模型優勢不只來自可表示內容更多,也來自對低頻任務信號的保留能力更強。
![]()
OLMo 預訓練驗證
論文還把這套機制放到 OLMo 預訓練 pipeline 里驗證。實驗訓練了 4M、20M、300M、1B、4B 五個檔位的 OLMo 模型,最多訓練到 210B tokens。
預訓練語料使用 Dolma v1.7。為了控制任務頻率,作者向語料中注入兩個在常規預訓練數據中不太可能自然出現的任務:比較任務 TCMP 和模加任務 TADD。
這兩個任務不是簡單記憶題。每個任務有 10K 個實例,訓練和測試各一半。比較任務要求模型學到 token 的全局順序結構,模加任務則需要捕捉傅里葉模式。測試準確率衡量的是模型是否學到可泛化結構,而不是只記住訓練樣本。
![]()
〓 在 OLMo 預訓練中,大模型更能學會低頻注入任務
行為結果和合成實驗一致:模型越大,越能學到更低頻的注入任務;小模型在低頻任務上的訓練 loss 更高,測試準確率更低。
作者不只看 loss,還繼續追到表示和梯度層面。
表示層面,隨著模型規模和任務頻率提升,TCMP 的全局順序特征、TADD 的傅里葉特征會更明顯地出現在模型內部表示中。
![]()
〓 模型更大、任務頻率更高時,任務相關特征更清晰地進入表示空間
梯度層面,作者聚焦 TCMP 訓練運行中的一組任務相關神經元,分析 batch 梯度與任務參考方向的余弦相似度。
隨后,他們把 batch 梯度拆成任務 token 梯度和非任務 token 梯度。
![]()
〓 大模型的非任務梯度對任務方向干擾更小
結果顯示,大模型在任務注入時攜帶更清晰的任務信號,非任務 token 梯度幾乎不干擾任務方向;小模型則更容易出現隨機碰撞和干擾。
三層證據指向同一個結論:模型越大,任務之間的互相覆蓋越少。
![]()
Scaling 之外的啟示
這篇論文并沒有把 scaling 的優勢歸結為單一原因。大模型當然有更強的表達能力,也常常有更好的樣本效率。
論文討論部分也強調,這里的解釋不是 scaling 的完整理論,而是與表達能力、樣本效率互補。
這篇論文真正補充的是另一層問題。在混合數據訓練中,能力不只由模型能不能表示決定,還取決于梯度優化能不能從當前數據分布里穩定學到。
如果目標能力本身是低頻、復雜任務,擴大模型并不是唯一選擇。調整數據配比、提高目標任務頻率,可能比單純擴大模型更高效。至于如何系統性降低任務間梯度干擾,仍然需要后續研究。
論文還提示,記憶并不總是訓練中的副作用。在稀有任務上,它可能是模型跨 batch 累積信號、最終學到抽象結構的前提。
大模型比小模型強,不只是因為參數更多、容量更大。更具體地說,它讓常見任務和稀有任務少了一些正面競爭。
那些在小模型里剛寫入、又很快被沖掉的稀有任務信號,可能正是大模型真正多學到的部分。
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.