編輯|Panda
2026 年 6 月,大模型行業(yè)正在經(jīng)歷一場前所未有的「開源海嘯」:英偉達放出了 550B 參數(shù)的混合架構(gòu)模型,谷歌送出多模態(tài)的 Gemma 新版本,智譜用最寬松的協(xié)議全量開源了自家旗艦模型。
幾乎所有廠商講述的,都是同一個故事:用混合專家(MoE)結(jié)構(gòu)裝下更多參數(shù),用更稀疏的激活方式壓低成本,用彈性的網(wǎng)絡(luò)寬度去匹配不同的部署場景。
換句話說,整個行業(yè)正在拼命研究「怎么把更多的參數(shù),塞進同樣的算力預算里」。
但一篇來自 Mila、康奈爾大學和蒙特利爾大學研究者的新論文,提出了一個幾乎相反方向的問題:如果一個參數(shù)都不多加,只是把模型里已經(jīng)存在的參數(shù)「挪個位置」,會發(fā)生什么?
![]()
- 論文標題:Tapered Language Models
- 論文地址:https://arxiv.org/abs/2606.23670
背景:被忽視的「一視同仁」
從 2017 年那篇開創(chuàng) Transformer 的論文《Attention Is All You Need》開始,幾乎所有的語言模型都共享同一種骨架,不管是經(jīng)典 Transformer,還是后來的門控注意力、循環(huán)記憶網(wǎng)絡(luò),甚至是帶「測試時記憶」能力的新架構(gòu),即:把若干結(jié)構(gòu)完全相同的「層」疊在一起,每一層分到的參數(shù)量都一模一樣。
![]()
這就像一家連鎖餐廳,無論開在鬧市區(qū)還是郊區(qū),都配備完全相同數(shù)量的廚師和廚房設(shè)備,完全不考慮客流量的差異。這種「一視同仁」的分配方式,省心、好維護,但未必是最優(yōu)解。
近年來,越來越多的研究從不同角度指出:模型的層并不是同等重要的。
- 「提前退出」實驗顯示,很多時候模型在還沒跑到最后一層時,答案已經(jīng)基本定型;
- 「層剪枝」研究發(fā)現(xiàn),砍掉后面的一些層,模型表現(xiàn)幾乎不受影響;
- 可解釋性研究則發(fā)現(xiàn),淺層網(wǎng)絡(luò)捕捉的是語法這類「基礎(chǔ)信息」,深層網(wǎng)絡(luò)處理的才是語義這類「高級信息」。
換句話說,層與層之間天差地別,但參數(shù)分配卻始終一視同仁。
這正是論文提出的核心疑問:既然層的重要性早已被證明是不均勻的,為什么層的「腦容量」還要被均勻分配?
把「腦容量」往前挪
研究團隊先做了一個簡單粗暴的驗證實驗:把一個 440M 參數(shù)的 Transformer 模型的層分成早、中、晚三組,在保持總參數(shù)量不變的前提下,讓其中一組的「前饋網(wǎng)絡(luò)」(FFN,模型中負責存儲和處理信息的核心組件,可以理解為每一層的「工作記憶容量」)變寬,其余兩組變窄。
結(jié)果非常清楚:把容量集中到前段的「頭重腳輕」式分配,讓模型在驗證集上的困惑度(perplexity,衡量語言模型預測準確程度的指標,數(shù)值越低代表模型預測得越準)從 16.28 降到 15.96;而反過來把容量集中到后段,困惑度反而飆升到 17.29。
![]()
同樣的參數(shù)總量,僅僅因為擺放位置不同,效果差出了一個多點,這在語言模型的評測體系里是相當大的差距。
這個發(fā)現(xiàn)把問題指向了更細的方向:與其用「一刀切」的三段式分組,能不能用一條更平滑的曲線,讓容量從前到后逐漸遞減?
研究者將這種思路命名為「錐形語言模型」(Tapered Language Models, TLMs):選定模型中任何一個決定參數(shù)量的維度(比如前饋網(wǎng)絡(luò)的寬度),讓它沿著深度方向單調(diào)遞減,同時保證所有層的平均寬度依然等于原來的固定值。
這樣總參數(shù)量和計算量都完全不變,只是分布形狀從「長方形」變成了「楔形」。
團隊嘗試了三種遞減曲線:線性遞減、余弦遞減、S 形(Sigmoid)遞減。
這三種曲線的差異,類似于三種不同的「收攤」方式:
![]()
- 線性遞減像是勻速關(guān)店,每一段時間關(guān)掉差不多數(shù)量的柱臺;
- S 形遞減像是突然集中宣布閉店,大部分攤位維持原樣,只有中間一小段急速收縮;
- 余弦遞減則介于兩者之間,兩頭平緩過渡,中段逐漸收緊,既不會「一刀切」地損失兩端的靈活性,也不會平均用力而錯過最該收縮的地方。
實驗結(jié)果:免費的 1.84 個點
在 440M 參數(shù)的 Transformer 上做完五種寬度比例和三種曲線的組合掃描后,余弦遞減以全面優(yōu)勢勝出:在最優(yōu)配置下(前段寬度是基準的 1.5 倍,后段是基準的 0.5 倍),困惑度從均勻分布基線的 16.28 降到了 14.44,整整改善了 1.84 個點,且全程沒有增加一個參數(shù)或一次額外的浮點運算。
![]()
![]()
更關(guān)鍵的是,這個結(jié)論不是某一個架構(gòu)的運氣。
研究團隊把同一套配置(余弦遞減、前后寬度比 1.5/0.5)原封不動地搬到另外三種結(jié)構(gòu)迥異的架構(gòu)上:帶門控機制的注意力模型、具備「自我修改記憶」能力的 Hope-attention,以及擁有神經(jīng)長期記憶模塊的 Titans 架構(gòu),并在 760M 和 1.3B 參數(shù)兩個更大規(guī)模上重新驗證。
![]()
結(jié)果是:四種架構(gòu)、兩種規(guī)模,所有八組對比中,經(jīng)過「錐形化」改造的模型在常識推理基準上的平均準確率全部提升,在 LAMBADA 語言預測任務上的困惑度全部改善。
研究者還額外做了長文本檢索測試(Needle-in-a-Haystack),確認這種重新分配并不會犧牲模型處理長上下文的能力。
為了解釋這種現(xiàn)象背后的原因,團隊還測量了 GPT-2 系列模型中每一層「前饋網(wǎng)絡(luò)」輸出與已有信息流的相似程度,發(fā)現(xiàn)一個清晰的規(guī)律:越往模型深處走,每一層新寫入的內(nèi)容,跟已經(jīng)存在的信息越像。也就是說,后段的層更多是在「重復強調(diào)」已有的判斷,而不是在「創(chuàng)造」新的理解。
![]()
這恰好印證了為什么把容量從后段挪到前段是合理的:前段的層真正用得上這些額外的「腦容量」,后段的層用不上。
結(jié)語
這項研究本質(zhì)上提出了一個樸素卻被長期忽視的命題:模型的容量不該是均勻潑灑出去的資源,而應該流向真正需要它的地方。
在整個行業(yè)都在比拼「誰的參數(shù)更多」「誰的架構(gòu)更稀疏」的 2026 年,這篇論文提供了一個幾乎零成本的替代方案:不需要換架構(gòu),不需要加參數(shù),只需要換一種分配的「形狀」。
研究者也坦言,目前的最優(yōu)配置是在一個 440M 參數(shù)模型上調(diào)出來的,是否存在更適合不同規(guī)模、不同架構(gòu)的「專屬配方」,仍是開放問題。
但更值得關(guān)注的是,論文指出這套思路并不局限于語言模型——視覺 Transformer、擴散模型、多模態(tài)模型,幾乎都繼承了同一種「層層均分」的默認設(shè)定。如果容量分配的形狀本身就是一個被長期忽視的設(shè)計維度,那么這把「藏在明處的免費杠桿」,或許才剛剛被人注意到。
團隊簡介
論文由 Mila(蒙特利爾學習算法研究所)的 Reza Bayat、康奈爾大學的 Ali Behrouz,以及 Mila 聯(lián)合創(chuàng)始人、蒙特利爾大學教授 Aaron Courville 共同完成。
Ali Behrouz 目前是 Google Research 的研究員、康奈爾大學博士生,過去兩年里參與設(shè)計了多個引發(fā)廣泛關(guān)注的新架構(gòu),包括能夠「在測試階段學習記憶」的 Titans 架構(gòu),以及后續(xù)的 Atlas 和「嵌套學習」(Nested Learning)框架,長期專注于如何讓模型更高效地利用和存儲長期上下文信息。
![]()
Aaron Courville 則是深度學習領(lǐng)域的資深學者,CIFAR AI Chair,長期與 Yoshua Bengio 共同推動深度學習基礎(chǔ)研究,在表征學習和生成模型方向有深厚積累。他也是生成對抗網(wǎng)絡(luò)(GAN)的作者之一,并與 Ian Goodfellow 和 Bengio 合著了經(jīng)典著作《Deep Learning》。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.