給Transformer變個形，LLM竟能變得更聰明

2026-06-29 18:39:15　來源: 機器之心Pro

天津舉報

分享至

編輯｜Panda

2026 年 6 月，大模型行業(yè)正在經(jīng)歷一場前所未有的「開源海嘯」：英偉達放出了 550B 參數(shù)的混合架構(gòu)模型，谷歌送出多模態(tài)的 Gemma 新版本，智譜用最寬松的協(xié)議全量開源了自家旗艦模型。

幾乎所有廠商講述的，都是同一個故事：用混合專家（MoE）結(jié)構(gòu)裝下更多參數(shù)，用更稀疏的激活方式壓低成本，用彈性的網(wǎng)絡(luò)寬度去匹配不同的部署場景。

換句話說，整個行業(yè)正在拼命研究「怎么把更多的參數(shù)，塞進同樣的算力預算里」。

但一篇來自 Mila、康奈爾大學和蒙特利爾大學研究者的新論文，提出了一個幾乎相反方向的問題：如果一個參數(shù)都不多加，只是把模型里已經(jīng)存在的參數(shù)「挪個位置」，會發(fā)生什么？

論文標題：Tapered Language Models
論文地址：https://arxiv.org/abs/2606.23670

背景：被忽視的「一視同仁」

從 2017 年那篇開創(chuàng) Transformer 的論文《Attention Is All You Need》開始，幾乎所有的語言模型都共享同一種骨架，不管是經(jīng)典 Transformer，還是后來的門控注意力、循環(huán)記憶網(wǎng)絡(luò)，甚至是帶「測試時記憶」能力的新架構(gòu)，即：把若干結(jié)構(gòu)完全相同的「層」疊在一起，每一層分到的參數(shù)量都一模一樣。

這就像一家連鎖餐廳，無論開在鬧市區(qū)還是郊區(qū)，都配備完全相同數(shù)量的廚師和廚房設(shè)備，完全不考慮客流量的差異。這種「一視同仁」的分配方式，省心、好維護，但未必是最優(yōu)解。

近年來，越來越多的研究從不同角度指出：模型的層并不是同等重要的。

「提前退出」實驗顯示，很多時候模型在還沒跑到最后一層時，答案已經(jīng)基本定型；
「層剪枝」研究發(fā)現(xiàn)，砍掉后面的一些層，模型表現(xiàn)幾乎不受影響；
可解釋性研究則發(fā)現(xiàn)，淺層網(wǎng)絡(luò)捕捉的是語法這類「基礎(chǔ)信息」，深層網(wǎng)絡(luò)處理的才是語義這類「高級信息」。

換句話說，層與層之間天差地別，但參數(shù)分配卻始終一視同仁。

這正是論文提出的核心疑問：既然層的重要性早已被證明是不均勻的，為什么層的「腦容量」還要被均勻分配？

把「腦容量」往前挪

研究團隊先做了一個簡單粗暴的驗證實驗：把一個 440M 參數(shù)的 Transformer 模型的層分成早、中、晚三組，在保持總參數(shù)量不變的前提下，讓其中一組的「前饋網(wǎng)絡(luò)」（FFN，模型中負責存儲和處理信息的核心組件，可以理解為每一層的「工作記憶容量」）變寬，其余兩組變窄。

結(jié)果非常清楚：把容量集中到前段的「頭重腳輕」式分配，讓模型在驗證集上的困惑度（perplexity，衡量語言模型預測準確程度的指標，數(shù)值越低代表模型預測得越準）從 16.28 降到 15.96；而反過來把容量集中到后段，困惑度反而飆升到 17.29。

同樣的參數(shù)總量，僅僅因為擺放位置不同，效果差出了一個多點，這在語言模型的評測體系里是相當大的差距。

這個發(fā)現(xiàn)把問題指向了更細的方向：與其用「一刀切」的三段式分組，能不能用一條更平滑的曲線，讓容量從前到后逐漸遞減？

研究者將這種思路命名為「錐形語言模型」（Tapered Language Models， TLMs）：選定模型中任何一個決定參數(shù)量的維度（比如前饋網(wǎng)絡(luò)的寬度），讓它沿著深度方向單調(diào)遞減，同時保證所有層的平均寬度依然等于原來的固定值。

這樣總參數(shù)量和計算量都完全不變，只是分布形狀從「長方形」變成了「楔形」。

團隊嘗試了三種遞減曲線：線性遞減、余弦遞減、S 形（Sigmoid）遞減。

這三種曲線的差異，類似于三種不同的「收攤」方式：

線性遞減像是勻速關(guān)店，每一段時間關(guān)掉差不多數(shù)量的柱臺；
S 形遞減像是突然集中宣布閉店，大部分攤位維持原樣，只有中間一小段急速收縮；
余弦遞減則介于兩者之間，兩頭平緩過渡，中段逐漸收緊，既不會「一刀切」地損失兩端的靈活性，也不會平均用力而錯過最該收縮的地方。

實驗結(jié)果：免費的 1.84 個點

在 440M 參數(shù)的 Transformer 上做完五種寬度比例和三種曲線的組合掃描后，余弦遞減以全面優(yōu)勢勝出：在最優(yōu)配置下（前段寬度是基準的 1.5 倍，后段是基準的 0.5 倍），困惑度從均勻分布基線的 16.28 降到了 14.44，整整改善了 1.84 個點，且全程沒有增加一個參數(shù)或一次額外的浮點運算。

更關(guān)鍵的是，這個結(jié)論不是某一個架構(gòu)的運氣。

研究團隊把同一套配置（余弦遞減、前后寬度比 1.5/0.5）原封不動地搬到另外三種結(jié)構(gòu)迥異的架構(gòu)上：帶門控機制的注意力模型、具備「自我修改記憶」能力的 Hope-attention，以及擁有神經(jīng)長期記憶模塊的 Titans 架構(gòu)，并在 760M 和 1.3B 參數(shù)兩個更大規(guī)模上重新驗證。

結(jié)果是：四種架構(gòu)、兩種規(guī)模，所有八組對比中，經(jīng)過「錐形化」改造的模型在常識推理基準上的平均準確率全部提升，在 LAMBADA 語言預測任務上的困惑度全部改善。

研究者還額外做了長文本檢索測試（Needle-in-a-Haystack），確認這種重新分配并不會犧牲模型處理長上下文的能力。

為了解釋這種現(xiàn)象背后的原因，團隊還測量了 GPT-2 系列模型中每一層「前饋網(wǎng)絡(luò)」輸出與已有信息流的相似程度，發(fā)現(xiàn)一個清晰的規(guī)律：越往模型深處走，每一層新寫入的內(nèi)容，跟已經(jīng)存在的信息越像。也就是說，后段的層更多是在「重復強調(diào)」已有的判斷，而不是在「創(chuàng)造」新的理解。

這恰好印證了為什么把容量從后段挪到前段是合理的:前段的層真正用得上這些額外的「腦容量」，后段的層用不上。

結(jié)語

這項研究本質(zhì)上提出了一個樸素卻被長期忽視的命題：模型的容量不該是均勻潑灑出去的資源，而應該流向真正需要它的地方。

在整個行業(yè)都在比拼「誰的參數(shù)更多」「誰的架構(gòu)更稀疏」的 2026 年，這篇論文提供了一個幾乎零成本的替代方案：不需要換架構(gòu)，不需要加參數(shù)，只需要換一種分配的「形狀」。

研究者也坦言，目前的最優(yōu)配置是在一個 440M 參數(shù)模型上調(diào)出來的，是否存在更適合不同規(guī)模、不同架構(gòu)的「專屬配方」，仍是開放問題。

但更值得關(guān)注的是，論文指出這套思路并不局限于語言模型——視覺 Transformer、擴散模型、多模態(tài)模型，幾乎都繼承了同一種「層層均分」的默認設(shè)定。如果容量分配的形狀本身就是一個被長期忽視的設(shè)計維度，那么這把「藏在明處的免費杠桿」，或許才剛剛被人注意到。

團隊簡介

論文由 Mila（蒙特利爾學習算法研究所）的 Reza Bayat、康奈爾大學的 Ali Behrouz，以及 Mila 聯(lián)合創(chuàng)始人、蒙特利爾大學教授 Aaron Courville 共同完成。

Ali Behrouz 目前是 Google Research 的研究員、康奈爾大學博士生，過去兩年里參與設(shè)計了多個引發(fā)廣泛關(guān)注的新架構(gòu)，包括能夠「在測試階段學習記憶」的 Titans 架構(gòu)，以及后續(xù)的 Atlas 和「嵌套學習」（Nested Learning）框架，長期專注于如何讓模型更高效地利用和存儲長期上下文信息。

Aaron Courville 則是深度學習領(lǐng)域的資深學者，CIFAR AI Chair，長期與 Yoshua Bengio 共同推動深度學習基礎(chǔ)研究，在表征學習和生成模型方向有深厚積累。他也是生成對抗網(wǎng)絡(luò)（GAN）的作者之一，并與 Ian Goodfellow 和 Bengio 合著了經(jīng)典著作《Deep Learning》。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.