无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

給Transformer變個形,LLM竟能變得更聰明

0
分享至

編輯|Panda


2026 年 6 月,大模型行業(yè)正在經(jīng)歷一場前所未有的「開源海嘯」:英偉達放出了 550B 參數(shù)的混合架構(gòu)模型,谷歌送出多模態(tài)的 Gemma 新版本,智譜用最寬松的協(xié)議全量開源了自家旗艦模型。

幾乎所有廠商講述的,都是同一個故事:用混合專家(MoE)結(jié)構(gòu)裝下更多參數(shù),用更稀疏的激活方式壓低成本,用彈性的網(wǎng)絡(luò)寬度去匹配不同的部署場景。

換句話說,整個行業(yè)正在拼命研究「怎么把更多的參數(shù),塞進同樣的算力預算里」。

但一篇來自 Mila、康奈爾大學和蒙特利爾大學研究者的新論文,提出了一個幾乎相反方向的問題:如果一個參數(shù)都不多加,只是把模型里已經(jīng)存在的參數(shù)「挪個位置」,會發(fā)生什么?



  • 論文標題:Tapered Language Models
  • 論文地址:https://arxiv.org/abs/2606.23670

背景:被忽視的「一視同仁」

從 2017 年那篇開創(chuàng) Transformer 的論文《Attention Is All You Need》開始,幾乎所有的語言模型都共享同一種骨架,不管是經(jīng)典 Transformer,還是后來的門控注意力、循環(huán)記憶網(wǎng)絡(luò),甚至是帶「測試時記憶」能力的新架構(gòu),即:把若干結(jié)構(gòu)完全相同的「層」疊在一起,每一層分到的參數(shù)量都一模一樣。



這就像一家連鎖餐廳,無論開在鬧市區(qū)還是郊區(qū),都配備完全相同數(shù)量的廚師和廚房設(shè)備,完全不考慮客流量的差異。這種「一視同仁」的分配方式,省心、好維護,但未必是最優(yōu)解。

近年來,越來越多的研究從不同角度指出:模型的層并不是同等重要的。

  • 「提前退出」實驗顯示,很多時候模型在還沒跑到最后一層時,答案已經(jīng)基本定型;
  • 「層剪枝」研究發(fā)現(xiàn),砍掉后面的一些層,模型表現(xiàn)幾乎不受影響;
  • 可解釋性研究則發(fā)現(xiàn),淺層網(wǎng)絡(luò)捕捉的是語法這類「基礎(chǔ)信息」,深層網(wǎng)絡(luò)處理的才是語義這類「高級信息」。

換句話說,層與層之間天差地別,但參數(shù)分配卻始終一視同仁。

這正是論文提出的核心疑問:既然層的重要性早已被證明是不均勻的,為什么層的「腦容量」還要被均勻分配?

把「腦容量」往前挪

研究團隊先做了一個簡單粗暴的驗證實驗:把一個 440M 參數(shù)的 Transformer 模型的層分成早、中、晚三組,在保持總參數(shù)量不變的前提下,讓其中一組的「前饋網(wǎng)絡(luò)」(FFN,模型中負責存儲和處理信息的核心組件,可以理解為每一層的「工作記憶容量」)變寬,其余兩組變窄。

結(jié)果非常清楚:把容量集中到前段的「頭重腳輕」式分配,讓模型在驗證集上的困惑度(perplexity,衡量語言模型預測準確程度的指標,數(shù)值越低代表模型預測得越準)從 16.28 降到 15.96;而反過來把容量集中到后段,困惑度反而飆升到 17.29。



同樣的參數(shù)總量,僅僅因為擺放位置不同,效果差出了一個多點,這在語言模型的評測體系里是相當大的差距。

這個發(fā)現(xiàn)把問題指向了更細的方向:與其用「一刀切」的三段式分組,能不能用一條更平滑的曲線,讓容量從前到后逐漸遞減?

研究者將這種思路命名為「錐形語言模型」(Tapered Language Models, TLMs):選定模型中任何一個決定參數(shù)量的維度(比如前饋網(wǎng)絡(luò)的寬度),讓它沿著深度方向單調(diào)遞減,同時保證所有層的平均寬度依然等于原來的固定值。

這樣總參數(shù)量和計算量都完全不變,只是分布形狀從「長方形」變成了「楔形」。

團隊嘗試了三種遞減曲線:線性遞減、余弦遞減、S 形(Sigmoid)遞減。

這三種曲線的差異,類似于三種不同的「收攤」方式:



  • 線性遞減像是勻速關(guān)店,每一段時間關(guān)掉差不多數(shù)量的柱臺;
  • S 形遞減像是突然集中宣布閉店,大部分攤位維持原樣,只有中間一小段急速收縮;
  • 余弦遞減則介于兩者之間,兩頭平緩過渡,中段逐漸收緊,既不會「一刀切」地損失兩端的靈活性,也不會平均用力而錯過最該收縮的地方。

實驗結(jié)果:免費的 1.84 個點

在 440M 參數(shù)的 Transformer 上做完五種寬度比例和三種曲線的組合掃描后,余弦遞減以全面優(yōu)勢勝出:在最優(yōu)配置下(前段寬度是基準的 1.5 倍,后段是基準的 0.5 倍),困惑度從均勻分布基線的 16.28 降到了 14.44,整整改善了 1.84 個點,且全程沒有增加一個參數(shù)或一次額外的浮點運算。





更關(guān)鍵的是,這個結(jié)論不是某一個架構(gòu)的運氣。

研究團隊把同一套配置(余弦遞減、前后寬度比 1.5/0.5)原封不動地搬到另外三種結(jié)構(gòu)迥異的架構(gòu)上:帶門控機制的注意力模型、具備「自我修改記憶」能力的 Hope-attention,以及擁有神經(jīng)長期記憶模塊的 Titans 架構(gòu),并在 760M 和 1.3B 參數(shù)兩個更大規(guī)模上重新驗證。



結(jié)果是:四種架構(gòu)、兩種規(guī)模,所有八組對比中,經(jīng)過「錐形化」改造的模型在常識推理基準上的平均準確率全部提升,在 LAMBADA 語言預測任務上的困惑度全部改善。

研究者還額外做了長文本檢索測試(Needle-in-a-Haystack),確認這種重新分配并不會犧牲模型處理長上下文的能力。

為了解釋這種現(xiàn)象背后的原因,團隊還測量了 GPT-2 系列模型中每一層「前饋網(wǎng)絡(luò)」輸出與已有信息流的相似程度,發(fā)現(xiàn)一個清晰的規(guī)律:越往模型深處走,每一層新寫入的內(nèi)容,跟已經(jīng)存在的信息越像。也就是說,后段的層更多是在「重復強調(diào)」已有的判斷,而不是在「創(chuàng)造」新的理解。



這恰好印證了為什么把容量從后段挪到前段是合理的:前段的層真正用得上這些額外的「腦容量」,后段的層用不上。

結(jié)語

這項研究本質(zhì)上提出了一個樸素卻被長期忽視的命題:模型的容量不該是均勻潑灑出去的資源,而應該流向真正需要它的地方。

在整個行業(yè)都在比拼「誰的參數(shù)更多」「誰的架構(gòu)更稀疏」的 2026 年,這篇論文提供了一個幾乎零成本的替代方案:不需要換架構(gòu),不需要加參數(shù),只需要換一種分配的「形狀」。

研究者也坦言,目前的最優(yōu)配置是在一個 440M 參數(shù)模型上調(diào)出來的,是否存在更適合不同規(guī)模、不同架構(gòu)的「專屬配方」,仍是開放問題。

但更值得關(guān)注的是,論文指出這套思路并不局限于語言模型——視覺 Transformer、擴散模型、多模態(tài)模型,幾乎都繼承了同一種「層層均分」的默認設(shè)定。如果容量分配的形狀本身就是一個被長期忽視的設(shè)計維度,那么這把「藏在明處的免費杠桿」,或許才剛剛被人注意到。

團隊簡介

論文由 Mila(蒙特利爾學習算法研究所)的 Reza Bayat、康奈爾大學的 Ali Behrouz,以及 Mila 聯(lián)合創(chuàng)始人、蒙特利爾大學教授 Aaron Courville 共同完成。

Ali Behrouz 目前是 Google Research 的研究員、康奈爾大學博士生,過去兩年里參與設(shè)計了多個引發(fā)廣泛關(guān)注的新架構(gòu),包括能夠「在測試階段學習記憶」的 Titans 架構(gòu),以及后續(xù)的 Atlas 和「嵌套學習」(Nested Learning)框架,長期專注于如何讓模型更高效地利用和存儲長期上下文信息。



Aaron Courville 則是深度學習領(lǐng)域的資深學者,CIFAR AI Chair,長期與 Yoshua Bengio 共同推動深度學習基礎(chǔ)研究,在表征學習和生成模型方向有深厚積累。他也是生成對抗網(wǎng)絡(luò)(GAN)的作者之一,并與 Ian Goodfellow 和 Bengio 合著了經(jīng)典著作《Deep Learning》。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
CBA3消息!徐昕拒絕馬刺,顧全上任深圳主帥,楊瀚森火速參加夏聯(lián)

CBA3消息!徐昕拒絕馬刺,顧全上任深圳主帥,楊瀚森火速參加夏聯(lián)

燁侃體育
2026-06-29 18:32:07
1978 年郭沫若病重,日妻前來探視,二人此生竟未再相見

1978 年郭沫若病重,日妻前來探視,二人此生竟未再相見

磊子講史
2026-03-26 15:23:26
老舊小區(qū)的“春天”來了!新規(guī)定調(diào):原拆原建后,不用做房奴了!

老舊小區(qū)的“春天”來了!新規(guī)定調(diào):原拆原建后,不用做房奴了!

冷眼看盡世間繁華
2026-06-29 08:10:39
巴薩成2026世界杯最大贏家:14人晉級32強,僅阿勞霍出局

巴薩成2026世界杯最大贏家:14人晉級32強,僅阿勞霍出局

星耀國際足壇
2026-06-29 16:48:06
尼克松晚年坦言:他后悔當年訪問中國,只因毛主席識破了他的計謀

尼克松晚年坦言:他后悔當年訪問中國,只因毛主席識破了他的計謀

曉風洞察
2026-05-20 14:35:33
網(wǎng)友爆料8個印度人想擠進一輛無人駕駛車,最后以失敗告終

網(wǎng)友爆料8個印度人想擠進一輛無人駕駛車,最后以失敗告終

映射生活的身影
2026-06-28 11:23:31
善惡終有報!“港獨分子”陳方安生,弟弟自殺女兒去世,晚景凄涼

善惡終有報!“港獨分子”陳方安生,弟弟自殺女兒去世,晚景凄涼

莫地方
2026-06-29 01:10:03
于和偉越來越不對勁!不是演技退步,而是整個人肉眼可見的變化

于和偉越來越不對勁!不是演技退步,而是整個人肉眼可見的變化

一盅情懷
2026-05-12 14:33:06
小鵬高管曝GX單日大定創(chuàng)新高:6月訂單持續(xù)走強

小鵬高管曝GX單日大定創(chuàng)新高:6月訂單持續(xù)走強

CNMO科技
2026-06-29 17:14:03
一旦開戰(zhàn),中國3000架飛機根本上不了場?俄專家揭露真相

一旦開戰(zhàn),中國3000架飛機根本上不了場?俄專家揭露真相

青山夜談
2026-06-16 17:16:03
重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

阿腩講娛樂
2026-03-30 20:06:01
上世紀80年代末臺灣綜藝在哈爾濱采訪了一位當?shù)孛琅?>
    </a>
        <h3>
      <a href=歲月有情1314
2026-06-28 21:53:40
大S倆孩子已回北京,汪小菲攜一家五口逛國貿(mào),張?zhí)m好開心

大S倆孩子已回北京,汪小菲攜一家五口逛國貿(mào),張?zhí)m好開心

奇怪的鯊魚們
2026-06-29 04:12:46
華為開始全球收“華為稅”了,WiFi7 終端0.5美元一臺!網(wǎng)友:5G終端收多少錢?

華為開始全球收“華為稅”了,WiFi7 終端0.5美元一臺!網(wǎng)友:5G終端收多少錢?

大白聊IT
2026-06-29 17:55:08
布朗的心,真被凱爾特人傷透了

布朗的心,真被凱爾特人傷透了

野球帝
2026-06-29 11:14:11
在派出所能聽到多少八卦?網(wǎng)友:一個比一個狗血

在派出所能聽到多少八卦?網(wǎng)友:一個比一個狗血

另子維愛讀史
2026-06-27 22:18:43
全新寶馬X5內(nèi)飾諜照曝光:全景視域橋+傾斜中控屏+副駕屏

全新寶馬X5內(nèi)飾諜照曝光:全景視域橋+傾斜中控屏+副駕屏

IT之家
2026-06-29 18:30:08
接到求援后,中美動作都很快,美軍艦船飛機同步出動,事態(tài)嚴重了

接到求援后,中美動作都很快,美軍艦船飛機同步出動,事態(tài)嚴重了

一網(wǎng)打盡全球焦點
2026-06-29 12:56:43
世預賽生死戰(zhàn)!中國男籃迎 4 大好消息,日本王牌歸隊暗藏隱患

世預賽生死戰(zhàn)!中國男籃迎 4 大好消息,日本王牌歸隊暗藏隱患

林子說事
2026-06-29 18:22:09
排隊2小時到僅剩41家!18年海鮮自助巨頭,徹底涼透了

排隊2小時到僅剩41家!18年海鮮自助巨頭,徹底涼透了

說故事的阿襲
2026-06-29 19:01:07
2026-06-29 20:15:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13388文章數(shù) 142683關(guān)注度
往期回顧 全部

科技要聞

殺瘋了!深圳一天出兩家200億具身智能公司

頭條要聞

媒體:中國再對日本出重拳 一紅一黃兩張牌同時打出

頭條要聞

媒體:中國再對日本出重拳 一紅一黃兩張牌同時打出

體育要聞

他和伊朗隊,再次贏得全世界的尊重

娛樂要聞

跟風電影《給阿公的牛肉丸》開機

財經(jīng)要聞

近20家半導體企業(yè)開啟新一輪漲價潮

汽車要聞

全新寶馬iX3長軸版將于成都車展預售 四季度交付

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
親子
健康
手機

藝術(shù)要聞

趙孟頫行書的巔峰之作,水平超越《圣教序》

房產(chǎn)要聞

你敢想?海口房地產(chǎn)投資,暴跌5成!

親子要聞

寶藍在客廳玩堆紙杯的游戲,好不容易都堆好,結(jié)果全被叔叔推倒了

狂吃“糯嘰嘰”小心腸梗阻!

手機要聞

屏幕反人類,但AI絕了!酷派小方塊上手:沒法當主力機用

無障礙瀏覽 進入關(guān)懷版