網易首頁 > 網易號 > 正文 申請入駐

大模型架構的下半場

0
分享至

華中科技大學王興剛團隊 投稿
量子位 | 公眾號 QbitAI

研究者們花了十年去擴展層內的計算能力,卻忘了擴展層間的通信能力。

這件事亟需被改變。



過去十年,深度學習領域取得進展的方式出奇地一致:什么都往大了整。更多參數、更多數據、更長上下文。而且確實管用:loss在降,能力在漲,scaling law(擴展定律)精確地告訴研究團隊還需要投入多少。

但擴展的方向不同,差異也是巨大的。序列長度的擴展需要真正的創新,也確實催生了一整套機制研究和系統工程。數據的擴展則直截了當:數據越多,loss越低。讓模型變得更寬、更深,這看起來也和數據的擴展一樣簡單。

但寬度和深度真的在同等地發揮作用嗎?

并非如此。深度在數量上增長了,但在質量上卻沒有。層與層之間的通信機制幾乎沒有變化。接下來本文將解釋這一點為什么重要,這不僅關乎網絡的深度本身,更關于研究團隊設計神經網絡架構時的一個集體盲區。

上半場

要看清上半場做對了什么,就看看什么被成功地擴展了,以及是怎么做到的

先看序列長度。早期Transformer只能處理幾百個token。要達到128K+,需要多個方向上的持續創新:新的注意力模式(稀疏、線性、混合)、系統工程(FlashAttention)、位置編碼的進步(RoPE scaling)。研究者和工程師們共同建造了一整個生態,持續改進token之間的通信方式。而回報頗豐,研究團隊不止能夠處理極其長的文檔,還為OpenAI-O1和DeepSeek-R1的長鏈推理奠定了堅實的基礎。這就是當研究團隊認真投資于“信息在序列維度上的流動方式時”,所收獲的斐然成果。



△現代LLM中的參數與數據規模迅速增長

參數和數據的擴展是最符合人類直覺的部分。從深度學習的最早期開始,每本教科書都在教授同一套配方:更多數據、更寬的層、更深的網絡,自然帶來更好的表征。從GPT-2的15億參數到如今的數萬億,這套配方一直管用。這似乎說明大模型團隊不需要引入新機制,只需要持續拓展這些被驗證了的方向。

只不過,對網絡而言,更寬更深往往并不是一回事。寬度的擴展是自然而然的:現代GPU天生擅長處理更寬的矩陣乘法,注意力機制的演進越來越高效,這使得更寬的網絡可以無縫接入現有架構。

而深度則是另一個故事。模型確實變深了:研究團隊將模型加到32層、64層、甚至100層以上。但層間通信的機制本質上還是ResNet在2015年引入的深度殘差,“x + F(x)”。自它誕生以來,圍繞它有過不少改良(歸一化位置、殘差縮放、跨層連接),但沒有任何改良真正取代過那個深度殘差中“+”的決定性地位。

殘差連接可以說是深度學習中最重要的基石。沒有它,就沒有100層的Transformer,沒有現代LLM,沒有scaling law。但基礎性方案有一個特點:它們有時會變得太過隱形,以至于沒人再去質疑它到底是最優解,還是僅僅是研究團隊探索出的第一個能用的方案。

打個比方,想象一個有特殊規則的傳話游戲。在標準版本里,第1個人對第2個人耳語,第2個人再對第3個人耳語。到第18個人的時候,消息已經面目全非了。這就是沒有殘差連接的深層網絡:每一層只能看到上一層的輸出。

殘差連接修復了這個問題:每個人在傳達自己的理解的同時,也把之前積累的原始信息原封不動地往下傳。第3個人既能聽到第2個人的新解讀,也能聽到之前的所有內容。原始信號始終被保留,它成為了不斷壯大的合唱中的一個聲部。

但到了第152個人,你同時在聽152個聲音:原始信息加上151層疊加上去的內容,全部混在一句耳語里。理論上,前面那些人的聲音依然存在,但它們已經被淹沒了。如果第152個人需要知道第3個人具體說了什么,他得費力地從這首宏大的合唱聲中把它挑出來。



△消息累加的傳話游戲中,靠后的人依然難以分辨出所需的內容

通常而言,第152個人是做不到這一點的。

這就是信息稀釋。每一層都面臨兩難:倘若該層貢獻新信息就可能會掩蓋之前的內容,但保守不動則能保留之前層傳過來的已有信息。這種狀況下,很多層學會了保守不動,它們幾乎不往殘差流里寫入任何東西。這樣的深度網絡在紙面上很深,實際上卻很淺。研究團隊堆了152層,但其中很多層卻只學會了保持沉默。

這里的瓶頸不在于152層網絡所需求的算力,而在于信息穿過這些層的通信能力。CPU的發展在幾十年前就撞過同樣的墻:處理器越來越快,直到內存帶寬跟不上了,逼得整個行業轉向緩存和通信。組織管理也一樣:一群聰明人所能發揮出的創造力,也受限于他們之間的溝通、組織方式。深度學習正在經歷自己的版本:十年來不斷增強每一層的能力,而層與層之間的通道始終是2015年那條單車道公路。

那么,有沒有更好的機制?

配方

在本文所介紹的研究之前已經有很多研究者注意到了深度瓶頸。多年來,修補方案越來越巧妙:獲評CVPR best paper的DenseNet保留了每一層的輸出,但代價是平方級的開銷。使用可學習加權的方案DenseFormer、LIMe降低了成本,但訓練完成后權重就固定了,每個token、每套上下文都用同樣的權重。

字節跳動的Hyper-Connections和DeepSeek的mHC另辟蹊徑,它們把管道拓寬到N個通道,層間用混合矩陣連接,這相當于信息高速公路上同時多了好幾條車道。但壞消息是,信息仍然在逐層流動,第152層沒有辦法直接回溯到第3層。

彩云公司的MUDDFormer讓混合每層輸出這件事變成動態的,它會根據每個token的表征來生成權重。這在根本方向上是對的:從每一層汲取多少信息本就應該取決于你正在處理的內容。但同樣有個壞消息,第152層在決定從第3層汲取多少時,只依賴第152層本身的狀態,它并不知道第3層實際包含了什么。它是在預測哪些層有用,而不是在查看

以上的每一步都修復了一個真實存在的缺陷,但卻鮮有哪一個方法質疑過深度殘差的框架本身。

不難發現,這些方法都有著一個共同點。從DenseNet到Hyper-Connections,每個方法都在回答同一個隱含的問題:“如何才能更好地混合各層的輸出?”更好的系數,更多的通道,自適應的權重。但自始至終都是混合,自始至終都是累加。ELMo早就表明,不同的層編碼的是截然不同的信息:淺層編碼句法,深層編碼語義。所有人得出的結論都是“學習更好的混合權重用來平衡句法語義”。但還有一條被主流忽視的道路:如果不同層持有不同信息,也許每一層應該能夠根據內容而非位置,從持有所需信息的那一層直接檢索

這就是范疇謬誤:把層間通信當作累加(用學習到的或生成的系數來組合信號)而非檢索(通過基于內容的匹配來選擇信息)。在累加框架下,即使是動態方法也只從當前層的狀態生成混合權重,而不去查看信息的來源層實際包含了什么。在檢索框架下,Query(查詢)編碼的是“我需要什么”,Key(鍵)編碼的是“我有什么”,而它們之間的運算決定了相關性。Query和Key雙方都應該有發言權。

回到傳話游戲。之前所有的方法都在試圖產生一個更清晰的合唱:更好的發音、更多的中繼通道、自適應的音量。沒有一個質疑過這個根本約束:所有聲音必須累加成一個聲音嗎?也沒有人問過:咱是否可以直接走回去,跟之前的任何一個人當面對話呢?

研究團隊認為這種范疇謬誤在架構設計中無處不在。當某個東西足夠好用的時候,你不會去質疑它的概念框架,而只會在框架內改進。經歷了多年越來越巧妙的修補之后,研究者才明白:深度維度的殘差連接需要的不是更好的系數,而是被一種根本不同的操作所替代:

一種在序列維度上已經成功解決了同樣問題的操作。



△ 因果注意力機制在序列維度(橫向)上聚合信息

下半場

一旦研究團隊把層間的通信理解為檢索而非累加,一個很自然的答案就是在深度維度上引入注意力機制。包括研究者團隊在內的很多團隊都獨立地收斂到了這個想法:谷歌提出的 DCA、華為的MRLA、Hessian.AI的 Dreamer、Kimi的AttnRes、以及研究者團隊提出的Flash Depth Attention & MoDA,大家都嘗試在層間應用點積注意力。這種獨立趨同本身就是一個信號:方向走對了!



△ 深度注意力機制在深度維度(縱向)上聚合信息

但找對方向和做出成品是兩回事。研究者自述:“第一次用Pytorch實現運行深度注意力的時候,前向和反向傳播共計耗時達到了44,924 ms。44秒啊!朋友們!這個時間都夠我喝完一瓶500毫升的冰紅茶了!”
也就是說,在深度維度上應用注意力機制的想法本身沒問題,但工程現實卻殘酷到了極點。現代GPU為大規模的矩陣乘法做了大量優化,卻不擅長數千個跨深度的極小規模的注意力操作。深度注意力作為一個計算量不大的算法,跑起來卻可能慢得要命。



△Pytorch實現的深度注意力(DepthRef)很慢;Flash Depth Attention(FDA)很快。

至此,之前的方法都陷入了兩難:要么簡化深度注意力來換速度,這種方式丟掉了完整的選擇性檢索這一核心價值;要么保持完整的表達能力,但運算代價變得不可接受。研究者團隊找到了一條出路:不是簡化算法,而是重新組織參與計算的數據布局,從而適配GPU硬件。Flash Depth Attention
https://github.com/hustvl/MoDA)讓具備完整表達能力的深度檢索快到可以參與實際訓練。



△混合深度注意力機制同時在序列維度(橫向)和深度維度(縱向)上聚合信息

常規的大模型主干流水線是:殘差連接→序列注意力→殘差連接→FFN(前饋網絡)。

有了高效的深度檢索之后,研究團隊注意到網絡的主干流水線變成了:深度注意力→序列注意力→深度注意力→FFN(前饋網絡)。這三個連續的注意力操作作用于不同的Key(鍵,縮寫作K)和Value(值,縮寫作V),卻共享著近乎相同的Query(查詢)。一個很自然的做法就是把它們融合。

研究者團隊提出了混合深度注意力(Mixture-of-depths Attention,MoDA)將深度檢索和序列檢索合并到一個統一的softmax中。每個注意力頭同時關注當前層的序列KV對(鍵值對)和所有前序層的深度KV對(鍵值對)。在同一個softmax 下,模型可以自由決定何時關注序列中的其他token,何時跨層檢索自身的歷史信息。通過一次操作,MoDA完成了兩個維度的檢索。



△左側區域是序列KV,右側區域是深度KV。顏色越黃,注意力越強。

回到傳話游戲。在殘差連接的版本里,第152個人費力地從累加的合唱中辨認第3個人的聲音。有了深度檢索,第152個人拍拍第3個人的肩膀直接問:“你剛才說了什么?”沒有中間人,沒有累積的噪音。

可視化的實驗結果也印證了這個類比所預測的現象:當模型獲得了通過深度KV從特定層進行選擇性檢索的能力時,它會持續且主動地使用這種能力。之前困擾模型架構研究員們的Attention Sink(注意力沉沒)現象,即模型把概率質量堆積在少數固定token上的行為,也隨之減弱。這就是當研究者團隊嘗試發展層之間而非僅僅層之內的信息流動時,所取得的有趣成果。



△引入深度注意力后,傳話游戲允許每個人用手機查看群聊記錄。

大模型架構的上半場是關于擴展組件的。研究者們擴展出更長的序列,更多的數據,更大的模型。這個階段最關鍵的問題是“怎么把一切都做大?”。在上半場,這是正確且關鍵的問題,它把整個領域從GPT-2帶到了GPT-4時代。下半場是關于擴展通信的。新的問題是:“組件之間的通信質量如何?



△引入混合深度注意力后,在主流的開源基線(OLMo2)上全面提升了模型能力。

深度是最明顯的例子,因為現有方案(累加)和可能的方案(選擇性檢索)之間的差距是巨大的。研究者團隊相信這個原則是可以推廣的。凡是神經網絡使用靜態的、與數據無關的通道來傳遞信息的地方,包括層與層之間、模態與模態之間、時間步與時間步之間等等,很可能都會有一個檢索機制等著替代那個累加操作。

全世界的研究者們花了十年掌握token之間如何對話,現在是時候掌握層與層之間如何對話了。而最終,研究者們將掌握神經網絡中每個組件如何與其他任意組件對話。

深度殘差的“+”帶我們跑過了一段極為精彩的旅程,但現在,是時候升級這座階梯了。

歡迎來到大模型架構的下半場。

Flash Depth Attention & MoDA論文鏈接:

https://arxiv.org/abs/2603.15619

Flash Depth Attention & MoDA代碼鏈接:

https://github.com/hustvl/MoDA

實驗室主頁:

https://github.com/hustvl

論文主要作者來自于華中科技大學(HUST)電子信息與通信學院視覺實驗室(Vision Lab)。HUST Vision Lab研究主要集中在計算機視覺和深度學習領域,尤其關注以下方向:多模態基礎模型、視覺表征學習、目標檢測、分割與跟蹤、端到端自動駕駛、新型神經網絡架構。

HUST Vision Lab致力于不斷突破視覺智能的邊界,代表性工作包括:CCNet(TPAMI 2020,4300+引用,1.5K Star)、Mask Scoring R-CNN(CVPR 2019,1400+引用,1.9K Star)、FairMOT(IJCV 2021,2200+引用,4.2K Star)、ByteTrack(ECCV 2022,3400+引用,6.2K Star)、EVA(CVPR 2023,1100+引用,2.7K Star)、MapTR(ICLR 2023,400+引用,1.5K Star)、Vectorized Autonomous Driving (VAD)(ICCV 2023,600+引用,1.3K Star)、DiffusionDrive(CVPR 2025,200+引用,1.3K Star)、Vision Mamba (Vim)(ICML 2024,3100+引用,3.8K Star)、4D Gaussian Splatting (4DGS)(CVPR 2024,1400+引用,3.5K Star)、YOLOS(NeurIPS 2021,500+引用,900+ Star)、YOLO-World(CVPR 2024,1000+引用,6.3K Star),以及 LightningDiT & VA-VAE(CVPR 2025,200+引用,1.4K Star)。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鴻蒙智行發布會被質疑出意外,僅尚界新車最后停留在舞臺上沒有移動,“尚界Z7 趴窩”沖上熱搜,工作人員:請大家不要過度解讀傳播

鴻蒙智行發布會被質疑出意外,僅尚界新車最后停留在舞臺上沒有移動,“尚界Z7 趴窩”沖上熱搜,工作人員:請大家不要過度解讀傳播

魯中晨報
2026-04-23 07:04:04
遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

極目新聞
2026-04-23 10:00:21
太尷尬!樓上夫妻生活太猛烈,打擾女兒睡覺,樓下要求9點前做完

太尷尬!樓上夫妻生活太猛烈,打擾女兒睡覺,樓下要求9點前做完

譚談社會
2026-04-20 20:55:32
斯諾克世錦賽最新戰報:16強誕生中國4勝5負丁俊暉戰趙心童被看衰

斯諾克世錦賽最新戰報:16強誕生中國4勝5負丁俊暉戰趙心童被看衰

曹說體育
2026-04-23 10:12:58
1場10-2后,塞爾比3年首進世錦賽16強!沖第5冠,送吳宜澤7連敗?

1場10-2后,塞爾比3年首進世錦賽16強!沖第5冠,送吳宜澤7連敗?

劉姚堯的文字城堡
2026-04-23 08:33:03
悲哀!26歲女孩大半年攢下1萬元,想去旅游被母親怒斥不管弟弟了

悲哀!26歲女孩大半年攢下1萬元,想去旅游被母親怒斥不管弟弟了

火山詩話
2026-04-23 09:54:06
塞蒂恩:2-8輸拜仁那場比賽直接毀了我,換成誰都未必扛得住

塞蒂恩:2-8輸拜仁那場比賽直接毀了我,換成誰都未必扛得住

懂球帝
2026-04-23 13:10:50
廣州這一刀砍下去,學區房、名校、家長焦慮,全變了

廣州這一刀砍下去,學區房、名校、家長焦慮,全變了

牛鍋巴小釩
2026-04-23 07:43:12
“找到一個媳婦算你牛”,農村家長曬7兒1女,被群嘲后看清現實

“找到一個媳婦算你牛”,農村家長曬7兒1女,被群嘲后看清現實

妍妍教育日記
2026-04-20 19:42:54
以為越南是小中華?北越罵南越是印度種,這才是真實的撕裂感啊

以為越南是小中華?北越罵南越是印度種,這才是真實的撕裂感啊

丁丁鯉史紀
2026-03-03 11:33:48
1799元!蘋果限定新品上架,4月24日開售

1799元!蘋果限定新品上架,4月24日開售

全是技能
2026-04-23 17:00:46
湖人G2大勝后迎來利好!東契奇復出時間更明朗,里夫斯復出在即

湖人G2大勝后迎來利好!東契奇復出時間更明朗,里夫斯復出在即

夜白侃球
2026-04-23 10:41:25
美海軍上將:美國正進行二戰結束以來最大規模潛艇建造,“馬薩諸塞”號新型攻擊核潛艇上月已正式入列

美海軍上將:美國正進行二戰結束以來最大規模潛艇建造,“馬薩諸塞”號新型攻擊核潛艇上月已正式入列

極目新聞
2026-04-23 10:57:06
慈禧嘴里那顆8億的夜明珠,下落已經查明:原來是她拿來干那種事

慈禧嘴里那顆8億的夜明珠,下落已經查明:原來是她拿來干那種事

近史談
2026-04-14 18:51:51
高薪低能?萊斯特城隊內20人合計周薪超77萬鎊,但仍降入英甲

高薪低能?萊斯特城隊內20人合計周薪超77萬鎊,但仍降入英甲

懂球帝
2026-04-23 05:03:54
谷歌向左、李飛飛往右,阿里世界模型「快樂生蠔」殺出第三條路

谷歌向左、李飛飛往右,阿里世界模型「快樂生蠔」殺出第三條路

機器之心Pro
2026-04-20 10:26:40
用了16年的學位證校方稱從未授予,當事人自我舉報求證真偽 炒作還是確有其事?

用了16年的學位證校方稱從未授予,當事人自我舉報求證真偽 炒作還是確有其事?

紅星新聞
2026-04-22 19:10:31
曝馬寧出任亞冠決賽第四官員!獲亞足聯認可,沙特媒體被打臉

曝馬寧出任亞冠決賽第四官員!獲亞足聯認可,沙特媒體被打臉

奧拜爾
2026-04-23 18:52:23
【聚焦】醫生不再通宵!5月1日起,全國二級以上公立醫院執行:12小時輪班制全面推開

【聚焦】醫生不再通宵!5月1日起,全國二級以上公立醫院執行:12小時輪班制全面推開

魏子檸說
2026-04-22 00:15:15
許世友攜槍赴京悼念毛主席,遭機長拒飛,他質問是誰下的命令?

許世友攜槍赴京悼念毛主席,遭機長拒飛,他質問是誰下的命令?

輿圖看世界
2026-04-05 12:35:06
2026-04-23 20:03:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12522文章數 176457關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女生赴泰過潑水節被賣電詐園 家屬遭威脅報警就"輪奸"

頭條要聞

女生赴泰過潑水節被賣電詐園 家屬遭威脅報警就"輪奸"

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

時尚
教育
健康
旅游
軍事航空

這4件衣服,從春天穿到夏天都很好看

教育要聞

教孩子賺錢比讀研、讀博重要一百倍

干細胞如何讓燒燙傷皮膚"再生"?

旅游要聞

偶遇大理天子莊,村后山頂孤伶伶一屋一樹,難道它叫“天子廟”?

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進入關懷版