網易首頁 > 網易號 > 正文 申請入駐

首篇「Attention Sink」綜述:Transformer中注意力匯聚全景解析

0
分享至



幾乎所有 Transformer 都在做一件反常的事:把大量注意力集中到少數幾個特定 Token 上。這不是 bug,而是 Transformer 固有的「注意力匯聚」(Attention Sink)。首篇系統性綜述,帶你從利用、理解到消除,全面掌握這一核心現象。

過去幾年,研究者在 Transformer 的「黑盒」里發現了一個普遍卻反常的現象:無論輸入什么內容,模型總是把大量注意力集中到第一個 Token、[SEP] 或圖像背景補丁這類毫無信息量的位置上。傳統語言模型有,大語言模型有,ViT 有,多模態大模型也有。

這一注意力匯聚(Attention Sink)模式,深刻影響了模型的訓練、推理動態,給注意力機制的理解帶來了挑戰,并且還會引發幻覺等問題。盡管 Attention Sink 引發了眾多討論和前沿的研究,但這一領域始終缺乏系統的全面梳理。



來自清華大學、香港大學、美團 LongCat 團隊等機構的研究者聯合發布了首篇 Attention Sink 系統綜述,系統梳理了超過 180 篇相關研究。通過統計這些研究的發表時間和主題,綜述勾勒出這一領域的清晰演進軌跡:



  • 初期(2023 年起)—— 基本利用:早期研究的重點是對 Attention Sink 的實證利用,關注如何利用其固有特性或應對其直接影響。這一階段將 Attention Sink 視為可被利用的實際現象。
  • 中期(2024 年起)—— 機制理解:隨著實證應用成熟,研究重點開始深入探究 Attention Sink 背后的成因。這一階段聚焦于可解釋性,旨在精細理解驅動這一現象的內部機制。
  • 近期(2025 年起)—— 策略性消除:基于機理洞察,最新的研究重點轉向直接的結構性消除。開發系統的消除框架已成為當前研究的前沿。

這一從「基本利用」到「機制理解」再到「策略性消除」的演進,正是綜述核心框架的由來。文章通過三段式框架,系統梳理了這一現象的成因、價值與完整解法。



  • 論文標題:Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation
  • 論文鏈接:https://arxiv.org/abs/2604.10098
  • GitHub 項目:https://github.com/ZunhaiSu/Awesome-Attention-Sink

基本利用:初步駕馭 Attention Sink

在利用 Attention Sink 的多種策略中,最直接的方式是Sink Token 保留(Sink Token Preservation):將 Sink 作為永久性的注意力錨點加以保留,在壓縮中穩定注意力分布。注意力重分配(Attention Redistribution)則更進一步,主動識別 Sink 并將其占用的權重轉移到真正承載語義的Token上。可學習前綴 token(Learnable Prefix Tokens)不再依賴自然形成的Sink,而是在輸入序列前端插入可訓練的前綴,成為顯式、可控的替代性Sink。至于Sink Token 重利用(Sink Token Repurposing),則另辟蹊徑,利用Sink穩定、高注意力的固有屬性,完成原始注意力管理之外的專門任務,如攻擊植入、防御檢測等。

從策略邏輯看:Sink Token 保留采取被動方式;注意力重分配實施主動干預;可學習前綴 Token 采用更主動的構造策略;Sink Token 重利用則借助Sink的固有屬性完成基礎注意力管理之外的專門任務。

機制理解:洞悉 Attention Sink 根源

Attention Sink 為何必然出現?現有解釋從不同層面給出了答案。Softmax 限制與空操作理論(Softmax Limitations & No-Op Theory):Softmax 求和為 1 的剛性約束,使得當查詢與所有鍵都不相關時,模型沒有「什么都不選」的選項。于是被迫將注意力集中到語義無關的Token上,同時將這些Token的值向量學得極小,從而使注意力輸出趨近于零,實現空操作。異常值電路(Outlier Circuits)則揭示了模型內部存在系統性的離群值,它們相互關聯,共同導致了Sink的產生。隱式注意力偏置(Implicit Attention Bias)發現,SinkToken對每個查詢的貢獻幾乎恒定,本質上充當了固定偏置項。幾何錨點(Geometric Anchoring)進一步表明,Sink在高維表示空間中充當穩定參考點,起到錨定和穩定表示空間的作用。此外,還包括 Anti-Overmixing、Active-Dormant Attention、Mix-Compress-Refine 等其他理論。

從分析層面看:Softmax 限制與空操作理論闡明的是數學根源,異常值電路揭示的是數值機制,隱式注意力偏置刻畫的是功能角色,幾何錨點描述的是表示空間中的功能特點。多個層面彼此互補,共同勾勒出Sink的全貌。

策略性消除:系統消除 Attention Sink


基于對成因的深刻理解,研究者開始從架構上系統消除 Attention Sink。門控注意力(Gated Attention)在注意力輸出后添加可學習的門控單元,模型需要空操作時直接關門,無需制造極端 Logits 和SinkToken。改良 Softmax(Modified Softmax Functions)則直接修改 Softmax 函數,從根本上消除求和為 1 的約束。可學習注意力偏置(Learnable Attention Bias)顯式引入偏置參數,讓模型用干凈的顯式偏置替代隱式Sink。預訓練干預(Pre-training Interventions)不修改架構,而是在訓練過程中施加干預,從訓練抑制Sink的形成。此外,其他消除技術還包括離群值驅動重縮放(Outlier-Driven Rescaling)、架構隔離(Architectural Isolation)等。

從策略類型看,這些消除方法可以歸為兩類。第一類是提供顯式替代品,使 Attention Sink 不再必要,包括門控注意力和可學習注意力偏置。第二類是切斷因果鏈,從根源消除 Attention Sink,包括改良 Softmax 和預訓練干預。

未來方向


基于對 180 多篇論文的系統梳理,綜述指出了多個值得投入的未來方向。在高效輕量級處理(Efficient Lightweight Processing)方面,需要開發低延遲的注意力重分配、與高效內核兼容的改良 Softmax,避免Sink處理本身成為推理瓶頸。預訓練模型輕量適配(Lightweight Adaptation for Pretrained Models)則利用參數高效遷移技術,將Sink抑制能力注入已訓練好的模型中,從而避免從頭訓練的高昂成本。此外,新興架構探索(Emerging Architectures Exploration)也值得關注,研究混合線性注意力、3D Transformer 等新架構中Sink的表現與應用。其他方向還包括:訓練動態研究、統一理論框架、標準化評測基準、跨架構遷移、多技術協同集成等。

Paper List 指南


綜述團隊已將 180 多篇論文按三大板塊和應用場景分類整理,每篇標注了類別,方便快速定位。

完整 Paper List 請訪問原文或 GitHub 項目:

  • 論文鏈接:https://arxiv.org/abs/2604.10098
  • GitHub 項目:https://github.com/ZunhaiSu/Awesome-Attention-Sink



結語


本綜述通過基本利用 → 機制理解 → 策略性消除的框架,首次系統梳理了 Attention Sink 從現象到解決方案的完整路線圖。這一領域既有理論深度,也具備明確的工程價值。

綜述與配套的 Paper List 旨在為社區提供一份實用的參考,幫助讀者快速把握領域全貌與演進邏輯,推動 Transformer 從被動接受Sink走向主動駕馭Sink的新階段。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
余承東最后的倔強:比小米便宜100塊,然后呢?

余承東最后的倔強:比小米便宜100塊,然后呢?

虎嗅APP
2026-04-24 04:36:06
“最強地級市”迎來新市長

“最強地級市”迎來新市長

觀察者網
2026-04-23 15:59:12
這跟不穿有啥區別?好萊塢女星走紐約紅毯,穿衣個個大膽,太前衛

這跟不穿有啥區別?好萊塢女星走紐約紅毯,穿衣個個大膽,太前衛

法老不說教
2026-04-23 19:09:50
上海女子去湖南男友家,6天瘦8斤,看到阿姨做的飯菜:無福消受

上海女子去湖南男友家,6天瘦8斤,看到阿姨做的飯菜:無福消受

馬蹄燙嘴說美食
2026-04-24 05:06:20
內存漲價了,安卓終于想起要管流氓 APP 了

內存漲價了,安卓終于想起要管流氓 APP 了

互聯網放大鏡
2026-04-23 13:34:06
羅德里:再這么多比賽我踢不到32歲,歐洲杯奪冠后我筋疲力盡

羅德里:再這么多比賽我踢不到32歲,歐洲杯奪冠后我筋疲力盡

懂球帝
2026-04-24 01:27:07
官宣退出G3和G4!今年冠軍,麻煩了…

官宣退出G3和G4!今年冠軍,麻煩了…

左右為籃
2026-04-23 21:34:07
98年劉平平成為植物人,王光美哭成淚人,劉源將姐姐接到家里照顧

98年劉平平成為植物人,王光美哭成淚人,劉源將姐姐接到家里照顧

雍親王府
2026-04-24 10:15:06
布朗教練:不擔心布里奇斯的狀態 雪藏他是因為戰術需要

布朗教練:不擔心布里奇斯的狀態 雪藏他是因為戰術需要

北青網-北京青年報
2026-04-24 13:56:06
原來她早已去世,身高2米08,多次為國奪冠,24歲就退役終生未婚

原來她早已去世,身高2米08,多次為國奪冠,24歲就退役終生未婚

白面書誏
2026-04-23 19:19:24
伊朗接班人面部嚴重燒傷致發聲困難 公開講話被代讀

伊朗接班人面部嚴重燒傷致發聲困難 公開講話被代讀

桂系007
2026-04-23 23:56:56
印度下最后通牒,要求中方必須賣尿素,中國:抱歉,沒有義務

印度下最后通牒,要求中方必須賣尿素,中國:抱歉,沒有義務

涵豆說娛
2026-04-24 12:10:09
王文靈,被免職

王文靈,被免職

極目新聞
2026-04-24 12:29:33
保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個好故事
2026-03-11 17:26:56
連云港、南通、鹽城,明晚“蘇超”,請注意→

連云港、南通、鹽城,明晚“蘇超”,請注意→

江蘇警方
2026-04-24 12:31:56
不管樓層多高,這5個樓層才是最吉利樓層,不是迷信,而是共識

不管樓層多高,這5個樓層才是最吉利樓層,不是迷信,而是共識

室內設計師有料兒
2026-04-24 10:42:26
5月1日新規落地!新一輪嚴打正式開啟,和80年代嚴打有啥不一樣

5月1日新規落地!新一輪嚴打正式開啟,和80年代嚴打有啥不一樣

李博世財經
2026-04-24 10:49:39
美國不要的,中國也堅決不要!

美國不要的,中國也堅決不要!

阿七說史
2026-04-24 05:00:03
“全美最受歡迎的漢堡”要來北京了!劉嘉玲、奧巴馬都曾被“圈粉”!網友催開業…

“全美最受歡迎的漢堡”要來北京了!劉嘉玲、奧巴馬都曾被“圈粉”!網友催開業…

北京商報
2026-04-21 21:54:51
金莎近照曝光翻車!妝容失敗像大媽,穿寬松裙子被猜懷孕

金莎近照曝光翻車!妝容失敗像大媽,穿寬松裙子被猜懷孕

小徐講八卦
2026-04-24 06:06:44
2026-04-24 14:23:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12847文章數 142635關注度
往期回顧 全部

科技要聞

剛剛,DeepSeek-V4 預覽版發布 百萬上下文

頭條要聞

華誼兄弟被申請破產:曾坐擁百位明星 如今還不起千萬

頭條要聞

華誼兄弟被申請破產:曾坐擁百位明星 如今還不起千萬

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

王思聰被綠!戀愛期間女友被金主包養

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

全景iDrive 續航近800km 新款寶馬7系/i7亮相

態度原創

本地
親子
藝術
公開課
軍事航空

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

親子要聞

四維就發現孩子大拇指有問題,家長四處求醫終于“激活”拇指

藝術要聞

16幅 佐恩高清油畫 | 瑞典著名畫家

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進入關懷版