網易首頁 > 網易號 > 正文申請入駐

首篇「Attention Sink」綜述：Transformer中注意力匯聚全景解析

2026-04-24 12:00:02　來源: 機器之心Pro

河北舉報

分享至

幾乎所有 Transformer 都在做一件反常的事：把大量注意力集中到少數幾個特定 Token 上。這不是 bug，而是 Transformer 固有的「注意力匯聚」（Attention Sink）。首篇系統性綜述，帶你從利用、理解到消除，全面掌握這一核心現象。

過去幾年，研究者在 Transformer 的「黑盒」里發現了一個普遍卻反常的現象：無論輸入什么內容，模型總是把大量注意力集中到第一個 Token、[SEP] 或圖像背景補丁這類毫無信息量的位置上。傳統語言模型有，大語言模型有，ViT 有，多模態大模型也有。

這一注意力匯聚（Attention Sink）模式，深刻影響了模型的訓練、推理動態，給注意力機制的理解帶來了挑戰，并且還會引發幻覺等問題。盡管 Attention Sink 引發了眾多討論和前沿的研究，但這一領域始終缺乏系統的全面梳理。

來自清華大學、香港大學、美團 LongCat 團隊等機構的研究者聯合發布了首篇 Attention Sink 系統綜述，系統梳理了超過 180 篇相關研究。通過統計這些研究的發表時間和主題，綜述勾勒出這一領域的清晰演進軌跡：

初期（2023 年起）—— 基本利用：早期研究的重點是對 Attention Sink 的實證利用，關注如何利用其固有特性或應對其直接影響。這一階段將 Attention Sink 視為可被利用的實際現象。
中期（2024 年起）—— 機制理解：隨著實證應用成熟，研究重點開始深入探究 Attention Sink 背后的成因。這一階段聚焦于可解釋性，旨在精細理解驅動這一現象的內部機制。
近期（2025 年起）—— 策略性消除：基于機理洞察，最新的研究重點轉向直接的結構性消除。開發系統的消除框架已成為當前研究的前沿。

這一從「基本利用」到「機制理解」再到「策略性消除」的演進，正是綜述核心框架的由來。文章通過三段式框架，系統梳理了這一現象的成因、價值與完整解法。

論文標題：Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation
論文鏈接：https://arxiv.org/abs/2604.10098
GitHub 項目：https://github.com/ZunhaiSu/Awesome-Attention-Sink

基本利用：初步駕馭 Attention Sink

在利用 Attention Sink 的多種策略中，最直接的方式是Sink Token 保留（Sink Token Preservation）：將 Sink 作為永久性的注意力錨點加以保留，在壓縮中穩定注意力分布。注意力重分配（Attention Redistribution）則更進一步，主動識別 Sink 并將其占用的權重轉移到真正承載語義的Token上。可學習前綴 token（Learnable Prefix Tokens）不再依賴自然形成的Sink，而是在輸入序列前端插入可訓練的前綴，成為顯式、可控的替代性Sink。至于Sink Token 重利用（Sink Token Repurposing），則另辟蹊徑，利用Sink穩定、高注意力的固有屬性，完成原始注意力管理之外的專門任務，如攻擊植入、防御檢測等。

從策略邏輯看：Sink Token 保留采取被動方式；注意力重分配實施主動干預；可學習前綴 Token 采用更主動的構造策略；Sink Token 重利用則借助Sink的固有屬性完成基礎注意力管理之外的專門任務。

機制理解：洞悉 Attention Sink 根源

Attention Sink 為何必然出現？現有解釋從不同層面給出了答案。Softmax 限制與空操作理論（Softmax Limitations & No-Op Theory）：Softmax 求和為 1 的剛性約束，使得當查詢與所有鍵都不相關時，模型沒有「什么都不選」的選項。于是被迫將注意力集中到語義無關的Token上，同時將這些Token的值向量學得極小，從而使注意力輸出趨近于零，實現空操作。異常值電路（Outlier Circuits）則揭示了模型內部存在系統性的離群值，它們相互關聯，共同導致了Sink的產生。隱式注意力偏置（Implicit Attention Bias）發現，SinkToken對每個查詢的貢獻幾乎恒定，本質上充當了固定偏置項。幾何錨點（Geometric Anchoring）進一步表明，Sink在高維表示空間中充當穩定參考點，起到錨定和穩定表示空間的作用。此外，還包括 Anti-Overmixing、Active-Dormant Attention、Mix-Compress-Refine 等其他理論。

從分析層面看：Softmax 限制與空操作理論闡明的是數學根源，異常值電路揭示的是數值機制，隱式注意力偏置刻畫的是功能角色，幾何錨點描述的是表示空間中的功能特點。多個層面彼此互補，共同勾勒出Sink的全貌。

策略性消除：系統消除 Attention Sink

基于對成因的深刻理解，研究者開始從架構上系統消除 Attention Sink。門控注意力（Gated Attention）在注意力輸出后添加可學習的門控單元，模型需要空操作時直接關門，無需制造極端 Logits 和SinkToken。改良 Softmax（Modified Softmax Functions）則直接修改 Softmax 函數，從根本上消除求和為 1 的約束。可學習注意力偏置（Learnable Attention Bias）顯式引入偏置參數，讓模型用干凈的顯式偏置替代隱式Sink。預訓練干預（Pre-training Interventions）不修改架構，而是在訓練過程中施加干預，從訓練抑制Sink的形成。此外，其他消除技術還包括離群值驅動重縮放（Outlier-Driven Rescaling）、架構隔離（Architectural Isolation）等。

從策略類型看，這些消除方法可以歸為兩類。第一類是提供顯式替代品，使 Attention Sink 不再必要，包括門控注意力和可學習注意力偏置。第二類是切斷因果鏈，從根源消除 Attention Sink，包括改良 Softmax 和預訓練干預。

未來方向

基于對 180 多篇論文的系統梳理，綜述指出了多個值得投入的未來方向。在高效輕量級處理（Efficient Lightweight Processing）方面，需要開發低延遲的注意力重分配、與高效內核兼容的改良 Softmax，避免Sink處理本身成為推理瓶頸。預訓練模型輕量適配（Lightweight Adaptation for Pretrained Models）則利用參數高效遷移技術，將Sink抑制能力注入已訓練好的模型中，從而避免從頭訓練的高昂成本。此外，新興架構探索（Emerging Architectures Exploration）也值得關注，研究混合線性注意力、3D Transformer 等新架構中Sink的表現與應用。其他方向還包括：訓練動態研究、統一理論框架、標準化評測基準、跨架構遷移、多技術協同集成等。

Paper List 指南

綜述團隊已將 180 多篇論文按三大板塊和應用場景分類整理，每篇標注了類別，方便快速定位。

完整 Paper List 請訪問原文或 GitHub 項目：

論文鏈接：https://arxiv.org/abs/2604.10098
GitHub 項目：https://github.com/ZunhaiSu/Awesome-Attention-Sink

結語

本綜述通過基本利用 → 機制理解 → 策略性消除的框架，首次系統梳理了 Attention Sink 從現象到解決方案的完整路線圖。這一領域既有理論深度，也具備明確的工程價值。

綜述與配套的 Paper List 旨在為社區提供一份實用的參考，幫助讀者快速把握領域全貌與演進邏輯，推動 Transformer 從被動接受Sink走向主動駕馭Sink的新階段。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.