網易首頁 > 網易號 > 正文申請入駐

AI 術語通俗詞典：自注意力機制

2026-05-25 07:02:05　來源: MediaTea

湖南舉報

分享至

自注意力機制是深度學習、自然語言處理、Transformer、大語言模型和多模態模型中非常核心的一個術語。它用來描述一種讓序列中每個位置主動“查看”同一序列中其他位置，并根據相關程度匯總信息的計算方法。換句話說，自注意力機制是在回答：模型怎樣判斷一句話中哪些詞彼此更相關，并把重要上下文信息融合到當前表示中。

如果說 RNN 按順序一步步讀取文本，CNN 主要關注局部窗口內的信息，那么自注意力機制更強調“全局關聯”。它允許一個 token 在一次計算中直接關注序列中的其他 token，而不必只依賴相鄰位置逐步傳遞信息。

因此，自注意力機制常用于 Transformer、BERT、GPT、大語言模型、機器翻譯、文本理解、文本生成、圖像 Transformer、多模態大模型和擴散模型中的條件建模，是理解現代人工智能模型結構的重要基礎概念。

一、基本概念：什么是自注意力機制

自注意力機制（Self-Attention）是一種在同一個序列內部計算元素之間關系的方法。

例如，一個句子：

這只貓坐在墊子上，因為它很舒服。

這里的“它”到底指什么，需要結合前文判斷。

自注意力機制可以讓“它”這個 token 去關注前面的“貓”“墊子”等 token，并根據相關程度匯總上下文信息。

從通俗角度看：自注意力機制像是在句子內部給每個詞安排一次“查閱上下文”的機會。

每個 token 不只是看自己，還會問：當前這個 token 應該重點參考哪些其他 token？

例如，在句子中：

我喜歡機器學習，因為它能發現數據中的規律。

“它”可能需要重點關注“機器學習”，而不是“我”。

自注意力機制的目標，就是讓模型自動學習這種關聯關系。

在一個長度為 L 的序列中，每個 token 都可以和其他 token 建立聯系。經過自注意力計算后，每個位置都會得到一個融合上下文的新表示。

可以簡單理解為：

原始 token 表示 → 計算 token 之間的相關性 → 加權匯總上下文 → 新的 token 表示

因此，自注意力不是簡單地找關鍵詞，而是讓模型根據訓練任務自動學習“哪些位置對當前表示更重要”。

二、為什么需要自注意力機制

自注意力機制之所以重要，是因為語言、圖像和多模態數據中都存在復雜的上下文關系。

在自然語言中，一個詞的含義常常依賴其他詞。

例如：

蘋果發布了新產品。

這里的“蘋果”更可能指公司。

而在：

我吃了一個蘋果。

這里的“蘋果”更可能指水果。

同一個詞，在不同上下文中含義可能不同。

自注意力機制可以讓模型根據上下文動態調整每個 token 的表示。

它的主要作用包括：

? 建立序列中不同位置之間的關聯

? 捕捉長距離依賴關系

? 根據上下文調整詞語含義

? 支持并行計算

? 為 Transformer 提供核心計算結構

普通 RNN 需要按順序傳遞信息。如果兩個詞相距很遠，信息要經過很多時間步才能傳到。

自注意力機制則可以讓任意兩個 token 直接建立聯系。

從通俗角度看：RNN 像排隊傳話，一個詞的信息要一站站傳過去。自注意力像開會討論，每個詞都可以直接聽取其他詞的意見。

這也是 Transformer 能夠在大規模語言模型中廣泛使用的重要原因之一。

三、Q、K、V：自注意力中的三個角色

自注意力機制中最常見的三個概念是：

? Query，查詢，常記作Q

? Key，鍵，常記作K

? Value，值，常記作V

這三個名字看起來抽象，但可以用“查資料”來理解。

1、Query：當前想找什么

Query 表示當前位置發出的查詢。它代表當前 token 想從上下文中尋找什么信息。

例如，“它”這個 token 可能會發出一個查詢：我應該指代誰？

2、Key：每個位置提供的匹配線索

Key 表示每個 token 提供給別人匹配的線索。

模型會用 Query 和 Key 計算相關性。

如果某個 token 的 Key 與當前 Query 很匹配，說明它對當前 token 可能重要。

3、Value：真正被匯總的信息

Value 表示每個 token 實際提供的信息內容。

注意力權重計算出來后，會對 Value 做加權求和，得到當前位置的新表示。

從通俗角度看：

?Q：我在找什么

?K：你能不能匹配我的需求

?V：如果匹配，我從你那里取走什么信息

例如，當前 token 是“它”。它的 Query 會和其他 token 的 Key 做匹配。

如果“機器學習”的 Key 與“它”的 Query 很相關，那么“機器學習”的 Value 就會以較大權重參與“它”的新表示。

在實際模型中，Q、K、V 都是由輸入向量通過線性變換得到的：

其中：

? X 表示輸入序列的向量矩陣

? W_Q、W_K、W_V 表示可學習的權重矩陣

? Q、K、V 分別表示查詢矩陣、鍵矩陣和值矩陣

這說明 Q、K、V 不是人工指定的，而是在訓練過程中學習出來的表示。

四、自注意力的核心計算過程

自注意力的核心計算可以分成四步：

生成 Q、K、V → 計算相關性分數 → 歸一化為注意力權重 → 加權匯總 Value

圖 1：自注意力機制的基本計算流程

1、生成 Q、K、V

給定輸入序列向量 X，先通過三個不同的線性變換得到 Q、K、V：

其中：

? X 表示輸入 token 表示

? W_Q、W_K、W_V 是可學習參數

? Q、K、V 是自注意力計算需要的三組向量

2、計算相關性分數

用 Q 和 K 計算 token 之間的相關性。

常見做法是點積：

其中：

? S 表示相關性分數矩陣

? Q 表示查詢矩陣

? K? 表示 K 的轉置

如果第 i 個 token 的 Query 與第 j 個 token 的 Key 點積較大，說明第 i 個 token 更應該關注第 j 個 token。

為了避免分數過大，通常會除以 √d_k：

其中：

? d_k 表示 Key 向量維度

? √d_k 用于縮放點積結果，使訓練更穩定

3、歸一化為注意力權重

接著使用 softmax 把相關性分數變成權重：

其中：

? A 表示注意力權重矩陣

? softmax 讓每一行權重加起來為 1

每一行可以理解為：當前 token 對所有 token 的關注比例

例如：

它 → 規律：0.17

這表示“它”更大程度參考“機器學習”。

4、加權匯總 Value

最后，用注意力權重 A 對 V 做加權求和：

其中：

? O 表示自注意力輸出

? A 表示注意力權重

? V 表示值矩陣

完整公式通常寫為：

從通俗角度看：自注意力先判斷“該看誰”，再把被關注位置的信息按權重匯總起來。

五、注意力矩陣：誰關注誰

自注意力機制會產生一個注意力矩陣。

圖 2：注意力矩陣示意圖

假設序列長度為 L，那么注意力矩陣的形狀通常是：

其中：

? 行表示當前正在更新的 token

? 列表示被它關注的 token

? 每個元素表示一個關注權重

例如，對于序列：

我 / 喜歡 / 機器學習 / 它

注意力矩陣可以理解為：

它        ·     ·     高     ·

如果“它”這一行在“機器學習”這一列權重較高，就說明模型在更新“它”的表示時重點參考了“機器學習”。

從通俗角度看：注意力矩陣就像一張“關注關系表”。它記錄了每個 token 在理解自己時，分別參考了其他 token 多少信息。

需要注意：注意力權重不是人類手工標注的語法關系。它是模型為了完成訓練任務自動學習出來的計算權重。

有時注意力圖可以幫助理解模型行為，但不能簡單等同于人類語言學解釋。

六、多頭自注意力：從多個角度看上下文

在 Transformer 中，常用的不是單個自注意力，而是多頭自注意力（Multi-Head Self-Attention）。

它的核心思想是：讓模型用多個不同的注意力頭，從不同角度學習 token 之間的關系。

例如，在一句話中，一個注意力頭可能關注主語和謂語關系，另一個注意力頭可能關注指代關系，還有一個注意力頭可能關注局部短語結構。

圖 3：多頭注意力與因果掩碼

從通俗角度看：單頭注意力像一個人只從一個角度讀句子。多頭注意力像多個專家同時讀句子，每個人關注不同線索，最后把意見匯總起來。

多頭注意力可以表示為：

多個頭的結果會拼接起來：

其中：

? head_i 表示第 i 個注意力頭

? h 表示注意力頭數量

? Concat 表示拼接

? W_O 表示輸出投影矩陣

多頭機制可以增強模型表達能力，使模型同時捕捉多種上下文關系。

七、自注意力與位置編碼

自注意力機制本身主要計算 token 之間的關系，但它并不天然知道 token 的順序。

例如，從純自注意力角度看：

我喜歡你

和：

你喜歡我

如果沒有位置信息，模型很難知道二者順序不同。

因此，Transformer 通常需要加入位置編碼或位置嵌入。

位置編碼的作用是：告訴模型每個 token 在序列中的位置。

輸入 Transformer 前，Token Embedding 通常會與 Position Embedding 結合：

其中：

? E_token 表示 Token embedding

? E_position 表示位置 Embedding

? X 表示加入位置信息后的輸入表示

從通俗角度看：

? Token Embedding 告訴模型“這個詞是什么”

? Position Embedding 告訴模型“這個詞在哪里”

自注意力機制再根據這些表示計算 token 之間的關系。

因此，自注意力負責“誰和誰相關”，位置編碼負責“誰在什么位置”。

二者配合，Transformer 才能同時理解內容和順序。

八、自注意力的優勢、局限與使用注意事項

1、自注意力的主要優勢

自注意力最大的優勢是可以直接建模全局關系。

任意兩個 token 之間都可以通過注意力權重建立聯系，不需要像 RNN 那樣一步步傳遞。

其次，自注意力適合并行計算。

在訓練時，一個序列中的多個位置可以同時計算，這比按時間步順序處理的 RNN 更適合大規模加速。

再次，自注意力具有較強的上下文建模能力。

同一個詞在不同上下文中可以得到不同表示。

例如，“蘋果”在不同句子中可以表示水果，也可以表示公司。

從通俗角度看，自注意力的優勢在于：它讓模型可以根據上下文動態決定“當前應該重點看哪里”。

2、自注意力的主要局限

自注意力也有局限。

首先，標準自注意力的計算成本較高。

如果序列長度為 L，注意力矩陣大小為：

這意味著長文本會帶來較大計算和顯存壓力。

通常可以把標準注意力復雜度近似理解為：

其中：

? L 表示序列長度

? O(L2) 表示計算量隨序列長度平方級增長

其次，自注意力本身不包含順序信息，需要位置編碼配合。

再次，注意力權重不一定等于可解釋因果關系。

某個 token 被高權重關注，并不一定說明它就是人類理解中的唯一原因。

3、使用自注意力時需要注意的問題

使用自注意力時，需要注意：

? Q、K、V 是由輸入線性變換得到的

? 注意力權重來自 Q 與 K 的相似度

? Value 才是真正被加權匯總的信息

? 多頭注意力可以從多個角度建模關系

? 自注意力需要位置編碼補充順序信息

? 長序列會帶來較高計算成本

? 注意力圖可以輔助理解，但不能過度解釋

? 生成式模型中通常使用因果掩碼，避免看到未來 token

最后一點尤其重要。

在 GPT 類模型中，當前位置只能關注自己和之前的 token，不能偷看后面的 token。

這種機制稱為因果自注意力（Causal Self-Attention）。

九、Python 示例

下面給出幾個簡單示例，用來幫助理解自注意力的基本計算。

示例 1：用 PyTorch 手寫簡化版自注意力

輸出形狀通常為：

輸出形狀： torch.Size([1, 4, 8])

其中：

? 4 × 4 的注意力權重矩陣表示 4 個 token 兩兩之間的關注關系

? 輸出仍然是 4 個 token 的表示

? 每個 token 的輸出已經融合了上下文信息

示例 2：觀察注意力矩陣

輸出是一個 4 × 4 矩陣?？梢园阉斫鉃椋?/p>

第 4 行：token 4 對所有 token 的關注比例

每一行的數值加起來約等于 1。

示例 3：使用 PyTorch 的 MultiheadAttention

輸出形狀通常為：

注意力權重形狀： torch.Size([2, 5, 5])

這里 query、key、value 都來自同一個 x，因此這是自注意力。

如果 query 來自一個序列，key 和 value 來自另一個序列，則通常稱為交叉注意力。

示例 4：因果掩碼

在生成式模型中，當前位置不能看到未來 token。可以用上三角掩碼實現：

輸出類似：

        [False, False, False, False, False]])

這個掩碼表示：

? 第 1 個 token 不能看后面的 token

? 第 2 個 token 只能看第 1、2 個 token

? 第 3 個 token 只能看第 1、2、3 個 token

? 以此類推

從通俗角度看：因果掩碼防止模型在生成時提前看到未來答案。

小結

自注意力機制是一種讓序列中每個 token 根據相關性主動參考其他 token 的方法。它通過 Q、K、V 計算注意力權重，再對 Value 加權匯總，得到融合上下文的新表示。多頭自注意力可以從多個角度捕捉關系，位置編碼則補充順序信息。對初學者而言，可以把自注意力理解為：模型在理解每個詞時，自動判斷當前應該重點參考上下文中的哪些詞。

“點贊有美意，贊賞是鼓勵”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.