无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI 術語通俗詞典:自注意力機制

0
分享至

自注意力機制是深度學習、自然語言處理、Transformer、大語言模型和多模態模型中非常核心的一個術語。它用來描述一種讓序列中每個位置主動“查看”同一序列中其他位置,并根據相關程度匯總信息的計算方法。換句話說,自注意力機制是在回答:模型怎樣判斷一句話中哪些詞彼此更相關,并把重要上下文信息融合到當前表示中。

如果說 RNN 按順序一步步讀取文本,CNN 主要關注局部窗口內的信息,那么自注意力機制更強調“全局關聯”。它允許一個 token 在一次計算中直接關注序列中的其他 token,而不必只依賴相鄰位置逐步傳遞信息。

因此,自注意力機制常用于 Transformer、BERT、GPT、大語言模型、機器翻譯、文本理解、文本生成、圖像 Transformer、多模態大模型和擴散模型中的條件建模,是理解現代人工智能模型結構的重要基礎概念。

一、基本概念:什么是自注意力機制

自注意力機制(Self-Attention)是一種在同一個序列內部計算元素之間關系的方法。

例如,一個句子:

這只貓坐在墊子上,因為它很舒服。

這里的“它”到底指什么,需要結合前文判斷。

自注意力機制可以讓“它”這個 token 去關注前面的“貓”“墊子”等 token,并根據相關程度匯總上下文信息。

從通俗角度看:自注意力機制像是在句子內部給每個詞安排一次“查閱上下文”的機會。

每個 token 不只是看自己,還會問:當前這個 token 應該重點參考哪些其他 token?

例如,在句子中:

我喜歡機器學習,因為它能發現數據中的規律。

“它”可能需要重點關注“機器學習”,而不是“我”。

自注意力機制的目標,就是讓模型自動學習這種關聯關系。

在一個長度為 L 的序列中,每個 token 都可以和其他 token 建立聯系。經過自注意力計算后,每個位置都會得到一個融合上下文的新表示。

可以簡單理解為:

原始 token 表示 → 計算 token 之間的相關性 → 加權匯總上下文 → 新的 token 表示

因此,自注意力不是簡單地找關鍵詞,而是讓模型根據訓練任務自動學習“哪些位置對當前表示更重要”。

二、為什么需要自注意力機制

自注意力機制之所以重要,是因為語言、圖像和多模態數據中都存在復雜的上下文關系。

在自然語言中,一個詞的含義常常依賴其他詞。

例如:

蘋果發布了新產品。

這里的“蘋果”更可能指公司。

而在:

我吃了一個蘋果。

這里的“蘋果”更可能指水果。

同一個詞,在不同上下文中含義可能不同。

自注意力機制可以讓模型根據上下文動態調整每個 token 的表示。

它的主要作用包括:

? 建立序列中不同位置之間的關聯

? 捕捉長距離依賴關系

? 根據上下文調整詞語含義

? 支持并行計算

? 為 Transformer 提供核心計算結構

普通 RNN 需要按順序傳遞信息。如果兩個詞相距很遠,信息要經過很多時間步才能傳到。

自注意力機制則可以讓任意兩個 token 直接建立聯系。

從通俗角度看:RNN 像排隊傳話,一個詞的信息要一站站傳過去。自注意力像開會討論,每個詞都可以直接聽取其他詞的意見。

這也是 Transformer 能夠在大規模語言模型中廣泛使用的重要原因之一。

三、Q、K、V:自注意力中的三個角色

自注意力機制中最常見的三個概念是:

? Query,查詢,常記作Q

? Key,鍵,常記作K

? Value,值,常記作V

這三個名字看起來抽象,但可以用“查資料”來理解。

1、Query:當前想找什么

Query 表示當前位置發出的查詢。它代表當前 token 想從上下文中尋找什么信息。

例如,“它”這個 token 可能會發出一個查詢:我應該指代誰?

2、Key:每個位置提供的匹配線索

Key 表示每個 token 提供給別人匹配的線索。

模型會用 Query 和 Key 計算相關性。

如果某個 token 的 Key 與當前 Query 很匹配,說明它對當前 token 可能重要。

3、Value:真正被匯總的信息

Value 表示每個 token 實際提供的信息內容。

注意力權重計算出來后,會對 Value 做加權求和,得到當前位置的新表示。

從通俗角度看:

?Q:我在找什么

?K:你能不能匹配我的需求

?V:如果匹配,我從你那里取走什么信息

例如,當前 token 是“它”。它的 Query 會和其他 token 的 Key 做匹配。

如果“機器學習”的 Key 與“它”的 Query 很相關,那么“機器學習”的 Value 就會以較大權重參與“它”的新表示。

在實際模型中,Q、K、V 都是由輸入向量通過線性變換得到的:

其中:

? X 表示輸入序列的向量矩陣

? W_Q、W_K、W_V 表示可學習的權重矩陣

? Q、K、V 分別表示查詢矩陣、鍵矩陣和值矩陣

這說明 Q、K、V 不是人工指定的,而是在訓練過程中學習出來的表示。

四、自注意力的核心計算過程

自注意力的核心計算可以分成四步:

生成 Q、K、V → 計算相關性分數 → 歸一化為注意力權重 → 加權匯總 Value


圖 1:自注意力機制的基本計算流程

1、生成 Q、K、V

給定輸入序列向量 X,先通過三個不同的線性變換得到 Q、K、V:

其中:

? X 表示輸入 token 表示

? W_Q、W_K、W_V 是可學習參數

? Q、K、V 是自注意力計算需要的三組向量

2、計算相關性分數

用 Q 和 K 計算 token 之間的相關性。

常見做法是點積:

其中:

? S 表示相關性分數矩陣

? Q 表示查詢矩陣

? K? 表示 K 的轉置

如果第 i 個 token 的 Query 與第 j 個 token 的 Key 點積較大,說明第 i 個 token 更應該關注第 j 個 token。

為了避免分數過大,通常會除以 √d_k:

其中:

? d_k 表示 Key 向量維度

? √d_k 用于縮放點積結果,使訓練更穩定

3、歸一化為注意力權重

接著使用 softmax 把相關性分數變成權重:

其中:

? A 表示注意力權重矩陣

? softmax 讓每一行權重加起來為 1

每一行可以理解為:當前 token 對所有 token 的關注比例

例如:

它 → 規律:0.17

這表示“它”更大程度參考“機器學習”。

4、加權匯總 Value

最后,用注意力權重 A 對 V 做加權求和:

其中:

? O 表示自注意力輸出

? A 表示注意力權重

? V 表示值矩陣

完整公式通常寫為:

從通俗角度看:自注意力先判斷“該看誰”,再把被關注位置的信息按權重匯總起來。

五、注意力矩陣:誰關注誰

自注意力機制會產生一個注意力矩陣。


圖 2:注意力矩陣示意圖

假設序列長度為 L,那么注意力矩陣的形狀通常是:

其中:

? 行表示當前正在更新的 token

? 列表示被它關注的 token

? 每個元素表示一個關注權重

例如,對于序列:

我 / 喜歡 / 機器學習 / 它

注意力矩陣可以理解為:

它        ·     ·     高     ·

如果“它”這一行在“機器學習”這一列權重較高,就說明模型在更新“它”的表示時重點參考了“機器學習”。

從通俗角度看:注意力矩陣就像一張“關注關系表”。它記錄了每個 token 在理解自己時,分別參考了其他 token 多少信息。

需要注意:注意力權重不是人類手工標注的語法關系。它是模型為了完成訓練任務自動學習出來的計算權重。

有時注意力圖可以幫助理解模型行為,但不能簡單等同于人類語言學解釋。

六、多頭自注意力:從多個角度看上下文

在 Transformer 中,常用的不是單個自注意力,而是多頭自注意力(Multi-Head Self-Attention)。

它的核心思想是:讓模型用多個不同的注意力頭,從不同角度學習 token 之間的關系。

例如,在一句話中,一個注意力頭可能關注主語和謂語關系,另一個注意力頭可能關注指代關系,還有一個注意力頭可能關注局部短語結構。


圖 3:多頭注意力與因果掩碼

從通俗角度看:單頭注意力像一個人只從一個角度讀句子。多頭注意力像多個專家同時讀句子,每個人關注不同線索,最后把意見匯總起來。

多頭注意力可以表示為:

多個頭的結果會拼接起來:

其中:

? head_i 表示第 i 個注意力頭

? h 表示注意力頭數量

? Concat 表示拼接

? W_O 表示輸出投影矩陣

多頭機制可以增強模型表達能力,使模型同時捕捉多種上下文關系。

七、自注意力與位置編碼

自注意力機制本身主要計算 token 之間的關系,但它并不天然知道 token 的順序。

例如,從純自注意力角度看:

我喜歡你

和:

你喜歡我

如果沒有位置信息,模型很難知道二者順序不同。

因此,Transformer 通常需要加入位置編碼或位置嵌入。

位置編碼的作用是:告訴模型每個 token 在序列中的位置。

輸入 Transformer 前,Token Embedding 通常會與 Position Embedding 結合:

其中:

? E_token 表示 Token embedding

? E_position 表示位置 Embedding

? X 表示加入位置信息后的輸入表示

從通俗角度看:

? Token Embedding 告訴模型“這個詞是什么”

? Position Embedding 告訴模型“這個詞在哪里”

自注意力機制再根據這些表示計算 token 之間的關系。

因此,自注意力負責“誰和誰相關”,位置編碼負責“誰在什么位置”。

二者配合,Transformer 才能同時理解內容和順序。

八、自注意力的優勢、局限與使用注意事項

1、自注意力的主要優勢

自注意力最大的優勢是可以直接建模全局關系。

任意兩個 token 之間都可以通過注意力權重建立聯系,不需要像 RNN 那樣一步步傳遞。

其次,自注意力適合并行計算。

在訓練時,一個序列中的多個位置可以同時計算,這比按時間步順序處理的 RNN 更適合大規模加速。

再次,自注意力具有較強的上下文建模能力。

同一個詞在不同上下文中可以得到不同表示。

例如,“蘋果”在不同句子中可以表示水果,也可以表示公司。

從通俗角度看,自注意力的優勢在于:它讓模型可以根據上下文動態決定“當前應該重點看哪里”。

2、自注意力的主要局限

自注意力也有局限。

首先,標準自注意力的計算成本較高。

如果序列長度為 L,注意力矩陣大小為:

這意味著長文本會帶來較大計算和顯存壓力。

通常可以把標準注意力復雜度近似理解為:

其中:

? L 表示序列長度

? O(L2) 表示計算量隨序列長度平方級增長

其次,自注意力本身不包含順序信息,需要位置編碼配合。

再次,注意力權重不一定等于可解釋因果關系。

某個 token 被高權重關注,并不一定說明它就是人類理解中的唯一原因。

3、使用自注意力時需要注意的問題

使用自注意力時,需要注意:

? Q、K、V 是由輸入線性變換得到的

? 注意力權重來自 Q 與 K 的相似度

? Value 才是真正被加權匯總的信息

? 多頭注意力可以從多個角度建模關系

? 自注意力需要位置編碼補充順序信息

? 長序列會帶來較高計算成本

? 注意力圖可以輔助理解,但不能過度解釋

? 生成式模型中通常使用因果掩碼,避免看到未來 token

最后一點尤其重要。

在 GPT 類模型中,當前位置只能關注自己和之前的 token,不能偷看后面的 token。

這種機制稱為因果自注意力(Causal Self-Attention)。

九、Python 示例

下面給出幾個簡單示例,用來幫助理解自注意力的基本計算。

示例 1:用 PyTorch 手寫簡化版自注意力

   

輸出形狀通常為:

輸出形狀: torch.Size([1, 4, 8])

其中:

? 4 × 4 的注意力權重矩陣表示 4 個 token 兩兩之間的關注關系

? 輸出仍然是 4 個 token 的表示

? 每個 token 的輸出已經融合了上下文信息

示例 2:觀察注意力矩陣

輸出是一個 4 × 4 矩陣??梢园阉斫鉃椋?/p>

第 4 行:token 4 對所有 token 的關注比例

每一行的數值加起來約等于 1。

示例 3:使用 PyTorch 的 MultiheadAttention

輸出形狀通常為:

注意力權重形狀: torch.Size([2, 5, 5])

這里 query、key、value 都來自同一個 x,因此這是自注意力。

如果 query 來自一個序列,key 和 value 來自另一個序列,則通常稱為交叉注意力。

示例 4:因果掩碼

在生成式模型中,當前位置不能看到未來 token。可以用上三角掩碼實現:

輸出類似:

        [False, False, False, False, False]])

這個掩碼表示:

? 第 1 個 token 不能看后面的 token

? 第 2 個 token 只能看第 1、2 個 token

? 第 3 個 token 只能看第 1、2、3 個 token

? 以此類推

從通俗角度看:因果掩碼防止模型在生成時提前看到未來答案。

小結

自注意力機制是一種讓序列中每個 token 根據相關性主動參考其他 token 的方法。它通過 Q、K、V 計算注意力權重,再對 Value 加權匯總,得到融合上下文的新表示。多頭自注意力可以從多個角度捕捉關系,位置編碼則補充順序信息。對初學者而言,可以把自注意力理解為:模型在理解每個詞時,自動判斷當前應該重點參考上下文中的哪些詞。

點贊有美意,贊賞是鼓勵

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國連??!12日凌晨戰報:3-0,3-1,亞洲冠軍2連敗,世界第1首敗,第2首勝

中國連敗!12日凌晨戰報:3-0,3-1,亞洲冠軍2連敗,世界第1首敗,第2首勝

林子說事
2026-06-12 09:24:01
趙露思演唱會“上身解放”引熱議:是審美突圍,還是輿論過載?

趙露思演唱會“上身解放”引熱議:是審美突圍,還是輿論過載?

民宿體驗志
2026-05-12 11:25:51
西安一重大刑事案件震驚全城,嫌犯年僅23歲體型偏瘦卻惡劣至極!

西安一重大刑事案件震驚全城,嫌犯年僅23歲體型偏瘦卻惡劣至極!

白馬驚天劍
2026-06-11 13:48:51
“不要回答!不要回答!不要回答!”國際宇航科學院16年來首次更新文件,劉慈欣的《三體》還是太超前了

“不要回答!不要回答!不要回答!”國際宇航科學院16年來首次更新文件,劉慈欣的《三體》還是太超前了

都市快報橙柿互動
2026-06-09 19:05:36
唯一不與中國建交的鄰國,首都離中國僅45公里,曾實行一妻多夫

唯一不與中國建交的鄰國,首都離中國僅45公里,曾實行一妻多夫

珺瑤婉史
2026-03-25 19:35:06
同一套“民生投降論”,為何在烏克蘭與伊朗身上輪番上演

同一套“民生投降論”,為何在烏克蘭與伊朗身上輪番上演

律法刑道
2026-03-22 10:37:01
11000mAh!新機曝光:6月份,即將發布!

11000mAh!新機曝光:6月份,即將發布!

科技堡壘
2026-06-11 10:08:33
60歲才發現:很多有兒子的家庭,只要兒子和兒媳另外買了房,沒跟父母住在一起,那兒子和父母之間,慢慢就變成了親戚

60歲才發現:很多有兒子的家庭,只要兒子和兒媳另外買了房,沒跟父母住在一起,那兒子和父母之間,慢慢就變成了親戚

心理觀察局
2026-05-01 17:36:26
美媒痛批特朗普:最愚蠢的錯誤,就是將中國定義為"同等級"對手

美媒痛批特朗普:最愚蠢的錯誤,就是將中國定義為"同等級"對手

蜉蝣說
2026-06-12 11:39:39
途經5個區!上海這條新線正在建設中,未來前往高鐵站更方便

途經5個區!上海這條新線正在建設中,未來前往高鐵站更方便

上海交通
2026-06-12 15:48:59
59歲港星陳錦鴻自曝已立遺囑,所有財產都會給太太,立遺囑時帶著自閉癥兒子一同前往,“讓他知道為什么要這么做”

59歲港星陳錦鴻自曝已立遺囑,所有財產都會給太太,立遺囑時帶著自閉癥兒子一同前往,“讓他知道為什么要這么做”

揚子晚報
2026-06-12 14:54:35
巴薩盼法蒂盡快離隊,薪資問題卻遲遲無解

巴薩盼法蒂盡快離隊,薪資問題卻遲遲無解

老骾體育解說
2026-06-13 01:19:37
南非隊0-2被虐慘!媒體人吐槽:世界杯擴軍的危害,帶來一堆菜雞

南非隊0-2被虐慘!媒體人吐槽:世界杯擴軍的危害,帶來一堆菜雞

風過鄉
2026-06-12 06:45:42
緬甸仰光跳樓男子身份確認,遺書內容令人不寒而栗:“我殺了她,尸體在公寓里”

緬甸仰光跳樓男子身份確認,遺書內容令人不寒而栗:“我殺了她,尸體在公寓里”

緬甸中文網
2026-06-11 17:41:25
福建這4所大學,不是“雙一流”,卻是本地就業的硬通貨

福建這4所大學,不是“雙一流”,卻是本地就業的硬通貨

小王老師教育課堂
2026-06-12 09:30:36
LABUBU世界杯聯名款火了:限購2個上架就售罄,有平臺已售上萬件

LABUBU世界杯聯名款火了:限購2個上架就售罄,有平臺已售上萬件

新京報
2026-06-12 20:57:41
讓1追2!亞洲球隊首勝,罕見:本屆世界杯首次出現前中超教練德比

讓1追2!亞洲球隊首勝,罕見:本屆世界杯首次出現前中超教練德比

足球大腕
2026-06-12 13:02:58
《飄》:沒有一個男人回頭是想重新愛你一次,他愿意回頭找你的理由只有兩種,要么是當初沒從你這里撈到好處,要么是發現身邊沒人比你更傻

《飄》:沒有一個男人回頭是想重新愛你一次,他愿意回頭找你的理由只有兩種,要么是當初沒從你這里撈到好處,要么是發現身邊沒人比你更傻

心理觀察局
2026-06-12 07:06:06
特朗普突然取消對伊朗的“猛烈打擊”,并稱美伊已達成一項重大協議,有望本周末簽署,包括伊朗同意不擁有核武器,“伊朗最高領袖已批準”

特朗普突然取消對伊朗的“猛烈打擊”,并稱美伊已達成一項重大協議,有望本周末簽署,包括伊朗同意不擁有核武器,“伊朗最高領袖已批準”

都市快報橙柿互動
2026-06-12 06:48:38
莫言:如果你混到沒人找你吃飯,沒人喊你聚會,連電話也沒幾個,那慶祝了,你不是人緣變差,而是真正覺醒了

莫言:如果你混到沒人找你吃飯,沒人喊你聚會,連電話也沒幾個,那慶祝了,你不是人緣變差,而是真正覺醒了

品讀時刻
2026-05-27 09:00:58
2026-06-13 03:44:49
MediaTea
MediaTea
專業的數字媒體、新媒體技術
1888文章數 80關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

房產
藝術
教育
公開課
軍事航空

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

教育要聞

家長成了“瘋女人”,被女兒作業搞崩潰,網友:太真實

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗媒體:已故最高領袖葬禮推遲舉行

無障礙瀏覽 進入關懷版