網易首頁 > 網易號 > 正文申請入駐

改進視覺Transformer：增強空間先驗

2026-04-29 12:11:41　來源: CreateAMind

上海舉報

分享至

Advancing Vision Transformer with Enhanced Spatial Priors

改進視覺Transformer：增強空間先驗

摘要——

近年來，視覺 Transformer（ViT）在計算機視覺領域引起了廣泛關注。然而，ViT 的核心組件自注意力（Self-Attention）缺乏顯式的空間先驗，且面臨二次計算復雜度的問題，限制了其適用性。為了解決這些問題，我們提出了 RMT，這是一種具有顯式空間先驗的用于通用目的的魯棒視覺骨干網絡。RMT 利用曼哈頓距離衰減（Manhattan distance decay）來引入空間信息，并采用水平和垂直分解注意力方法來建模全局信息。建立在 RMT 優勢的基礎上，歐幾里得增強視覺 Transformer（EVT） 是一個包含了幾個關鍵改進的擴展版本。首先，EVT 使用更合理的歐幾里得距離衰減來增強空間信息的建模，與 RMT 中使用的曼哈頓距離相比，能夠更準確地表示空間關系。其次，EVT 放棄了 RMT 中特有的分解注意力機制，轉而采用一種更簡單的空間獨立分組方法，為模型在控制每組內的 token 數量方面提供了更大的靈活性。通過這些改進，EVT 提供了一種更復雜且適應性更強的方法將空間先驗整合到自注意力機制中，從而克服了與 RMT 相關的一些局限性，并進一步增強了其在各種計算機視覺任務中的適用性。在圖像分類、目標檢測、實例分割和語義分割上的大量實驗表明，EVT 表現出卓越的性能。在沒有額外訓練數據的情況下，EVT 在 ImageNet-1k 上實現了 86.6% 的 top-1 準確率。

索引術語——視覺 Transformer，空間先驗，Token 分組。

1 引言

視覺 Transformer（ViT）[1] 已成為研究界備受推崇的視覺架構。盡管如此，它仍面臨幾個重大問題。ViT 的核心模塊自注意力（Self-Attention）本質上缺乏顯式的空間先驗，而這是卷積所具備的特征。此外，自注意力的二次計算復雜度在嘗試建模全局信息時會導致相當大的計算成本，從而限制了其實際應用。

多項研究試圖緩解這些挑戰[2]–[8]。例如，Swin Transformer [3] 采用窗口操作來劃分用于自注意力的 token。該技術不僅降低了計算開銷，還通過使用窗口和相對位置編碼將空間先驗引入模型。同樣地，NAT [9] 改變了自注意力的感受野以模擬卷積層的形狀，從而降低了計算成本，并使模型能夠通過其感受野配置識別空間先驗。RMT [10] 將自然語言處理（NLP）[11], [12] 中的顯式衰減概念擴展到空間域，設計了一種基于 token 之間曼哈頓距離的二維雙向空間衰減矩陣。它還提出了一種水平和垂直分解注意力機制來建模全局信息。

在這項工作中，我們同樣基于 token 之間的相對距離設計了一種二維雙向空間衰減矩陣。在我們的空間衰減矩陣中，目標 token 對距離較遠 token 的注意力分數衰減更為急劇。該設計使目標 token 能夠在捕獲全局信息的同時，根據距離區分注意力等級。通過引入該空間衰減矩陣，我們成功將顯式空間先驗整合到視覺骨干網絡中，從而增強了其有效處理空間信息的能力。與 RMT [10] 中使用的曼哈頓距離不同，我們采用歐幾里得距離來建模 token 之間的關系。做出這一改變的原因是，人類對遠離視野中心物體的注意力呈徑向衰減模式 [13]，這與歐幾里得距離的徑向增長規律相一致。此外，我們采用了一種一維且空間獨立的 token 分組方法。與二維空間依賴的分組方法（如 Swin Transformer 中的窗口劃分和 MaxViT 中的二維膨脹分組）相比，該方法允許對每組內的 token 數量進行更靈活的控制。我們的實驗表明，所提出的空間衰減矩陣為模型帶來了顯著的空間先驗。一維 token 分組方法與空間衰減矩陣相結合，能夠取得優于二維分組方法的效果。鑒于我們的模型通過利用 token 之間的歐幾里得距離來引入空間先驗，我們將其命名為歐幾里得增強視覺 Transformer（EVT）。

我們開展了廣泛的實驗，涵蓋圖像分類、目標檢測、實例分割、語義分割以及魯棒性測試，以驗證 EVT 的性能。EVT 在所有任務上均展現出顯著的性能優勢。如圖 1 所示，在 224×224 分辨率下，EVT 在無需任何額外訓練數據或監督信息的情況下，達到了 85.8% 的 top-1 準確率，且計算量僅為 18.2 GFLOPs。當分辨率提升至 384×384 時，模型性能得到進一步提升。我們的 EVT-L 模型僅包含 1 億（100M）參數，即實現了 86.6% 的 top-1 準確率，顯著優于現有模型。

本工作的初步版本已發表于 CVPR 2024 [10]。在本文中，我們在以下幾個方面對會議版本進行了擴展： ? 我們將 RMT 中基于曼哈頓距離的空間先驗替換為更直觀的基于歐幾里得距離的空間先驗。我們開展了大量實驗，證明這種呈徑向衰減的空間先驗顯著增強了模型的空間理解能力，進而提升了其整體性能。 ? 我們提出了一種用于視覺 token 的一維分組方法。該分組方法忽略了 token 之間的空間關系，使模型能夠靈活控制每組內的 token 數量。與 RMT 中采用的水平與垂直分解注意力機制相比，所提出的分組方法更為簡單且高效。 ? 我們開展了廣泛的實驗以驗證 EVT 的性能。EVT 在圖像分類、目標檢測、實例分割、語義分割以及分布外（OOD）數據集分類等多種任務中均展現出卓越的性能。此外，我們進行了大量消融實驗，以驗證 EVT 內部各模塊的具體貢獻。

2 相關工作

2.1 視覺 Transformer

自原始基礎版 ViT [1] 提出以來，許多研究工作致力于設計能夠更好地捕獲空間信息與多尺度特征的層次化架構 [3], [7], [14]–[20]。這些工作的核心主要圍繞設計高效的、具有線性復雜度的注意力機制，以更有效地提供歸納偏置。例如，Swin Transformer 引入了基于窗口的自注意力機制 [3], [21]，PVT/PVTv2 提出了空間下采樣注意力 [7], [22]–[24]，DAT 提出了可變形注意力 [15]，而 BiFormer 則開發了多尺度路由注意力 [17]。此外，還有一些方法利用全局或區域 token 在圖像不同區域之間傳遞信息 [25]–[29]。同時，許多研究工作嘗試對 ViT 進行擴展，從分辨率和模型參數量兩個角度著手解決相關問題 [30]–[35]。除上述方法外，還有許多其他方法旨在加速 ViT 的推理過程。其中，諸如 EViT [36], [37] 等方法采用 token 剪枝策略，而 ToMe [38] 則使用 token 合并技術來融合相似的 token。此外，一些方法嘗試通過對 token 進行聚類 [19], [39] 來降低全局注意力的計算開銷。在本工作中，我們提出了一種新穎的空間獨立一維 token 分組方法。該方法允許對每組內的 token 數量進行更靈活的控制。在空間先驗的支持下，該方法已展現出令人印象深刻的性能。

2.2 卷積-Transformer 混合架構

卷積在捕獲圖像中的高頻紋理信息方面效果顯著，而 Transformer 則在建模低頻全局信息方面具有優勢 [5], [7], [40]。因此，許多架構嘗試結合這兩種方法的優勢 [2], [5], [7], [40]–[44]。CMT [7] 將輕量級注意力模塊與卷積相結合，依次提取局部與全局信息。iFormer [42] 采用并行設計，在同一 token 混合模塊內，一部分通道使用自注意力機制提取全局信息，而另一部分則使用卷積捕獲局部信息，隨后通過線性投影將這些信息融合。此外，許多其他工作將輕量級卷積插入到 Transformer 設計的各個子組件中。例如，在模型起始處使用卷積莖（Conv Stem）對圖像進行下采樣 [17], [39]；在注意力機制之前插入基于卷積的局部信息增強模塊 [2], [7], [39]；以及在前饋網絡（FFN）中引入卷積以提供位置信息 [22], [23], [45]。在 RMT [10] 與 EVT 的設計中，卷積也被用于增強模型的局部表征能力。

2.3 視覺模型中的位置先驗

位置編碼是 Transformer 的關鍵模塊，它為每個 token 提供位置信息，從而使 Transformer 能夠感知 token 的位置 [46]。最早的 ViT 采用了基于正弦函數的絕對位置編碼 [1]。隨后，許多研究工作致力于改進視覺 token 的位置編碼方法 [3], [14], [23], [34], [47], [48]。CPVT [47] 引入了基于深度可分離卷積的條件位置編碼（CPE），該方法可非常靈活地插入到 ViT 的任意位置。在 Swin Transformer v2 [34] 中，提出了對數間隔的相對位置編碼。與原始的相對位置編碼相比，該方法更適用于高分辨率圖像 [3]。在 CSwin [14] 中，采用了 LePE，這是一種高度靈活的、基于卷積的位置編碼方法，已被眾多技術廣泛采用 [17], [49], [50]。此外，一些方法將卷積融入前饋網絡（FFN）模塊以提供位置信息，從而提升 Transformer 的性能 [7], [23], [45]。與前述方法不同，EVA02 [48] 從大型語言模型中廣泛使用的旋轉位置編碼（RoPE）[51] 獲得啟發，提出了一種二維旋轉位置編碼并將其應用于視覺模型。在 RMT [10] 中，受 ALiBi [12] 與 RetNet [11] 在自然語言處理領域成功應用的啟發，我們將基于曼哈頓距離的顯式空間衰減引入自注意力機制，以向模型提供空間信息。在本工作中，我們進一步改進了該空間衰減方法，用更直觀的歐幾里得距離替代了曼哈頓距離。

3 方法

3.1 預備知識：RMT

在 RMT 中，我們受到 RetNet [11] 和 ALiBi [12] 中提出的一維時間衰減的啟發，并將其擴展至二維空間域。由此得到了 RMT 中使用的基于曼哈頓距離的空間衰減。隨著 token 之間相對距離的增加，該衰減會逐漸增強，從而將空間先驗引入模型中。具體而言，如式 (1) 所示，我們的曼哈頓自注意力機制在注意力矩陣中引入了一個 D 矩陣作為衰減因子，從而將空間信息引入自注意力機制中：

此外，層次化架構往往在淺層具有較高的分辨率，從而導致顯著的計算開銷。為了解決這一挑戰，RMT 引入了一種自注意力機制的分解形式，該形式允許以較低的計算成本進行全局信息建模。具體而言，它沿著圖像的水平和垂直方向使用一維衰減矩陣來計算注意力權重，然后將這些注意力權重應用于值（Value）。詳細過程如公式 2 所示：

3.2 EVT 的整體架構

一個 EVT 模塊包含三個主要模塊：條件位置編碼（CPE）[47]、歐幾里得自注意力（EuSA）以及經典的前饋網絡（FFN）[46]。一個完整的 EVT 模塊可以用公式 3 表示：

3.3 從曼哈頓距離到歐幾里得距離

在 RMT 中，顯式空間衰減基于曼哈頓距離，這與人類視覺感知圖像的方式并不一致。在識別圖像時，人類的注意力會隨距離呈徑向衰減 [13]。因此，我們將曼哈頓距離替換為歐幾里得距離。我們從兩個角度分析了歐幾里得距離相較于曼哈頓距離的優勢。

（1）從分布相似性的角度：使用衰減矩陣的核心目的是將與空間相關的先驗引入注意力分數中。盡管標準自注意力機制也能夠學習該先驗，但我們的衰減矩陣將其顯式地嵌入到注意力分數中，從而簡化了學習過程。訓練良好的無衰減矩陣 ViT 模型的注意力分數分布與我們的衰減矩陣分布越接近，說明我們的衰減矩陣越能有效地促進空間先驗的學習，最終帶來模型性能的提升。基于這一考慮，我們訓練了一個不包含任何衰減矩陣的 EVT-T 模型。隨后，我們分析了其注意力分數分布與不同衰減矩陣分布之間的相關性。我們使用 Jensen-Shannon（JS）散度來衡量不同分布之間的相似性，其計算公式如下：

較小的 JS 散度值表明分布之間的相關性更高。我們計算了 ImageNet-1K 驗證集中圖像的平均 JS 散度。結果如表 2 所示。基于 JS 散度值，基于歐幾里得距離的衰減矩陣分布與訓練模型中標準注意力分數的分布表現出更高的相似性，這也帶來了更好的性能。

我們的衰減矩陣的分布與訓練良好的 ViT 模型的注意力分數分布非常相似。后者已經包含了原生 ViT 所學習的空間知識，盡管由于缺乏外部干預，該空間先驗仍然相對較弱。由于這兩種分布高度相似，它們的結合進一步強化了模型所學習的空間先驗，從而提升了模型的性能。

為了進一步闡明我們的論斷，即空間衰減矩陣能夠增強原生 ViT 的空間先驗，我們將不同模型與 DINOv2 進行了比較——DINOv2 是一個強大的 ViT 骨干網絡，在海量數據集上進行了大規模無監督訓練。結果如表 2 所示。與原始 DeiT 相比，我們的 EVT-DeiT 展現出與 DINOv2 更為相似的注意力分布，表明 EVT-DeiT 獲取了更豐富的空間知識。我們在 ImageNet-1K 上對模型進行預訓練，并使用這些預訓練模型在 ADE20K 上進行線性探測。EVT-DeiT 取得了顯著優于 DeiT-T 的結果，這證明它學習到了更多的空間知識。

（2）從數值穩定性的角度：曼哈頓距離定義為：

盡管直觀，但它存在距離變化不平滑的問題：曼哈頓距離沿坐標軸方向線性增加，但沿對角線方向保持不變。這導致空間衰減因子的縮放不均勻，從而可能在注意力調制過程中引入各向異性偏差。

(3) 與標準注意力機制的比較 對于標準自注意力機制（不含空間衰減），其注意力權重為：

該公式并未顯式編碼任何空間先驗，無論幾何位置如何，均同等對待所有 token。盡管標準注意力機制能夠學習空間關系，但它們通常需要大規模的訓練數據和大量的優化才能捕獲有意義的空間結構（如 DINOv2 等模型所示）。在沒有顯式空間偏置的情況下，學習到的空間特征往往較弱且魯棒性較差，尤其是在訓練數據或計算資源有限的情況下。

通過引入空間衰減矩陣，注意力權重變為：

（4）注意力權重關于空間坐標的梯度：對于基于L2的衰減：

L2 梯度是平滑且具有方向感知能力的，而 L1 梯度是分段常數且不連續的，這可能會阻礙優化和空間泛化。

(5) 譜分析與空間覆蓋

(6) 信息論視角：空間熵優化 空間衰減充當一種先驗，用于塑造注意力分布的熵：

L2 衰減在各向同性約束下最大化熵，促使模型捕獲多樣化且有意義的空間依賴關系。L1 衰減由于其軸對齊偏差，可能會降低熵，并限制模型學習復雜空間關系的能力。

(7) 表達能力與泛化性 每個 token 的輸出為：

該輸出能夠平滑地適應空間結構。L1 衰減傾向于產生軸對齊的感受野，在復雜空間場景中限制了模型的表達能力。

（8）梯度流與優化景觀 L2 衰減的二階導數為：

這確保了良態的優化地形，支持穩定且高效的梯度流。相反，L1 衰減在除不連續點外的幾乎所有位置均產生零二階導數，這可能導致訓練不穩定。

（9）統一視角：為何 L2 在空間特征學習中更具優勢盡管 L1 和 L2 衰減均能強制局部性，但 L2 的旋轉不變性與平滑衰減特性更契合圖像與空間模式的自然幾何結構。這一點在分組與空洞注意力中尤為關鍵，因為其中的 token 鄰域往往呈現不規則形態。L2 衰減使模型能夠自適應地從各個方向學習空間先驗，從而實現更連貫的特征聚合、更佳的泛化能力，以及對復雜空間結構更優的表征。即便在標準注意力架構中，L2 衰減也能提升空間表達能力與優化效果，其性能優于 L1 衰減及無衰減基線。

基于上述分析，我們采用歐幾里得距離：

該方式提供了平滑且連續的縮放特性：與曼哈頓距離的階梯式行為不同，歐幾里得距離變化平滑，確保了注意力分數的逐漸且一致的衰減。歐幾里得距離的平滑變化產生了一個性質良好的加權函數，避免了注意力分布的突變，并確保了訓練的穩定性。

由于我們的方法將基于距離的衰減函數應用于注意力分數，曼哈頓距離的不連續性可能導致注意力調制的不穩定。相比之下，歐幾里得距離憑借其平滑的過渡特性，確保了更穩定且一致的加權機制，最終提升了注意力性能。

基于此，我們認為使用歐幾里得距離作為 token 的衰減因子應該是一種更直觀的方法。我們已將公式 1 中的曼哈頓自注意力機制（MaSA）升級為基于歐幾里得距離的歐幾里得自注意力機制（EuSA），詳見公式 18：

3.4 從分解形式到分組形式

在 RMT 中，我們將全局注意力分解為水平和垂直兩個維度，然后利用來自每個維度的注意力權重對值（Value）進行加權，從而使 MaSA 能夠感知全局信息，如公式 2 所示。然而，這種方法存在兩個問題。首先，該方法導致了更高的復雜度。與其他線性復雜度的注意力機制（例如窗口自注意力 [3]）相比，MaSA 的復雜度為：

圖論解釋： 由于采用了交錯的分組分配，1D 分組/空洞注意力的注意力連接圖更為密集，與受網格約束的 2D 情況相比，這導致可達節點（token）的擴展速度更快。

(2) 通過 2D 歐幾里得衰減恢復空間結構

雖然單獨的 1D 注意力可能會破壞局部空間連續性，但我們提出的 2D 歐幾里得（L2）空間衰減矩陣：

這種空間先驗確保了，即使在巨大且不規則的感受野內，模型依然對幾何鄰近性和局部連續性保持敏感，從而有效地恢復了空間結構。

(3) 2D 空間先驗對 1D 注意力的理論影響

注意力權重關于空間坐標的梯度為：

如表 3 所示，我們在 EVT-S 上進行了實驗，并對不同的分組方法進行了詳細比較。與二維分組/洗牌策略相比，一維分組/洗牌策略提供了兩個關鍵優勢：

（a）更低的計算復雜度和更高的效率。二維分組/洗牌策略沿高度和寬度兩個維度進行操作，導致了更復雜的內存交互機制。相比之下，一維分組/洗牌策略僅應用于 token 序列，消除了冗余的二維計算并提高了整體效率。如表 3 所示，使用一維分組/洗牌的推理速度略快于二維分組/洗牌。

（b）更長的建模范圍。與二維分組/洗牌策略相比，在每組 token 數量相同的情況下，一維分組/洗牌策略能夠在每個分組/網格內實現更長的有效 token 交互范圍。盡管它失去了顯式的二維空間先驗，但通過擴展 token 的感受野進行了補償。如表 3 所示，在未引入歐幾里得距離先驗的情況下，一維策略的性能略遜于二維策略。然而，一旦引入距離先驗，一維策略便獲得了充足的空間先驗，使其在保持較低計算復雜度的同時實現更優的性能。

（c）提升的分辨率適應性。通過使用一維分組/洗牌，訓練后的模型展現出更好的分辨率適應性。我們基于 EVT-T 進行實驗，在 384 和 512 兩種分辨率下執行直接推理和微調。如表 4 所示，結果表明一維分組/洗牌取得了更優的性能。

3.5 EVT 的變體

表 5 展示了 EVT 的變體。與我們之前的工作 RMT [10] 類似，我們設計了四種模型變體：EVT-T/S/B/L。此外，為了能夠與 Swin 等先前的工作進行公平比較，我們還設計了 EVT-Swin-T/S/B。對于 EVT-Swin 系列模型，我們嚴格對齊了 EVT 和 Swin 的配置，唯一的區別是將 WSA/SWSA 替換為 EuSAg/EuSAd。對于歐幾里得衰減矩陣中的衰減系數 γ ，我們將其值手動設置為：

4 實驗

我們在圖像分類、目標檢測、實例分割和語義分割任務上進行了廣泛的實驗。我們還在 ImageNet-v2/A/R [78]–[80] 上評估了 EVT 的魯棒性。除了這些實驗外，我們還進行了詳細的消融研究，以驗證 EVT 中每個模塊的作用。

4.1 圖像分類

設置：我們使用廣泛采用的 ImageNet-1K [81] 數據集進行圖像分類任務。該數據集包含 128 萬張訓練圖像和 5 萬張驗證圖像。預訓練和微調的詳細設置列于表 6。我們使用 AdamW 優化器，并配合余弦衰減學習率調度器。初始學習率、權重衰減和批量大小分別設置為 0.001、0.05 和 1024。我們采用了與 DeiT [63] 相同的數據增強和正則化策略（RandAugment [82] (randm9-mstd0.5-inc1)、Mixup [83] (prob = 0.8)、CutMix [84] (prob = 1.0)、隨機擦除 (prob = 0.25) 以及指數移動平均 (EMA) [85]）。隨機深度 [86] 的最大遞增率對于 EVT-T/S/B/L 分別設置為 0.1/0.15/0.4/0.55。

4.2 目標檢測與實例分割

設置： 我們在廣泛使用的數據集 MS-COCO [90] 上評估了所提出的 EVT。該數據集包含 118K 張訓練圖像和 5K 張驗證圖像。我們利用 MMDetection [91] 來實現 Mask-RCNN [92]、Cascade Mask R-CNN [93] 和 RetinaNet [94]，以評估所提出的 EVT。對于 Mask R-CNN 和 Cascade Mask R-CNN，我們使用常用的 "3× + MS" 設置；對于 Mask R-CNN 和 RetinaNet，我們應用 "1×" 設置。遵循先前的工作 [3], [14]，在訓練期間，我們將圖像調整大小，使得較短邊為 800 像素，同時保持較長邊在 1333 像素以內。我們采用 AdamW 優化器進行模型優化。

4.3 語義分割

設置：ADE20K [95] 是一個廣泛用于語義分割的數據集，包含 2 萬張訓練樣本和 2 千張驗證圖像。我們利用 Semantic FPN [96] 和 UperNet [97] 來評估 EVT 在語義分割任務上的性能。我們基于 MMSegmentation [98] 實現了這兩個框架。兩個框架均采用編碼器 - 解碼器結構，其中我們使用 EVT 的變體作為框架中的編碼器。我們遵循 Swin Transformer [3] 和 PVT [22] 中的訓練方案，使用在 ImageNet 上預訓練的模型初始化編碼器。隨后，我們對 UperNet 訓練 16 萬次迭代，對 SemanticFPN 訓練 8 萬次迭代。所有模型均使用 512×512 的輸入分辨率，在測試時，圖像的短邊被調整為 512 像素。

結果：表 10 展示了 EVT 的不同變體在 ADE20K 上使用兩種分割框架的結果。對于 Semantic FPN，EVT-T/S/B/L 分別實現了 48.3、50.0、51.7 和 52.0 的 mIoU，相較于其對照模型取得了令人印象深刻的性能提升。對于 UperNet，EVT 同樣展現出優勢。具體而言，EVT-B 實現了 52.7 的 mIoU，比先前最先進的 RMT-B 高出 0.7。EVT-B 的性能甚至超越了許多規模大一個數量級的模型。總之，EVT 在各種尺度上均展現出顯著的性能優勢。

4.4 魯棒性評估

設置：我們在多個流行的數據集 [79], [80], [99], [100] 上評估模型的魯棒性。我們還在 ImageNet-V2 [101] 上評估 EVT 的過擬合程度。用于評估的模型均在 ImageNet-1K 上進行了預訓練。

結果：魯棒性評估結果如表 11 所示。在 ImageNet-V2 (IN-V2) 上，EVT 的表現優于所有對照模型。例如，在參數量和 FLOPs 相近的情況下，EVT-B 比 BiFormer-B 高出 +1.7。在 ImageNet-A (IN-A) 和 ImageNet-R (IN-R) 上，EVT 所展現的優勢更為顯著。具體而言，僅在 ImageNet-1k 上預訓練的情況下，EVT-L 在 ImageNet-A 上實現了 55.5 的準確率，在 ImageNet-R 上實現了 56.9 的準確率。

4.5 效率比較

設置：我們在同一設備上比較不同模型的吞吐量。具體而言，我們使用批量大小為 64 和 fp32 精度，在單張 NVIDIA A100 上測試各種模型的速度。

結果。我們在表 12 中展示了不同模型的效率對比，其中 EVT 展現了最佳的精度與速度權衡。具體而言，與其基線模型 RMT 相比，EVT 在所有尺度上均實現了效率提升，并具備更高的分類準確率。與其他最先進模型（如 BiFormer）相比，EVT 不僅擁有更快的推理速度（1001 vs 766），而且在分類準確率上取得了顯著提升（84.4 vs 83.8）。這些結果充分證明了 EVT 在性能和速度方面的雙重優勢。

4.6 消融實驗

曼哈頓距離與歐幾里得距離的比較。我們的實驗證明了歐幾里得距離相較于曼哈頓距離的優勢。實驗基于 EVT-T 進行。如圖 5 所示，使用歐幾里得距離不僅帶來了更好的模型性能，還減少了過擬合并使訓練更加穩定。

不同衰減矩陣之間的比較。由于閔可夫斯基距離（Minkowski distance）和徑向基函數（RBF）的梯度也是連續的，并且保留了方向優化信息，因此從理論上講，它們是作為空間先驗的可行選擇。然而，在實踐中并非如此。由于我們的顯式衰減直接應用于注意力分數，它有效地對分數進行了縮放。然而，縮放因子不應過于復雜，因為過度的縮放會嚴重損害模型訓練的穩定性。當使用閔可夫斯基距離或徑向基函數（RBF）核時，距離函數的高次冪或指數增長會導致嚴重的不穩定性，這在 token 數量相當龐大的高分辨率任務（如目標檢測）中變得尤為明顯。在訓練過程中，我們在使用閔可夫斯基距離或 RBF 時持續觀察到明顯的損失尖峰和 NaN（非數值）。相比之下，采用歐幾里得距離時并未出現此類現象。如表 14 所示，使用特定的距離函數可能會引入不穩定性或導致顯著的性能下降。

與基線的嚴格比較。為了能夠與先前的方法進行公平比較，我們設計了 EVT-Swin 系列模型。EVT-Swin 嚴格對齊了 Swin-Transformer 的各種配置，僅將 Swin-Transformer 中的 WSA/SWSA 替換為我們的 EuSAg/EuSAd，并將 Swin-Transformer 中的普通注意力替換為我們的 EuSA，同時未使用諸如 CPE 和 Conv Stem 等額外模塊。

基于歐幾里得距離的衰減矩陣。 基于歐幾里得距離的衰減矩陣是 EuSA 中的核心模塊，為模型提供與空間相關的先驗知識。在表 13 中，我們驗證了衰減矩陣對模型的影響，證明了其顯著的性能提升。具體而言，引入基于歐幾里得距離的衰減矩陣使模型性能提升了

為了進一步理解衰減矩陣的工作機制，我們在表 15 中對衰減系數的不同配置進行了實驗。我們發現，在多頭注意力中為每個頭設置不同的衰減系數，可以使每個頭關注不同的尺度，從而帶來更好的模型性能。相反，為所有頭使用相同的衰減系數僅能帶來輕微的性能提升。這表明，衰減矩陣所引入的多尺度信息才是真正提升模型性能的原因。

從 RMT 到 EVT 的演進路線。 如表 16 所示，我們逐步修改 RMT-T 中的組件，將其轉變為 EVT-T。首先，我們采用了更深的模型，從而帶來了性能提升（top1-acc+0.1，mIoU+0.3）。其次，我們將基于曼哈頓距離的衰減矩陣替換為基于歐幾里得距離的衰減矩陣。這進一步提升了模型的性能（top1-acc+0.4，mIoU+1.2）。最后，我們將 MaSA 中的水平與垂直分解替換為 EuSA 的 token 分組方法。這一改動不僅降低了計算負載（減少 0.2G），還提升了模型的性能（top1-acc+0.6，mIoU+1.9）。

關于 RMT/EVT 與 RetNet 的比較討論。 RMT/EVT 的靈感來源于 RetNet，旨在將其潛在有益的特性遷移到用于視覺任務的 ViT 中。然而，RetNet 能夠展開為 RNN 的能力并不適用于視覺任務。這是因為視覺內在的雙向特性并不適合用 RNN 來表示。在 RMT/EVT 中，我們使用二維、雙向的衰減矩陣來建模視覺信息，而在 RetNet [11] 中，用于序列任務的衰減矩陣是一維且單向的。在不使用 Softmax 函數的情況下，兩者均可通過以下公式表示：

在 RetNet 中， D 是一個對角矩陣，這使得 RetNet 可以方便地展開為 RNN 的形式。在 RetNet 中， D 是一個對角矩陣，對角線以上的所有值均設為零，這意味著當前的 token 只能與前序 tokens 關聯，而與后續的 tokens 無關。這使得 RetNet 可以方便地展開為 RNN 的形式。然而，在 RMT/EVT 中， D 中的每個位置都是非零的，這意味著當前的 token 同時與前序和后繼 tokens 進行交互。這創建了一個雙向建模過程，從根本上阻止了模型展開為 RNN 的形式，因為 RNN 本質上是為單向序列建模設計的。

為了驗證我們的觀點，我們直接將 RetNet 的一維衰減（1D decay）及其線性復雜度 RNN 公式應用于 Swin-T。結果如表 17 所示。使用 RetNet 的 D D 矩陣和 RNN 公式有效地降低了模型的計算成本，實現了線性復雜度。然而，一維推理方法破壞了視覺固有的 2D 特性，而 RNN 公式損害了視覺推理的并行性。結果，模型的性能和推理速度都遭受了顯著的下降。

從 Swin-T 到 EVT-Swin-T 的路線圖。 我們在表 18 中展示了從 Swin-T 到 EVT-Swin-T 的路線圖。結果清楚地展示了不同模塊的效果。

關于視覺 token 數量的消融實驗。 在表 19 中，我們比較了不同 token 分組大小下的模型性能（例如 49 或 32 個 token 的組，必要時進行填充）。盡管在這些設置下我們的方法并不等同于 CSWin，但它始終實現了更好的性能。

即使使用較小的分組大小（例如每組 32 個 token），我們的模型也能從一維（1D）分組范式固有的靈活性中受益。與使用固定注意力模式的其他方法相比，一維范式更加靈活多樣，使模型能夠學習更豐富的特征。

對于更高的分辨率，我們測試了 ntoken 的各種值。得益于二維（2D）空間中一維分組的高度靈活性，隨著分辨率的增加，token 分組變得更加多樣化。這種強烈的變異性使模型能夠學習更豐富的空間模式。如表 20 所示。即使每組的 token 數量減少，借助空間先驗，模型仍然取得了強勁的性能。

多分辨率下的效率與性能。 我們在圖 6 中展示了模型的資源消耗和性能。EVT 與其他具有線性復雜度的模型一樣，表現出資源需求的線性增長。

4.7 可視化

歐幾里得距離 vs. 曼哈頓距離。 我們在圖 7 中展示了可視化結果。這些模型是基于 DeiT 訓練的。我們可以看到，空間先驗（spatial prior）的引入使得注意力分數的分布更加集中，減少了注意力分散的可能性。同時，與曼哈頓距離相比，歐幾里得距離帶來了更平滑的注意力變化，這更容易導致合理的注意力分布。

與 Swin 的比較。 為了充分展示 EVT 的優勢，我們可視化了每個階段輸出的 token 的注意力圖。為了進行比較，我們也可視化了 Swin-Transformer 的特征圖。我們通過為每個階段構建一個全局熱力圖，來可視化 Swin Transformer 每個層級的注意力圖。這種方法借鑒了 [103] 中使用的注意力展開（Attention Rollout）技術，該技術跨層聚合議注意力分數以創建全局注意力圖。為了生成每個層級的全局熱力圖，我們通過聚合所有頭（heads）和組（groups）的注意力權重來計算每個查詢 token（query token）的注意力分數，并且我們跨層遞歸地累積這些分數。這導致了全局注意力模式的形成，即使是從局部注意力操作中也能產生。結果展示在圖 8 中。我們使用了 224 × 224 的輸入圖像分辨率，階段 1、2、3 和 4 的 token 分辨率分別是 56 × 56 、 28 × 28 、 14 × 14 和 7 × 7 。從可視化結果來看，很明顯 EVT 在模型的淺層（例如階段 1 和階段 2）保留了詳細信息。在更深層，EVT 成功捕捉到了圖像中重要的物體信息，使模型能夠實現準確的分類。與 Swin-Transformer 相比，EVT 的特征圖表現出更少的噪聲和更準確的物體定位，充分展示了 EVT 的優勢。

5 結論

在本工作中，我們提出了 EVT，一種強大的通用視覺骨干網絡。基于 RMT，它用基于歐幾里得距離的顯式衰減取代了基于曼哈頓距離的顯式衰減，從而提升了模型性能。此外，它用一種更高效的、具有線性復雜度的一維 token 分組方法，取代了 RMT 中復雜度為
的注意力分解方法。這使得 EVT 成為一個在性能和效率方面均表現卓越的強大骨干網絡。我們在圖像分類、目標檢測、實例分割和語義分割等任務中驗證了該模型的強勁性能，并展示了其在分布外（OOD）數據上的魯棒性。最后，我們進行了廣泛的消融研究，以驗證模型中各個模塊的作用。

原文鏈接：https://arxiv.org/pdf/2604.18549

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.