網易首頁 > 網易號 > 正文申請入駐

貝葉斯學習中的線性響應入門

2026-05-12 09:13:28　來源: CreateAMind

上海舉報

分享至

敏感性及其模式化：貝葉斯學習中線性響應入門

Susceptibilities and Patterning: A Primer on Linear Response in

Bayesian Learning

https://arxiv.org/pdf/2605.07980

摘要

1 引言

將統計建模應用于兩個先驗上截然不同的領域之間存在著一種系統性的類比：物理系統的統計力學，以及機器學習模型訓練的分析。本筆記旨在使這種類比顯式化，并推導其對于一種理論根基深厚的可解釋性方法的后果。

我們主要的興趣在于將前一種設定（統計力學）中的思想應用于后一種設定（機器學習）中的問題。具體而言，我們要關注敏感性（susceptibilities）：即后驗期望值關于數據分布擾動的導數。它們是統計力學中熱力學敏感性的直接類比，我們要論證的是，它們為解讀訓練模型的內部結構提供了一種系統且可計算的工具。

我們設計這些筆記旨在引起這兩個領域從業者的興趣。

我們希望物理學家能在貝葉斯學習中認出熟悉的熱力學結構——構型空間、能量函數、玻爾茲曼分布以及自然的擾動概念——并在學習理論設定中發現一類新穎的系統，他們熟悉的技術在其中驚人地適用。
對于機器學習科學家和從業者，尤其是那些對可解釋性感興趣的人，我們要解釋為什么研究貝葉斯后驗期望值的變化是一種解讀訓練模型內部結構的有原則的工具，它們如何聯系并擴展了諸如影響函數（influence functions）和訓練數據歸因（training data attribution）等現有思想，以及奇異學習理論（singular learning theory）如何彌合總體層面定義與實際計算的經驗估計量之間的差距。

1.1 下文結構

我們要組織材料，以便不同背景的讀者能找到高效的路徑。第 2 節發展了統計力學框架，并在 §2.7 中通過與機器學習的類比達到高潮；已經熟悉伊辛模型（Ising model）和漲落-耗散定理（fluctuation-dissipation theorem）的物理學家可能希望略過前面的小節，從那里開始閱讀。機器學習讀者，特別是那些尚未被說服認為后驗協方差是值得研究的合理對象的人，應該花時間仔細研讀 §2.5–2.6 中的伊辛實驗：這些內容旨在建立一種直覺，即敏感性通過外部探測來探查內部結構。

其余部分在機器學習設定下發展該理論：§3.1–3 闡述了設定，定義了敏感性，并在該設定下建立了漲落-耗散定理；§4 通過拉普拉斯近似（Laplace approximation）發展了敏感性的幾何內容；§5 將敏感性矩陣構建為切映射（tangent map），并將模式形成（patterning）發展為逆問題；§6 解決了從總體層面理論到實踐中使用的經驗估計量的過渡問題。最后一節主要供那些希望理解前述材料是否以及如何能夠實際實現的讀者參考。

2 系統、構型與可觀測量

敏感性理論根植于統計力學與凝聚態物理。在專門聚焦于機器學習中的統計模型之前，理解這些淵源是值得的。這不僅將為如何思考敏感性提供寶貴的直覺，而且事實上，物理學中使用的許多方法可以直接、無需修改地轉化到機器學習設定中。

2.1 構型與玻爾茲曼分布

2.2 可觀測量與期望值

期望值是研究的標準量：它們是充分的（對于足夠豐富的一類可觀測量，它們決定了玻爾茲曼分布），并且它們能探測結構（不同的可觀測量揭示系統的不同方面）。

注 3.這一視角由 Callen [13] 在其熱力學教科書的開篇章節中闡述得尤為清晰。Callen 的出發點是關于物理學中實際可觀測內容的觀察。系統的微觀狀態——即個粒子的精確構型，或每個晶格位點的確切自旋——快速且混沌地漲落。我們在實驗室實際測量的是穩定的量：即在空間區域和時間間隔上的平均值，這些區域和間隔與微觀尺度相比很大，但與感興趣的宏觀尺度相比很小。溫度、壓強、磁化強度；所有這些都是平均值。在 Callen 的論述中，熱力學的主題始于認識到這些平均量服從其自身的規律，獨立于那些已被平均掉的微觀細節。

2.3 伊辛模型中的期望值

這個例子闡明了一種普遍模式：通過追蹤單個可觀測量（磁化強度）作為參數（ β ）的函數的期望值，我們能夠在無需檢查單個自旋構型的情況下，探測到系統內部組織從無序到有序的定性變化。模型表現出相變這一事實并非單個構型的屬性，而是被視為參數 β 的函數的玻爾茲曼分布的屬性。

2.4 擾動與敏感性

在統計物理中，敏感性（susceptibility）是探測多體系統內部結構的主要工具，這類系統的微觀自由度無法被直接檢查。人們通過外部源（例如施加的磁場或溫度的變化）可控地擾動系統，并測量宏觀可觀測量的響應。響應的形式是系統內部組織的一個窗口。例如，我們剛才看到伊辛模型的磁敏感性——即磁化強度對均勻外場的響應——在臨界溫度處發散，標志著長程序的開始；而比熱（specific heat）編碼了低能激發的譜。通過研究不同的可觀測量和擾動，我們可以獲知更豐富的信息，正如我們現在將要展示的那樣。

2.5 示例：測量系統各部分之間的耦合

為了使“敏感性作為可解釋性工具”這一思想具體化，我們要回到伊辛模型并提出問題：僅通過測量協方差，我們能檢測出給定自旋屬于晶格的哪一部分嗎？我們將表明，答案不僅是理論上的肯定，而且在經驗上也是肯定的。有關包含圖示的更詳細說明，請參見 [5]。

該實驗闡明了敏感性在神經網絡設定中將扮演的核心思想：局部化探測與區域可觀測值之間的協方差能夠檢測探測與該區域之間的耦合。當系統具有結構（壁）時，這種耦合在不同區域之間有所不同，而敏感性揭示了探測屬于哪個區域——無需直接檢查晶格幾何結構。

2.6 示例：響應矩陣

我們可以通過同時考慮多個探測和多個區域，將這一思想進一步推進，將成對協方差組裝成一個響應矩陣。

設置。 我們使用一個具有邊界壁的 20 × 20晶格（所有邊緣位點被掩蔽，消除周期性環繞效應）和一個單一內部壁：第 10 行的一水平條帶被掩蔽，跨越晶格的右半部分（第 10–18 列）。這將晶格分為三個區域（ 圖 3，左圖）：

區域 A（藍色）：左半部分，第 1–9 列，所有行。該區域是開放的——它沒有內部壁，并與 B 和 C 共享無障礙邊界。
區域 B（橙色）：右上部分，第 10–18 列，第 1–9 行。
區域 C（紅色）：右下部分，第 10–18 列，第 11–18 行。

區域 B 和 C 被壁分隔且沒有直接耦合：B 中的自旋與 C 中的自旋永遠不是最近鄰。B 和 C 之間的任何相互作用必須通過 A 來介導，而 A 對兩者都是開放的。

結果。 在圖 3中，我們展示了在 β = 0.44 （接近臨界溫度，此時相關性為長程的）下，通過 20,000 個 Metropolis–Hastings 樣本計算得到的響應矩陣。該矩陣具有清晰的塊狀結構，反映了晶格幾何：

響應矩陣僅憑協方差測量便恢復了內部幾何結構：三個區域，其中兩個被屏障分隔，第三個在二者之間起介導作用。A 探測之間的不對稱性不僅揭示了區域劃分結構，還揭示了空間布局。這是神經網絡中敏感性的原型，在此框架下，“區域”轉化為模型組件，“探測”轉化為數據點，而響應矩陣則成為文獻 [2] 中的結構性敏感性矩陣。

2.7 從物理學走向神經網絡

結構推斷研究框架 [1, 2, 3, 4] 將這一框架應用于神經網絡。其類比關系如下：

在文獻 [2] 中，定義了敏感性并將其用于識別小型 Transformer 模型中注意力頭的作用：即哪些頭負責數據中的哪些模式。在文獻 [4] 中，對逐詞元（per-token）敏感性向量進行聚類，得到了數百個可解釋的組——即模型的“譜線”——并且一個分解定理表明，這些聚類源于數據分布的模式結構。模式形成方案 [8] 逆轉了這一框架：給定期望的內部結構變化，它利用敏感性矩陣的偽逆來計算最優的數據擾動。

3 機器學習中的敏感性

我們現在將統計物理背景下引入的一般框架專門化，應用于神經網絡等機器學習模型的設定中。敏感性衡量模型對數據分布擾動的一階響應。該一般定義適用于任何可觀測量；不同的可觀測量選擇會產生影響矩陣和結構性敏感性矩陣。

3.1 設定與符號

3.2 數據擾動

這一恒等式在貝葉斯統計學中有著悠久的歷史，與其在統計物理學中的發展并行：它以 Gustafson [28] 的局部案例敏感性（local case sensitivity）形式出現，出現在變分貝葉斯文獻 [23, 24, 25] 中，并在神經網絡設定中作為 [20] 的貝葉斯影響函數（Bayesian influence function）出現。我們要在此處針對一般擾動和分布可觀測量所采用的表述形式來自 [2]。

協方差形式 (7) 正是使得敏感性可計算的原因：它可以通過用替換 Cov ，然后使用蒙特卡洛方法從近似經驗后驗的分布中采樣來估計。我們在第 6 節討論用經驗協方差替換總體協方差的問題，并在第 6.4 節討論采樣過程。

3.4 逐樣本敏感性與密度解釋

3.5 可觀測量的示例

敏感性是針對任何廣義可觀測量 ? ? 定義的； ? ? 的選擇決定了我們要探測模型的哪個方面。在本節中，我們要描述三類尤為自然地產生的可觀測量，并且針對其中的兩類——逐樣本損失（per-sample losses）和分量局部化損失（component-localized losses）——我們要介紹通過將可觀測量族與一組逐樣本擾動配對而獲得的關聯敏感性矩陣（susceptibility matrix）。

分量可觀測量。 為了探測模型的特定分量 C C，我們要使用總體損失的一個類比，該損失僅沿該分量變化。

4 敏感性探測幾何 (Susceptibilities probe geometry)

4.1 正則情形 (The regular case)

直接計算影響函數需要對 H 求逆，但將敏感性表達為協方差則不需要——這一點我們將在 4.2 節中回過頭來討論，即當 H 退化時的情形。

人們應該從這個計算中得出與之前相同的思想：為了通過敏感性探測 L 的局部幾何，需要對可觀測量 ? 的主導泰勒系數施加消失條件。

4.2 奇異情形

5 敏感性與模式化

前幾節將敏感性發展為解讀模型內部結構的工具：給定一個訓練好的網絡和一個數據分布，敏感性矩陣編碼了哪些可觀測量響應哪些數據模式。模式化（patterning）程序 [8] 將這一過程逆轉：給定期望的結構坐標變化，人們希望找到能實現它的數據分布。本節通過切空間之間的單一映射，將正向問題（可解釋性）和逆向問題（模式化）統一在同一個框架下。

5.1 結構坐標映射

5.2 正向問題：可解釋性

6 實踐中的敏感性

本節探討為神經網絡計算敏感性的實際方面，正如在 [2, 4] 中所實現的那樣。我們詳細探討從總體層面定義過渡到實踐中計算的數值所涉及的三個近似：從總體到經驗后驗，對于分量可觀測量從完整后驗到權重受限后驗，以及從精確后驗期望到 SGLD 樣本。

6.1 在總體層面定義敏感性

6.3 實踐中的分量可觀測量

6.3.1 權重限制與重歸一化間隙

6.4 SGLD 估計

敏感性中出現的后驗期望是通過隨機梯度朗之萬動力學（Stochastic Gradient Langevin Dynamics, SGLD）[18] 來估計的。對于每個分量 C C，一個權重受限的 SGLD 鏈在鉗制（clamping）的同時對分量參數 v 進行采樣：

這是混合協方差 (34) 的經驗版本：第一個求和遍歷受限鏈（分量受限樣本），而第二個乘積中的全局基線項使用完整鏈。

6.5 實踐中的模式化

自然的修復方法是用嶺正則化逆（ridge-regularized inverse）代替偽逆

7 結論

該理論已在幾個方向上得到應用：[2] 利用結構敏感性矩陣識別小型 Transformer 中注意力頭的作用，[3] 在訓練過程中追蹤它以研究發育軌跡，而 [4] 對行進行聚類以發現可解釋的 token 組。模式化（patterning）程序 [8] 逆轉了這一框架：給定期望的結構坐標變化，它通過敏感性矩陣的偽逆計算最優數據擾動。

原文鏈接：https://arxiv.org/pdf/2605.07980

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.