網易首頁 > 網易號 > 正文申請入駐

大模型的能力從哪些訓練數據來？北大&智源提出「機理數據歸因」

2026-06-28 16:18:22　來源: 機器之心Pro

天津舉報

分享至

近年來，大語言模型展現出了越來越強的能力，從上下文學習（In-Context Learning, ICL）到復雜推理、代碼生成，這些能力不斷刷新人們對模型能力邊界的認知。

然而，對于這些能力究竟從何而來、又是在訓練過程中如何形成的，我們仍然知之甚少。

近年來興起的機理可解釋性（Mechanistic Interpretability）研究，開始嘗試揭示模型內部的計算機制。例如，「歸納頭」（Induction Heads）被廣泛認為是大模型涌現上下文學習能力的關鍵神經機制。這類注意力頭能夠識別并復制先前出現的模式，從而實現類似「從示例中學習」的行為。相關研究不僅在多個模型中發現了歸納頭的存在，也較為清晰地刻畫了它們在推理階段的工作方式。

然而，這類研究大多停留在事后分析（post hoc analysis）層面。我們能夠揭示模型內部的計算機制，并把計算機制逆向拆解成可理解的「電路」。我們能描述一個電路在推理時「算什么」，卻回答不了它「怎么來」—— 是哪一部分訓練數據、以怎樣的方式，在預訓練過程中把它塑造了出來？例如，我們已經能夠觀察歸納頭在訓練完成后的功能，卻仍不清楚它們究竟是如何在預訓練過程中形成的。

更進一步地，究竟是哪一部分訓練數據塑造了這種能力？是結構嚴謹的教科書文本，還是蘊含大量重復模式與邏輯結構的代碼語料？這些問題至今仍缺乏明確答案。

來自北京大學計算機學院和北京智源人工智能研究院的研究者，正是從這個被長期忽視的「數據溯源」維度切入，提出了機理數據歸因（Mechanistic Data Attribution, MDA）框架。它第一次把可解釋性的提問，從「模型內部有什么機制」，推進到「這些內部機制是被哪些訓練數據因果地塑造出來的」—— 并由此打通了一條「訓練數據 → 內部機制 → 模型行為」的因果鏈條。

而沿著這條鏈條，他們得到了一個相當反直覺的答案：真正催化歸納頭形成的，并不是人類眼中「高質量」的優美文本。那些看似雜亂無章、包含大量重復結構的「垃圾數據」（如 XML 標簽、亂碼般的 Base64 字符串、LaTeX 源代碼），才是塑造歸納頭的核心動力。

該工作已被機器學習頂級會議ICML 2026 接收為 Oral & Spotlight（168 / 23,918，錄用比 Top 0.7%）。

論文標題：Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units
論文鏈接：https://arxiv.org/pdf/2601.21996
代碼鏈接：https://github.com/chenjianhuii/Mechanistic-Data-Attribution

MDA 框架：可解釋單元級別的訓練數據歸因

要理解 MDA 的新意，先要看清它和傳統方法的分界。

經典的訓練數據歸因（Training Data Attribution, TDA）關注的是「某條數據對模型整體 Loss 的影響」。這就像只用一個人的「整體健康狀況」，去倒推他某天吃下的一粒維生素起了什么作用。這種方式粒度太粗、計算昂貴，也無法對應到任何一個具體的內部機制。

MDA 的核心轉變在于：不再關注全局模型行為，而是通過影響函數（Influence Functions）精確追蹤特定「可解釋單元」（如歸納頭）的形成源頭。

圖一：MDA 框架總覽。從定位可解釋單元，到計算數據影響力，再到因果驗證與干預。

具體而言，MDA 是一個三階段框架：

定位（Localizing）：首先定義可解釋單元的監測指標（如針對歸納頭的前綴匹配分數），定位那些具備可解釋性的關鍵單元（例如神經元、注意力頭等）及其參數子空間；
歸因（Computing）：利用 EK-FAC（特征值校正的 Kronecker 因子近似曲率）技術，高效估算海量訓練數據對特定參數子空間的影響分數。這使得在大規模預訓練語料中進行歸因成為可能；
干預（Intervening）：通過「數據刪除」與「數據增強」實驗，因果性地驗證被篩出的高影響樣本是否真的塑造了目標機制。

值得一提的是，MDA 的計算開銷隨模型規模呈亞線性增長，作者還在 OLMo-2 1B / 7B 上做了定性驗證，表明這套歸因方法在更大模型上依然能穩定捕捉到一致的結構模式。

歸納頭形成的關鍵數據：重復的結構，比語義更重要

在 Pythia 模型家族（14M–160M）上的系統分析，揭示了歸納頭形成背后一系列令人意外、卻又自洽的規律：

1.高影響力樣本特征

對于歸納頭的形成，在按影響力排序的訓練數據中，排名前列的往往不是人類認為「高質量」的自然語言文本，而是充斥著重復結構的數據：

XML/HTML 代碼：充滿重復的標簽結構；
LaTeX 源碼：包含大量的符號和格式指令；
UUID 與日志：看似無意義的字符串重復；
Base64 編碼：字符層面的密集重復。

表一：代表性高影響力樣本示例

更關鍵的是，這些影響分數呈現出清晰的冪律分布 —— 約 10% 的樣本，貢獻了高達 50% 的累計影響力。也就是說，歸納頭機制的形成確實被一小撮「高杠桿」信號顯著驅動。

結論：歸納頭的形成并不依賴于高深的語義邏輯，而是被這些高頻重復的結構模體（Structural Motifs）所「催化」的。

這背后的解釋相當自洽：歸納頭的本職工作就是「識別并復制重復模式」，那么真正能高效「訓練」它的習題，自然就是這些充滿重復結構的數據。

2.因果驗證：刪除會抑制，增強會催化

從訓練數據到內部機制的因果驗證：

訓練數據的影響分數只能代表「相關性」，因果驗證才是 MDA 的核心。作者在 Pythia 全家族、兩類注意力頭（歸納頭與前序詞元頭）上做了雙向干預：

刪除實驗（必要性）：剔除 MDA 識別出的高影響樣本（≤10%），歸納頭的形成被顯著抑制或延后；而隨機刪除等量的其他樣本，幾乎沒有影響；
增強實驗（充分性）：反之，僅重復這一小撮關鍵樣本，就能讓歸納頭提前涌現；同樣地，隨機增強無此效果。

從內部機制到模型能力的因果驗證：

另外，「歸納頭是 ICL 的基礎」是領域內長期的核心假設，但此前的證據主要是觀測性的。借助 MDA 的精準干預，作者得以從訓練動態的視角檢驗這一因果鏈：在完全相同的刪除 / 增強設置下，歸納頭強度與 ICL 得分呈現「同升同降」的緊密耦合。抑制歸納頭形成會削弱 ICL，強化則會提升。

圖二：因果驗證實驗（上）歸納頭分數（下）ICL 能力分數。紅線顯示剔除 MDA 識別的數據后，歸納頭形成被延后；綠線顯示增強這些數據后，歸納頭迅速涌現，而 ICL 能力與歸納頭變化完全同步。

通過以上兩部分的因果干預試驗，MDA 打通了一條「訓練數據 → 內部機制 → 模型行為」的完整因果鏈條。

從「事后解釋」到「事前干預」：機理數據增強

如果我們已經知道了驅動某個機制形成的數據「配方」，能不能主動合成這類數據，去定向催化模型的特定能力？

論文順勢提出了一種機理數據增強框架（Mechanistic Data Augmentation）：

小模型「探路」：利用較小的模型（如 Pythia-14M）運行 MDA，挖掘出高影響力樣本；
大模型總結：讓 DeepSeek-V3 等大模型分析這些樣本，提取出樣本中的共同結構特征；
批量合成數據：讓大模型編寫自動生成符合這些結構特征的合成數據的可執行代碼。

圖三：合成數據在不同規模模型上的效果。僅用 14M 模型挖掘出的模式生成的合成數據，就能在 160M 模型上顯著加速歸納頭的形成。

實驗結果有兩點令人振奮：

跨尺度一致提升：這種基于機理的數據增強具有一致的「跨尺度遷移性」。同一套合成數據，在 14M / 31M / 70M / 160M 上分別帶來+12.3% / +10.8% / +15.8% / +9.8%的歸納頭得分提升。更有意思的是，從 14M 小模型提煉出的模式，遷移到 160M 模型上的效果，甚至超過了直接從 160M 自身提煉的數據—— 說明催化歸納頭的結構「配方」在很大程度上是尺度無關的，可以用小模型作為低成本代理來優化大模型訓練。
不犧牲通用能力：在 Wikitext-103 語言建模與 PopQA 事實問答上，增強后的模型與基線曲線幾乎重合，沒有出現可統計區分的退化。這一對照排除了使用 MDA 會導致「為催化特定電路而損害整體能力」的擔憂。

結語

MDA 的意義遠不止「一個更精細的數據歸因工具」。它標志著可解釋性研究的一次角色轉變 ——從只會「解釋模型里有什么」，走向能夠「回答它從哪來、并動手干預它如何形成」。

更進一步，它為一個更大的愿景提供了一塊基石：讓大模型的訓練，從經驗主導的「黑盒煉丹」，走向機理驅動的「白盒構建」。沿著「數據 → 機制 → 行為」這條被 MDA 打通的因果鏈，至少有三個方向可以被打開：

數據治理的新視角：傳統「高質量數據清洗」可能會誤刪那些對底層機制至關重要的「重復性廢話」。MDA 提醒我們，數據的價值需要從「對機制的因果貢獻」重新評估。
更高效的預訓練（潛在方向）：通過定向合成承載特定機制的結構數據，有望降低能力形成所需的訓練成本 —— 本文已給出小規模上的有力證據，更大規模的系統驗證則是值得期待的下一步。
更本質的機理對齊：當我們能在數據層面精確地催化或抑制某個內部機制，「定向切除有害回路或偏見」這類更深層的對齊與遺忘（unlearning），就從理念變得有了可操作的抓手。

在大模型煉丹術日益精細的今天，MDA 帶來的是一把能追溯到數據源頭的顯微鏡 —— 它讓我們第一次有機會認真追問：模型的每一項能力，到底是被哪些數據、以怎樣的方式塑造出來的。未來，當這個問題能被系統地回答，大模型的「黑盒」，也許就不再那么黑了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.