網易首頁 > 網易號 > 正文申請入駐

PEFT方法評測不能只看下游分：通用能力損失也該被量化

2026-06-14 19:46:04　來源: 機器之心Pro

天津舉報

分享至

以 LoRA 為代表的參數高效微調（Parameter-Efficient Fine-Tuning，PEFT）已成為大模型適配與后訓練的主流選擇。相比全量微調，PEFT 僅更新少量參數，訓練開銷更低，也更容易在不同任務間快速部署。

然而，在 PEFT 方法的評測中，目標任務性能仍然是最常被強調的指標；相比之下，微調過程中模型遺忘了什么，往往缺少系統評估。

一個方法在提升數學正確率的同時，是否會顯著削弱模型的指令遵循、事實回憶或通用推理能力？不同 PEFT 方法在下游適配與通用能力保留之間，究竟表現如何？這正是PEFT-Arena試圖深入的問題。

近期，來自香港中文大學、西湖大學、德國馬普所等機構的研究者提出了 PEFT-Arena —— 一個從穩定性?可塑性權衡（stability–plasticity trade-off）視角重新審視 PEFT 方法的評測基準與分析框架。該工作已在 ICLR 2026 相關 workshop 上進行了展示，并開源了完整代碼。

其中第一作者黃洋逸是香港中文大學計算機系博士生，共同一作彭若天是西湖大學博士生，通信作者是香港中文大學計算機系助理教授劉威楊。

論文標題：PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective
項目主頁：https://spherelab.ai/PEFT-Arena
論文鏈接：https://arxiv.org/abs/2605.28819
代碼鏈接：https://github.com/Sphere-AI-Lab/PEFT-Arena

只看下游準確率，為什么不夠？

傳統 PEFT 評測的核心問題通常是：微調后，下游任務準確率提高了多少？這當然重要 —— 數學微調理應提升數學能力，醫學問答微調也理應提升醫學表現。但大模型的應用需求遠不止于單一任務本身的表現。預訓練為其賦予了廣泛能力，包括指令遵循、事實知識、閱讀理解和通用推理。如果微調過程以犧牲這些能力為代價來換取目標分數，那么單一準確率指標就會掩蓋這一點。

PEFT-Arena 將這一問題重新表述為經典的穩定性?可塑性困境（stability–plasticity dilemma）：

可塑性（plasticity）：模型在目標領域學到了多少；
穩定性（stability）：模型保留了多少預訓練通用能力。

由此，一個可靠的 PEFT 方法不應只看是否提升了目標任務分數，更應考察它是否以較低的通用能力損失實現了該提升。

為此，PEFT-Arena 設置了雙軸評測：一軸衡量目標域適配，另一軸評估預訓練通用能力的保留。項目選用 Qwen2.5-7B 和 Llama3.2-3B-Instruct，在數學與醫學推理兩個目標域上分別進行監督微調（SFT）與基于驗證獎勵的強化學習（RLVR）訓練，并以 IFEval、Natural Questions（NQ）、BBH 等任務評估通用能力的保留情況。

把「學到了多少」與「忘掉了多少」放在同一張圖里

在 PEFT-Arena 提供的二維評估圖中，橫軸代表通用能力（即穩定性），縱軸代表目標域性能（即可塑性）。理想方法自然位于右上角：既能提升目標任務表現，又能完好保留通用能力。

這張圖直觀地展示了，幾乎所有方法都面臨穩定性?可塑性權衡，但不同方法各自落在的權衡點差異很大。全量微調通常能取得較強的目標域表現，代價則是通用能力的顯著下降。LoRA 等低秩方法相對保守，但仍可能出現不可忽視的遺忘。PiSSA 在某些設置下表現得更為極端：目標域分數可能提升，但通用能力損失非常嚴重。VeRA 對通用能力的保持較為穩定，但目標域的提升較為局限。

相比之下，正交微調（Orthogonal Finetuning，OFT）往往落在更具競爭力的「目標?保留前沿」上：它不一定總是拿到最高的目標分數，但在相近的目標收益下，能夠保留更多的通用能力。

例如在 Qwen2.5-7B SFT 數學實驗中，全量微調雖然大幅提升目標分數，通用分數卻嚴重下滑；而 OFT 則在目標提升與通用保留之間取得了更均衡的結果。

另一個值得注意的現象來自 RLVR。相比 SFT，RLVR 在主要評估設置下通常表現出更弱的通用能力遺忘；在某些設置中，它甚至能在提升目標任務的同時保持或提高通用分數。

不過，作者也觀察到，較長時間的 RLVR 訓練在 high-k 采樣評估下可能暴露出另一類退化：pass@1 仍然穩定，但 pass@64 等高采樣指標會下降。這說明，RLVR 的訓練動態也需要從路徑層面進一步診斷，而不能只看最終 checkpoint 的單點結果。

換言之，PEFT-Arena 并不只是給 PEFT 方法排一個名次，而是試圖將評測的核心問題從「誰的下游準確率更高」轉變為：

哪種 PEFT 方法能以最小的預訓練能力損失，獲得足夠的目標域適配？

從分數到機制：為什么有些方法更容易遺忘？

評測基準告訴我們「發生了什么」，但還無法解釋「為什么」。PEFT-Arena 進一步從模型幾何的角度進行了內部分析，主要包括兩個視角：權重空間幾何與激活空間幾何。

權重空間：PEFT 更新作用在參數矩陣的哪些部分？

作者首先在權重空間中分析 PEFT 更新。具體做法是將預訓練權重矩陣沿奇異向量基底分解，考察微調后有效權重相對于原始譜結構的偏移。分析涉及兩項核心視圖：

結構保留視圖（retention profile）：衡量微調后權重在多大程度上保留了預訓練的奇異結構；
更新能量視圖（update-energy profile）：衡量微調更新主要集中在哪些預訓練方向上。

這種分析有助于回答：不同 PEFT 的參數化方式，究竟是在平滑地調整預訓練幾何結構，還是在少數方向上制造出尖銳集中的擾動？例如，LoRA 等低秩方法傾向于產生集中的更新模式；PiSSA 與主奇異方向交互較強，可能帶來更大的結構擾動；而 OFT 由于采用正交參數化，更傾向于保持權重譜的原始幾何特征。

為進一步建立權重更新與具體能力指標之間的關聯，作者還引入了能力條件化漂移（Capability-Conditioned Drift，CSD）。

其直覺是：同一權重更新對不同數據分布的影響不同 —— 如果某類通用數據激活了那些被大幅更新的方向，就更可能受到干擾。CSD 正是用于量化權重更新在通用領域與目標領域數據上引發的激活擾動。

實驗表明，通用領域數據的 CSD 與遺忘存在關聯，而目標領域 CSD 并不能簡單預測目標分數。這也提示我們，通用能力保留往往更容易從「表示是否被破壞」中觀察到；而目標域性能提升，尤其在推理任務中，可能更多取決于是否產生了與任務目標對齊的推理過程變化。

激活空間：遺忘的關鍵在于「幾何結構是否被扭曲」

僅看權重更新還不夠。一個大模型的更新可能移動了激活，但這種移動未必有害 —— 例如，一個近似整體旋轉變換雖然改變了向量坐標，卻可能保留了樣本間的相對關系。

因此，PEFT-Arena 進一步比較了預訓練模型與微調后模型在通用領域數據上的激活表示，核心問題是：

微調后，預訓練模型原本組織起來的樣本關系是否依然保持？

作者為此引入了三種表示幾何度量：

Procrustes 殘差：先用最佳正交變換對齊微調前后的表示，再測量仍然無法對齊的那部分結構性變化；
Gram 矩陣失真：比較微調前后樣本間成對相似度矩陣的變化；
中心核對齊（CKA）：作為標準的表示相似性指標，衡量微調前后的表示相似度。

結果顯示，這些度量與遺忘程度存在較強關聯：Procrustes 殘差和 Gram 失真越高，遺忘通常越嚴重；CKA 越高，通用能力保留越好。OFT 雖會移動表示，卻更傾向于保持表示的幾何結構；PiSSA 則表現出更強的非等距扭曲，并對應更嚴重的遺忘。

這給出了一個更清晰的解釋：

遺忘的關鍵，不在于「激活移動了多少」，而在于「通用表征的幾何結構是否被破壞」。

這也為 OFT 在 PEFT-Arena 中表現出的較好權衡提供了一個直觀解釋：它并非完全不改變模型，而是更傾向于以保持幾何結構的方式完成適配。

插值路徑：最終模型未必是最優操作點

除了對比初始模型和最終模型，PEFT-Arena 還對微調路徑本身進行了分析。一個最終 checkpoint 僅僅是適配路徑上的一個點；模型可能在獲得大部分目標收益后繼續移動，而這些額外移動主要損害通用能力。

為此，作者利用插值來診斷「SFT 過度適配（overshoot）」的現象：在基礎模型與微調后模型之間進行參數插值，可以得到目標性能和通用性能隨插值系數變化的曲線。

實驗發現，在許多 SFT 設定中，中間的插值點既能保留大部分目標收益，又能恢復相當多的通用能力。也就是說，最終 checkpoint 并不總是目標能力與預訓練能力保留的最優權衡點。

這一分析并非將插值包裝成新的評測標準，而是將其作為一種路徑層面診斷工具：它告訴我們，最終 checkpoint 是否已經越過了一個更合適的目標–保留平衡點（target-retention trade-off）。

需要指出的是，對于不同的 PEFT 參數化方法而言，插值必須在其自然的參數化幾何路徑上進行。

以 OFT 為例，普通的線性權重插值會偏離 OFT 原本的正交參數化路徑，從而扭曲譜結構；而沿 Cayley 生成元進行的插值則能使其保持在正交變換的幾何路徑上。

這一觀察進一步表明，不同 PEFT 方法可能需要各自相宜的參數?空間軌跡來進行合理分析。

基于路徑分析，作者還探索了路徑回退（pathwise rewinding）的思路：通過對已有微調后 checkpoint 施加不同強度的回退，在不重新訓練的前提下改善目標 - 保留權衡。論文主要以 OFT 的逐層回退為例，并在附錄中展示了類似思路在 LoRA、MiSS 等加性（additive） PEFT 方法上的結果。

為什么這項工作值得關注？

PEFT-Arena 的意義在于，它把 PEFT 評測從單一目標任務分數，擴展到了目標適配與能力保留的雙軸空間。這樣一來，不同方法的 trade-off 不再被隱藏在一個下游 accuracy 數字后面，而是可以被直接比較。

更進一步，論文沒有停留在 benchmark 排名上，而是嘗試解釋這些差異從何而來。權重譜分析、CSD 和激活空間幾何共同指向一個結論：遺忘往往對應著模型內部表示結構的破壞。

插值分析則提供了另一個實用視角：final checkpoint 不一定是最好的權衡點。對于已有微調模型，沿合適路徑做 post-hoc rewinding，也可能找到更好的目標 - 保留權衡。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.