網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

面向異構(gòu)環(huán)境的因子增強型神經(jīng)Lasso微調(diào)方法

2026-04-21 10:22:31　來源: CreateAMind

上海舉報

分享至

Fine-tuning Factor Augmented Neural Lasso for Heterogeneous Environments

https://arxiv.org/pdf/2604.12288

摘要

微調(diào)是一種廣泛用于使預(yù)訓(xùn)練模型適應(yīng)新任務(wù)的策略，然而其在包含變量選擇的高維非參數(shù)設(shè)置下的方法論與理論性質(zhì)尚未得到發(fā)展。本文引入了微調(diào)因子增強型神經(jīng)Lasso（FAN-Lasso），這是一種用于含變量選擇的高維非參數(shù)回歸的遷移學(xué)習(xí)框架，能夠同時處理協(xié)變量偏移與后驗偏移。我們采用低秩因子結(jié)構(gòu)來處理高維相依協(xié)變量，并提出一種新穎的殘差微調(diào)分解，其中目標函數(shù)被表示為凍結(jié)的源函數(shù)與其他變量的變換形式，以實現(xiàn)遷移學(xué)習(xí)與非參數(shù)變量選擇。該來自源預(yù)測器的增強特征使得知識能夠轉(zhuǎn)移至目標域，并降低了目標域中的模型復(fù)雜度。我們?yōu)槲⒄{(diào)FAN-Lasso推導(dǎo)了極小化極大最優(yōu)超額風(fēng)險界，從相對樣本量與函數(shù)復(fù)雜度的角度刻畫了精確條件，在此條件下微調(diào)相較于單任務(wù)學(xué)習(xí)能夠產(chǎn)生統(tǒng)計加速。所提出的框架也為參數(shù)高效微調(diào)方法提供了理論視角。跨越多種協(xié)變量與后驗偏移場景的大量數(shù)值實驗表明，微調(diào)FAN-Lasso始終優(yōu)于標準基線，即使在目標樣本量嚴重受限的情況下也能實現(xiàn)接近理想（Oracle）的性能，從而從經(jīng)驗上驗證了所推導(dǎo)的速率。

關(guān)鍵詞：遷移學(xué)習(xí)，神經(jīng)網(wǎng)絡(luò)，因子增強，F(xiàn)AST-NN，因子調(diào)整型非參數(shù)Lasso，模型偏移，協(xié)變量偏移。

1 引言

遷移學(xué)習(xí)通過將數(shù)據(jù)豐富的源域中學(xué)習(xí)到的表征轉(zhuǎn)移到樣本有限的目標任務(wù)中，徹底改變了現(xiàn)代機器學(xué)習(xí)。這一范式最顯著地通過微調(diào)來實現(xiàn)，其中大規(guī)模模型的預(yù)訓(xùn)練權(quán)重為專門的下游應(yīng)用提供了精細的起點。該方法的有效性取決于這樣一個假設(shè)：預(yù)訓(xùn)練捕獲了內(nèi)在的潛在結(jié)構(gòu)——例如共享的特征或因子——從而為數(shù)據(jù)提供了基礎(chǔ)的表征。因此，微調(diào)充當(dāng)了一個實用的適應(yīng)層，對這些學(xué)習(xí)到的表征進行精煉，以使其與目標域的具體細微特征相一致。

盡管微調(diào)的經(jīng)驗成功不可否認，但為其性能提供統(tǒng)一且嚴格的理論刻畫仍然是一項艱巨的任務(wù)。現(xiàn)有文獻已為遷移學(xué)習(xí)建立了基礎(chǔ)性保證，但這些通常側(cè)重于線性情形，或假設(shè)受限類別的分布偏移。仍然迫切需要一種框架，能夠在高維協(xié)變量和復(fù)雜非參數(shù)結(jié)構(gòu)存在的情況下量化微調(diào)的統(tǒng)計增益——在這些設(shè)置中，經(jīng)典的參數(shù)化直覺通常會失效。具體而言，如何構(gòu)建一個統(tǒng)一的估計量，使其在協(xié)變量偏移和后驗偏移下同時實現(xiàn)極小化極大最優(yōu)性，同時保持對負遷移的魯棒性，目前仍不清楚。

在本文中，我們通過提出微調(diào)因子增強型神經(jīng)Lasso（FAN-Lasso）框架，彌合了這些理論與實踐上的差距。我們假定域間的共享知識可由低維因子結(jié)構(gòu)有效概括，該結(jié)構(gòu)即使在顯著的分布偏移下也能為知識遷移提供穩(wěn)定的骨干。我們的方法提供了一種最優(yōu)機制，用于將預(yù)訓(xùn)練的因子增強型稀疏通量神經(jīng)網(wǎng)絡(luò)（FAST-NN，F(xiàn)an & Gu (2024)）——一類結(jié)合潛在因子提取與稀疏非參數(shù)估計的模型——遷移到新的環(huán)境中。

該框架將三個強大的組成部分整合在一起，以應(yīng)對上述挑戰(zhàn)。首先，低維因子結(jié)構(gòu)通過捕捉跨域共享的潛在驅(qū)動因素，使高維設(shè)定下的估計變得可行，并充當(dāng)表征遷移的橋梁。其次，我們采用深度ReLU網(wǎng)絡(luò)對密集與稀疏的非參數(shù)復(fù)雜性進行建模，利用其對未知組合結(jié)構(gòu)的自適應(yīng)能力來規(guī)避維度災(zāi)難。第三，通過引入靈活的遷移函數(shù)，我們的方法顯式地同時考慮了協(xié)變量偏移與后驗偏移。該機制使估計量能夠自動校準源域與目標域之間的相似程度，有效地“門控”所需利用的源信息量。這種協(xié)同作用不僅通過剪枝無關(guān)的源信號來確保對負遷移的魯棒性，而且在一般的非參數(shù)設(shè)定下實現(xiàn)了極小化極大最優(yōu)性。

1.1 問題表述

1.2 主要結(jié)果預(yù)覽

我們的理論分析使殘差微調(diào)背后的直覺變得精確。我們證明了微調(diào) FAN-Lasso 估計量實現(xiàn)了極小化極大最優(yōu)超額風(fēng)險：

1.3 相關(guān)工作

我們的工作處于遷移學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)微調(diào)、深度學(xué)習(xí)理論、非參數(shù)變量選擇以及高維數(shù)據(jù)因子模型的交叉領(lǐng)域。盡管這些領(lǐng)域中的每一個都取得了顯著進展，但針對高維非參數(shù)遷移學(xué)習(xí)的統(tǒng)一理論框架仍然是一個公開的挑戰(zhàn)。

遷移學(xué)習(xí)與分布偏移。 遷移學(xué)習(xí)旨在利用源域知識來提升目標域的性能，其基礎(chǔ)由 Pan & Yang (2009) 和 Ben-David et al. (2010) 奠定。在高維回歸的背景下，近期的工作探討了該問題的各個側(cè)面：Li et al. (2022) 建立了稀疏參數(shù)差異下的極小化極大速率，而 Cai & Pu (2024) 以及 Tian & Feng (2023) 將這些保證擴展到了非參數(shù)和廣義線性模型。Fan et al. (2025) 提出了一種用于遷移學(xué)習(xí)的 TAB 技術(shù)。一個主要的障礙是協(xié)變量偏移，即邊緣分布在域間存在分歧 (Qui?onero-Candela et al., 2022; Gretton et al., 2009)。該領(lǐng)域的最新進展包括基于最優(yōu) RKHS（再生核希爾伯特空間）的速率 (Ma et al., 2023)、源標簽效用的刻畫 (Kpotufe & Martinet, 2021)、魯棒估計技術(shù) (Yang et al., 2024; Cai et al., 2025)，以及針對設(shè)定良好的協(xié)變量偏移的基礎(chǔ)性洞察 (Ge et al., 2023b)。此外，關(guān)于數(shù)據(jù)價值 (Hanneke & Kpotufe, 2019)、任務(wù)多樣性 (Tripuraneni et al., 2020) 以及預(yù)訓(xùn)練的可證明優(yōu)勢 (Ge et al., 2023a) 的理論探究，顯著加深了我們的理解。基于這些基礎(chǔ)，我們的微調(diào) FAN-Lasso 框架為復(fù)雜非參數(shù)結(jié)構(gòu)下的協(xié)變量偏移和后驗偏移提供了統(tǒng)一的處理方法。

微調(diào)的基礎(chǔ)。 微調(diào)已成為部署大規(guī)模模型的基礎(chǔ)標準，然而其理論性質(zhì)仍在被逐步揭示。Kumar 等人 (2022) 著名地證明了樸素微調(diào)可能會扭曲預(yù)訓(xùn)練特征，這推動了 LoRA (Hu et al., 2022; Dettmers et al., 2023) 和提示微調(diào) (Lester et al., 2021) 等參數(shù)高效方法的興起。我們的工作與日益增長的關(guān)于微調(diào)的“殘差”視角相一致，即目標模型被視為對源模型的精煉。該方法已在多個領(lǐng)域獲得應(yīng)用，包括基于代理的預(yù)測 (Bastani, 2021)、交叉擬合殘差回歸 (Zhou & Zou, 2023)、少樣本學(xué)習(xí) (Zhao et al., 2024) 以及強化學(xué)習(xí) (Ankile et al., 2025)。我們通過假設(shè) 1 中的殘差微調(diào)函數(shù) h h 將這一直覺形式化，為基于經(jīng)驗殘差的方法與統(tǒng)計理論之間架起了一座嚴格的數(shù)學(xué)橋梁。

非參數(shù)深度學(xué)習(xí)理論。 我們方法的成功依賴于深度 ReLU 網(wǎng)絡(luò)的表征能力。在針對平滑函數(shù)的最優(yōu)速率研究基礎(chǔ)上 (Petersen & Voigtlaender, 2018; Lu et al., 2021)，近期的研究表明，深度網(wǎng)絡(luò)能夠通過自動利用層次化組合結(jié)構(gòu)來規(guī)避維度災(zāi)難 (Schmidt-Hieber, 2020; Kohler & Langer, 2021; Fan et al., 2024)。Farrell 等人 (2021a) 進一步為此類估計量建立了高概率界。我們的工作利用這些優(yōu)勢來估計復(fù)雜的函數(shù) 和 h 。通過結(jié)合稀疏性與正則化進行復(fù)雜度控制 (Bartlett et al., 2019; Ohn & Kim, 2022)，我們將現(xiàn)代深度學(xué)習(xí)理論與經(jīng)典的高維因子模型框架相連接，以實現(xiàn)極小化極大最優(yōu)性。

高維因子模型。 因子模型提供了處理高維協(xié)變量 p ? n所必需的低秩結(jié)構(gòu)。它在計量經(jīng)濟學(xué)中有多種應(yīng)用 (Stock & Watson, 2002a,b; Forni et al., 2005; Bai et al., 2008)，自那以后，這些模型的漸近性質(zhì)已被廣泛刻畫 (Paul, 2007; Johnstone & Lu, 2009; Onatski, 2012; Chudik et al., 2011; Wang & Fan, 2017)。近期的工作將預(yù)訓(xùn)練因子估計 (Fan & Liao, 2022) 與深度學(xué)習(xí)相結(jié)合。Fan & Gu (2024) 確立了 FAST-NN 在單域高維非參數(shù)回歸中的極小化極大最優(yōu)性。我們的微調(diào) FAN-Lasso 將此框架擴展至遷移學(xué)習(xí)，并為同時分布偏移下的殘差微調(diào)提供了統(tǒng)一理論。

1.4 符號與預(yù)備知識

1.5 論文結(jié)構(gòu)

本文其余部分組織如下：第 2 節(jié)介紹高維遷移學(xué)習(xí)框架，第 3 節(jié)闡述我們的方法論，第 4 節(jié)提供因子遷移的理論保證，第 5 節(jié)發(fā)展微調(diào)估計量的理論，第 6 節(jié)通過數(shù)值研究驗證我們所提方法的有效性。技術(shù)證明與補充結(jié)果詳見附錄。

2 模型

2.1 因子增強型非參數(shù)（FAN）模型

我們繼續(xù)使用 §1.1 中引入的符號，并專注于因子增強型非參數(shù)回歸框架。具體而言，我們假設(shè)

我們的目標是開發(fā)一種微調(diào)策略，通過有效利用源域信息來增強目標估計。通過成功遷移源數(shù)據(jù)中的共享結(jié)構(gòu)，我們旨在提高所得估計量 m ^ m 的學(xué)習(xí)效率和性能，使得微調(diào)過程比僅在目標數(shù)據(jù)上進行訓(xùn)練更為有效，特別是當(dāng)目標樣本量遠小于源樣本量時。

2.2 FAN 模型的通用性

2.3 回歸函數(shù)的層次分解

2.4 可遷移性

我們引入了關(guān)于
之間關(guān)系的主要假設(shè)，該假設(shè)將微調(diào)背后的基本原理形式化，并在遷移過程中提供了極大的靈活性。

3 方法論

3.1 用于因子估計的多樣化投影矩陣

3.2 針對協(xié)變量偏移的遷移因子估計

具體而言，我們通過預(yù)設(shè)閾值 δ δ 限制目標協(xié)方差與聚合協(xié)方差之間的差異來提取因子：

3.3 針對后驗偏移的微調(diào)非參數(shù)變量選擇

請注意，(12) 式和 (15) 式均涉及因子增強型神經(jīng) Lasso（Factor Augmented Neural Lasso）。為了將其與 FAST-NN 估計量 (12) 區(qū)分開來，我們將估計量 (16) 稱為（微調(diào)）FAN-Lasso。

4 因子遷移理論

原文鏈接：https://arxiv.org/pdf/2604.12288

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.