Distributionally Robust PAC-Bayesian Control
分布魯棒PAC-貝葉斯控制
https://arxiv.org/pdf/2604.10588
![]()
摘要
我們提出了一種分布魯棒的PAC貝葉斯框架,用于認(rèn)證基于學(xué)習(xí)的有限時(shí)域控制器的性能。盡管現(xiàn)有的PAC-貝葉斯控制文獻(xiàn)通常假設(shè)有界損失以及訓(xùn)練與部署分布相匹配,但我們明確針對(duì)無界損失和環(huán)境分布偏移(即仿真到現(xiàn)實(shí)的差距)進(jìn)行了處理。我們通過結(jié)合兩條現(xiàn)代研究路線來實(shí)現(xiàn)這一目標(biāo),即PAC-貝葉斯泛化理論與基于1型Wasserstein距離的分布魯棒優(yōu)化。通過利用系統(tǒng)級(jí)綜合(SLS)重參數(shù)化,我們推導(dǎo)出了一個(gè)次高斯損失代理項(xiàng),以及一個(gè)因分布偏移導(dǎo)致的性能損失上界。這兩者都直接與閉環(huán)映射的算子范數(shù)相關(guān)聯(lián)。對(duì)于線性時(shí)不變系統(tǒng),這產(chǎn)生了一個(gè)計(jì)算可行的基于優(yōu)化的框架,并能夠?yàn)樵谂c訓(xùn)練所用環(huán)境不同的真實(shí)環(huán)境中部署提供高概率安全證書。
I 引言
將機(jī)器學(xué)習(xí)整合到控制理論中,為直接從有限、含噪的數(shù)據(jù)集中綜合控制策略提供了強(qiáng)大的工具。然而,基于學(xué)習(xí)的控制器以對(duì)分布偏移的脆弱性而聞名,因?yàn)樗鼈兺ǔ<僭O(shè)用于訓(xùn)練的數(shù)據(jù)生成分布與部署(測(cè)試)分布相匹配。這種差異,也被稱為仿真到現(xiàn)實(shí)的差距,當(dāng)在標(biāo)稱條件下訓(xùn)練的控制器被部署到真實(shí)世界時(shí),可能會(huì)顯著降低性能,在真實(shí)世界中,未建模的擾動(dòng)可能表現(xiàn)為對(duì)抗性擾動(dòng)。加劇該問題的是由有限訓(xùn)練數(shù)據(jù)引起的有限樣本不確定性。
PAC-貝葉斯[1]框架已成為一種嚴(yán)格的方法,用于為隨機(jī)學(xué)習(xí)算法提供高概率的有限樣本泛化保證。利用PAC-貝葉斯技術(shù),文獻(xiàn)[2]中的作者給出了深度神經(jīng)網(wǎng)絡(luò)中第一個(gè)非平凡的(non-vacuous)泛化界,這是一項(xiàng)重大突破,也展示了PAC-貝葉斯方法的潛力。
研究人員也將PAC-貝葉斯方法應(yīng)用于控制領(lǐng)域,例如在機(jī)器人學(xué)中需要泛化到未見環(huán)境的設(shè)置中[3]。在其擴(kuò)展工作中,他們也處理了訓(xùn)練與測(cè)試分布不匹配的情況,但僅使用了信息論中的f-散度度量,這實(shí)際上膨脹了復(fù)雜性項(xiàng)。除了假設(shè)損失存在硬性上限外,由于分布魯棒性帶來的懲罰只是一個(gè)簡(jiǎn)單的加性常數(shù)項(xiàng),該常數(shù)項(xiàng)不依賴于控制策略。最近,文獻(xiàn)[4]、[5]中的作者探索了非線性控制中的PAC-貝葉斯保證,他們通過采用內(nèi)在穩(wěn)定的參數(shù)化方式對(duì)底層系統(tǒng)進(jìn)行參數(shù)化,以優(yōu)化并認(rèn)證所得性能。然而,如前所述,這些工作做出了訓(xùn)練與部署環(huán)境中存在單一數(shù)據(jù)生成分布的標(biāo)準(zhǔn)假設(shè),并考慮了有限損失。
分布魯棒(DR)優(yōu)化[6]方法在控制領(lǐng)域[7]中有著更為顯著的存在,被用于模型預(yù)測(cè)控制[8]等眾多應(yīng)用中。DR方法已成為對(duì)抗“優(yōu)化者詛咒”[9]的主要途徑,這是一種與過擬合密切相關(guān)的現(xiàn)象。其主要思想是根據(jù)圍繞標(biāo)稱分布[10]的模糊集(ambiguity set)中的最壞分布來優(yōu)化系統(tǒng)性能。該標(biāo)稱分布通常是通過抽取有限數(shù)量樣本構(gòu)建的經(jīng)驗(yàn)分布。通過借助Wasserstein距離,文獻(xiàn)[11]中的作者提供了概率保證,即真實(shí)分布位于經(jīng)驗(yàn)分布的模糊集內(nèi)。
在本工作中,我們將PAC-貝葉斯控制框架擴(kuò)展以處理無界損失和分布偏移。事實(shí)上,我們提出了一種利用1-Wasserstein距離的分布魯棒PAC-貝葉斯控制框架。通過利用Kantorovich-Rubinstein對(duì)偶性[12],Wasserstein魯棒性懲罰明確地將泛化界與依賴于控制器的閉環(huán)系統(tǒng)Lipschitz常數(shù)聯(lián)系起來。該界使我們能夠在控制器設(shè)計(jì)階段使系統(tǒng)性能對(duì)分布偏移具有免疫力。事實(shí)上,我們的方法建立了一個(gè)魯棒的PAC-貝葉斯界,明確考慮了訓(xùn)練與部署環(huán)境之間潛在的錯(cuò)位。最后,我們通過系統(tǒng)級(jí)綜合(SLS)[13]將這一理論上的分布魯棒PAC-貝葉斯界轉(zhuǎn)化為適用于LTI系統(tǒng)的計(jì)算可行的算法。這相當(dāng)于一種有效的重參數(shù)化,使我們能夠提供關(guān)于Lipschitz和次高斯代理項(xiàng)的具體界,這兩者在我們的框架中均依賴于控制器。我們現(xiàn)在準(zhǔn)備總結(jié)我們的貢獻(xiàn)。
貢獻(xiàn): 我們的主要貢獻(xiàn)有兩方面:首先,針對(duì)無界Lipschitz損失函數(shù),我們引入了PAC-貝葉斯控制的Wasserstein分布魯棒擴(kuò)展;其次,通過將框架專門化用于SLS形式的有限時(shí)域LTI控制,我們從相同的閉環(huán)映射中推導(dǎo)出了關(guān)于損失集中性和部署魯棒性的顯式依賴于控制器的證書(certificates)。這些證書導(dǎo)出了一個(gè)針對(duì)可行控制器的可處理后驗(yàn)優(yōu)化問題,以及相對(duì)于訓(xùn)練分布的擾動(dòng)偏移下的有限樣本保證,而該分布無需被辨識(shí)。
本文的其余部分組織如下:在第二節(jié)中,我們?yōu)樽x者提供關(guān)于我們所考慮的動(dòng)力系統(tǒng)、分布魯棒性的必要背景,并介紹PAC-貝葉斯框架。在第三節(jié)中,我們陳述關(guān)于Wasserstein 1型距離的分布魯棒PAC-貝葉斯控制的結(jié)果。接著,在第四節(jié)中,我們?cè)赟LS框架下重構(gòu)該問題,并將我們的結(jié)果專門化應(yīng)用于線性時(shí)不變(LTI)系統(tǒng)。基于控制器誘導(dǎo)的閉環(huán)映射,我們?yōu)榇胃咚辜行裕╯ub-Gaussian concentration)和魯棒性懲罰項(xiàng)提供了有效的代理(proxies)。在第五節(jié)中,我們通過數(shù)值算例驗(yàn)證我們的發(fā)現(xiàn)。
![]()
II. 問題表述
在本節(jié)中,我們介紹了我們方法所需的背景知識(shí)。我們的目標(biāo)是為基于 PAC-Bayes 學(xué)習(xí)理論的學(xué)習(xí)控制器提供有限樣本保證,并解決學(xué)習(xí)到的控制器在訓(xùn)練和部署(測(cè)試)環(huán)境之間的分布偏移問題。為此,我們?cè)?II-A 節(jié)建立了一個(gè)抽象的學(xué)習(xí)控制問題。我們?cè)?II-B 節(jié)介紹了概率論中必要的預(yù)備知識(shí)。在 II-C 節(jié),我們討論分布魯棒性和 Wasserstein 距離。在 II-D 節(jié),我們總結(jié)了文獻(xiàn) [14] 中關(guān)于 PAC-Bayes 泛化的一個(gè)關(guān)鍵結(jié)果,我們要將其以分布魯棒的形式擴(kuò)展到控制設(shè)置中。我們?cè)?II-E 節(jié)提供了一個(gè)簡(jiǎn)短的問題陳述。
A. 系統(tǒng)動(dòng)力學(xué)與控制
![]()
![]()
![]()
在第四節(jié)中,我們將這一抽象設(shè)置特化應(yīng)用于系統(tǒng)級(jí)綜合(SLS)形式的有限時(shí)域線性時(shí)不變(LTI)系統(tǒng),其中樣本 Z Z 變?yōu)閿_動(dòng)軌跡,且 rollout 損失用于衡量加權(quán)閉環(huán)性能輸出。
B. 概率論
PAC-Bayes 界中的核心關(guān)注對(duì)象是次高斯隨機(jī)變量 [15]。
定義 1(次高斯隨機(jī)變量): 一個(gè)零均值隨機(jī)變量 X X 是次高斯的,如果
![]()
![]()
離散隨機(jī)變量的定義依此類推。在此我們還注意到,兩個(gè)高斯隨機(jī)向量之間的 KL 散度具有閉式解。
C. 分布魯棒性與 Wasserstein 距離
![]()
![]()
![]()
上述形式也常被稱為分布魯棒 [6] 優(yōu)化。然而,在我們的情形中,Lipschitz 常數(shù)和次高斯方差代理(variance proxy)將不再是靜態(tài)對(duì)象,它們將依賴于后驗(yàn)控制器分布。
D. PAC-貝葉斯學(xué)習(xí)理
![]()
大多數(shù) PAC-貝葉斯結(jié)果在假設(shè)損失存在最大上限(maximum cap)的情況下,給出了泛化性能的界。這種設(shè)置在機(jī)器學(xué)習(xí)應(yīng)用中很自然,因?yàn)閾p失通常是有界的(例如 0-1 分類損失)。將其轉(zhuǎn)化為控制問題可以通過將損失在某個(gè)最大值處飽和(saturating)來實(shí)現(xiàn)。然而,這帶來了諸如繁瑣的校準(zhǔn)以及在接近上界區(qū)域不可避免地喪失靈敏度等問題。
也有針對(duì)無界次高斯損失 [17] 的結(jié)果,其中假設(shè)損失具有一個(gè)全局方差代理(global variance proxy)。然而,這通常不適用于動(dòng)力系統(tǒng)的控制,因?yàn)閷?duì)最壞情況損失進(jìn)行界定意味著該界是由控制器集合中最差的可能控制器內(nèi)在決定的。
出于這個(gè)原因,我們采用了針對(duì)假設(shè)依賴的次高斯損失(hypothesis dependent sub-Gaussian losses)[14] 的最新結(jié)果。在此,我們簡(jiǎn)要指出,文獻(xiàn) [14] 中的方法在優(yōu)化方面還有其他相關(guān)含義,但這超出了本文的范圍。用控制領(lǐng)域的術(shù)語來說,假設(shè)對(duì)應(yīng)于一個(gè)控制器。其含義是,集中界(concentration bound)取決于所部署控制器的(期望)性能。由于我們要優(yōu)化控制器的性能,這兩個(gè)目標(biāo)是一致的。我們陳述適用于我們?cè)O(shè)置的定理。
![]()
![]()
注意,我們從用于訓(xùn)練的分布 D D 中采樣,并在假設(shè)現(xiàn)實(shí)世界中的數(shù)據(jù)生成分布與訓(xùn)練分布相同的前提下提供部署保證。這通常是一個(gè)不切實(shí)際的假設(shè),我們將在第三節(jié)中解決這一特定問題。
E. 問題陳述
在本文中,我們要解決的問題是:確保在一個(gè)具有未知數(shù)據(jù)生成分布的有限樣本訓(xùn)練環(huán)境中訓(xùn)練出的控制系統(tǒng),在存在分布偏移的情況下,能夠在部署環(huán)境中轉(zhuǎn)化為可預(yù)測(cè)的性能。特別是,我們要將定理 1 擴(kuò)展到部署生成分布與訓(xùn)練分布不同的情況。
III. 分布魯棒 PAC-Bayes
在本節(jié)中,我們將定理 1 中的標(biāo)稱 PAC-Bayes 界與 Wasserstein 魯棒化相結(jié)合。我們?cè)诘谒墓?jié)中將由此得到的保證專門化應(yīng)用于有限時(shí)域 SLS 控制。
不同于標(biāo)準(zhǔn)的 PAC-Bayes,我們的目標(biāo)是提供期望分布魯棒總體(DROP)風(fēng)險(xiǎn)的高概率上界,我們將其定義為:
![]()
![]()
A. 基于 Wasserstein 距離的分布魯棒 PAC-貝葉斯
![]()
![]()
![]()
![]()
![]()
注意,Wasserstein DROP 風(fēng)險(xiǎn)是圍繞訓(xùn)練(未知)分布為中心的。魯棒性懲罰項(xiàng) L ( K ) ρ 現(xiàn)在明確地與每個(gè)單獨(dú)控制器的幾何靈敏度相關(guān)聯(lián)。因此,最小化該界需要一種算法來主動(dòng)優(yōu)化經(jīng)驗(yàn)魯棒風(fēng)險(xiǎn),從而偏好那些具有較小(期望)Lipschitz 常數(shù)的模型,這些模型能在未見環(huán)境中產(chǎn)生更好的泛化界。
IV. 系統(tǒng)級(jí)綜合與可處理的后驗(yàn)優(yōu)化
我們現(xiàn)在將 II-A 節(jié)中的抽象設(shè)置特化應(yīng)用于有限時(shí)域線性時(shí)不變(LTI)系統(tǒng)。控制器 K ∈ K 現(xiàn)在是一個(gè)有限時(shí)域線性因果控制器,而樣本 Z ∈ Z 是一條擾動(dòng)軌跡。此外,我們利用系統(tǒng)級(jí)綜合(SLS)[13] 框架,根據(jù)從擾動(dòng)到狀態(tài)-控制軌跡的閉環(huán)映射,獲得顯式的次高斯代理項(xiàng)和 Wasserstein Lipschitz 界。
A. 有限時(shí)域 LTI 特化
考慮一個(gè)受加性擾動(dòng)影響的線性時(shí)不變(LTI)離散時(shí)間動(dòng)力系統(tǒng)
![]()
![]()
![]()
![]()
![]()
B. 有限時(shí)域提升的 SLS 響應(yīng)
考慮由 (12) 定義的離散時(shí)間 LTI 系統(tǒng)。 定義堆疊向量
![]()
注意,為了簡(jiǎn)化符號(hào)表示,我們將初始狀態(tài)包含在 w w 中。對(duì)于有限時(shí)域控制器,堆疊的狀態(tài)和輸入軌跡是堆疊擾動(dòng)向量的確定性線性映射:
![]()
關(guān)于這些等式的更多細(xì)節(jié)和推導(dǎo),讀者可參考[13]。
C. 子空間參數(shù)化
為了獲得用于PAC-貝葉斯的有限維假設(shè)空間,我們將提升的閉環(huán)響應(yīng)矩陣進(jìn)行向量化。令:
![]()
![]()
![]()
![]()
![]()
我們現(xiàn)在針對(duì)兩種有用的擾動(dòng)模型驗(yàn)證定理 2 的條件:高斯擾動(dòng)軌跡和幾乎必然有界的擾動(dòng)軌跡。再次注意,D 是擾動(dòng)軌跡的訓(xùn)練分布。
D. 依賴于控制器的集中性與魯棒性證書
我們首先從一個(gè)關(guān)于高斯軌跡的命題開始。
命題 1(高斯軌跡擾動(dòng)): 假設(shè):
![]()
![]()
![]()
![]()
E. SLS 形式的魯棒 PAC-Bayes 目標(biāo)
將定理 2 給出的 PAC-Bayes 平方根界與 SLS 假設(shè) θ 相結(jié)合,得出了關(guān)于后驗(yàn) Q 的最終學(xué)習(xí)算法。利用由 (20) 或 (21) 給出的顯式代理 σ ( θ ) ,我們將后驗(yàn)優(yōu)化問題表述為
![]()
![]()
V. 數(shù)值算例
在下文中,我們使用 Julia [22] 來實(shí)現(xiàn)數(shù)值算例,并使用 Zygote [23] 作為自動(dòng)微分后端。優(yōu)化問題是在 JuMP [24] 中建模的。
A. 雙積分器
我們考慮針對(duì)離散時(shí)間線性系統(tǒng) (12) 的一個(gè)有限時(shí)域控制問題,其中
![]()
![]()
![]()
![]()
觀察圖 1,我們可以看到,正如預(yù)期的那樣,PAC-Bayes 復(fù)雜性項(xiàng)隨著數(shù)據(jù)的增加而減小。然而,優(yōu)化過程仍然必須平衡來自 Wasserstein 懲罰項(xiàng)和經(jīng)驗(yàn)風(fēng)險(xiǎn)的貢獻(xiàn),這兩者都是在同一個(gè)后驗(yàn)分布上取平均的。
圖2展示了我們的方法在存在分布偏移時(shí)的有效性。我們可以觀察到,原始(vanilla)PAC-Bayes(即不包含Wasserstein部分的PAC-Bayes項(xiàng))無法妥善應(yīng)對(duì)環(huán)境偏移。從圖中可以清楚地看到,對(duì)于所有數(shù)據(jù)集大小 n n,報(bào)告的界均被違反。另一方面,我們的魯棒化方法為實(shí)際經(jīng)驗(yàn)風(fēng)險(xiǎn)提供了正確的上界。我們還指出,我們的方法在分布偏移的測(cè)試數(shù)據(jù)上表現(xiàn)優(yōu)于原始方法。兩種方法均在相同的對(duì)抗性分布偏移下進(jìn)行了測(cè)試。需要注意的是,所選的分布偏移被設(shè)置為在移動(dòng)訓(xùn)練數(shù)據(jù)分布均值的同時(shí),仍保持在認(rèn)證半徑之內(nèi)。
VI.結(jié)論與未來工作
在本工作中,我們將 PAC-貝葉斯泛化分析與 Wasserstein 分布魯棒性相結(jié)合,并將所得框架特化應(yīng)用于 SLS 形式的有限時(shí)域 LTI 控制。主要成果是一個(gè)顯式且可計(jì)算的界,其中集中性和魯棒性均通過加權(quán)閉環(huán)映射的算子范數(shù)進(jìn)行認(rèn)證。這為在擾動(dòng)分布偏移下的隨機(jī)可行控制器提供了有限樣本保證。對(duì)于未來工作,我們?cè)O(shè)想將此方法擴(kuò)展到模型不確定性、次指數(shù)損失(如平方范數(shù)代價(jià)),以及基于學(xué)習(xí)的魯棒模型預(yù)測(cè)控制。
原文鏈接:https://arxiv.org/pdf/2604.10588
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.