網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

分布魯棒PAC-貝葉斯控制

2026-04-15 10:30:47　來源: CreateAMind

上海舉報(bào)

分享至

Distributionally Robust PAC-Bayesian Control

分布魯棒PAC-貝葉斯控制

https://arxiv.org/pdf/2604.10588

摘要

我們提出了一種分布魯棒的PAC貝葉斯框架，用于認(rèn)證基于學(xué)習(xí)的有限時(shí)域控制器的性能。盡管現(xiàn)有的PAC-貝葉斯控制文獻(xiàn)通常假設(shè)有界損失以及訓(xùn)練與部署分布相匹配，但我們明確針對(duì)無界損失和環(huán)境分布偏移（即仿真到現(xiàn)實(shí)的差距）進(jìn)行了處理。我們通過結(jié)合兩條現(xiàn)代研究路線來實(shí)現(xiàn)這一目標(biāo)，即PAC-貝葉斯泛化理論與基于1型Wasserstein距離的分布魯棒優(yōu)化。通過利用系統(tǒng)級(jí)綜合（SLS）重參數(shù)化，我們推導(dǎo)出了一個(gè)次高斯損失代理項(xiàng)，以及一個(gè)因分布偏移導(dǎo)致的性能損失上界。這兩者都直接與閉環(huán)映射的算子范數(shù)相關(guān)聯(lián)。對(duì)于線性時(shí)不變系統(tǒng)，這產(chǎn)生了一個(gè)計(jì)算可行的基于優(yōu)化的框架，并能夠?yàn)樵谂c訓(xùn)練所用環(huán)境不同的真實(shí)環(huán)境中部署提供高概率安全證書。

I 引言

將機(jī)器學(xué)習(xí)整合到控制理論中，為直接從有限、含噪的數(shù)據(jù)集中綜合控制策略提供了強(qiáng)大的工具。然而，基于學(xué)習(xí)的控制器以對(duì)分布偏移的脆弱性而聞名，因?yàn)樗鼈兺ǔ＜僭O(shè)用于訓(xùn)練的數(shù)據(jù)生成分布與部署（測(cè)試）分布相匹配。這種差異，也被稱為仿真到現(xiàn)實(shí)的差距，當(dāng)在標(biāo)稱條件下訓(xùn)練的控制器被部署到真實(shí)世界時(shí)，可能會(huì)顯著降低性能，在真實(shí)世界中，未建模的擾動(dòng)可能表現(xiàn)為對(duì)抗性擾動(dòng)。加劇該問題的是由有限訓(xùn)練數(shù)據(jù)引起的有限樣本不確定性。

PAC-貝葉斯[1]框架已成為一種嚴(yán)格的方法，用于為隨機(jī)學(xué)習(xí)算法提供高概率的有限樣本泛化保證。利用PAC-貝葉斯技術(shù)，文獻(xiàn)[2]中的作者給出了深度神經(jīng)網(wǎng)絡(luò)中第一個(gè)非平凡的（non-vacuous）泛化界，這是一項(xiàng)重大突破，也展示了PAC-貝葉斯方法的潛力。

研究人員也將PAC-貝葉斯方法應(yīng)用于控制領(lǐng)域，例如在機(jī)器人學(xué)中需要泛化到未見環(huán)境的設(shè)置中[3]。在其擴(kuò)展工作中，他們也處理了訓(xùn)練與測(cè)試分布不匹配的情況，但僅使用了信息論中的f-散度度量，這實(shí)際上膨脹了復(fù)雜性項(xiàng)。除了假設(shè)損失存在硬性上限外，由于分布魯棒性帶來的懲罰只是一個(gè)簡(jiǎn)單的加性常數(shù)項(xiàng)，該常數(shù)項(xiàng)不依賴于控制策略。最近，文獻(xiàn)[4]、[5]中的作者探索了非線性控制中的PAC-貝葉斯保證，他們通過采用內(nèi)在穩(wěn)定的參數(shù)化方式對(duì)底層系統(tǒng)進(jìn)行參數(shù)化，以優(yōu)化并認(rèn)證所得性能。然而，如前所述，這些工作做出了訓(xùn)練與部署環(huán)境中存在單一數(shù)據(jù)生成分布的標(biāo)準(zhǔn)假設(shè)，并考慮了有限損失。

分布魯棒（DR）優(yōu)化[6]方法在控制領(lǐng)域[7]中有著更為顯著的存在，被用于模型預(yù)測(cè)控制[8]等眾多應(yīng)用中。DR方法已成為對(duì)抗“優(yōu)化者詛咒”[9]的主要途徑，這是一種與過擬合密切相關(guān)的現(xiàn)象。其主要思想是根據(jù)圍繞標(biāo)稱分布[10]的模糊集（ambiguity set）中的最壞分布來優(yōu)化系統(tǒng)性能。該標(biāo)稱分布通常是通過抽取有限數(shù)量樣本構(gòu)建的經(jīng)驗(yàn)分布。通過借助Wasserstein距離，文獻(xiàn)[11]中的作者提供了概率保證，即真實(shí)分布位于經(jīng)驗(yàn)分布的模糊集內(nèi)。

在本工作中，我們將PAC-貝葉斯控制框架擴(kuò)展以處理無界損失和分布偏移。事實(shí)上，我們提出了一種利用1-Wasserstein距離的分布魯棒PAC-貝葉斯控制框架。通過利用Kantorovich-Rubinstein對(duì)偶性[12]，Wasserstein魯棒性懲罰明確地將泛化界與依賴于控制器的閉環(huán)系統(tǒng)Lipschitz常數(shù)聯(lián)系起來。該界使我們能夠在控制器設(shè)計(jì)階段使系統(tǒng)性能對(duì)分布偏移具有免疫力。事實(shí)上，我們的方法建立了一個(gè)魯棒的PAC-貝葉斯界，明確考慮了訓(xùn)練與部署環(huán)境之間潛在的錯(cuò)位。最后，我們通過系統(tǒng)級(jí)綜合（SLS）[13]將這一理論上的分布魯棒PAC-貝葉斯界轉(zhuǎn)化為適用于LTI系統(tǒng)的計(jì)算可行的算法。這相當(dāng)于一種有效的重參數(shù)化，使我們能夠提供關(guān)于Lipschitz和次高斯代理項(xiàng)的具體界，這兩者在我們的框架中均依賴于控制器。我們現(xiàn)在準(zhǔn)備總結(jié)我們的貢獻(xiàn)。

貢獻(xiàn)： 我們的主要貢獻(xiàn)有兩方面：首先，針對(duì)無界Lipschitz損失函數(shù)，我們引入了PAC-貝葉斯控制的Wasserstein分布魯棒擴(kuò)展；其次，通過將框架專門化用于SLS形式的有限時(shí)域LTI控制，我們從相同的閉環(huán)映射中推導(dǎo)出了關(guān)于損失集中性和部署魯棒性的顯式依賴于控制器的證書（certificates）。這些證書導(dǎo)出了一個(gè)針對(duì)可行控制器的可處理后驗(yàn)優(yōu)化問題，以及相對(duì)于訓(xùn)練分布的擾動(dòng)偏移下的有限樣本保證，而該分布無需被辨識(shí)。

本文的其余部分組織如下：在第二節(jié)中，我們?yōu)樽x者提供關(guān)于我們所考慮的動(dòng)力系統(tǒng)、分布魯棒性的必要背景，并介紹PAC-貝葉斯框架。在第三節(jié)中，我們陳述關(guān)于Wasserstein 1型距離的分布魯棒PAC-貝葉斯控制的結(jié)果。接著，在第四節(jié)中，我們?cè)赟LS框架下重構(gòu)該問題，并將我們的結(jié)果專門化應(yīng)用于線性時(shí)不變（LTI）系統(tǒng)。基于控制器誘導(dǎo)的閉環(huán)映射，我們?yōu)榇胃咚辜行裕╯ub-Gaussian concentration）和魯棒性懲罰項(xiàng)提供了有效的代理（proxies）。在第五節(jié)中，我們通過數(shù)值算例驗(yàn)證我們的發(fā)現(xiàn)。

II. 問題表述

在本節(jié)中，我們介紹了我們方法所需的背景知識(shí)。我們的目標(biāo)是為基于 PAC-Bayes 學(xué)習(xí)理論的學(xué)習(xí)控制器提供有限樣本保證，并解決學(xué)習(xí)到的控制器在訓(xùn)練和部署（測(cè)試）環(huán)境之間的分布偏移問題。為此，我們?cè)?II-A 節(jié)建立了一個(gè)抽象的學(xué)習(xí)控制問題。我們?cè)?II-B 節(jié)介紹了概率論中必要的預(yù)備知識(shí)。在 II-C 節(jié)，我們討論分布魯棒性和 Wasserstein 距離。在 II-D 節(jié)，我們總結(jié)了文獻(xiàn) [14] 中關(guān)于 PAC-Bayes 泛化的一個(gè)關(guān)鍵結(jié)果，我們要將其以分布魯棒的形式擴(kuò)展到控制設(shè)置中。我們?cè)?II-E 節(jié)提供了一個(gè)簡(jiǎn)短的問題陳述。

A. 系統(tǒng)動(dòng)力學(xué)與控制

在第四節(jié)中，我們將這一抽象設(shè)置特化應(yīng)用于系統(tǒng)級(jí)綜合（SLS）形式的有限時(shí)域線性時(shí)不變（LTI）系統(tǒng)，其中樣本 Z Z 變?yōu)閿_動(dòng)軌跡，且 rollout 損失用于衡量加權(quán)閉環(huán)性能輸出。

B. 概率論

PAC-Bayes 界中的核心關(guān)注對(duì)象是次高斯隨機(jī)變量 [15]。

定義 1（次高斯隨機(jī)變量）： 一個(gè)零均值隨機(jī)變量 X X 是次高斯的，如果

離散隨機(jī)變量的定義依此類推。在此我們還注意到，兩個(gè)高斯隨機(jī)向量之間的 KL 散度具有閉式解。

C. 分布魯棒性與 Wasserstein 距離

上述形式也常被稱為分布魯棒 [6] 優(yōu)化。然而，在我們的情形中，Lipschitz 常數(shù)和次高斯方差代理（variance proxy）將不再是靜態(tài)對(duì)象，它們將依賴于后驗(yàn)控制器分布。

D. PAC-貝葉斯學(xué)習(xí)理

大多數(shù) PAC-貝葉斯結(jié)果在假設(shè)損失存在最大上限（maximum cap）的情況下，給出了泛化性能的界。這種設(shè)置在機(jī)器學(xué)習(xí)應(yīng)用中很自然，因?yàn)閾p失通常是有界的（例如 0-1 分類損失）。將其轉(zhuǎn)化為控制問題可以通過將損失在某個(gè)最大值處飽和（saturating）來實(shí)現(xiàn)。然而，這帶來了諸如繁瑣的校準(zhǔn)以及在接近上界區(qū)域不可避免地喪失靈敏度等問題。

也有針對(duì)無界次高斯損失 [17] 的結(jié)果，其中假設(shè)損失具有一個(gè)全局方差代理（global variance proxy）。然而，這通常不適用于動(dòng)力系統(tǒng)的控制，因?yàn)閷?duì)最壞情況損失進(jìn)行界定意味著該界是由控制器集合中最差的可能控制器內(nèi)在決定的。

出于這個(gè)原因，我們采用了針對(duì)假設(shè)依賴的次高斯損失（hypothesis dependent sub-Gaussian losses）[14] 的最新結(jié)果。在此，我們簡(jiǎn)要指出，文獻(xiàn) [14] 中的方法在優(yōu)化方面還有其他相關(guān)含義，但這超出了本文的范圍。用控制領(lǐng)域的術(shù)語來說，假設(shè)對(duì)應(yīng)于一個(gè)控制器。其含義是，集中界（concentration bound）取決于所部署控制器的（期望）性能。由于我們要優(yōu)化控制器的性能，這兩個(gè)目標(biāo)是一致的。我們陳述適用于我們?cè)O(shè)置的定理。

注意，我們從用于訓(xùn)練的分布 D D 中采樣，并在假設(shè)現(xiàn)實(shí)世界中的數(shù)據(jù)生成分布與訓(xùn)練分布相同的前提下提供部署保證。這通常是一個(gè)不切實(shí)際的假設(shè)，我們將在第三節(jié)中解決這一特定問題。

E. 問題陳述

在本文中，我們要解決的問題是：確保在一個(gè)具有未知數(shù)據(jù)生成分布的有限樣本訓(xùn)練環(huán)境中訓(xùn)練出的控制系統(tǒng)，在存在分布偏移的情況下，能夠在部署環(huán)境中轉(zhuǎn)化為可預(yù)測(cè)的性能。特別是，我們要將定理 1 擴(kuò)展到部署生成分布與訓(xùn)練分布不同的情況。

III. 分布魯棒 PAC-Bayes

在本節(jié)中，我們將定理 1 中的標(biāo)稱 PAC-Bayes 界與 Wasserstein 魯棒化相結(jié)合。我們?cè)诘谒墓?jié)中將由此得到的保證專門化應(yīng)用于有限時(shí)域 SLS 控制。

不同于標(biāo)準(zhǔn)的 PAC-Bayes，我們的目標(biāo)是提供期望分布魯棒總體（DROP）風(fēng)險(xiǎn)的高概率上界，我們將其定義為：

A. 基于 Wasserstein 距離的分布魯棒 PAC-貝葉斯

注意，Wasserstein DROP 風(fēng)險(xiǎn)是圍繞訓(xùn)練（未知）分布為中心的。魯棒性懲罰項(xiàng) L ( K ) ρ 現(xiàn)在明確地與每個(gè)單獨(dú)控制器的幾何靈敏度相關(guān)聯(lián)。因此，最小化該界需要一種算法來主動(dòng)優(yōu)化經(jīng)驗(yàn)魯棒風(fēng)險(xiǎn)，從而偏好那些具有較小（期望）Lipschitz 常數(shù)的模型，這些模型能在未見環(huán)境中產(chǎn)生更好的泛化界。

IV. 系統(tǒng)級(jí)綜合與可處理的后驗(yàn)優(yōu)化

我們現(xiàn)在將 II-A 節(jié)中的抽象設(shè)置特化應(yīng)用于有限時(shí)域線性時(shí)不變（LTI）系統(tǒng)。控制器 K ∈ K 現(xiàn)在是一個(gè)有限時(shí)域線性因果控制器，而樣本 Z ∈ Z 是一條擾動(dòng)軌跡。此外，我們利用系統(tǒng)級(jí)綜合（SLS）[13] 框架，根據(jù)從擾動(dòng)到狀態(tài)-控制軌跡的閉環(huán)映射，獲得顯式的次高斯代理項(xiàng)和 Wasserstein Lipschitz 界。

A. 有限時(shí)域 LTI 特化

考慮一個(gè)受加性擾動(dòng)影響的線性時(shí)不變（LTI）離散時(shí)間動(dòng)力系統(tǒng)

B. 有限時(shí)域提升的 SLS 響應(yīng)

考慮由 (12) 定義的離散時(shí)間 LTI 系統(tǒng)。定義堆疊向量

注意，為了簡(jiǎn)化符號(hào)表示，我們將初始狀態(tài)包含在 w w 中。對(duì)于有限時(shí)域控制器，堆疊的狀態(tài)和輸入軌跡是堆疊擾動(dòng)向量的確定性線性映射：

關(guān)于這些等式的更多細(xì)節(jié)和推導(dǎo)，讀者可參考[13]。

C. 子空間參數(shù)化

為了獲得用于PAC-貝葉斯的有限維假設(shè)空間，我們將提升的閉環(huán)響應(yīng)矩陣進(jìn)行向量化。令：

我們現(xiàn)在針對(duì)兩種有用的擾動(dòng)模型驗(yàn)證定理 2 的條件：高斯擾動(dòng)軌跡和幾乎必然有界的擾動(dòng)軌跡。再次注意，D 是擾動(dòng)軌跡的訓(xùn)練分布。

D. 依賴于控制器的集中性與魯棒性證書

我們首先從一個(gè)關(guān)于高斯軌跡的命題開始。

命題 1（高斯軌跡擾動(dòng)）： 假設(shè)：

E. SLS 形式的魯棒 PAC-Bayes 目標(biāo)

將定理 2 給出的 PAC-Bayes 平方根界與 SLS 假設(shè) θ 相結(jié)合，得出了關(guān)于后驗(yàn) Q 的最終學(xué)習(xí)算法。利用由 (20) 或 (21) 給出的顯式代理 σ ( θ ) ，我們將后驗(yàn)優(yōu)化問題表述為

V. 數(shù)值算例

在下文中，我們使用 Julia [22] 來實(shí)現(xiàn)數(shù)值算例，并使用 Zygote [23] 作為自動(dòng)微分后端。優(yōu)化問題是在 JuMP [24] 中建模的。

A. 雙積分器

我們考慮針對(duì)離散時(shí)間線性系統(tǒng) (12) 的一個(gè)有限時(shí)域控制問題，其中

觀察圖 1，我們可以看到，正如預(yù)期的那樣，PAC-Bayes 復(fù)雜性項(xiàng)隨著數(shù)據(jù)的增加而減小。然而，優(yōu)化過程仍然必須平衡來自 Wasserstein 懲罰項(xiàng)和經(jīng)驗(yàn)風(fēng)險(xiǎn)的貢獻(xiàn)，這兩者都是在同一個(gè)后驗(yàn)分布上取平均的。

圖2展示了我們的方法在存在分布偏移時(shí)的有效性。我們可以觀察到，原始（vanilla）PAC-Bayes（即不包含Wasserstein部分的PAC-Bayes項(xiàng)）無法妥善應(yīng)對(duì)環(huán)境偏移。從圖中可以清楚地看到，對(duì)于所有數(shù)據(jù)集大小 n n，報(bào)告的界均被違反。另一方面，我們的魯棒化方法為實(shí)際經(jīng)驗(yàn)風(fēng)險(xiǎn)提供了正確的上界。我們還指出，我們的方法在分布偏移的測(cè)試數(shù)據(jù)上表現(xiàn)優(yōu)于原始方法。兩種方法均在相同的對(duì)抗性分布偏移下進(jìn)行了測(cè)試。需要注意的是，所選的分布偏移被設(shè)置為在移動(dòng)訓(xùn)練數(shù)據(jù)分布均值的同時(shí)，仍保持在認(rèn)證半徑之內(nèi)。

VI.結(jié)論與未來工作

在本工作中，我們將 PAC-貝葉斯泛化分析與 Wasserstein 分布魯棒性相結(jié)合，并將所得框架特化應(yīng)用于 SLS 形式的有限時(shí)域 LTI 控制。主要成果是一個(gè)顯式且可計(jì)算的界，其中集中性和魯棒性均通過加權(quán)閉環(huán)映射的算子范數(shù)進(jìn)行認(rèn)證。這為在擾動(dòng)分布偏移下的隨機(jī)可行控制器提供了有限樣本保證。對(duì)于未來工作，我們?cè)O(shè)想將此方法擴(kuò)展到模型不確定性、次指數(shù)損失（如平方范數(shù)代價(jià)），以及基于學(xué)習(xí)的魯棒模型預(yù)測(cè)控制。

原文鏈接：https://arxiv.org/pdf/2604.10588

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.