无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

在線精確校準貝葉斯優化

0
分享至

Online Sharp-Calibrated Bayesian Optimization

在線精確校準貝葉斯優化

https://arxiv.org/pdf/2605.10572



摘要

貝葉斯優化(BO)是一種廣泛使用的優化昂貴黑盒函數的框架,通常基于高斯過程(GP)代理模型。其有效性依賴于在整個 BO 軌跡上既精確(信息量大)又校準良好的不確定性量化。在實踐中,GP 核超參數是未知的,并且會從順序收集的(非獨立同分布)數據中在線重新擬合,這可能導致不確定性校準不良或過于保守,并且超出了標準 BO 遺憾理論中固定核的假設。我們提出了在線精確-校準貝葉斯優化(OSCBO),這是一種 BO 算法,通過將超參數選擇構建為受約束的在線學習問題,自適應地平衡 GP 的精確度和校準度。我們還表明,OSCBO 通過利用底層在線學習算法的理論保證,保持了次線性遺憾界。在經驗上,OSCBO 在合成和現實世界基準測試中表現具有競爭力,在最終簡單遺憾方面位列最強方法之一,同時保持了穩健的累積遺憾表現。

1 引言

許多現代設計問題歸結為在嚴格的評估預算下優化昂貴的黑盒函數。貝葉斯優化(BO)通過維護一個概率代理模型來解決這一場景,通常是帶有選定核的高斯過程(GP),其后驗均值和不確定性由采集函數組合以選擇新的評估點 [14]。這種由不確定性驅動的采樣已在材料、生物學和機器人等多樣領域實現了高效優化 [8, 30]。

BO 的核心理論視角是遺憾(regret),它衡量了隨著評估預算的增長,算法接近全局最優的速度有多快。對于基于 GP 的 BO,遺憾分析將高概率 GP 不確定性界與 GP-UCB [29] 等策略的探索-利用行為相結合。然而,這些結果幾乎總是假設在整個 BO 循環中 GP 核是固定的,或者等價地,假設由核超參數誘導的再生核希爾伯特空間(RKHS)是固定的。在實踐中,超參數是在線重新擬合的(例如,通過最大化邊際似然)。這改變了不確定性估計和隱含的函數類,導致標準 BO 實踐與現有遺憾理論之間的不匹配。

在每次 BO 迭代中廣泛重新擬合 GP 超參數的做法表明,超參數選擇是優化循環的核心部分。由于超參數塑造了后驗不確定性,它直接決定了采集值,從而決定了下一次評估。基于校準在序貫決策中處于核心地位的觀點 [11],我們將經典的探索-利用原則重新表述為預測不確定性的校準度與精確度(sharpness)之間的權衡。校準度詢問 GP 置信區間是否在自適應查詢序列上達到其名義覆蓋率,通過覆蓋率差距來量化;而精確度則測量置信區間的寬度。過于保守的不確定性可能保持校準但會減緩利用;過于自信的不確定性雖然精確但校準不良,可能觸發過早的利用。因此,在在線超參數自適應過程中顯式地平衡校準度和精確度,提供了一種原則性的方法,在實驗成本高昂時避免校準不良和過度保守。

一個關鍵的復雜因素是 BO 數據是非獨立同分布(non-i.i.d.)的:查詢點是根據過去的觀測和當前模型自適應選擇的。在獨立同分布采樣下,邊際似然超參數擬合可被解釋為優化一個適當評分規則,這與概率預測的校準-精確度范式相一致 [16]。在自適應查詢下,這種一致性可能會失效:采樣分布隨算法而變化,因此標準的超參數擬合或基于獨立同分布的重新校準都無法保證沿優化軌跡的不確定性可靠 [11]。這促使我們將超參數選擇視為序貫決策問題的一部分,在自適應數據收集下顯式控制校準度和精確度。

貢獻。 我們提出了在線精確-校準貝葉斯優化(OSCBO),一種在自適應、非獨立同分布數據收集下通過權衡精確度和校準度來在線調整 GP 核超參數的方法。基于具有長期約束的在線學習 [7],OSCBO 將超參數選擇構建為一個受約束的在線問題,在促進窄置信區間的同時控制累積覆蓋率違規。當與上置信界(UCB)策略結合使用時,OSCBO 保留了次線性遺憾保證。我們的貢獻如下:

? 概念上: 我們通過精確度-校準度的視角重新解釋了探索-利用及其產生的遺憾保證。

? 方法上: 我們提出了 OSCBO,一種原則性的在線超參數選擇方案。它在非獨立同分布采樣下積極促進精確的不確定性量化,同時確保長期校準誤差不超過指定閾值。

? 理論上: 我們表明 OSCBO 通過利用底層在線算法的遺憾保證,實現了次線性遺憾界。

? 經驗上: 我們在合成和現實世界基準測試上評估了 OSCBO,表明它在最終簡單遺憾方面位列最佳方法之一,并且在累積遺憾方面保持穩健。

2 相關工作

未知超參數下的 BO。 越來越多的研究探討了當 GP 超參數未知且必須在線學習時的 BO,放松了經典遺憾界背后的固定核/再生核希爾伯特空間(RKHS)假設。一個典型的例子是核長度尺度,它控制相關范圍,從而決定有效平滑度。[4](A-GP-UCB)和 [38](LB-GP-UCB)提出了具有遺憾保證的原則性長度尺度自適應方案,旨在確保誘導的 RKHS 最終足夠豐富以包含目標函數。相關結果涵蓋了具有固定平滑度的 Matérn 核 [23],而互補的方法使用元學習從先前任務中初始化超參數 [35, 13]。我們的工作也針對迭代重新擬合下的遺憾,但遵循不同的原則:選擇超參數以管理沿 BO 軌跡的校準與精確度(sharpness)權衡。

自適應 BO 下的校準與重新校準。 最近的研究探討了 BO 的校準不確定性,更廣泛地說,探討了在分布偏移和對抗性選擇數據下的序列預測。在 BO 中,[31] 將 GP 后驗與共形預測相結合,以在協變量偏移下生成校準的預測集,而共形方法更廣泛地將覆蓋率保證從獨立同分布設置擴展到分布偏移和自適應數據收集 [33, 15, 3, 1]。作為補充,[10] 提出了一種基于修改后的分位數損失(pinball loss)的在線事后重新校準規則,而 [11](OCBO)在任意對手下(包括序列數據)提供了校準保證。精確-校準高斯過程(SCGP)[6] 也使用精確度-校準目標學習 GP 不確定性參數,但它們是為校準回歸而非自適應 BO 設計的:它們依賴于訓練/校準數據劃分,并針對固定置信水平的預測集進行校準,而不是沿優化軌跡優化 BO 采集函數。這些方法主要針對校準的預測不確定性或分位數/CDF 的重新校準,并未直接解決任意 BO 采集函數內部 GP 超參數選擇的在線校準-精確度權衡問題。相反,我們在線調整 GP 超參數以優化精確度,同時在 BO 軌跡上控制長期的覆蓋偏差(miscoverage)。

帶約束與動態環境的在線學習。 BO 中的超參數自適應可被視為具有長期約束的在線學習,其中學習者在優化目標的同時控制累積的校準違規。因此,相關的理論保證是最優性差距與約束違反界,這與 BO 遺憾不同。[7] 針對隨機和對抗性獎勵/約束,提供了兼顧兩者的保證,使用了非凸黑盒子程序與執行-恢復(play–recovery)機制。相關地,[5] 使用樂觀可行性估計時變可行集,研究了具有長期約束的賭博機問題。

3 預備知識 (Preliminaries)


3.1 基于 GP 代理模型的貝葉斯優化 (Bayesian Optimization with GP Surrogates)





3.2 自適應設置下的校準與銳度 (Calibration and Sharpness under Adaptive Setting)








4 關于 GP-UCB 的銳度—校準視角




綜上所述,推論 4.1 和 4.2 表明,在固定核函數下,GP-UCB 置信區間將概率銳度、校準和累積遺憾界聯系在了一起,從而引出了 OSCBO。然而,當超參數在線選擇時,BO 軌跡不再受單個固定核置信事件的支配,這種聯系也不再自動成立。下一節將介紹超參數選擇期間的顯式銳度—校準控制。

5在線精確校準的BO

我們提出了在線銳度校準貝葉斯優化(Online Sharp-Calibrated Bayesian Optimization, OSCBO),它將 GP 超參數選擇視為一個約束在線優化問題,旨在平衡銳度與長期校準違背。5.1 節定義了從每個 BO 查詢中提取的每輪銳度損失和校準約束。5.2 節描述了由此產生的原始—對偶在線更新以及 play-recovery 機制。5.3 節將此更新與 BO 循環相結合,從而得到 OSCBO。

5.1 銳度損失與校準約束








遺憾最小化器。 OSCBO 將原始和對偶學習者視為黑盒 RMs(第 3.3 節,第 B.2 節),通過 INIT 和交替的 NEXTELEMENT/OBSERVEUTILITY 更新進行實例化。我們的實現對偶 RM 使用帶有負熵正則化器的在線鏡像下降;原始 RM 使用 FTPL 來處理非凸的 Θ (第 B.3 和 B.4 節)。


6 理論分析



6.2 銳度與校準的在線學習保證

假設定理 6.1 的高概率事件成立,約束在線學習分析得出了關于銳度最優性差距和累積校準違背的次線性界。


6.3 帶有 GP-UCB 的 OSCBO 的 BO 遺憾界

我們現在將在線學習的保證轉化為帶有 UCB 采集函數的 OSCBO 的 BO 遺憾界。定理 6.1 中 β t 的選擇起到兩個作用:它導出了上文使用的關于 Θ 的統一置信事件,并且其數值也足夠大,以支持下文遺憾證明中的 UCB 樂觀步驟。結合引理 6.2,這將 BO 分析簡化為控制在參考核(reference kernel)下的累積銳度損失,而這是通過最大信息增益來實現的。



該界限比具有已知核超參數的經典 GP-UCB 更寬松,因為在線超參數自適應引入了原始/對偶(primal/dual)遺憾項以及 β t 的覆蓋數(covering-number)膨脹。由于這些代價保持次線性,OSCBO 仍然實現了次線性遺憾。相比之下,通用的在線學習方法應用于 BO 時可能會產生每輪的學習代價,從而導致線性遺憾 [18]。

7 實驗

基線方法。 我們報告了我們方法的兩個變體:OSCBO(校準懲罰公式 7 中 p = 2 )和 OSCBO-L1(使用 p = 1 ),GP-UCB-MLL [29],在線校準 BO (OCBO) [11],自適應 GP-UCB (A-GP-UCB) [4],長度尺度平衡 GP-UCB (LB-GP-UCB) [38],銳度校準 GP (SCGP) [6],以及用于 BO 的 TabICLv2 [25, 27, 36]。詳細信息見附錄 D.1。

實現細節。 OSCBO 和基于 GP 的基線方法是在 BoTorch [2] 中實現的;TabICLv2 是通過自定義的 BO 包裝器使用的。除非另有說明,我們使用各向同性(isotropic)Matérn 核, ν = 2.5 ,固定輸出尺度和固定觀測噪聲,僅估計長度尺度。我們在合成基準和真實世界任務上進行評估,包括 Lunar 12D [12],Material 5D [24, 38],Concrete 7D [37],以及 Crossbarrel 4D [17]。對于每個任務,我們報告 20 個隨機種子上的平均值 ± ± 標準誤。關于任務和超參數的更多細節見第 D 節。

7.1 結果

圖 2 報告了跨合成和真實世界基準的簡單遺憾(simple regret)。OSCBO 始終是最強的方法之一:它在幾個任務上與 GP-UCB-MLL 持平或有所改進,同時避免了僅校準或基于調度(schedule-based)替代方案的較弱表現。OSCBO-L1 略遜于默認的 OSCBO 變體。總之,這些結果表明銳度—校準更新提供了一種調整長度尺度的有效方法,其中校準懲罰的選擇控制了最終簡單遺憾與軌跡級性能之間的權衡。TabICLv2 具有競爭力但非主導的表現表明,繞過 GP 長度尺度優化并不能消除顯式長度尺度自適應的價值。


圖 S1 中的累積遺憾類比圖展示了一個互補的畫面。OSCBO-L1 實現了最佳的聚合累積遺憾排名,而默認的 OSCBO 位于主要的基于 GP 的基線簇中。結合簡單遺憾的結果,這指向了一個由校準指數控制的權衡: p = 2 有利于最終解的質量,而 p = 1 提高了沿軌跡的預算高效性能。我們將在下一節回到這一分析。

7.2 敏感性和消融分析

我們使用主實驗中的配置對 BO 循環進行消融:各向同性 Matérn-5/2 GP 代理模型,UCB 采集,以及默認的 p = 2原始校準更新。每個面板僅包含相應的修改有意義且可用的基線。

對核和采集選擇的魯棒性。 圖 3 顯示 OSCBO 并不局限于單一的核 - 采集對。(顯示了任務平均排名;原始遺憾軌跡見圖 S2)。改變 Matérn 平滑度始終使 OSCBO 在多次試驗中保持為表現最好的方法之一。此外,用 LogEI 替換 UCB 保持了 OSCBO 的競爭力,表明銳度—校準更新在 UCB 之外也是有效的。當使用 ARD 長度尺度時,OSCBO 的表現略差于 GP-UCB-MLL,主要是由于 Lunar 任務(圖 S2)。由于 ARD 為每個維度引入了一個長度尺度,我們也包含了 VanillaBO [19];然而,其行為并非始終更強,可能是因為基準測試的維度仍然適中。


校準懲罰和診斷的影響。 圖 3(右上方面板)總結了 OSCBO 和 OSCBO-L1 之間的簡單—累積遺憾權衡,而診斷面板(圖 3,底行;圖 S3)闡明了 Levy 5D 上的潛在動態。這兩個變體的不同之處在于校準約束(公式 7)的指數 p ,該指數同時進入了 FTPL 和 OMD 目標(公式 S5 和 S7)。當 p = 2 時,二次校準懲罰類似于 GP 邊緣似然的數據擬合幾何,且 OSCBO 在遺憾、銳度—校準和長度尺度軌跡上緊密跟蹤 GP-UCB-MLL。當 p = 1 時,大殘差僅受到線性懲罰,減少了罕見的大預測誤差的影響,并導致較少的長度尺度修正。這改變了銳度—校準的權衡:OSCBO-L1 改善了累積遺憾,但代價是在各個任務上最終簡單遺憾略弱。

8 討論

我們引入 OSCBO 是基于一個核心觀察:在自適應查詢下,探索—利用權衡可以被視為尖銳(sharp)與校準(calibrated)不確定性之間的權衡。將 GP 超參數重新擬合視為在線決策問題,使我們能夠形式化并控制 BO 軌跡上的這種張力。特別是,默認的二次 OSCBO 更新反映了 GP 邊緣似然的對數行列式和二次數據擬合結構,這解釋了它與 GP-UCB-MLL 在經驗上的緊密一致性。然而,與黑盒 MLL 重新擬合不同,OSCBO 將此更新置于約束在線學習過程中,從而為所得的 GP-UCB 規則產生了次線性遺憾分析。更廣泛地說,我們的結果表明重新擬合目標本身就是一種設計選擇:改變原始校準懲罰會改變長度尺度動態,其中 OSCBO-L1 以最終簡單遺憾的微小代價提供了更具預算效率的軌跡。一個特別有前景的途徑是將 OSCBO 風格的銳度/校準控制轉移到具有更具挑戰性不確定性的代理模型上,如貝葉斯神經網絡 [22] 或可擴展的近似 GP。最后,我們的理論僅涵蓋 UCB;將其擴展到期望改進(Expected Improvement)或湯普森采樣(Thompson Sampling)等策略留待未來的工作。

https://arxiv.org/pdf/2605.10572

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本爆發大規模抗議,高市終于低頭,中國外交部冷言:不糾錯免談

日本爆發大規模抗議,高市終于低頭,中國外交部冷言:不糾錯免談

貴州霖霖
2026-05-17 09:30:17
英國250萬穆斯林中,1/3年輕人正放棄約會:Halal Marriage為何成新選擇

英國250萬穆斯林中,1/3年輕人正放棄約會:Halal Marriage為何成新選擇

時光慢郵啊
2026-05-17 01:29:56
美退役軍官曾宣稱:中國殲16D電子戰機,簡直是美國海軍的噩夢!

美退役軍官曾宣稱:中國殲16D電子戰機,簡直是美國海軍的噩夢!

華史談
2026-05-17 08:57:13
在泰華人目擊“火車撞公交致8死32傷”:看著火車駛來懷疑它能否剎住,公交被拖行數十米起火,殃及多輛摩托車和私家車

在泰華人目擊“火車撞公交致8死32傷”:看著火車駛來懷疑它能否剎住,公交被拖行數十米起火,殃及多輛摩托車和私家車

極目新聞
2026-05-17 13:09:18
海風:聽到特朗普這句話,臺灣當局該醒了

海風:聽到特朗普這句話,臺灣當局該醒了

環球網資訊
2026-05-16 17:37:05
三位美女你喜歡哪位我看中右邊,頗為賢惠、穩重大方,氣質美滿

三位美女你喜歡哪位我看中右邊,頗為賢惠、穩重大方,氣質美滿

科學發掘
2026-05-17 15:56:57
活塞G7傷情報告出爐,哈登迎來尷尬里程碑,阿特金森該變陣了

活塞G7傷情報告出爐,哈登迎來尷尬里程碑,阿特金森該變陣了

世界體育圈
2026-05-17 13:16:49
馬斯克黃仁勛在空軍一號熱聊照曝光,喝了可樂,皮衣黃疑似用三星

馬斯克黃仁勛在空軍一號熱聊照曝光,喝了可樂,皮衣黃疑似用三星

譯言
2026-05-16 10:38:32
空軍一號飛機即將起飛返航時,現場工作人員有人直接倒地!

空軍一號飛機即將起飛返航時,現場工作人員有人直接倒地!

阿龍聊軍事
2026-05-17 06:43:05
老板娘問我她屁股大不大?我該怎么回答?

老板娘問我她屁股大不大?我該怎么回答?

太急張三瘋
2026-03-28 12:35:10
44%進度,慢就是快

44%進度,慢就是快

閃存獵手
2026-05-16 04:52:09
特斯拉國內新品上架,全球最低價來了!

特斯拉國內新品上架,全球最低價來了!

XCiOS俱樂部
2026-05-17 16:32:44
斯維托麗娜奪得羅馬冠軍后,孟菲爾斯為妻子寫下溫情告白

斯維托麗娜奪得羅馬冠軍后,孟菲爾斯為妻子寫下溫情告白

網球之家
2026-05-17 13:29:52
霍爾木茲海峽,突傳大消息

霍爾木茲海峽,突傳大消息

第一財經資訊
2026-05-17 10:43:53
特朗普剛訪華,美媒察覺不對:最強殲20已部署,解放軍劍指臺海

特朗普剛訪華,美媒察覺不對:最強殲20已部署,解放軍劍指臺海

時光流轉追夢人
2026-05-17 02:41:07
訪華已經結束,特朗普回到白宮,用6句話談中國之行,措辭不尋常

訪華已經結束,特朗普回到白宮,用6句話談中國之行,措辭不尋常

阿校談史
2026-05-17 15:12:43
蘋果防線全線血崩!Mythos5天攻破最強硬件,全球20億臺設備危了

蘋果防線全線血崩!Mythos5天攻破最強硬件,全球20億臺設備危了

新智元
2026-05-15 12:33:48
這場頂級晚宴,真正的主角不是馬斯克、黃仁勛,而是一方中式桌面

這場頂級晚宴,真正的主角不是馬斯克、黃仁勛,而是一方中式桌面

魔都姐姐雜談
2026-05-15 00:53:47
固態電池一旦上車,最先被淘汰的不是燃油車,而是現在的新能源車

固態電池一旦上車,最先被淘汰的不是燃油車,而是現在的新能源車

老特有話說
2026-05-17 13:11:49
國宴待了32年的老國貨礦泉水!喝一次,娃哈哈農夫山泉都不香了

國宴待了32年的老國貨礦泉水!喝一次,娃哈哈農夫山泉都不香了

老特有話說
2026-05-17 13:15:19
2026-05-17 17:11:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1406文章數 19關注度
往期回顧 全部

科技要聞

三大運營商即將免月租?多方回應

頭條要聞

女子的奔馳4S店不愿回收 丈夫:賭100萬 找專業機構查

頭條要聞

女子的奔馳4S店不愿回收 丈夫:賭100萬 找專業機構查

體育要聞

生死戰只拿3分的核心,還有留的必要嗎?

娛樂要聞

《主角》劉浩存上線,死別猝不及防

財經要聞

OpenAI和蘋果的“聯盟”即將破裂

汽車要聞

大五座SUV卷王!樂道L80上市 租電15.68萬元起

態度原創

游戲
本地
時尚
親子
軍事航空

驚了!地平線6還未正式發售 在線數就已打破前作記錄

本地新聞

用蘇繡的方式,打開江西婺源

5.22沙龍報名|何寬×黃競歐×王如菲:「二手知識,一手思考」

親子要聞

媳婦睡懶覺不起床,閨女花式叫床服務,媳婦立馬乖乖起床了

軍事要聞

黎以停火再延長 空襲卻未停止

無障礙瀏覽 進入關懷版