曲率感知期望自由能:貝葉斯優(yōu)化采集函數(shù)
Curvature-aware Expected Free Energy as an Acquisition Function for Bayesian Optimization*
https://arxiv.org/pdf/2603.26339
![]()
摘要
我們提出一種基于期望自由能的貝葉斯優(yōu)化采集函數(shù),用于解決聯(lián)合學習與優(yōu)化問題,即同時優(yōu)化并學習底層函數(shù)。我們證明,在特定假設下,期望自由能可簡化為上置信界、下置信界和期望信息增益。我們證明期望自由能對凹函數(shù)具有無偏收斂保證。基于這些推導結(jié)果,我們?yōu)槠谕杂赡芤肓艘环N曲率感知更新律,并通過范德波爾振蕩器的系統(tǒng)辨識問題驗證了其概念。通過嚴格的仿真實驗,我們表明,我們自適應的基于期望自由能的采集函數(shù)在最終簡單遺憾值和高斯過程學習誤差方面均優(yōu)于最先進的采集函數(shù)。
I. 引言
聯(lián)合優(yōu)化與學習是機器人與控制領域的核心問題,智能體必須同時獲取環(huán)境(或現(xiàn)象)的精確地圖并識別高價值區(qū)域(例如搜救中人類高密度區(qū)域或目標搜索中高檢測概率區(qū)域)。快速高效的信息采集可提高精準農(nóng)業(yè)的生產(chǎn)效率,在搜救行動中挽救生命,并助力工業(yè)檢測與維護[1]。由于現(xiàn)實世界中的查詢代價高昂,開發(fā)能夠以最快速度進行高效查詢以實現(xiàn)聯(lián)合優(yōu)化與學習的方法至關重要。然而,大多數(shù)采集函數(shù)(AF)旨在實現(xiàn)高效優(yōu)化,而非精確學習底層函數(shù)[2]。我們旨在通過提出一種用于貝葉斯優(yōu)化(BO)的采集函數(shù)來彌合這一差距,該函數(shù)利用曲率信息來平衡探索與利用,不僅是為了優(yōu)化,也是為了學習底層函數(shù)[3]。受主動推理[4](關于人腦如何進行推理的前沿計算神經(jīng)科學理論)的啟發(fā),我們提出期望自由能(EFE)作為一種新的采集函數(shù)。我們指出,EFE是一種通用采集函數(shù),其他采集函數(shù)如上置信界(UCB)[5]、下置信界(LCB)和期望信息增益(EIG)均可從中推導出來。
關于黑箱優(yōu)化的采集函數(shù),BO已有大量文獻[6],包括信息論遺憾界[5]。由于BO對于評估代價高昂的多模態(tài)函數(shù)優(yōu)化尤為有用,它已廣泛應用于控制系統(tǒng)中以調(diào)整控制器[7]和進行系統(tǒng)辨識[8]。利用梯度信息改進BO的想法也得到了廣泛研究,特別是關于觀測梯度[9][10]和后驗梯度[11]的研究。我們的方法不同于這些方法,因為我們使用高斯過程(GP)后驗的二階梯度來調(diào)整探索與利用之間的平衡。近年來,將主動推理思想用于BO的興趣日益增長。最近的一項相關工作通過將基于玻爾茲曼分布的能量函數(shù)置于偏好分布上,提出了一種基于主動推理的采集函數(shù)[12]。我們的工作不同之處在于,我們特別從高斯偏好先驗出發(fā)推導EFE,將其作為一個特例。這條路徑更為簡潔,因為一個簡單的線性化步驟就能直接恢復UCB和LCB,而無需做出不現(xiàn)實的假設[12]。我們進一步通過提出一種曲率感知規(guī)則來改進這一EFE,以提升性能。另一項類似工作是[13],它提出了一種基于主動推理的采集函數(shù)。他們使用了期望未來的自由能[14]作為目標,而非EFE,這在根本上與我們的公式不同,并且未能揭示UCB與主動推理之間的等價性。我們工作的核心創(chuàng)新在于,在EFE采集函數(shù)中利用曲率信息來平衡聯(lián)合優(yōu)化與學習問題中的探索與利用。我們在數(shù)學上證明了EFE的駐點與曲率無關。基于這一結(jié)果,我們?yōu)镋FE提出了一種新穎的曲率感知自適應規(guī)則,該規(guī)則鼓勵在高曲率區(qū)域重新采樣,并探索低曲率的不確定區(qū)域。本文的核心貢獻包括:i) 證明在特定假設下,EFE可簡化為UCB、LCB和EIG(第III-B節(jié));ii) 證明EFE對凹函數(shù)的無偏收斂性(第IV-A節(jié));iii) 引入EFE的曲率感知更新規(guī)則(第IV-B節(jié));iv) 展示我們自適應的(曲率感知)EFE在聯(lián)合優(yōu)化與學習方面優(yōu)于最先進的采集函數(shù)(第V節(jié))。
II 問題陳述
![]()
III. EFE 與其他采集函數(shù)
本節(jié)推導 GP 下的 EFE,并證明 UCB 和 LCB 是 EFE 的線性代理。
A. GP 模型下的 EFE
我們將未知函數(shù)的優(yōu)化問題視為一個智能體必須通過與環(huán)境的交互進行學習以達到目標的問題。探索指的是學習函數(shù)(發(fā)現(xiàn)其形狀),利用指的是優(yōu)化。行動由下一個查詢位置的選擇來表示,傳感器觀測值由該查詢位置上的未知函數(shù)值表示。我們隱含地假設環(huán)境是時不變的,即 f ( x ) 不會因選擇了哪些查詢點而改變。在主動推理中,通過最小化一個 EFE 泛函來找到最優(yōu)平衡探索與利用的行動 [4]。我們將 GP 上候選查詢位置 x x的單步(短視)EFE 定義為 [15]:
![]()
![]()
![]()
![]()
![]()
B. 與已知采集函數(shù)的關系
EFE 是貝葉斯優(yōu)化采集函數(shù)的一個推廣,因為它包含了若干已知的采集函數(shù)。下面我們證明這一論斷,并展示導致 LCB、UCB 和 EIG 的具體限制條件。
![]()
![]()
![]()
![]()
因此,在假設 1 和一個簡單的線性化步驟下,當 EFE 的不同項被丟棄時,EFE 可以簡化為 UCB、LCB 和 EIG。表 I 總結(jié)了這些結(jié)果。我們推測這表明,完整形式的 EFE 是一種具有優(yōu)越性能的通用采集函數(shù)。例如,在不采用假設 1 的情況下,EFE 將考慮完整 GP 上的凈信息增益。在能夠利用問題的子模性的情形下,這可能會帶來 EFE 更優(yōu)越的性能:由于數(shù)據(jù)之間的相關性,在一個位置進行查詢可以提供關于地圖中其他位置信息的有用信息。例如,在搜救地圖上找到一個受害者,可以讓智能體了解地圖上其他受害者的位置。
為簡化起見,本文其余部分將考慮假設 1 下的 EFE。
![]()
IV. EFE 作為采集函數(shù)
在本節(jié)中,我們給出 EFE 在局部嚴格凹函數(shù)上收斂的充分條件,并提出一種曲率感知的更新規(guī)則。
A. 基于 EFE 的采集函數(shù)的收斂性分析
定理 IV.1(EFE 無偏局部收斂的充分條件)。設 f f具有唯一最大化點 x ? ,并且
![]()
![]()
![]()
![]()
![]()
![]()
![]()
V. 仿真實驗
本節(jié)旨在展示我們提出的自適應 EFE 在聯(lián)合學習與優(yōu)化問題上相較于最先進采集函數(shù)的優(yōu)越性能。我們首先在一個簡單的系統(tǒng)辨識問題上驗證自適應 EFE 的概念,然后在一個高度隨機化的函數(shù)空間上,將結(jié)果與其他六種基準方法進行對比。
A. 自適應 EFE 與非自適應 EFE
本節(jié)通過在范德波爾振蕩器上的系統(tǒng)辨識問題,展示了我們提出的自適應 EFE 相較于非自適應 EFE 的優(yōu)勢。該振蕩器由下式給出:
![]()
![]()
B. 學習與優(yōu)化
為了評估自適應 EFE 在不同形態(tài)函數(shù)上的性能,我們在一個由 10 個正弦和余弦分量(具有隨機幅度、頻率和相位)構成的隨機生成的一維目標函數(shù)集合上,對所有采集函數(shù)進行了基準測試。每個目標函數(shù)定義在 [ ? 8 , 8 ] 區(qū)間上,并在固定的 400 個網(wǎng)格點上進行評估。在 50 個獨立的目標函數(shù)上,所有貝葉斯優(yōu)化方法都從相同的三個初始設計點開始,并在相同的觀測噪聲![]()
下運行 50 次迭代。仿真設置的詳細內(nèi)容見附錄 D。
性能通過最終 GP 回歸誤差(整個定義域上的均方誤差)和相對于真實全局最大值的簡單遺憾值來報告,從而能夠在異質(zhì)測試函數(shù)上公平比較平均性能和變異性。圖 2 顯示了將自適應 EFE 與基準方法 UCB、期望改進(EI)、改進概率(PI)、VAR(以標準差 σ 為目標)、湯普森采樣(TS)和知識梯度(KG)進行比較的結(jié)果。由于 EFE 位于圖的左下角區(qū)域,它是用于聯(lián)合優(yōu)化與學習的最佳方法。
表 II 報告了所有方法在最終均方誤差和最終簡單遺憾值上的均值。EFE 具有最低的簡單遺憾值,并且其 GP 均方誤差接近純探索策略(VAR)。這表明,在高度隨機化的通用一維函數(shù)空間中,EFE 在聯(lián)合優(yōu)化與學習問題上優(yōu)于其他采集函數(shù)。
![]()
![]()
VI. 結(jié)論
期望自由能(EFE)以一種原理性的方式統(tǒng)一了探索與利用,因此具有成為下一代貝葉斯優(yōu)化采集函數(shù)的強大潛力。受此啟發(fā),我們針對聯(lián)合學習與優(yōu)化問題,提出了一種新穎的曲率感知的 EFE 貝葉斯優(yōu)化采集函數(shù)。我們從數(shù)學上證明了 UCB 和 LCB 是 EFE 的線性代理,并且 EFE 對凹函數(shù)具有無偏收斂保證。仿真結(jié)果表明,與最先進的采集函數(shù)相比,EFE 具有很強的競爭力。
未來的一個自然發(fā)展方向是開發(fā)可擴展的、類模型預測控制(MPC)風格的多步 EFE 規(guī)劃器,沿候選動作序列傳播高斯過程信念,從而實現(xiàn)非短視的查詢選擇,能夠預見未來后驗狀態(tài)的完整演變。這類規(guī)劃器有望大幅提升信息采集的效率,使智能體能夠高效執(zhí)行現(xiàn)實世界中的探索、監(jiān)測和決策任務。
原文鏈接:https://arxiv.org/pdf/2603.26339
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.