網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

曲率感知期望自由能：貝葉斯優(yōu)化采集函數(shù)

2026-04-03 09:46:13　來源: CreateAMind

上海舉報

分享至

Curvature-aware Expected Free Energy as an Acquisition Function for Bayesian Optimization*

https://arxiv.org/pdf/2603.26339

摘要

我們提出一種基于期望自由能的貝葉斯優(yōu)化采集函數(shù)，用于解決聯(lián)合學習與優(yōu)化問題，即同時優(yōu)化并學習底層函數(shù)。我們證明，在特定假設下，期望自由能可簡化為上置信界、下置信界和期望信息增益。我們證明期望自由能對凹函數(shù)具有無偏收斂保證。基于這些推導結(jié)果，我們?yōu)槠谕杂赡芤肓艘环N曲率感知更新律，并通過范德波爾振蕩器的系統(tǒng)辨識問題驗證了其概念。通過嚴格的仿真實驗，我們表明，我們自適應的基于期望自由能的采集函數(shù)在最終簡單遺憾值和高斯過程學習誤差方面均優(yōu)于最先進的采集函數(shù)。

I. 引言
聯(lián)合優(yōu)化與學習是機器人與控制領域的核心問題，智能體必須同時獲取環(huán)境（或現(xiàn)象）的精確地圖并識別高價值區(qū)域（例如搜救中人類高密度區(qū)域或目標搜索中高檢測概率區(qū)域）。快速高效的信息采集可提高精準農(nóng)業(yè)的生產(chǎn)效率，在搜救行動中挽救生命，并助力工業(yè)檢測與維護[1]。由于現(xiàn)實世界中的查詢代價高昂，開發(fā)能夠以最快速度進行高效查詢以實現(xiàn)聯(lián)合優(yōu)化與學習的方法至關重要。然而，大多數(shù)采集函數(shù)（AF）旨在實現(xiàn)高效優(yōu)化，而非精確學習底層函數(shù)[2]。我們旨在通過提出一種用于貝葉斯優(yōu)化（BO）的采集函數(shù)來彌合這一差距，該函數(shù)利用曲率信息來平衡探索與利用，不僅是為了優(yōu)化，也是為了學習底層函數(shù)[3]。受主動推理[4]（關于人腦如何進行推理的前沿計算神經(jīng)科學理論）的啟發(fā)，我們提出期望自由能（EFE）作為一種新的采集函數(shù)。我們指出，EFE是一種通用采集函數(shù)，其他采集函數(shù)如上置信界（UCB）[5]、下置信界（LCB）和期望信息增益（EIG）均可從中推導出來。

關于黑箱優(yōu)化的采集函數(shù)，BO已有大量文獻[6]，包括信息論遺憾界[5]。由于BO對于評估代價高昂的多模態(tài)函數(shù)優(yōu)化尤為有用，它已廣泛應用于控制系統(tǒng)中以調(diào)整控制器[7]和進行系統(tǒng)辨識[8]。利用梯度信息改進BO的想法也得到了廣泛研究，特別是關于觀測梯度[9][10]和后驗梯度[11]的研究。我們的方法不同于這些方法，因為我們使用高斯過程（GP）后驗的二階梯度來調(diào)整探索與利用之間的平衡。近年來，將主動推理思想用于BO的興趣日益增長。最近的一項相關工作通過將基于玻爾茲曼分布的能量函數(shù)置于偏好分布上，提出了一種基于主動推理的采集函數(shù)[12]。我們的工作不同之處在于，我們特別從高斯偏好先驗出發(fā)推導EFE，將其作為一個特例。這條路徑更為簡潔，因為一個簡單的線性化步驟就能直接恢復UCB和LCB，而無需做出不現(xiàn)實的假設[12]。我們進一步通過提出一種曲率感知規(guī)則來改進這一EFE，以提升性能。另一項類似工作是[13]，它提出了一種基于主動推理的采集函數(shù)。他們使用了期望未來的自由能[14]作為目標，而非EFE，這在根本上與我們的公式不同，并且未能揭示UCB與主動推理之間的等價性。我們工作的核心創(chuàng)新在于，在EFE采集函數(shù)中利用曲率信息來平衡聯(lián)合優(yōu)化與學習問題中的探索與利用。我們在數(shù)學上證明了EFE的駐點與曲率無關。基于這一結(jié)果，我們?yōu)镋FE提出了一種新穎的曲率感知自適應規(guī)則，該規(guī)則鼓勵在高曲率區(qū)域重新采樣，并探索低曲率的不確定區(qū)域。本文的核心貢獻包括：i) 證明在特定假設下，EFE可簡化為UCB、LCB和EIG（第III-B節(jié)）；ii) 證明EFE對凹函數(shù)的無偏收斂性（第IV-A節(jié)）；iii) 引入EFE的曲率感知更新規(guī)則（第IV-B節(jié)）；iv) 展示我們自適應的（曲率感知）EFE在聯(lián)合優(yōu)化與學習方面優(yōu)于最先進的采集函數(shù)（第V節(jié)）。

II 問題陳述

III. EFE 與其他采集函數(shù)

本節(jié)推導 GP 下的 EFE，并證明 UCB 和 LCB 是 EFE 的線性代理。

A. GP 模型下的 EFE

我們將未知函數(shù)的優(yōu)化問題視為一個智能體必須通過與環(huán)境的交互進行學習以達到目標的問題。探索指的是學習函數(shù)（發(fā)現(xiàn)其形狀），利用指的是優(yōu)化。行動由下一個查詢位置的選擇來表示，傳感器觀測值由該查詢位置上的未知函數(shù)值表示。我們隱含地假設環(huán)境是時不變的，即 f ( x ) 不會因選擇了哪些查詢點而改變。在主動推理中，通過最小化一個 EFE 泛函來找到最優(yōu)平衡探索與利用的行動 [4]。我們將 GP 上候選查詢位置 x x的單步（短視）EFE 定義為 [15]：

B. 與已知采集函數(shù)的關系

EFE 是貝葉斯優(yōu)化采集函數(shù)的一個推廣，因為它包含了若干已知的采集函數(shù)。下面我們證明這一論斷，并展示導致 LCB、UCB 和 EIG 的具體限制條件。

因此，在假設 1 和一個簡單的線性化步驟下，當 EFE 的不同項被丟棄時，EFE 可以簡化為 UCB、LCB 和 EIG。表 I 總結(jié)了這些結(jié)果。我們推測這表明，完整形式的 EFE 是一種具有優(yōu)越性能的通用采集函數(shù)。例如，在不采用假設 1 的情況下，EFE 將考慮完整 GP 上的凈信息增益。在能夠利用問題的子模性的情形下，這可能會帶來 EFE 更優(yōu)越的性能：由于數(shù)據(jù)之間的相關性，在一個位置進行查詢可以提供關于地圖中其他位置信息的有用信息。例如，在搜救地圖上找到一個受害者，可以讓智能體了解地圖上其他受害者的位置。
為簡化起見，本文其余部分將考慮假設 1 下的 EFE。

IV. EFE 作為采集函數(shù)

在本節(jié)中，我們給出 EFE 在局部嚴格凹函數(shù)上收斂的充分條件，并提出一種曲率感知的更新規(guī)則。

A. 基于 EFE 的采集函數(shù)的收斂性分析

定理 IV.1（EFE 無偏局部收斂的充分條件）。設 f f具有唯一最大化點 x ? ，并且

V. 仿真實驗

本節(jié)旨在展示我們提出的自適應 EFE 在聯(lián)合學習與優(yōu)化問題上相較于最先進采集函數(shù)的優(yōu)越性能。我們首先在一個簡單的系統(tǒng)辨識問題上驗證自適應 EFE 的概念，然后在一個高度隨機化的函數(shù)空間上，將結(jié)果與其他六種基準方法進行對比。

A. 自適應 EFE 與非自適應 EFE

本節(jié)通過在范德波爾振蕩器上的系統(tǒng)辨識問題，展示了我們提出的自適應 EFE 相較于非自適應 EFE 的優(yōu)勢。該振蕩器由下式給出：

B. 學習與優(yōu)化

為了評估自適應 EFE 在不同形態(tài)函數(shù)上的性能，我們在一個由 10 個正弦和余弦分量（具有隨機幅度、頻率和相位）構成的隨機生成的一維目標函數(shù)集合上，對所有采集函數(shù)進行了基準測試。每個目標函數(shù)定義在 [ ? 8 , 8 ] 區(qū)間上，并在固定的 400 個網(wǎng)格點上進行評估。在 50 個獨立的目標函數(shù)上，所有貝葉斯優(yōu)化方法都從相同的三個初始設計點開始，并在相同的觀測噪聲
下運行 50 次迭代。仿真設置的詳細內(nèi)容見附錄 D。

性能通過最終 GP 回歸誤差（整個定義域上的均方誤差）和相對于真實全局最大值的簡單遺憾值來報告，從而能夠在異質(zhì)測試函數(shù)上公平比較平均性能和變異性。圖 2 顯示了將自適應 EFE 與基準方法 UCB、期望改進（EI）、改進概率（PI）、VAR（以標準差 σ 為目標）、湯普森采樣（TS）和知識梯度（KG）進行比較的結(jié)果。由于 EFE 位于圖的左下角區(qū)域，它是用于聯(lián)合優(yōu)化與學習的最佳方法。

表 II 報告了所有方法在最終均方誤差和最終簡單遺憾值上的均值。EFE 具有最低的簡單遺憾值，并且其 GP 均方誤差接近純探索策略（VAR）。這表明，在高度隨機化的通用一維函數(shù)空間中，EFE 在聯(lián)合優(yōu)化與學習問題上優(yōu)于其他采集函數(shù)。

VI. 結(jié)論

期望自由能（EFE）以一種原理性的方式統(tǒng)一了探索與利用，因此具有成為下一代貝葉斯優(yōu)化采集函數(shù)的強大潛力。受此啟發(fā)，我們針對聯(lián)合學習與優(yōu)化問題，提出了一種新穎的曲率感知的 EFE 貝葉斯優(yōu)化采集函數(shù)。我們從數(shù)學上證明了 UCB 和 LCB 是 EFE 的線性代理，并且 EFE 對凹函數(shù)具有無偏收斂保證。仿真結(jié)果表明，與最先進的采集函數(shù)相比，EFE 具有很強的競爭力。

未來的一個自然發(fā)展方向是開發(fā)可擴展的、類模型預測控制（MPC）風格的多步 EFE 規(guī)劃器，沿候選動作序列傳播高斯過程信念，從而實現(xiàn)非短視的查詢選擇，能夠預見未來后驗狀態(tài)的完整演變。這類規(guī)劃器有望大幅提升信息采集的效率，使智能體能夠高效執(zhí)行現(xiàn)實世界中的探索、監(jiān)測和決策任務。

原文鏈接：https://arxiv.org/pdf/2603.26339

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.