網易首頁 > 網易號 > 正文申請入駐

期望自由能最小化的消息傳遞實現

2026-04-04 08:49:19　來源: CreateAMind

上海舉報

分享至

A Message Passing Realization of Expected Free Energy Minimization

期望自由能最小化的消息傳遞實現

https://arxiv.org/pdf/2508.02197

摘要

我們基于[15]中提出的理論，提出了一種在因子圖上進行期望自由能（EFE）最小化的消息傳遞方法。通過將EFE最小化重新表述為帶有認知先驗的變分自由能最小化，我們將一個組合搜索問題轉化為一個可通過標準變分技術求解的易處理推理問題。將我們的消息傳遞方法應用于因子化狀態空間模型，能夠實現高效的政策推斷。我們在存在認知不確定性的環境中評估了我們的方法：一個隨機網格世界和一個部分可觀察的Minigrid任務。使用我們方法的智能體在這些任務上 consistently 優于傳統的KL控制智能體，表現出更穩健的規劃和在不確定性下的高效探索。在隨機網格世界環境中，最小化EFE的智能體會避開危險路徑；而在部分可觀察的minigrid環境中，它們會進行更系統的信息尋求行為。該方法架起了主動推理理論與實際實現之間的橋梁，為人工智能體中認知先驗的效率提供了經驗證據。

關鍵詞：主動推理 · 認知規劃 · 期望自由能 · 因子圖 · 消息傳遞

1 引言

期望自由能（EFE）最小化源于自由能原理，通過統一追求獎勵（實用性）和尋求信息（認知性）的驅動力，為智能行為建模提供了一個框架[17,19]。雖然“控制即推理”方法在將決策制定表述為概率推理問題方面取得了顯著進展[21,1]，但EFE最小化通過明確考慮認知不確定性擴展了這一范式[12]，然而其實際應用在面對長規劃時域和高維狀態空間時仍面臨計算挑戰[31]。

計算EFE的傳統方法通常涉及評估所有可能的動作序列，這對于非平凡問題變得難以處理。盡管已經開發了各種近似方法來解決這一可處理性問題，但傳統方法通常將EFE用作評估策略的成本函數，而不是作為信念變分優化的目標函數[30,8,20]。

本文為[15]中提出的理論基礎提供了實證驗證，該理論將EFE最小化直接重新表述為因子圖上的變分推理問題。通過引入合適的認知先驗，我們證明最小化EFE可以通過標準的變分自由能（VFE）最小化來實現，這使得它與自由能原理的核心原則——即所有過程從根本上都基于變分自由能最小化——保持一致。

我們通過一種在因子化狀態空間模型上的迭代消息傳遞算法來實現該方法。我們在具有不同不確定性特征的環境中評估其性能：一個存在危險轉移的隨機網格世界，以及一個需要主動探索才能成功完成的部分可觀察Minigrid環境。我們的結果證實，使用我們基于推理的方法的智能體，相比KL控制智能體，展現出了與直接EFE計算相同的特征性優勢，尤其是在處理認知不確定性方面。這驗證了我們的方法，同時為不確定性下的規劃提供了一個計算高效的框架。

本文的其余部分組織如下：
– 第2節：提供必要的背景材料。
– 第3節：討論控制即推理和主動推理方面的相關工作。
– 第4節：介紹我們將EFE最小化重新表述為推理問題的方法。
– 第5節：描述我們的評估環境和實驗設計。

2 背景 2.1 變分推理

2.2 因子圖

因子圖是一種特定類型的概率圖模型，它顯式地表示了模型的分解結構，其中因子代表（條件）概率分布。在我們的工作中，我們采用了Forney式因子圖（FFG）[16]，它提供了一種特定的表示方法，符號表示遵循文獻[28]。

一個FFG將一個分解函數 f ( s ) 表示為

當每個 s i 可以取 10 個值時，這個求和包含大約一千項。然而，考慮到生成模型的分解結構以及乘法分配律，式 (3) 可以重寫為：

式 (4) 中的計算僅需幾百次求和，從計算角度來看更為可取。在更大的模型中，計算量隨因子節點數量線性增長，而非指數增長。中間結果可以被解釋為模型 FFG 表示中的局部消息，如圖 1 所示。關于因子圖及相關（變分）消息傳遞算法的全面論述，我們建議讀者參閱 [28,29,40,14,36]。

3 相關工作

不確定性下的自主決策仍然是控制理論和人工智能領域的核心挑戰。本節回顧了為我們工作的貢獻提供背景的關鍵進展。

3.1 控制即推理

對高效且高性能自主系統的追求推動了控制理論領域的重大研究。最優控制[3,4,33]為確定給定系統的最小化預定義成本函數的控制輸入提供了數學框架。在此基礎上，模型預測控制（MPC）算法通過引入反饋回路和滾動時域策略來應對實時控制的挑戰[5,34,35,11]。這種方法允許在線適應擾動和約束。

近年來的一個重要范式轉變是將控制視為一個推理問題。這一視角允許應用強大的概率工具來應對控制挑戰，尤其是在復雜和不確定的環境中。在確定性動力學下，閉環滾動時域MPC中的序貫決策過程可以優雅地映射到因子圖上的推理[27,26]。

當處理隨機動力學或不確定性下的狀態估計需求時，隨機最優控制方法可以通過變分推理進行重新表述[23,21]。在這里，關于狀態和/或控制的難處理后驗分布被一個易處理的變分分布所近似。

主動推理[12,13]通過提出關于系統獲得的信息也是一種獎勵形式來解決不確定性下的控制問題。該框架表明，變分推理通過優化期望自由能[19]自然地平衡了探索與利用，這優雅地結合了最小化環境不確定性（信息增益）的驅動力與實現期望結果的需求。然而，主動推理當前的一個局限性在于計算期望自由能所帶來的計算成本[19]，這激發了近期對高效算法的研究[30,18,31,8]。

最近，[15]提出了一種期望自由能最小化的替代方法，將EFE最小化構建為一個常規的變分自由能最小化任務。這種方法對于可擴展地實現EFE最小化規劃算法很有前景，但僅提供了理論說明，未考慮實際實現或實證驗證。在下一節中，我們將提出該方法的一個消息傳遞實現。

4 方法

作為本文的主要貢獻，我們將詳細闡述文獻[15]中的定理1。為方便起見，我們在此重復該定理，盡管不包含模型參數 θ ：

在接下來的章節中，我們將描述一種基于因子圖的消息傳遞算法，該算法可作為尋找自由能泛函駐點的一種實用方法。

4.1 因子化模型與因子化后驗

定理1是一個一般性的結果，然而在實踐中，我們通常關注如下形式的因子化狀態空間模型：

雖然該推論是定理1的一個特例和直接應用，但其詳細證明在附錄A中給出。該推論表明，偏好先驗和認知先驗可以歸結為局部貢獻。我們將把偏好先驗和認知先驗實現為因子節點，在推理過程中充當先驗分布。圖2展示了增強后的因子圖的一個時間片。

這種方法的好處在于，因子圖上的推理已經得到充分研究，并且可以使用反應式消息傳遞[2]高效實現。這實際上意味著，期望自由能最小化的計算復雜度與因子圖上變分推理的計算復雜度相同。

4.2 推斷策略后驗

推論1在模型定義中引入了一個循環依賴：為了定義帶有認知先驗（式13）的VFE泛函，我們需要訪問變分后驗分布，但變分后驗只能通過給定生成模型下最小化VFE泛函來獲得。

這個循環依賴可以通過在因子圖上實現為消息傳遞的迭代變分推理過程來解決。我們首先初始化變分后驗，然后迭代更新后驗信念和認知先驗，直到收斂。

在因子圖上，我們可以使用消息傳遞算法實現變分推理，該算法迭代更新后驗分布[32]。每一次消息傳遞迭代 τ 同時精化后驗分布和先驗分布。為此，設 q τ ( ? ) 為第 τ τ次迭代時的變分后驗分布，則我們將認知先驗定義為：

推論1在模型定義中引入了一個循環依賴：為了定義帶有認知先驗（式13）的VFE泛函，我們需要訪問變分后驗分布，但變分后驗只能通過給定生成模型下最小化VFE泛函來獲得。

在因子圖上，我們可以使用消息傳遞算法實現變分推理，該算法迭代更新后驗分布[32]。每一次消息傳遞迭代 τ 同時精化后驗分布和先驗分布。為此，設 q τ ( ? ) 為第 τ 次迭代時的變分后驗分布，則我們將認知先驗定義為：

5 評估

本節評估我們提出的最小化EFE的策略推斷方法。在本節中，我們將評估所提方法的性能。偏好先驗的加入與KL控制文獻[37,38]一致，這意味著我們關注的主要焦點是認知先驗對策略后驗的影響。為此，我們將在有和沒有認知先驗兩種情況下進行實驗，分別對應KL控制策略和最小化EFE的策略。已知KL控制在面對隨機性和不確定性時容易產生樂觀規劃[26,27]，因此我們將探索具有隨機動力學和觀測噪聲的部分可觀察馬爾可夫決策過程（POMDP）。

在我們的實驗評估中，我們考慮環境動態對智能體完全已知的場景，盡管這些動態可能是隨機的或包含固有的不確定性。這種已知動態的假設使我們能夠隔離并評估認知先驗對決策的具體影響，而不會將其與模型學習混為一談。

5.1 實驗設計

我們設計了一個隨機網格環境，專門用于挑戰智能體在動態和觀測中的不確定性處理能力。此外，我們還在Minigrid門-鑰匙環境[9]上評估我們的方法，該環境測試智能體如何處理部分可觀察性。這兩個環境都突顯了在存在認知不確定性的情況下，KL控制策略與最小化EFE策略之間的差異。

隨機網格環境在我們的第一個實驗中，我們聚焦于一個隨機網格環境。在該環境中，智能體需要從一端穿越網格到達另一端，途中存在危險和隨機轉移。關鍵的挑戰在于，從起點到終點的最短路徑上，有些網格單元的轉移矩陣是隨機的，智能體有最終落入吸收態的風險。這種隨機性直接測試了智能體如何處理動力學中的不確定性：預期KL控制智能體會樂觀地規劃通過這些不確定的轉移，而最小化EFE的智能體應該識別出認知風險并避開這些網格單元。該環境還包含觀測噪聲，這增加了另一層不確定性，迫使智能體維持對可能狀態的信念，而非完全可觀測。

存在一條更長但更安全的路徑，可以避開所有隨機轉移。對于風險感知的智能體來說，最優策略是走這條更安全的路徑，盡管這需要更多步數。該環境的可視化如圖3所示。

智能體到達目標獲得獎勵+1。當落入吸收態時，智能體受到懲罰-1。生成模型的完整規范見附錄B。

Minigrid門-鑰匙環境我們考慮的第二個環境是一個Minigrid環境，具體是一個4x4的門-鑰匙環境。該環境測試了認知不確定性的另一個方面，即部分可觀察性。智能體的視野有限，這意味著它必須主動探索以減少對環境狀態的認知不確定性。

任務要求智能體找到并拾取鑰匙，找到并打開門，最后到達目標方格。這個多步驟過程形成了一個自然的探索挑戰，測試了智能體如何處理部分可觀察性。智能體位置、鑰匙位置和門位置在每個回合中都是隨機化的，這意味著智能體對環境狀態存在認知不確定性。

最小化EFE的智能體應表現出更具方向性的探索行為，主動尋求減少關于鑰匙和門位置的認知不確定性。相比之下，KL控制智能體（沒有認知先驗）可能表現出較低效的探索模式，因為它缺乏解決不確定性的內在驅動力。

Minigrid環境為任務增加了另一層復雜性，因為視野意味著觀測是相對于智能體自身的，而目標則是在外部參考系中定義的。這意味著智能體的觀測空間遠大于狀態空間。觀測空間大小約為，這使得諸如精細推理[18]之類的算法難以處理。此外，22個時間步的規劃時域使得將標準期望自由能計算作為策略評估的方法也變得難以處理。門-鑰匙環境的計算復雜度正是我們所提方法優勢最明顯的地方。

Minigrid環境初始狀態的可視化如圖4所示。智能體到達目標時獲得的獎勵與所走步數成反比。所用生成模型的完整規范見附錄C。本文中所有實驗的源代碼和實現細節均可在我們的在線代碼倉庫3中公開獲取。

5.2 結果

隨機網格環境我們評估了兩種智能體在100個回合中的表現，表1（左）總結了定量結果。

該表表明兩種智能體之間存在著明顯不同的導航模式。最小化EFE的智能體始終選擇繞過隨機轉移單元的更長但更安全的路徑，表現出與理論預測一致的風險規避行為。相比之下，KL控制智能體嘗試穿越隨機轉移單元的較短路徑，表現出錯誤處理系統偶然不確定性的方法所特有的樂觀規劃傾向。兩種智能體軌跡的更詳細可視化以及我們算法的實證收斂性分析見附錄D。

Minigrid門-鑰匙環境我們在200個實驗回合中評估了兩種智能體，規劃時域為25步。表1（右）展示了在Minigrid門-鑰匙環境中，最小化EFE的智能體與KL控制智能體之間的定量比較。

最小化EFE的智能體表現出更有效的探索模式，尤其是在需要主動信息尋求的場景中。這一點在找到鑰匙所需時間的縮短上尤為明顯，證實了認知先驗能夠在部分可觀察環境中實現更具方向性的信息尋求。

兩種智能體軌跡的更詳細可視化以及我們算法的實證收斂性分析見附錄E。

6 討論

我們的實驗結果表明，使用所提出的消息傳遞方法進行EFE最小化的智能體展現出了主動推理的特征行為：在隨機環境中選擇風險規避的路徑，以及在部分可觀察環境中進行信息尋求的探索。這些行為自然地源于在變分自由能目標中納入認知先驗，而無需顯式計算期望自由能。

將EFE最小化重新表述為變分推理問題具有若干優勢：它與自由能原理的核心原則保持了理論一致性；將組合搜索問題轉化為使用因子圖消息傳遞的易處理推理過程；并且消除了對特設策略剪枝的需求，代之以原則性的反應式處理，即智能體在每個時間點最小化VFE。這種方法在傳統EFE計算變得難以處理的復雜環境中尤為有價值，正如我們在Minigrid實驗中所展示的那樣。

盡管我們的實現展示了有希望的結果，但處理自指認知先驗的迭代方法的收斂性質需要進一步的理論研究。未來的研究應探討在生成模型中納入額外參數，特別是與環境動態相關的參數。我們工作的一個自然擴展是在認知先驗內部整合參數學習。這將允許智能體推斷出有助于對模型參數進行樣本高效學習的策略。這一概念已在文獻[15]中提出，然而，經驗先驗的具體函數形式尚未推導出來。

7 結論

在本文中，我們提出了一種在因子圖上進行期望自由能最小化的消息傳遞實現。我們的方法將EFE最小化重新構建為一個變分推理問題，從而允許我們使用標準的消息傳遞算法進行高效的策略推斷。關鍵的見解在于，通過引入適當的認知先驗，我們可以將期望自由能目標轉化為一個修正后的變分自由能目標，該目標可以通過標準的推理技術進行優化。

我們在隨機環境和部分可觀察環境中的實驗結果表明，該方法再現了主動推理的特征行為：在具有危險隨機性的環境中表現出風險規避，在部分可觀察環境中表現出信息尋求。與傳統的期望自由能計算方法相比，消息傳遞實現在計算效率上顯示出顯著優勢，尤其是在具有高維觀測空間和長規劃時域的復雜環境中。

通過將EFE最小化重新表述為變分推理，我們的工作有助于將自由能原理和主動推理的理論框架與不確定性下決策的實際實現相統一。這架起了智能行為理論解釋與人工智能體高效算法之間的橋梁，為在復雜和不確定環境中平衡實用目標與認知目標提供了一種原則性的方法。

原文鏈接：https://arxiv.org/pdf/2508.02197

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.