網易首頁 > 網易號 > 正文申請入駐

物理場中閉環逆源定位與表征

2026-05-05 10:11:11　來源: CreateAMind

上海舉報

分享至

物理場中閉環逆源定位與表征

Distill-Belief: Closed-Loop Inverse Source Localization andCharacterization in Physical Fields

https://arxiv.org/pdf/2604.26095

摘要

閉環逆源定位與表征（Inverse Source Localization and Characterization, ISLC）要求移動智能體在嚴格的時間約束下選擇測量點，以定位源并推斷潛在場參數。核心挑戰在于信念空間目標：有效的不確定性估計需要昂貴的貝葉斯推斷，而使用快速學習的信念模型則會導致"獎勵黑客"（reward hacking）現象，即策略利用近似誤差而非真正減少不確定性。我們提出 Distill-Belief，一種教師–學生框架，將正確性與效率解耦。一個貝葉斯正確的粒子濾波器（particle-filter）教師維護后驗分布，并提供密集的信息增益信號；而一個緊湊的學生模型則將后驗蒸餾為用于控制的信念統計量，以及用于停止判定的不確定性證書。在部署階段，僅使用學生模型，從而實現每步恒定的計算成本。在七種場模態和兩項壓力測試上的實驗表明，與基線方法相比，Distill-Belief 能持續降低感知成本，并提升成功率、后驗收縮程度和估計精度，同時有效緩解獎勵黑客問題。

1 引言

自主科學感知任務正日益在野外環境中運行：在疑似氣體泄漏 [15, 17]、污染物擴散 [44, 77] 或輻射事件 [42, 69] 發生后，無人機或地面機器人被派遣執行任務，并必須在嚴格的時間和能量預算下決定下一步的測量位置。每次測量都帶有噪聲且代價高昂，且通常不存在密集的任務獎勵——關鍵在于系統能否以校準的不確定性 [14, 25, 52] 快速定位并表征源，以便及時支持下游干預措施 [18, 19, 38]。

我們通過閉環逆源定位與表征（closed-loop ISLC，亦稱物理場中的源項估計問題 [13, 37, 50]）來研究這一設定 [33]。智能體順序采樣由傳輸模型支配的場，該模型包含未知參數向量 Θ [20, 46]（例如源位置/強度及環境因素），并根據噪聲觀測更新貝葉斯后驗 p(Θ | o?:?, p?:?)。科學目標不僅僅是抵達高信號區域，而是主動選擇測量點 [58, 71, 71] 以收縮后驗分布并產生校準的不確定性，從而當不確定性降至應用指定的容差以下時終止任務 [20, 67, 70]。

閉環 ISLC 揭示了科學正確性與實際部署之間的根本張力。首先，目標存在于信念空間：我們追求后驗收縮與不確定性校準，而非觀測空間中的啟發式代理（否則智能體可能追逐瞬態峰值，而無法可靠地減少認知不確定性）。其次，科學場任務很少提供可靠的密集任務獎勵 [45, 54, 64]：成功信號往往是稀疏的、延遲的，甚至未定義的，且任務應在不確定性充分降低時終止。與此同時，實際部署要求實時決策：每步計算不能隨昂貴的貝葉斯推斷而擴展。第三，若將學習到的信念代理同時用作策略輸入和內在獎勵或停止判定的依據，智能體可能利用近似偽影——人為放大獎勵或在未真正收縮真實后驗的情況下觸發提前停止。這些考量對任何可部署的 ISLC 算法提出了一組耦合的要求。

形式上，閉環 ISLC 必須滿足四個耦合要求：
(R1) 在信念空間中優化，以直接減少認知不確定性；
(R2) 在缺乏可靠密集任務獎勵的條件下學習（即應對成功信號稀疏/延遲或未定義的情況）；
(R3) 保持可部署性，即應對每步計算不能隨昂貴貝葉斯推斷擴展的問題；
(R4) 對獎勵黑客具有魯棒性：策略不得通過操縱學習信念代理中的近似誤差（例如低估后驗散布）來獲取高內在獎勵，或在未真正收縮后驗的情況下滿足停止規則。

表 1 總結了代表性設計族對上述要求的覆蓋情況；沒有任何方法能同時滿足 (R1)–(R4)。為同時滿足 (R1)–(R4)，我們認為必須將貝葉斯正確性與部署時的計算解耦。學習信號應源自貝葉斯一致的信念更新，然而部署時的控制器無法承擔在線運行此類更新的開銷。這留下了一個狹窄的實用設計空間：一個貝葉斯正確的教師在信念空間中計算信息論目標，而一個快速學習的學生將關于 Θ 的教師后驗壓縮為信念統計量（例如均值和對角協方差），這些統計量可相對于粒子預算以 O(1) 時間每步更新。值得注意的是，僅演員–評論家（actor-critic）更新策略參數；粒子濾波器（PF）教師并非規劃器，僅提供用于獎勵計算和蒸餾目標的貝葉斯信念更新。

一個關鍵問題是：為何我們要蒸餾信念，而非直接以端到端方式學習？若移除教師并使用與策略條件相同的所學信念來定義內在獎勵，策略可能利用建模誤差人為增加獎勵或減少散布證書，而無需真正降低后驗不確定性。反之，若保留貝葉斯一致的信念更新以防止此類偽影，則推斷仍保留在部署循環中，其成本隨粒子預算線性擴展，違反實時約束。信念蒸餾解決了這一張力：它將教師后驗遷移至參數化學生模型，為控制和停止產生恒定時間、不確定性校準的信念統計量，同時在訓練期間保持獎勵與貝葉斯對齊且僅由教師計算。若無蒸餾，則必須在可部署性（測試時使用 PF）與統計對齊及魯棒性（所學信念同時定義獎勵與控制）之間權衡，無法同時滿足 (R1)–(R4)。

為彌合這些差距，我們提出了一種用于閉環 ISLC 的教師–學生信念優化框架。一個粒子濾波器（PF）教師維護參數向量 Θ 上的貝葉斯一致后驗。該教師提供基于連續信念間離散 KL 散度的密集內在獎勵，作為單步信息增益的高保真代理。一個快速學生將教師后驗蒸餾為緊湊的對角高斯信念。蒸餾后的信念為信念條件的演員–評論家提供恒定時間特征，并提供基于散布的不確定性證書以實現原則性停止。在測試時，我們完全丟棄 PF，僅依賴學生的信念統計量，使推斷與終止獨立于粒子預算。這種分離使內在獎勵保持貝葉斯對齊，同時使部署擺脫 PF 推斷的開銷。

我們的主要貢獻包括：
(1) 我們將 ISLC 形式化為信念空間控制問題，并引入一種耦合的推斷–執行架構，通過 PF 教學與學生信念近似，將貝葉斯正確目標與部署時計算解耦。
(2) 我們提出一種基于連續教師后驗間單步 KL 散度的密集信息增益內在獎勵，直接將強化學習優化與后驗收縮對齊，并通過構造防止獎勵黑客：內在獎勵僅由 PF 教師后驗計算，而所學學生信念僅用于條件化策略（輸出下一步感知動作）及計算部署時的停止證書。
(3) 我們通過學生信念和基于散布的停止證書實現可部署且可靠的閉環推斷，該證書顯式控制精度–預算權衡，且在測試/部署時完全移除 PF 教師。

2 相關工作 2.1 面向 ISLC 的信息論規劃

閉環逆源定位與表征（ISLC，亦稱源項估計）是場感知任務中的一種常見原語：移動智能體必須自適應地決定下一步的測量位置，以定位隱藏發射源并以校準的不確定性估計物理參數。代表性應用場景包括：利用移動機器人/無人機對大氣釋放事件進行源項估計 [7, 24]、為安全監測進行放射性源定位 [27, 32]，以及更廣泛的傳感設置中的污染物/源重構問題 [5, 34]。

在方法論上，這些問題與序列貝葉斯實驗設計[64, 65] 密切相關，其中動作的選擇旨在最大程度地減少關于未知參數值 Θ 的不確定性。實現閉環 ISLC [65] 的一條路徑是將貝葉斯序列推斷[3, 35, 76] 與信息論動作選擇相結合：智能體 [16, 75] 維護關于未知源/傳輸參數 Θ 的后驗分布，并選擇下一步感知動作以最大程度地收縮該信念。

代表性的基于信息的搜索框架通過序列蒙特卡洛 [3, 76] / 粒子濾波 [1, 36] 來近似 p(Θ | o?:?, p?:?)，并使用信息效用函數（如期望信息增益 [10]、互信息 [66] 或信念間的 KL 散度 [57]）評估候選動作。

與這些顯式信息增益規劃器并行，許多非學習/靜態策略也采用類似的兩模塊結構——(i) 一個估計模塊（貝葉斯/粒子濾波更新）和 (ii) 一個優化不確定性相關代理目標的貪婪控制器。典型例子包括 Infotaxis [29, 47, 71] 和 Entrotaxis [31, 59, 78]，它們通過減少信念不確定性（例如方差/熵）來驅動探索；以及基于雙控制的方法（DCEE）[11, 41]，通過結合估計進展項與不確定性減少項的復合目標，顯式權衡利用與探索。

然而，在線控制循環通常需要重復的信念更新以及（通常）對候選動作的前瞻評估，因此每步計算成本隨粒子預算和規劃視界增長，這成為實時部署與大規模評估的關鍵障礙（違反第 1 節中的可部署性要求 (R3)）。

2.2 用于主動感知與定位的強化學習

一個互補的方向是利用強化學習（RL）[43, 49, 62] 來攤銷決策過程，學習一個將觀測（以及可能的信念特征）映射到感知動作的策略。在 ISLC 及相關的主動感知任務 [60] 中，演員–評論家（actor-critic）[43, 48] 方法被廣泛采用，其中狀態表示將原始觀測與來自粒子濾波的緊湊信念摘要（例如后驗矩或參數化壓縮形式，如高斯混合模型 [39, 54]）進行增強。這種方式以單次策略前向傳播替代顯式的在線規劃，從而提升部署時的效率。

為進一步提升可部署性，許多工作 [26, 73, 74] 將基于粒子的后驗壓縮為低維信念表示（矩、混合擬合或學習的集合編碼器），更廣泛地說，使用攤銷推斷（amortized inference）以（近似）恒定時間預測后驗統計量，從而避免控制過程中的迭代貝葉斯更新 [6]。

盡管如此，基于強化學習的方法通常依賴于觀測空間的獎勵塑形 [51, 55]（例如濃度改善）或稀疏的終端成功信號，這可能與后驗收縮目標不一致，并鼓勵捷徑行為。此外，在許多科學場任務中，成功 [64] 并未被顯式標注，而應由充分低的不確定性隱式判定；自終止與目標檢測機制通過將信念散布作為停止觸發條件來應對這一問題 [64]。

總體而言，基于強化學習的方法往往能滿足可部署性要求 (R3)，但若學習信號設計不當，可能難以應對信念空間目標 (R1) 與稀疏/隱式監督 (R2)。在控制循環內部使用近似信念還可能破壞科學語義。若同一個所學信念代理既用于條件化策略，又用于定義內在獎勵或停止判定 [9]，智能體可能利用代理模型的偽影，在未真正收縮貝葉斯后驗的情況下獲取獎勵或提前停止（違反要求 (R4)）。

這促使我們采用教師–學生[4, 21, 61, 72] 架構，將貝葉斯目標與部署時計算解耦：一個貝葉斯正確的推斷模塊可作為監督信號源，而一個快速攤銷模型則提供用于實時控制的信念統計量。

3 預備知識 3.1 場建模的統一框架

包括污染物擴散、氣體擴散和電場分布在內的廣泛自然現象，都可以在一個統一的物理框架內進行描述。盡管這些過程表面上存在差異，但它們都受三個基本項支配：擴散、對流和外部源。這些項通常由一般對流-擴散方程（Convection-Diffusion Equation, CDE）[23] 來刻畫，該方程提供了一個通用的數學抽象：

3.2 高斯羽流模型

作為對流-擴散框架的經典解析實例，高斯羽流模型（Gaussian Plume Model, GPM）如圖1所示，提供了一個穩態解，在建模保真度和計算效率之間取得平衡。在適當假設下，所得場分布由下式給出

3.3 部分可觀測馬爾可夫決策過程（Partially Observable MDP）

4 方法

我們將閉環 ISLC 形式化為一個信念空間控制問題，其目標是后驗收縮。第 4.1 小節定義了策略所使用的信念狀態。第 4.2–4.3 小節描述了信念的維護與攤銷計算過程。第 4.4 小節指明了用于訓練的基于 KL 散度的內在獎勵。第 4.5–4.6 小節介紹了信念條件的演員-評論家（Actor-Critic）以及停止準則。

4.2 基于粒子濾波的教師信念

4.3 基于 PF 蒸餾的學生后驗

4.4 基于 KL 的內在獎勵

4.5 信念特征與策略學習

4.6 停止規則與復雜度

5 實驗

研究問題 (RQ)： 我們的實驗旨在回答以下研究問題：

(1) (RQ1，見 5.1 節) 在實踐中，Distill-Belief 是否能在跨越不同物理場模態的標準單源 ISLC 任務中，持續地優于強大的基于 RL 和基于規劃的基線方法，同時在提升任務性能以及推斷/不確定性質量方面表現優異？

(2) (RQ2，見 5.2 節) 隨著同時存在的源數量增加（即后驗分布日益呈現多模態特性），該方法在現實場景中的擴展性如何？

(3) (RQ3，見 5.3 節) 在可達性限制了信息性感知的障礙物受限（非凸）環境中，Distill-Belief 能否保持高成功率和效率？

(4) (RQ4，見 5.4 節) 關鍵設計選擇的貢獻是什么，以及這些選擇如何影響在現實設置中對捷徑/獎勵黑客（reward-hacking）行為的魯棒性？

(5) (RQ5，見 5.5 節) 與基于 PF（粒子濾波）的推斷相比，蒸餾后的學生在粒子預算方面的部署時推斷成本是多少？

(6) (RQ6，見 5.6 節) 結果對 PF 超參數的敏感度如何，以及在實踐中隨著粒子預算的變化，實際的性能-成本前沿（performance-cost frontier）位于何處？

5.1 單源跨域結果

我們在一個隨機生成場景的留出集（held-out set）上評估分布內（ID）性能。除非另有說明，所有方法共享相同的環境配置、訓練預算和網絡架構（如適用），并且我們報告了基于多個隨機種子的均值和標準差。我們使用第 5 節中定義的指標來聯合評估任務性能和信念/不確定性質量，并遵循每個基線方法推薦的超參數，除非另有明確說明。額外的實現細節見附錄 D.4。

表2:不同情景下的基線比較

表 2 總結了七種場類型下的核心單源結果。總體而言，DISTILL-BELIEF 實現了最強的任務成功率和效率：它始終能達到最高（或接近最高）的成功率（SR），同時需要明顯更少的步數（TE）即可達到停止準則。在諸如電場（Elec.）和能量場（En.）等具有挑戰性的模態上，增益最為顯著；在這些模態中，基于規劃的基線方法性能大幅下降，而我們的方法則以更短的軌跡保持了顯著更高的成功率。

一個關鍵的觀察結果是，高 SR 并非僅靠“提前停止”獲得的。我們的方法在所有場類型下也產生了顯著更低的定位誤差（LPS），這表明該策略確實是在驅動信念收縮，而非過早終止。相比之下，規劃基線（Infotaxis / Entrotaxis / DCEE）傾向于遭受短視的信息搜尋或在噪聲觀測下過于保守的探索，導致軌跡過長且 SR 較低。在基于 RL 的競爭者中，我們觀察到探索效率與推斷質量之間存在明顯的權衡。雖然一些 RL 基線可以在較簡單的模態中實現有競爭力的表現指標（REV），但它們通常需要更長的軌跡和/或表現出較差的 LPS，這表明它們不能像我們的方法那樣可靠地減少后驗散布。通過將貝葉斯正確的教師獎勵與攤銷的信念特征顯式耦合，DISTILL-BELIEF 同時實現了高成功率和快速終止，證明了信念空間目標比稀疏或啟發式獎勵提供了更強的訓練信號。

5.2 多源定位

表 3 報告了在具有 2/3/4 個源的溫度場中的多源定位性能。雖然單源定位是一個標準基準，但許多現實場景涉及多個發射源（例如，多個泄漏點或熱點），導致觀測疊加和多模態后驗分布。因此，該設置具有實質性的挑戰：智能體必須既在信念空間中區分多個峰值（消除歧義），又要分配感知軌跡以減少各源的不確定性。通過增加源的數量，我們顯式地測試了那些在近似單模態后驗下表現良好的方法，能否在不退化為局部感知模式的前提下，擴展到多模態信念。我們使用 ASLE、WCSE 和 BCR 來總結性能，以捕捉跨源的平均準確性和最壞情況下的可靠性。

如表 3 所示，隨著源數量的增加，性能有所下降，這是由于觀測疊加和多模態性導致的，符合預期。盡管如此，在 2/3/4 個源的情況下，Distill-Belief 在成功率（SR）和軌跡效率（TE）方面仍然是表現最佳的方法。這表明學習到的策略并沒有退化為單一的局部感知模式；相反，它繼續收集具有信息量的測量數據，以減少全局歧義。規劃基線在 SR 上表現出更急劇的下降，在 TE 上表現出快速增加，這與它們在運動約束下處理多模態后驗和長視界消歧的困難相一致。

5.3 障礙物受限環境

表 4 評估了在不同障礙物密度下的障礙物受限環境中的性能。障礙物導致了非凸的可行區域，并且往往阻礙智能體采取直接路徑前往信息量最大的區域，這可能會暴露貪婪信息搜尋基線以及未能適當考慮可達性的策略的脆弱性。包含這一系列測試是為了評估實際可部署性：智能體必須在稀疏、中等和密集的障礙物布局下，在保持定位質量的同時生成高效且可行的軌跡。我們報告 SR、TE 和 LPS，以聯合反映受限導航中的定位性能、感知效率和路徑級行為。

表 4 顯示，隨著障礙物密度從稀疏增加到密集，所有方法的 SR 均降低且 TE 增加，這是因為非凸的可達性限制了對信息量最大區域的訪問。在所有密度下，Distill-Belief 仍然是最強的方法，實現了最高的成功率（在稀疏/中等/密集環境下 SR 分別為 0.90/0.86/0.80），同時以最少的步數終止（TE 分別為 21/25/31），這表明其進行了由信念驅動但感知約束的探索。在 RL 基線中，GMM-IG 是最接近的競爭者，但在成功率和效率方面仍落后（SR: 0.85/0.81/0.74, TE: 24/28/35），而 AGDC 在障礙物環境下的效率尤其低下（TE: 46/52/61），這表明其難以協調信息性感知與可行導航。基于規劃的方法在密集布局中性能下降更為劇烈（Infotaxis TE 為 71；DCEE SR 為 0.38 且 TE 為 80），這與它們過度致力于局部信息量大但全局效率低的路徑，以及未能在視界內滿足證書要求（即未能達到停止標準）的情況相一致。

5.4 消融實驗

我們進行了兩項互補的消融實驗，以分離信念優化流程和獎勵塑形的貢獻。表 7 消融了教師-學生信念流程中的關鍵組件。表 8 通過比較基于密集 KL 散度的信息增益與稀疏的硬成功反饋，進一步獨立評估了獎勵設計。除非另有說明，我們報告 SR、TE、SLE、FPE 和 UQ(NLL)；針對獎勵設計，我們額外報告 Steps@70% SR 以量化樣本效率。

信念優化流程。 表 7 和圖 3c 表明，性能增益并非源于單一的啟發式方法。移除基于 KL 的 IG 獎勵會大幅降低 SR 并增加 TE，這表明密集的信念空間塑形對于樣本高效的探索至關重要。從學生信念計算 KL 目標會同時降低性能和 UQ，這與當同一近似既用于獎勵又用于策略輸入時出現的走捷徑（shortcutting）現象一致。蒸餾對于高效部署至關重要：僅使用 PF 進行測試雖然仍具有競爭力，但放棄了攤銷推斷的優勢；而在沒有 PF 監督的情況下僅訓練學生模型會顯著損害 SR/SLE/FPE/UQ，這凸顯了貝葉斯正確的教師指導的必要性。最后，移除 Spread 特征或基于 Spread 的停止主要損害了效率和校準度，而禁用 MH 更新（rejuvenation）則降低了穩定性和后驗質量，這表明 PF 的多樣性改善了監督效果。

獎勵設計。 表 8 和圖 3a 證實，稀疏的硬成功反饋的可學習性顯著較差，導致 SR 較低、UQ 較差以及樣本效率明顯低下。相比之下，基于密集 KL 散度的信息增益獎勵在整個 episode 期間提供了經過塑形的、與信念對齊的反饋，加速了學習并改善了軌跡效率和后驗質量。混合變體和課程學習變體表明，一旦出現了可靠的探索行為，就可以添加任務成功信號，而不會犧牲 KL 塑形帶來的益處。

5.5 部署成本與攤銷推斷

表 9 專注于測試時成本。基于 PF（粒子濾波）的信念更新隨粒子數量線性擴展，這可能成為實時決策或在大量場景中部署的瓶頸。我們的教師–學生設計正是為了攤銷貝葉斯推斷：學生模型以恒定時間預測信念特征，同時保留了貝葉斯正確訓練信號的優勢。該表通過將僅學生推斷與僅 PF 測試進行對比，并展示那些在測試時依賴 PF 的方法如何產生 O ( N ) 的每步開銷，從而顯式地將性能與可部署性解耦。表 9 和圖 3b 強調了我們教師–學生設計的實際動機。PF 更新每步按 O ( N ) 擴展，并迅速成為部署瓶頸，而蒸餾后的學生模型以 O ( 1 ) 時間預測信念特征。重要的是，恒定時間的部署并非源于削弱訓練目標：貝葉斯正確性在訓練期間通過 PF 教師強制執行，而學生模型通過蒸餾繼承了這種行為。

5.6 對預算與閾值的敏感性

6 局限性與倫理考量

實驗使用基于物理原理的模擬器進行隨機感知；實際部署可能會增加復雜性。仍存在兩個局限性。1) 訓練依賴于貝葉斯一致的粒子濾波教師以獲取信息增益獎勵和目標，隨著參數空間的增長，這可能代價高昂。2) 緊湊的測試時信念在具有多模態后驗的多源情況下可能效果較差。本研究未使用人類受試者或可識別個人身份的數據；實際部署應遵循機構政策和同意要求。最后，我們強調我們已經使用非 AI 方法在現實/物理實驗中 [28, 30] 驗證了整體感知與定位流程，本文通過基于蒸餾的策略擴展了該已驗證的設置。

7 結論

我們提出了 Distill-Belief，一種用于閉環 ISLC 的教師–學生框架。在該框架中，粒子濾波教師在訓練期間提供貝葉斯一致的基于 KL 散度的信息增益獎勵，而緊湊的學生信念則在測試時實現恒定計算成本的控制以及基于不確定性的停止機制。在七種基于物理原理的模態和壓力測試中，與強大的基線方法相比，該方法提升了成功率、樣本效率和不確定性質量，同時有效緩解了獎勵黑客問題。

原文鏈接：https://arxiv.org/pdf/2604.26095

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.