生成式 AI 驅(qū)動的貝葉斯校準(zhǔn)全局敏感性分析
Bayesian-calibrated global sensitivity analysis for mathematical models using generative AI
https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1013312
研究背景與核心問題
- 傳統(tǒng)GSA的獨(dú)立性假設(shè)困境:經(jīng)典的全局敏感性分析(GSA,如Sobol方差分解法)普遍假設(shè)模型輸入?yún)?shù)相互獨(dú)立。但在實(shí)際科學(xué)建模(尤其是健康與生物領(lǐng)域)中,經(jīng)貝葉斯校準(zhǔn)的模型參數(shù)往往存在強(qiáng)相關(guān)性與高維依賴結(jié)構(gòu)。
- 違背假設(shè)的后果:當(dāng)參數(shù)相關(guān)時(shí),傳統(tǒng)蒙特卡洛估計(jì)量會產(chǎn)生偏差,導(dǎo)致敏感性排序失真,進(jìn)而誤導(dǎo)模型簡化、參數(shù)篩選或干預(yù)策略設(shè)計(jì)。
- 理論可行但計(jì)算困難:Rosenblatt變換與Shapley效應(yīng)在理論上可處理相關(guān)性,但均依賴從高維復(fù)雜聯(lián)合分布中進(jìn)行精確的條件采樣,實(shí)現(xiàn)門檻極高。
- 代理方法的假設(shè)束縛:Copula等現(xiàn)成方法雖便于條件采樣,但強(qiáng)加了對稱性、線性依賴等限制,且在高維場景下易受“維度災(zāi)難”影響,難以刻畫真實(shí)數(shù)據(jù)的復(fù)雜依賴模式。
本文提出一種基于生成式AI的貝葉斯校準(zhǔn)全局敏感性分析新范式,核心思想是將GSA重構(gòu)為直接在貝葉斯后驗(yàn)分布上執(zhí)行的“校準(zhǔn)后任務(wù)”:
- 數(shù)據(jù)驅(qū)動的依賴學(xué)習(xí):利用生成模型直接從貝葉斯后驗(yàn)樣本中學(xué)習(xí)參數(shù)的聯(lián)合分布與條件分布,徹底摒棄對參數(shù)獨(dú)立性或預(yù)設(shè)依賴結(jié)構(gòu)的限制。
- 雙路徑技術(shù)實(shí)現(xiàn)
- 采用**自回歸架構(gòu)(Autoregressive Models)**實(shí)現(xiàn)Rosenblatt變換,將相關(guān)分布映射為獨(dú)立均勻分布,兼容傳統(tǒng)Sobol指數(shù)計(jì)算。
- 采用**擴(kuò)散模型(Diffusion Models)**高效估計(jì)Shapley效應(yīng),通過條件生成自然處理任意參數(shù)子集的邊際貢獻(xiàn)。
- 計(jì)算解耦潛力:將模型輸出作為目標(biāo)聯(lián)合分布的附加特征同步建模,有望將敏感性分析與昂貴的前向模型仿真解耦,顯著降低計(jì)算開銷。
- 真實(shí)性與可解釋性:所得敏感性指數(shù)反映的是“經(jīng)貝葉斯校準(zhǔn)、與觀測數(shù)據(jù)一致”的參數(shù)影響力,而非抽象未校準(zhǔn)模型的純數(shù)學(xué)結(jié)構(gòu)敏感性。
- 高維非線性適應(yīng)性:無需預(yù)設(shè)分布族(如高斯假設(shè)),可自適應(yīng)捕捉復(fù)雜、非高斯、強(qiáng)耦合的參數(shù)依賴關(guān)系。
- 靈活可擴(kuò)展:框架兼容各類貝葉斯校準(zhǔn)的確定性模型,計(jì)算復(fù)雜度隨數(shù)據(jù)規(guī)模與模型維度平滑增長,具備工程落地潛力。
- 嚴(yán)格理論銜接:經(jīng)驗(yàn)估計(jì)量兼具“后驗(yàn)權(quán)重導(dǎo)數(shù)”的精確操作定義與“總體敏感性一致無偏估計(jì)”的統(tǒng)計(jì)性質(zhì)。
- 在兩個(gè)典型健康科學(xué)模型上完成實(shí)證驗(yàn)證:
- 新冠疫情傳播模型
- 癌癥免疫治療動力學(xué)模型
- 實(shí)驗(yàn)表明:該方法在參數(shù)強(qiáng)相關(guān)設(shè)定下仍能精準(zhǔn)識別關(guān)鍵驅(qū)動參數(shù),且在計(jì)算效率、方法靈活性與結(jié)果穩(wěn)健性上顯著優(yōu)于傳統(tǒng)Copula或近似采樣方案。
- 打通了貝葉斯不確定性量化、生成式建模與系統(tǒng)敏感性分析的理論鏈路,為數(shù)據(jù)驅(qū)動型復(fù)雜系統(tǒng)建模提供了可解釋性新工具。
- 生成式范式具備天然擴(kuò)展性,未來可向隨機(jī)微分方程模型、基于智能體(Agent-based)模型的分布級敏感性分析延伸,助力現(xiàn)代生物醫(yī)學(xué)、氣候建模與工程系統(tǒng)的高保真決策支持。
如需進(jìn)一步提煉為PPT匯報(bào)要點(diǎn)、繪制技術(shù)路線圖,或補(bǔ)充具體數(shù)學(xué)公式/算法流程的對應(yīng)關(guān)系,可隨時(shí)告知。
![]()
摘要
我們提出了一種生成式建模框架,用于在具有強(qiáng)相關(guān)性且可能高維的參數(shù)復(fù)雜系統(tǒng)中進(jìn)行全局敏感性分析(GSA)。傳統(tǒng)的基于方差的 GSA 方法依賴于輸入?yún)?shù)獨(dú)立的假設(shè),而這在貝葉斯校準(zhǔn)的模型中很少成立。盡管近期基于 Rosenblatt 變換和 Shapley 效應(yīng)的擴(kuò)展方法在理論上解決了這一局限,但其實(shí)現(xiàn)需要從相關(guān)聯(lián)合分布中進(jìn)行精確的條件采樣,這一任務(wù)仍具挑戰(zhàn)性。現(xiàn)有解決方案對輸入依賴性施加了限制性假設(shè),從而限制了其在復(fù)雜數(shù)據(jù)驅(qū)動問題中的適用性。我們的方法通過將敏感性分析重構(gòu)為貝葉斯后驗(yàn)分布上的校準(zhǔn)后任務(wù)來應(yīng)對這些挑戰(zhàn):參數(shù)相關(guān)性通過生成式模型從數(shù)據(jù)中學(xué)習(xí),從而消除了對依賴關(guān)系的限制性假設(shè),并確保敏感性估計(jì)與數(shù)據(jù)相關(guān)。我們采用自回歸架構(gòu)來實(shí)現(xiàn) Rosenblatt 變換,并利用擴(kuò)散模型來估計(jì) Shapley 效應(yīng)。這些方法無需預(yù)設(shè)分布假設(shè),且能隨數(shù)據(jù)量和模型復(fù)雜度高效擴(kuò)展。我們在兩個(gè)代表性應(yīng)用中驗(yàn)證了該方法的有效性:新冠病毒傳播模型和癌癥免疫治療模型。結(jié)果表明,我們的方法能在參數(shù)存在相關(guān)性的情況下有效捕捉參數(shù)敏感性,并在可擴(kuò)展性和靈活性方面較現(xiàn)有方法取得顯著提升。
作者總結(jié)
在本研究中,我們引入了一種使用生成式 AI 對生物模型進(jìn)行全局敏感性分析的新方法。我們的方法與貝葉斯推斷完全兼容,而貝葉斯推斷被廣泛用于生物系統(tǒng)的參數(shù)校準(zhǔn)。與傳統(tǒng)敏感性分析假設(shè)參數(shù)獨(dú)立或施加簡化依賴結(jié)構(gòu)不同,我們的方法直接在貝葉斯校準(zhǔn)的后驗(yàn)分布上進(jìn)行敏感性分析,其中參數(shù)相關(guān)性是從觀測數(shù)據(jù)中學(xué)習(xí)得到的。因此,所得的敏感性分析反映的是真實(shí)的、與數(shù)據(jù)相關(guān)的參數(shù)敏感性,而非抽象模型的純結(jié)構(gòu)敏感性。所提出的框架具有靈活性、可擴(kuò)展性,并廣泛適用于各類通過貝葉斯方法校準(zhǔn)的確定性模型。此外,該方法的生成式特性為未來擴(kuò)展至隨機(jī)模型或基于代理模型的分布敏感性分析鋪平了道路,增強(qiáng)了其在現(xiàn)代生物應(yīng)用中的潛力。
引言
數(shù)學(xué)建模、貝葉斯推斷和敏感性分析是跨不同科學(xué)領(lǐng)域開展復(fù)雜數(shù)據(jù)驅(qū)動型研究項(xiàng)目的重要工具。健康科學(xué)等學(xué)科中的現(xiàn)實(shí)問題經(jīng)常使用數(shù)學(xué)模型進(jìn)行分析,因?yàn)樗鼈兡軌虺橄髲?fù)雜的系統(tǒng)行為,并通過參數(shù)化方程對其進(jìn)行描述。這些模型使研究人員能夠模擬和預(yù)測系統(tǒng)如何響應(yīng)變化的條件,從而為其底層動力學(xué)提供有價(jià)值的見解。這些預(yù)測可靠性的核心在于模型參數(shù)的準(zhǔn)確估計(jì),這一任務(wù)可通過貝葉斯推斷有效解決 [1]。這種統(tǒng)計(jì)方法利用觀測數(shù)據(jù)更新關(guān)于參數(shù)值的先驗(yàn)信念,生成一個(gè)同時(shí)捕捉參數(shù)不確定性和相互依賴性的后驗(yàn)分布。基于參數(shù)估計(jì),我們隨后可以進(jìn)行敏感性分析,以識別哪些參數(shù)對模型結(jié)果的影響最大。
在敏感性分析的廣泛范疇內(nèi)存在多種方法。例如,局部敏感性分析側(cè)重于評估施加于單個(gè)模型參數(shù)的小擾動所產(chǎn)生的影響,而全局敏感性分析(GSA)則考察在指定范圍內(nèi)同時(shí)改變多個(gè)參數(shù)所產(chǎn)生的影響。本文聚焦于一種 GSA 方法,即基于方差的 Sobol 方法 [2]。該方法通過估計(jì)可歸因于每個(gè)單獨(dú)輸入?yún)?shù)變化及其相互作用的輸出方差比例,來量化參數(shù)敏感性。由此產(chǎn)生的一階(個(gè)體)和高階(交互)指數(shù)提供了對參數(shù)影響力的全面度量。由于其穩(wěn)健性和可解釋性,Sobol 方法已在各個(gè)領(lǐng)域得到廣泛應(yīng)用,如下列研究所示 [3–5]。
盡管用途廣泛,但在現(xiàn)實(shí)世界的數(shù)學(xué)模型上估計(jì) Sobol 敏感性指數(shù)面臨著重大挑戰(zhàn),這主要是由于在給定觀測數(shù)據(jù)條件下,模型參數(shù)的貝葉斯后驗(yàn)分布中嵌入了錯(cuò)綜復(fù)雜的相關(guān)性。傳統(tǒng)的 Sobol 方法通常假設(shè)輸入?yún)?shù)是獨(dú)立的,而現(xiàn)實(shí)世界系統(tǒng)往往表現(xiàn)出源于模型結(jié)構(gòu)與數(shù)據(jù)交互的復(fù)雜高維依賴性。這些依賴性限制了該方法的適用性,因?yàn)楫?dāng)獨(dú)立性假設(shè)被違背時(shí),相應(yīng)的蒙特卡洛估計(jì)量會產(chǎn)生偏差,可能導(dǎo)致關(guān)于參數(shù)敏感性的誤導(dǎo)性結(jié)論。為解決這一問題,已提出多種方法。例如,Rosenblatt 變換可用于將任何復(fù)雜的聯(lián)合分布映射為單位超立方體上的獨(dú)立均勻變量,從而能夠使用傳統(tǒng)的 Sobol 方法 [6]。盡管該方法在理論上對任意復(fù)雜的分布都成立,但其實(shí)際實(shí)現(xiàn)需要近似一系列條件密度函數(shù),這絕非易事。另一種替代方法采用合作博弈論中的 Shapley 效應(yīng)來量化相關(guān)性下的輸入敏感性 [7]。Shapley 效應(yīng)通過平均每個(gè)輸入在所有可能參數(shù)子集上的邊際貢獻(xiàn),自然地容納了依賴性。然而,估計(jì) Shapley 效應(yīng)同樣依賴于從聯(lián)合分布的任意子集中進(jìn)行條件采樣,面臨著類似的計(jì)算挑戰(zhàn)。從這些例子可以清楚地看出,從模型輸入的條件分布中進(jìn)行準(zhǔn)確采樣是執(zhí)行 GSA 的核心。現(xiàn)有的基于 Copula 的方法因其實(shí)際應(yīng)用的簡便性而受到關(guān)注 [8]。通過將邊緣分布與依賴結(jié)構(gòu)分離,只要 Copula 函數(shù)能準(zhǔn)確表示相關(guān)結(jié)構(gòu),Copula 就允許進(jìn)行非常高效的條件采樣。在實(shí)踐中,高斯 Copula 被廣泛使用,但施加了限制性假設(shè)(如對稱和線性依賴),這可能無法對輸入之間的復(fù)雜依賴關(guān)系進(jìn)行建模。此外,由于維數(shù)災(zāi)難,它們在高維設(shè)置中可能會失去準(zhǔn)確性 [9]。
生成式人工智能的最新進(jìn)展為在全局敏感性分析中從復(fù)雜的條件參數(shù)分布中進(jìn)行準(zhǔn)確采樣提供了一個(gè)有前景的解決方案。諸如自回歸模型(順序建模變量依賴性)和基于擴(kuò)散的方法(學(xué)習(xí)聯(lián)合分布并生成靈活的條件樣本)等方法,在捕捉高維、非高斯分布方面展現(xiàn)出了卓越的能力 [10]。受生成式模型靈活性和可擴(kuò)展性的啟發(fā),我們提出將 GSA 重新構(gòu)建為一項(xiàng)直接在貝葉斯后驗(yàn)分布上執(zhí)行的校準(zhǔn)后任務(wù),其中參數(shù)相關(guān)性自然產(chǎn)生于模型結(jié)構(gòu)與觀測數(shù)據(jù)之間的交互。通過使用生成式模型從后驗(yàn)樣本中學(xué)習(xí)聯(lián)合和條件參數(shù)分布,所提出的框架消除了限制性的獨(dú)立性或依賴性假設(shè)。此外,通過將模型輸出與輸入一起作為目標(biāo)聯(lián)合分布的附加特征納入,該方法有可能將敏感性分析與重復(fù)的正向模型評估解耦,從而在模型評估成本高昂時(shí)減輕計(jì)算負(fù)擔(dān)。因此,所得的敏感性指數(shù)反映的是真實(shí)的、經(jīng)貝葉斯校準(zhǔn)的參數(shù)敏感性,而非抽象的、未經(jīng)校準(zhǔn)模型的純結(jié)構(gòu)敏感性。
在本文中,我們探討如何利用生成式模型對經(jīng)貝葉斯校準(zhǔn)的數(shù)學(xué)模型進(jìn)行 GSA。“材料”部分提供了數(shù)學(xué)建模框架、貝葉斯數(shù)據(jù)校準(zhǔn)和 Sobol 敏感性分析的背景。“方法”部分介紹了所提出的用于 GSA 的生成式建模方法。“案例研究結(jié)果”部分通過數(shù)值實(shí)驗(yàn)驗(yàn)證了該方法,包括合成基準(zhǔn)測試和健康科學(xué)中的現(xiàn)實(shí)世界應(yīng)用。
。。。。。。。。。。
原文鏈接:https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1013312
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.