網易首頁 > 網易號 > 正文申請入駐

用匹茲堡大學的"溫度階梯"訓練法，讓AI徹底讀懂分子的"舞蹈語言"

2026-06-10 21:09:56　來源: 科技行者

天津舉報

分享至

這項由匹茲堡大學計算與系統生物學系及CMU-Pitt計算生物學博士項目聯合完成的研究，以預印本形式于2026年6月發布在arXiv平臺，編號為arXiv:2605.31498v2，感興趣的讀者可通過該編號查閱原文。

**一段關于分子"舞步"的困惑**

每一種分子，無論是藥物分子還是蛋白質，都在不停地運動——它們扭轉、彎曲、振動，就像舞臺上永不停歇的舞者。這些舞步的規律，決定了分子能不能和某個蛋白質結合，能不能發揮藥效，甚至決定了它在人體內的命運?？茖W家把所有可能的舞步及其出現概率，稱為"玻爾茲曼分布"——這是一張描述分子在特定溫度下如何分配自身姿態的概率地圖。

問題在于，這張地圖極難繪制。傳統辦法是讓計算機模擬分子的每一步運動，就像用超慢動作攝影機記錄舞者每一毫秒的動作，再拼出完整的舞蹈畫面。這種方法需要以飛秒（千萬億分之一秒）為步長推進，耗時極長，計算量龐大，而且分子很容易陷入某個固定姿勢"卡死"，怎么也跳不出來。更麻煩的是，只要分子結構稍有改變，就得重新從頭模擬，毫無復用可能。

正因如此，研究者們一直在尋找更聰明的替代方案。深度學習生成模型的興起帶來了新希望——如果能訓練一個神經網絡，讓它直接"生成"符合玻爾茲曼分布的分子構型，就能繞開漫長的模擬過程。然而，這里存在一個令人頭疼的循環悖論：訓練這種模型，需要大量已經處于平衡狀態的分子構型數據；而獲取這些數據，恰恰就是我們最初想要解決的難題。

匹茲堡大學的研究團隊提出了一種名為SITA（可擴展推斷時退火，Scalable Inference-Time Annealing）的新方法，試圖打破這個死循環。這套方案的核心思路，就是用一種"溫度階梯"策略，讓模型像退火工藝一樣，從高溫逐步冷卻到室溫，一步步學會在低溫下精確描繪分子的舞步分布。

**一、為什么"從高溫開始"是個聰明的起點**

退火，是冶金工人的老手藝：把金屬加熱到高溫，再緩慢冷卻，讓內部結構逐漸排列整齊。分子模擬領域早就借用了這個概念。在高溫下，分子擁有更多能量，能夠越過各種能量屏障，自由探索所有可能的姿態；而在低溫（比如室溫300K）下，分子更傾向于蜷縮在能量最低的幾個姿態里，幾乎無法跳出去。

傳統分子動力學模擬在低溫下極易"卡死"，就是因為分子沒有足夠能量越過那些能量山丘，去探索其他構型。高溫模擬則寬松得多，分子可以暢游整個構型空間，覆蓋所有可能的"舞步"。

SITA正是利用這一特點，先在1200K的高溫模擬數據上訓練一個生成模型，讓模型先學會高溫下分子的"豪放舞風"，再通過一系列精心設計的步驟，逐步把模型引導向300K（室溫）下更"保守"、更專注于低能量姿態的精確分布。這個過程，就像先教一個舞者學習自由即興舞，再一步步約束他學習古典芭蕾的嚴格規范。

**二、"溫度階梯"究竟怎么走**

SITA的訓練過程分為四個循環往復的步驟，整個過程像是爬下一段樓梯，每走一步，模型對低溫分布的理解就更深一層。

第一步，研究團隊利用當前的生成模型（稱為"流模型"，可以理解為一個專門生成分子構型的神經網絡），在稍低一些的溫度下批量產出分子樣本。這里有一個精妙的技巧：流模型本身不需要修改，只需改變輸入的"噪聲"來源的方差，就能讓輸出的樣本更傾向于低能量狀態。具體來說，如果當前溫度是1200K，目標是755K，那么只需將輸入噪聲的方差按照兩個溫度的比值縮小，模型就會自然地生成更符合低溫分布的樣本。這種只需調整輸入、無需重訓練模型的溫度切換方式，是SITA的一大亮點。

第二步，用這批新生成的樣本，訓練一個"能量模型"（EBM，Energy-Based Model）。能量模型的作用，是學習這批樣本的概率密度——通俗地說，就是學會判斷每個分子構型"有多大可能真實存在"。直接計算流模型生成樣本的精確概率，在高維度下需要計算一個極其復雜的"雅可比行列式"（可以理解為描述空間如何被變換的數學量），計算量隨分子自由度的增加急劇膨脹，完全不可行。能量模型則通過一種叫做BoltzNCE的訓練方法，繞開了這個計算瓶頸，用一個近似但高效的方式估計出樣本的概率。

BoltzNCE的訓練分兩個部分：第一部分叫"分數匹配"，通過學習樣本能量函數的梯度來約束能量的形狀；第二部分叫"噪聲對比估計"，通過讓模型區分不同時間點的樣本來錨定能量的絕對值。兩者合力，使能量模型能夠給每個樣本打出一個"概率分數"，而無需經歷高昂的計算。

第三步，利用能量模型估算出的概率，計算每個樣本的重要性權重。重要性權重的含義是：這個樣本在目標低溫分布下，相比在當前高溫分布下，更應該被重視多少倍。計算公式是用玻爾茲曼分布給出的真實低溫概率，除以能量模型估算的高溫概率。權重越高，說明這個樣本越符合低溫分布的特征。通過按這些權重對樣本重新采樣，就得到了一批"更像室溫分布"的訓練數據。為了防止極少數權重極高的樣本主導整個重采樣結果（這會嚴重降低樣本多樣性），研究團隊還對權重做了99百分位截斷處理。

第四步，用這批重新采樣的數據，對流模型進行微調，讓它更好地逼近當前目標溫度下的分布。微調完成后，整個循環重新開始，目標溫度再降一個臺階。研究中用到的溫度階梯是：從1200K出發，依次經過755.95K、555.52K、408.24K，最終到達300K。每一步都讓模型對室溫分布的理解更進一步。

**三、與對手的正面交鋒：SITA憑什么說自己更好**

在這個領域，最直接的競爭對手是一個叫PITA（Progressive Inference-Time Annealing）的方法。PITA的思路與SITA有幾分相似，同樣是沿溫度階梯逐步退火，但它采用的是基于擴散模型的架構，并依賴一種叫"費曼-卡茨公式"的數學工具來估算樣本的重要性權重。這個估算過程，需要沿整個生成軌跡積分計算速度場的散度（可以理解為計算每一步生成過程中空間如何被"壓縮"或"膨脹"），計算量隨分子自由度的增加呈災難性增長。對于只有幾十個自由度的丙氨酸二肽，這已經很吃力；對于更大的分子系統，基本上是不可行的。

SITA用能量模型替代了這個昂貴的散度積分，從根本上繞開了這個瓶頸。代價是引入了一點近似誤差——能量模型畢竟不是精確的概率密度，而是一個近似估計。這個近似會導致重采樣后的分布不是精確的目標低溫分布，而是一個"傾斜版本"，其偏差取決于能量模型與真實密度的差距。研究團隊坦率地承認了這一點，并從理論上推導出了傾斜分布的形式。

然而，令人意外的是，這種帶有近似偏差的方法，在實驗基準上竟然全面超越了理論上更精確的PITA。

**四、用丙氨酸檢驗功力**

研究團隊在兩個標準分子基準上測試了SITA：丙氨酸二肽（Alanine Dipeptide，ADP）和丙氨酸三肽（Alanine Tripeptide，ATP）。丙氨酸二肽是計算化學領域最經典的測試案例，就像機器學習領域的MNIST手寫數字識別，既足夠簡單，又能暴露方法的關鍵缺陷。

評價指標主要有四個。"Rama-KL"衡量的是生成樣本的構型分布與真實室溫MD模擬之間的KL散度（一種衡量兩個概率分布差異的數學量），數值越小說明覆蓋越全面、越精確，這個指標尤其對"模式崩潰"（即模型只生成少數幾種構型）非常敏感。"Energy-W1"和"Energy-W2"衡量的是生成樣本與參考樣本在能量分布上的差異，分別對應一階和二階Wasserstein距離。"T-W2"則衡量樣本在扭轉角空間（即拉馬錢德蘭坐標，描述蛋白質骨架彎曲方式的兩個角度）上的二階Wasserstein距離。

在丙氨酸二肽上，SITA在Rama-KL（0.517±0.013）和Energy-W2（0.939±0.079）兩項最重要的指標上拿到了所有方法中的最佳成績，顯著優于PITA（Rama-KL為4.773±0.460，Energy-W2為1.615±0.053）。有一個有趣的細節：另一個叫MD-NF的基準方法，直接用300K的MD數據訓練，在Energy-W1這一指標上表現最好，但它的Rama-KL極高（13.533±0.024），說明它其實嚴重模式崩潰了——只生成了能量較低的幾種構型，所以能量均值看起來不錯，但覆蓋的構型空間極為有限。SITA生成的樣本則覆蓋了丙氨酸二肽所有主要的構型盆地，與MD參考分布在拉馬錢德蘭自由能圖上高度吻合。

在丙氨酸三肽上，SITA的優勢更為突出。PITA在沒有進行額外MD松弛（即用短時間的MD模擬修正生成樣本）的情況下，Rama-KL高達8.535，能量誤差更是飆升到86.270。SITA在完全不做任何后處理的情況下，Rama-KL只有0.361，Energy-W1為1.933。這意味著SITA生成的樣本質量，直接超越了PITA加上MD松弛后處理的水平，而后者需要額外消耗3倍的能量計算預算。

兩個系統的有效樣本比例（ESS，衡量重采樣效率的指標，越高說明權重分布越均勻）都處于較低水平——丙氨酸二肽在0.13到0.27之間，丙氨酸三肽在0.04到0.07之間。這說明重采樣過程中存在一定的樣本浪費，但即便如此，最終結果仍然優于其他方法，說明SITA對樣本質量的把握非常準確，即使少量高權重樣本也能有效指引模型向正確方向優化。

**五、還能更精準：獨立梅特羅波利斯-黑斯廷斯精煉**

對于追求極致精度的場景，研究團隊還設計了一個可選的后處理步驟：獨立梅特羅波利斯-黑斯廷斯（IMH）算法。

這個算法的原理，可以類比為一個挑剔的藝術評審。每次從流模型生成一個新的分子構型候選，然后評審團（由真實玻爾茲曼權重和能量模型共同組成）比較這個新候選與當前樣本的"質量得分比"，如果新候選明顯更好，就接受它；如果差不多或更差，就以相應概率接受或拒絕。這個機制保證了最終保留下來的樣本集合會逐漸向真實分布靠攏。

理論上，如果評審團使用的是精確概率，這個算法會收斂到精確的目標分布。由于SITA使用的是能量模型近似概率，收斂目標實際上是前面提到的那個"傾斜版本"的分布——研究團隊在論文中給出了嚴格的數學證明，說明傾斜程度完全由能量模型與真實密度的偏差決定。

實驗結果顯示，在丙氨酸三肽上運行50步IMH后，Rama-KL從0.361進一步降至0.313，T-W2從0.798降至0.704，多項指標均有改善。相比之下，另一種簡單的重要性重采樣后處理（SITA-IS）雖然在能量誤差上更低，但Rama-KL出現了惡化，說明樣本多樣性受損。IMH則在改善能量精度的同時，較好地保持了構型空間的覆蓋，代價是額外需要5×10?次能量計算（而整個預訓練階段需要5×10?次，這個開銷相對可以接受）。

**六、關于評估方式的一場"較真"**

SITA論文中還專門辟出一節，指出了競爭方法PITA在評估指標上的兩處方法論問題，這在學術界算是相當直接的批評。

第一個問題是TICA（時間滯后獨立分量分析）評估中的滯后時間選擇。TICA是一種分析分子動力學軌跡慢模式的技術，其投影結果對滯后時間參數極為敏感。PITA對丙氨酸三肽使用了滯后時間10，對丙氨酸二肽使用了滯后時間100。過小的滯后時間會讓TICA捕捉到高頻振動和熱噪聲，而非真正有物理意義的慢構型轉變，從而使基于TICA的評估指標失去區分模式覆蓋能力的靈敏度。

第二個問題是MD參考軌跡的降采樣方式。PITA取軌跡的前10000幀作為參考分布，但MD軌跡幀之間存在強時間相關性，前10000幀往往集中于軌跡起始的少數構型，無法代表完整的平衡分布。使用這種有偏參考來評估模型，會讓那些同樣模式崩潰的方法因為與有偏參考"匹配得好"而獲得虛假的高分。SITA團隊因此改用均勻間隔采樣的方式選取參考幀，結果發現所有方法在這種更公平的評估下表現均有變化，而SITA的優勢在這種更嚴格的評估下更加顯著。

這一較真細節，體現了研究者在方法論層面的嚴謹態度——評估方式的細節，同樣能決定"誰更好"的結論。

**七、模型架構背后的技術選擇**

SITA的流模型使用了一種叫GVP-GNN（幾何向量感知圖神經網絡）的架構，這是一種專門為分子設計的神經網絡，能夠保持物理系統的基本對稱性：無論分子在空間中怎么旋轉、平移，模型給出的物理量預測值應當保持不變或協變。這種對稱性約束大大減少了模型需要學習的冗余信息，提高了學習效率。

能量模型則采用了Graphormer架構，這是一種為圖結構數據設計的Transformer變體。Transformer原本是處理自然語言的神經網絡，Graphormer通過在注意力機制中加入分子內原子間距離矩陣作為結構偏置，使其能夠有效處理三維分子構型。在SITA中，這個距離信息被直接注入注意力計算，讓模型天然具備對分子三維幾何的感知能力。

兩個模型的訓練都使用了三角函數插值（αt=cos(πt/2)，βt=sin(πt/2)）作為隨機插值框架的調度函數，這種選擇能讓插值路徑在時間上更均勻，避免訓練信號在某些時間段過于集中。優化器使用Adam，配合Reduce-on-Plateau學習率調度，在損失停止下降時自動降低學習率。所有實驗在單張NVIDIA L40 GPU上完成，每張顯卡配備46GB顯存。

**八、這套方法的局限與未來**

研究團隊非常坦率地說明了SITA引入近似的代價。由于能量模型只是流模型分布的近似，重采樣后的分布并非精確的目標低溫分布，而是受能量模型精度影響的傾斜分布。當前實驗中有效樣本比例較低（丙氨酸三肽最低只有0.045），說明重采樣效率還有較大提升空間。

此外，SITA目前只在小型分子系統上測試，對于更大的蛋白質或藥物分子，能量模型的近似精度是否足夠、流模型的表達能力是否足夠，仍然是開放的問題。研究團隊將架構優化、跨分子系統的遷移能力，以及應用到更大分子系統的可行性，列為未來主要研究方向。

歸根結底，SITA代表的是一種"以近似換規模"的工程哲學：在精確性上做出可接受的讓步，換來在更大系統上的可行性。在分子模擬這個高維度的領域，這往往是通往實用的唯一路徑。

當分子生物學家和藥物研發者面對一個全新的蛋白質靶點時，如果能用SITA這樣的工具在數小時內生成可靠的室溫構型分布，而不是等待數周的MD模擬，這種效率上的質變，可能直接影響到下一代藥物從實驗室走向臨床的速度。而這，才是這場關于分子"舞步"的研究，與普通人最真實的關聯。

Q&A

Q1：SITA方法與傳統分子動力學模擬相比，在計算效率上有多大優勢？

A：SITA的主要效率來源于兩點。第一，它用神經網絡直接生成分子構型，避免了傳統MD模擬以飛秒步長逐步推進的高昂開銷；第二，它用能量模型替代了精確散度積分，避免了隨分子自由度增長而急劇膨脹的計算量。在實驗中，整個預訓練加退火流程消耗約5.08×10?次能量計算，比對手PITA在丙氨酸三肽上需要的8×10?次少約37%，且無需額外MD松弛后處理。

Q2：SITA中的能量模型近似會不會讓生成的分子構型不準確？

A：會引入一定偏差。能量模型估算的是流模型分布的近似密度，而非精確密度，導致重采樣后的分布是目標分布的"傾斜版本"，偏差大小取決于能量模型與真實密度的差距。研究團隊在理論上推導了這個偏差的形式，并指出只有當能量模型與流模型分布完全一致時，才能精確恢復目標分布。盡管存在這種近似偏差，實驗結果顯示SITA在多個指標上仍優于其他方法。

Q3：SITA的溫度階梯中溫度點是怎么選的，能不能直接從1200K跳到300K？

A：溫度點的選擇影響重要性權重的質量，跨度越大，相鄰溫度分布差異越大，有效樣本比例會急劇下降。SITA采用755.95K、555.52K、408.24K、300K四步過渡，每步約降低約26%的溫度，以保證足夠高的有效樣本比例（丙氨酸二肽約13%~27%）。若直接從1200K跳到300K，兩個溫度下的玻爾茲曼分布差異極大，幾乎所有生成樣本的權重都會趨近于零，重采樣幾乎失效，訓練數據質量會嚴重劣化。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.