无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

用匹茲堡大學的"溫度階梯"訓練法,讓AI徹底讀懂分子的"舞蹈語言"

0
分享至


這項由匹茲堡大學計算與系統生物學系及CMU-Pitt計算生物學博士項目聯合完成的研究,以預印本形式于2026年6月發布在arXiv平臺,編號為arXiv:2605.31498v2,感興趣的讀者可通過該編號查閱原文。

**一段關于分子"舞步"的困惑**

每一種分子,無論是藥物分子還是蛋白質,都在不停地運動——它們扭轉、彎曲、振動,就像舞臺上永不停歇的舞者。這些舞步的規律,決定了分子能不能和某個蛋白質結合,能不能發揮藥效,甚至決定了它在人體內的命運??茖W家把所有可能的舞步及其出現概率,稱為"玻爾茲曼分布"——這是一張描述分子在特定溫度下如何分配自身姿態的概率地圖。

問題在于,這張地圖極難繪制。傳統辦法是讓計算機模擬分子的每一步運動,就像用超慢動作攝影機記錄舞者每一毫秒的動作,再拼出完整的舞蹈畫面。這種方法需要以飛秒(千萬億分之一秒)為步長推進,耗時極長,計算量龐大,而且分子很容易陷入某個固定姿勢"卡死",怎么也跳不出來。更麻煩的是,只要分子結構稍有改變,就得重新從頭模擬,毫無復用可能。

正因如此,研究者們一直在尋找更聰明的替代方案。深度學習生成模型的興起帶來了新希望——如果能訓練一個神經網絡,讓它直接"生成"符合玻爾茲曼分布的分子構型,就能繞開漫長的模擬過程。然而,這里存在一個令人頭疼的循環悖論:訓練這種模型,需要大量已經處于平衡狀態的分子構型數據;而獲取這些數據,恰恰就是我們最初想要解決的難題。

匹茲堡大學的研究團隊提出了一種名為SITA(可擴展推斷時退火,Scalable Inference-Time Annealing)的新方法,試圖打破這個死循環。這套方案的核心思路,就是用一種"溫度階梯"策略,讓模型像退火工藝一樣,從高溫逐步冷卻到室溫,一步步學會在低溫下精確描繪分子的舞步分布。

**一、為什么"從高溫開始"是個聰明的起點**

退火,是冶金工人的老手藝:把金屬加熱到高溫,再緩慢冷卻,讓內部結構逐漸排列整齊。分子模擬領域早就借用了這個概念。在高溫下,分子擁有更多能量,能夠越過各種能量屏障,自由探索所有可能的姿態;而在低溫(比如室溫300K)下,分子更傾向于蜷縮在能量最低的幾個姿態里,幾乎無法跳出去。

傳統分子動力學模擬在低溫下極易"卡死",就是因為分子沒有足夠能量越過那些能量山丘,去探索其他構型。高溫模擬則寬松得多,分子可以暢游整個構型空間,覆蓋所有可能的"舞步"。

SITA正是利用這一特點,先在1200K的高溫模擬數據上訓練一個生成模型,讓模型先學會高溫下分子的"豪放舞風",再通過一系列精心設計的步驟,逐步把模型引導向300K(室溫)下更"保守"、更專注于低能量姿態的精確分布。這個過程,就像先教一個舞者學習自由即興舞,再一步步約束他學習古典芭蕾的嚴格規范。

**二、"溫度階梯"究竟怎么走**

SITA的訓練過程分為四個循環往復的步驟,整個過程像是爬下一段樓梯,每走一步,模型對低溫分布的理解就更深一層。

第一步,研究團隊利用當前的生成模型(稱為"流模型",可以理解為一個專門生成分子構型的神經網絡),在稍低一些的溫度下批量產出分子樣本。這里有一個精妙的技巧:流模型本身不需要修改,只需改變輸入的"噪聲"來源的方差,就能讓輸出的樣本更傾向于低能量狀態。具體來說,如果當前溫度是1200K,目標是755K,那么只需將輸入噪聲的方差按照兩個溫度的比值縮小,模型就會自然地生成更符合低溫分布的樣本。這種只需調整輸入、無需重訓練模型的溫度切換方式,是SITA的一大亮點。

第二步,用這批新生成的樣本,訓練一個"能量模型"(EBM,Energy-Based Model)。能量模型的作用,是學習這批樣本的概率密度——通俗地說,就是學會判斷每個分子構型"有多大可能真實存在"。直接計算流模型生成樣本的精確概率,在高維度下需要計算一個極其復雜的"雅可比行列式"(可以理解為描述空間如何被變換的數學量),計算量隨分子自由度的增加急劇膨脹,完全不可行。能量模型則通過一種叫做BoltzNCE的訓練方法,繞開了這個計算瓶頸,用一個近似但高效的方式估計出樣本的概率。

BoltzNCE的訓練分兩個部分:第一部分叫"分數匹配",通過學習樣本能量函數的梯度來約束能量的形狀;第二部分叫"噪聲對比估計",通過讓模型區分不同時間點的樣本來錨定能量的絕對值。兩者合力,使能量模型能夠給每個樣本打出一個"概率分數",而無需經歷高昂的計算。

第三步,利用能量模型估算出的概率,計算每個樣本的重要性權重。重要性權重的含義是:這個樣本在目標低溫分布下,相比在當前高溫分布下,更應該被重視多少倍。計算公式是用玻爾茲曼分布給出的真實低溫概率,除以能量模型估算的高溫概率。權重越高,說明這個樣本越符合低溫分布的特征。通過按這些權重對樣本重新采樣,就得到了一批"更像室溫分布"的訓練數據。為了防止極少數權重極高的樣本主導整個重采樣結果(這會嚴重降低樣本多樣性),研究團隊還對權重做了99百分位截斷處理。

第四步,用這批重新采樣的數據,對流模型進行微調,讓它更好地逼近當前目標溫度下的分布。微調完成后,整個循環重新開始,目標溫度再降一個臺階。研究中用到的溫度階梯是:從1200K出發,依次經過755.95K、555.52K、408.24K,最終到達300K。每一步都讓模型對室溫分布的理解更進一步。

**三、與對手的正面交鋒:SITA憑什么說自己更好**

在這個領域,最直接的競爭對手是一個叫PITA(Progressive Inference-Time Annealing)的方法。PITA的思路與SITA有幾分相似,同樣是沿溫度階梯逐步退火,但它采用的是基于擴散模型的架構,并依賴一種叫"費曼-卡茨公式"的數學工具來估算樣本的重要性權重。這個估算過程,需要沿整個生成軌跡積分計算速度場的散度(可以理解為計算每一步生成過程中空間如何被"壓縮"或"膨脹"),計算量隨分子自由度的增加呈災難性增長。對于只有幾十個自由度的丙氨酸二肽,這已經很吃力;對于更大的分子系統,基本上是不可行的。

SITA用能量模型替代了這個昂貴的散度積分,從根本上繞開了這個瓶頸。代價是引入了一點近似誤差——能量模型畢竟不是精確的概率密度,而是一個近似估計。這個近似會導致重采樣后的分布不是精確的目標低溫分布,而是一個"傾斜版本",其偏差取決于能量模型與真實密度的差距。研究團隊坦率地承認了這一點,并從理論上推導出了傾斜分布的形式。

然而,令人意外的是,這種帶有近似偏差的方法,在實驗基準上竟然全面超越了理論上更精確的PITA。

**四、用丙氨酸檢驗功力**

研究團隊在兩個標準分子基準上測試了SITA:丙氨酸二肽(Alanine Dipeptide,ADP)和丙氨酸三肽(Alanine Tripeptide,ATP)。丙氨酸二肽是計算化學領域最經典的測試案例,就像機器學習領域的MNIST手寫數字識別,既足夠簡單,又能暴露方法的關鍵缺陷。

評價指標主要有四個。"Rama-KL"衡量的是生成樣本的構型分布與真實室溫MD模擬之間的KL散度(一種衡量兩個概率分布差異的數學量),數值越小說明覆蓋越全面、越精確,這個指標尤其對"模式崩潰"(即模型只生成少數幾種構型)非常敏感。"Energy-W1"和"Energy-W2"衡量的是生成樣本與參考樣本在能量分布上的差異,分別對應一階和二階Wasserstein距離。"T-W2"則衡量樣本在扭轉角空間(即拉馬錢德蘭坐標,描述蛋白質骨架彎曲方式的兩個角度)上的二階Wasserstein距離。

在丙氨酸二肽上,SITA在Rama-KL(0.517±0.013)和Energy-W2(0.939±0.079)兩項最重要的指標上拿到了所有方法中的最佳成績,顯著優于PITA(Rama-KL為4.773±0.460,Energy-W2為1.615±0.053)。有一個有趣的細節:另一個叫MD-NF的基準方法,直接用300K的MD數據訓練,在Energy-W1這一指標上表現最好,但它的Rama-KL極高(13.533±0.024),說明它其實嚴重模式崩潰了——只生成了能量較低的幾種構型,所以能量均值看起來不錯,但覆蓋的構型空間極為有限。SITA生成的樣本則覆蓋了丙氨酸二肽所有主要的構型盆地,與MD參考分布在拉馬錢德蘭自由能圖上高度吻合。

在丙氨酸三肽上,SITA的優勢更為突出。PITA在沒有進行額外MD松弛(即用短時間的MD模擬修正生成樣本)的情況下,Rama-KL高達8.535,能量誤差更是飆升到86.270。SITA在完全不做任何后處理的情況下,Rama-KL只有0.361,Energy-W1為1.933。這意味著SITA生成的樣本質量,直接超越了PITA加上MD松弛后處理的水平,而后者需要額外消耗3倍的能量計算預算。

兩個系統的有效樣本比例(ESS,衡量重采樣效率的指標,越高說明權重分布越均勻)都處于較低水平——丙氨酸二肽在0.13到0.27之間,丙氨酸三肽在0.04到0.07之間。這說明重采樣過程中存在一定的樣本浪費,但即便如此,最終結果仍然優于其他方法,說明SITA對樣本質量的把握非常準確,即使少量高權重樣本也能有效指引模型向正確方向優化。

**五、還能更精準:獨立梅特羅波利斯-黑斯廷斯精煉**

對于追求極致精度的場景,研究團隊還設計了一個可選的后處理步驟:獨立梅特羅波利斯-黑斯廷斯(IMH)算法。

這個算法的原理,可以類比為一個挑剔的藝術評審。每次從流模型生成一個新的分子構型候選,然后評審團(由真實玻爾茲曼權重和能量模型共同組成)比較這個新候選與當前樣本的"質量得分比",如果新候選明顯更好,就接受它;如果差不多或更差,就以相應概率接受或拒絕。這個機制保證了最終保留下來的樣本集合會逐漸向真實分布靠攏。

理論上,如果評審團使用的是精確概率,這個算法會收斂到精確的目標分布。由于SITA使用的是能量模型近似概率,收斂目標實際上是前面提到的那個"傾斜版本"的分布——研究團隊在論文中給出了嚴格的數學證明,說明傾斜程度完全由能量模型與真實密度的偏差決定。

實驗結果顯示,在丙氨酸三肽上運行50步IMH后,Rama-KL從0.361進一步降至0.313,T-W2從0.798降至0.704,多項指標均有改善。相比之下,另一種簡單的重要性重采樣后處理(SITA-IS)雖然在能量誤差上更低,但Rama-KL出現了惡化,說明樣本多樣性受損。IMH則在改善能量精度的同時,較好地保持了構型空間的覆蓋,代價是額外需要5×10?次能量計算(而整個預訓練階段需要5×10?次,這個開銷相對可以接受)。

**六、關于評估方式的一場"較真"**

SITA論文中還專門辟出一節,指出了競爭方法PITA在評估指標上的兩處方法論問題,這在學術界算是相當直接的批評。

第一個問題是TICA(時間滯后獨立分量分析)評估中的滯后時間選擇。TICA是一種分析分子動力學軌跡慢模式的技術,其投影結果對滯后時間參數極為敏感。PITA對丙氨酸三肽使用了滯后時間10,對丙氨酸二肽使用了滯后時間100。過小的滯后時間會讓TICA捕捉到高頻振動和熱噪聲,而非真正有物理意義的慢構型轉變,從而使基于TICA的評估指標失去區分模式覆蓋能力的靈敏度。

第二個問題是MD參考軌跡的降采樣方式。PITA取軌跡的前10000幀作為參考分布,但MD軌跡幀之間存在強時間相關性,前10000幀往往集中于軌跡起始的少數構型,無法代表完整的平衡分布。使用這種有偏參考來評估模型,會讓那些同樣模式崩潰的方法因為與有偏參考"匹配得好"而獲得虛假的高分。SITA團隊因此改用均勻間隔采樣的方式選取參考幀,結果發現所有方法在這種更公平的評估下表現均有變化,而SITA的優勢在這種更嚴格的評估下更加顯著。

這一較真細節,體現了研究者在方法論層面的嚴謹態度——評估方式的細節,同樣能決定"誰更好"的結論。

**七、模型架構背后的技術選擇**

SITA的流模型使用了一種叫GVP-GNN(幾何向量感知圖神經網絡)的架構,這是一種專門為分子設計的神經網絡,能夠保持物理系統的基本對稱性:無論分子在空間中怎么旋轉、平移,模型給出的物理量預測值應當保持不變或協變。這種對稱性約束大大減少了模型需要學習的冗余信息,提高了學習效率。

能量模型則采用了Graphormer架構,這是一種為圖結構數據設計的Transformer變體。Transformer原本是處理自然語言的神經網絡,Graphormer通過在注意力機制中加入分子內原子間距離矩陣作為結構偏置,使其能夠有效處理三維分子構型。在SITA中,這個距離信息被直接注入注意力計算,讓模型天然具備對分子三維幾何的感知能力。

兩個模型的訓練都使用了三角函數插值(αt=cos(πt/2),βt=sin(πt/2))作為隨機插值框架的調度函數,這種選擇能讓插值路徑在時間上更均勻,避免訓練信號在某些時間段過于集中。優化器使用Adam,配合Reduce-on-Plateau學習率調度,在損失停止下降時自動降低學習率。所有實驗在單張NVIDIA L40 GPU上完成,每張顯卡配備46GB顯存。

**八、這套方法的局限與未來**

研究團隊非常坦率地說明了SITA引入近似的代價。由于能量模型只是流模型分布的近似,重采樣后的分布并非精確的目標低溫分布,而是受能量模型精度影響的傾斜分布。當前實驗中有效樣本比例較低(丙氨酸三肽最低只有0.045),說明重采樣效率還有較大提升空間。

此外,SITA目前只在小型分子系統上測試,對于更大的蛋白質或藥物分子,能量模型的近似精度是否足夠、流模型的表達能力是否足夠,仍然是開放的問題。研究團隊將架構優化、跨分子系統的遷移能力,以及應用到更大分子系統的可行性,列為未來主要研究方向。

歸根結底,SITA代表的是一種"以近似換規模"的工程哲學:在精確性上做出可接受的讓步,換來在更大系統上的可行性。在分子模擬這個高維度的領域,這往往是通往實用的唯一路徑。

當分子生物學家和藥物研發者面對一個全新的蛋白質靶點時,如果能用SITA這樣的工具在數小時內生成可靠的室溫構型分布,而不是等待數周的MD模擬,這種效率上的質變,可能直接影響到下一代藥物從實驗室走向臨床的速度。而這,才是這場關于分子"舞步"的研究,與普通人最真實的關聯。

Q&A

Q1:SITA方法與傳統分子動力學模擬相比,在計算效率上有多大優勢?

A:SITA的主要效率來源于兩點。第一,它用神經網絡直接生成分子構型,避免了傳統MD模擬以飛秒步長逐步推進的高昂開銷;第二,它用能量模型替代了精確散度積分,避免了隨分子自由度增長而急劇膨脹的計算量。在實驗中,整個預訓練加退火流程消耗約5.08×10?次能量計算,比對手PITA在丙氨酸三肽上需要的8×10?次少約37%,且無需額外MD松弛后處理。

Q2:SITA中的能量模型近似會不會讓生成的分子構型不準確?

A:會引入一定偏差。能量模型估算的是流模型分布的近似密度,而非精確密度,導致重采樣后的分布是目標分布的"傾斜版本",偏差大小取決于能量模型與真實密度的差距。研究團隊在理論上推導了這個偏差的形式,并指出只有當能量模型與流模型分布完全一致時,才能精確恢復目標分布。盡管存在這種近似偏差,實驗結果顯示SITA在多個指標上仍優于其他方法。

Q3:SITA的溫度階梯中溫度點是怎么選的,能不能直接從1200K跳到300K?

A:溫度點的選擇影響重要性權重的質量,跨度越大,相鄰溫度分布差異越大,有效樣本比例會急劇下降。SITA采用755.95K、555.52K、408.24K、300K四步過渡,每步約降低約26%的溫度,以保證足夠高的有效樣本比例(丙氨酸二肽約13%~27%)。若直接從1200K跳到300K,兩個溫度下的玻爾茲曼分布差異極大,幾乎所有生成樣本的權重都會趨近于零,重采樣幾乎失效,訓練數據質量會嚴重劣化。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
人不會平白無故患帶狀皰疹!醫生強調:得帶狀皰疹,多半有3共性

人不會平白無故患帶狀皰疹!醫生強調:得帶狀皰疹,多半有3共性

39健康網
2026-06-12 20:16:42
巴拉圭一對球迷姐弟因高顏值走紅,被譽為世界杯女友/男友

巴拉圭一對球迷姐弟因高顏值走紅,被譽為世界杯女友/男友

可樂談情感
2026-06-13 19:28:40
太平島又發生激烈對峙,現場情況很危險,我們必須收回該島執法權

太平島又發生激烈對峙,現場情況很危險,我們必須收回該島執法權

馬探解說體育
2026-06-14 08:00:22
西方為什么死咬新疆不放?

西方為什么死咬新疆不放?

杰絲聊古今
2026-06-13 18:57:12
高家寶,你好幸福啊,爸爸是爾豪,媽媽是小秦氏,關鍵是他們愛你

高家寶,你好幸福啊,爸爸是爾豪,媽媽是小秦氏,關鍵是他們愛你

娛人細品
2026-06-13 18:29:45
伊布談阿什拉夫犯規維尼修斯:裁判應該保護球員,他沒做到

伊布談阿什拉夫犯規維尼修斯:裁判應該保護球員,他沒做到

懂球帝
2026-06-14 17:15:19
新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

律法刑道
2026-04-01 10:15:47
蘇超一晚三場冷門,主場隊伍全翻車

蘇超一晚三場冷門,主場隊伍全翻車

林子說事
2026-06-14 14:36:50
《火遮眼》北美票房出爐,回本無壓力,謝苗要登上巔峰了

《火遮眼》北美票房出爐,回本無壓力,謝苗要登上巔峰了

凡知
2026-06-14 14:19:46
大家都難了嗎?網傳胖東來要降薪,成本會計3600工資竟來23人面試

大家都難了嗎?網傳胖東來要降薪,成本會計3600工資竟來23人面試

慧翔百科
2026-06-12 08:39:57
澳大利亞公開賽,國羽三冠兩亞收官,陳柏陽劉毅登頂,董天堯摘銀

澳大利亞公開賽,國羽三冠兩亞收官,陳柏陽劉毅登頂,董天堯摘銀

天涯遠行人
2026-06-14 17:29:16
摩洛哥18歲天才完爆巴西中場,阿森納后悔7000萬要價

摩洛哥18歲天才完爆巴西中場,阿森納后悔7000萬要價

老糿尾聲體育解說
2026-06-14 13:27:41
“都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

“都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

素十三兒
2026-04-13 07:12:36
路易斯王子陽臺搶盡風頭,12歲的喬治王子身高暴漲,幾乎追上凱特

路易斯王子陽臺搶盡風頭,12歲的喬治王子身高暴漲,幾乎追上凱特

譯言
2026-06-14 06:09:35
王鶴隸早期出道視頻曝光引熱議

王鶴隸早期出道視頻曝光引熱議

淺遇時光
2026-06-14 01:16:31
鄭麗文這番話一放出來,火藥味一下就上來了。

鄭麗文這番話一放出來,火藥味一下就上來了。

果媽聊娛樂
2026-06-14 17:20:53
就差最后一步,伊朗人自己打起來!萬人血誓:復仇未竟,休想妥協

就差最后一步,伊朗人自己打起來!萬人血誓:復仇未竟,休想妥協

菁菁子衿
2026-06-14 09:01:10
調整!6月14日晚間央視直播乒乓收官日有變,4場決賽,林詩棟爭冠

調整!6月14日晚間央視直播乒乓收官日有變,4場決賽,林詩棟爭冠

煙潯渺渺
2026-06-14 14:29:13
伊朗新領袖打破40年潛規則!正面打擊以色列,一場國運豪賭開始了

伊朗新領袖打破40年潛規則!正面打擊以色列,一場國運豪賭開始了

凡知
2026-06-12 12:34:32
玩過14位男星!人前玉女,人后“欲女”,47歲至今未婚無人敢娶

玩過14位男星!人前玉女,人后“欲女”,47歲至今未婚無人敢娶

翰飛觀事
2026-06-13 14:19:51
2026-06-14 19:04:50
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
8771文章數 565關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

房產
手機
藝術
家居
數碼

房產要聞

海南最賺錢行業曝光!最快4年半,??谌钯I三房!

手機要聞

消息稱小米MIX Fold 5闊折疊手機首發澎湃OS4

藝術要聞

明代高僧寫的《春江花月夜》,美得令人驚嘆

家居要聞

空間微調 移形換境

數碼要聞

Meta向旗下Quest 2/3/Pro頭顯全面推送新版Navigator界面

無障礙瀏覽 進入關懷版