編輯丨王多魚
排版丨水成文
大語言模型(LLM)通過從序列數(shù)據(jù)中學(xué)習(xí),已在許多領(lǐng)域帶來了革命性變革,但其在三維分子建模中的應(yīng)用一直受到阻礙,原因在于缺乏對分子構(gòu)象進(jìn)行有效基于標(biāo)記的表征方法。
2026 年 6 月 11 日,中國科學(xué)院上海藥物研究所鄭明月、張素林團(tuán)隊(duì)(熊嘉誠、石宇琪、吳敏為論文共同第一作者)在Nature Machine Intelligence期刊發(fā)表了題為:Bridging three-dimensional molecular structures and artificial intelligence with a conformation description language 的研究論文。
該研究開發(fā)了一種分子構(gòu)象描述語言模型——ConfSeq,其可將三維分子構(gòu)象編碼為離散標(biāo)記序列,從而把構(gòu)象預(yù)測、從頭三維分子生成、形狀條件分子生成和三維分子表征學(xué)習(xí)等任務(wù)轉(zhuǎn)化為序列建模問題,并在多個(gè)基準(zhǔn)測試和藥物發(fā)現(xiàn)案例中驗(yàn)證了方法的有效性。
![]()
在這項(xiàng)最新研究中,研究團(tuán)隊(duì)開發(fā)了一種構(gòu)象描述語言——ConfSeq,通過將三維分子結(jié)構(gòu)編碼為離散的標(biāo)記序列來填補(bǔ)大語言模型在三維分子建模中應(yīng)用的空白。
ConfSeq 將分子 SMILES 與內(nèi)部坐標(biāo)(包括二面角、鍵角和偽手性描述符)相結(jié)合,從而確保 SE(3) 不變性,并保留了 SMILES 固有的簡潔性和人類可讀性。通過將核心的三維分子建模任務(wù)(包括構(gòu)象預(yù)測、從頭生成和表示學(xué)習(xí))重新表述為序列建模問題,ConfSeq 使得標(biāo)準(zhǔn) Transformer 架構(gòu)能夠在多種基準(zhǔn)測試中達(dá)到最先進(jìn)性能(SOTA)。
![]()
ConfSeq 將三維分子構(gòu)象編碼為離散標(biāo)記序列,并用于構(gòu)象預(yù)測、三維分子生成與三維表征學(xué)習(xí)等任務(wù)
在藥物發(fā)現(xiàn)應(yīng)用中,研究團(tuán)隊(duì)利用基于 ConfSeq 的三維表征開展基于配體的虛擬篩選,發(fā)現(xiàn)了多個(gè)新型STING 抑制劑和ALDH1B1 抑制劑,其半數(shù)最大抑制濃度范圍為 0.338–3.51?μM。
總的來說,該研究從分子表示方式入手,為語言模型處理三維分子任務(wù)提供了新的技術(shù)路徑。相關(guān)結(jié)果表明,面向三維構(gòu)象的序列化表示可作為 AI 藥物設(shè)計(jì)關(guān)鍵技術(shù)體系的有益補(bǔ)充,為分子建模、虛擬篩選和候選分子發(fā)現(xiàn)提供新的計(jì)算工具。
論文鏈接:
https://www.nature.com/articles/s42256-026-01250-8
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.