![]()
撰文丨王聰
編輯丨王多魚
排版丨水成文
在藥物研發實驗室里,科學家們還在為解析蛋白質三維結構頭疼;材料學家們正對著金屬有機框架的復雜構型反復試錯;化學家們則在海量反應路徑中篩選最優解。
而現在,這些看似割裂的自然科學場景,可能被阿里通義實驗室的一個大模型徹底打通——科學本身就有自己的“語法”,只要讓 AI 學會這門科學語言,它就能像寫文章一樣,生成符合科學規律的蛋白質、小分子、新材料...。
![]()
該研究提出了全球首個基于統一“科學語法”的多領域生成式基礎模型——LOGOS(Language Of Generative Objects in Science),它基于共享的“科學語法”,在單一的自回歸框架內統一了自然科學中的異構任務,不需要依賴顯式的 3D 坐標或幾何神經網絡,僅通過序列建模就能完成蛋白質設計、配體生成、逆合成預測、材料創造等跨領域任務,性能甚至超過多個領域專用模型,為“一個模型適用于所有”(one model fits all)在自然科學中的可行性提供了初步證據。
更重要的是,LOGOS為AI for Science(AI4S)指明了一條新路徑——不必為科學任務單獨搭建技術棧,而是可以和通用大語言模型共享架構、訓練范式和推理基礎設施,將科學基礎模型與大語言模型深度對齊,從而使大語言模型真正成為 AI4S 的新入口。
為什么我們需要“科學語言”?
過去十年,AI 在自然科學領域的應用大多基于預訓練語言模型 BERT 的預訓練-微調范式:先在大規模無標注數據上學習掩碼重建或對比學習,再適配下游任務。但這套方案存在天然短板:預訓練目標和真實任務語義不對齊,編碼器架構也缺乏原生的條件生成能力,往往需要額外加裝生成模塊。
后來學界嘗試用自回歸大語言模型破局,比如 ProGen2、Evo 系列等蛋白質生成模型,ProtGPT2 等核酸生成模型,但都局限于單一生物學領域,無法捕捉蛋白質、小分子、抗體等不同模態間的協同關系——而真實的生物過程,恰恰是這些多類分子復雜互作的結果。
還有研究試圖用自然語言作為跨域接口,比如 NatureLM 把各類科學任務包裝成“指令-響應”格式。但問題在于:生物化學數據的體量遠小于自然語言,強行用自然語言做中介,模型容易偏向通用語言模式,反而忽略了科學對象本身的結構規律;而且氨基酸序列、SMILES 式等科學表示和自然語言的組成規則、語義機制差異極大,存在天然的模態鴻溝。
研究團隊認為,既然蛋白質、小分子、材料、反應系統雖然符號表示不同,但都遵循特定的組成規則、結構約束和互作語義,那它們完全可以視為同一種“科學語言”的不同“方言”。
于是LOGOS的核心思路呼之欲出:給自然科學設計一套統一的“語法”,把所有科學對象和它們的互作都編碼成共享詞匯表下的 token 序列,用同一個自回歸框架解決所有生成任務。
![]()
LOGOS概述:一種基于統一“科學語法”的多領域生成框架
LOGOS 是怎么說“科學語言”的?
這套“科學語法”的設計非常巧妙,核心是把空間互作關系“離散化、語法化、token 化”,塞進純序列生成的框架里。
第一步:搭起七模態的知識版圖
研究團隊圍繞“蛋白質-小分子”這兩個核心科學實體,構建了覆蓋 7 大模態的預訓練語料庫:
生物大分子層:蛋白質(來自UniRef90數據庫)、抗體(來自OAS數據庫);
化學實體與轉化層:小分子(來自PubChemQC數據庫)、化學反應(來自ORD和ECReact數據庫)、材料(以金屬有機框架MOF為代表,來自hypothetical MOF結構庫);
跨域互作層:蛋白質配體結合位點(來自PDB數據庫,用P2Rank預測)、蛋白質-配體復合物(來自Q-BioLiP數據庫);
每種模態都有專屬的邊界 token,比如蛋白質用 >和< ProteinE>包裹,小分子用 >和< MoleculeE >包裹,既明確區分實體類型,又能在共享詞匯表中無縫銜接。
第二步:把 3D 互作“翻譯”成序列
最精彩的設計在于對空間關系的處理。以蛋白質結合口袋為例,傳統方法必須輸入 3D 原子坐標,而 LOGOS 給出了四種遞進的序列表示:
1、氨基酸級口袋標注:在蛋白質線性序列中,用 >和< ProteinE>直接標記口袋殘基的位置;
2、小分子擴展口袋序列:把口袋殘基的側鏈展開成對應的 SMILES 片段,直接在 token 層面架起蛋白質和化學空間的橋梁;
3、氨基酸-小分子轉換序列:引入 >定向 token,把前兩種形式拼接成轉換任務,讓模型學習“氨基酸標識符→分子結構”的映射;
4、結合位點識別序列:加入任務語義 token ,把“從蛋白質序列預測結合位點”變成生成任務:輸入完整蛋白序列+ ,輸出帶口袋標注的序列。
這樣一來,原本需要 3D 坐標描述的“哪些殘基結合哪個配體”,就變成了一段符合語法的 token 序列。蛋白質-配體復合物的表示則更進一步:先按上述方式標記口袋殘基并展開為 SMILES,再在蛋白序列末尾拼接配體的 SMILES,完整編碼互作關系。
第三步:站在大語言模型肩膀上,但不被自然語言“綁架”
LOGOS 的基礎架構直接復用 Qwen3-8B、Llama3.2-1B/3B 等成熟的大語言模型,繼承 Transformer 的序列建模能力——實驗證明,繼承全部預訓練權重的配置,在配體生成任務上的 Vina 評分(-7.43)遠優于隨機初始化(-6.91)或僅繼承嵌入層(-6.78)的方案,說明自然語言預訓練學到的長程依賴捕獲、上下文推理能力,和科學序列的建模規律存在抽象共性。
但研究團隊同時發現:如果在持續預訓練階段混入大量自然語言語料,模型在科學任務上的性能會持續下降。畢竟參數總量固定,分給自然語言理解的能力多了,留給科學模態建模的容量就少了。因此,LOGOS 選擇完全聚焦科學原生表示,不把自然語言作為跨模態接口,把有限的參數容量用在刀刃上。
訓練流程分為兩步:先在七模態語料上做持續預訓練,優化標準下一 token 預測目標;再用少量下游任務數據做監督微調(SFT),且采用多任務聯合訓練——實驗證明,這種跨域聯合微調比單任務獨立訓練在所有任務上都表現更好,因為不同領域的知識可以互相補充:逆合成預測的鍵斷裂重組規律,能幫助配體生成的骨架構建;口袋識別任務學到的序列-結構-功能關系,能提升配體生成對口袋約束的理解。
效果有多驚艷?
研究團隊在 6 個代表性科學任務上驗證了 LOGOS 的性能,結果堪稱“降維打擊”——
1、口袋條件配體生成(藥物設計核心任務)
在 PDBBind 數據集中,LOGOS-8B 的 Vina 對接得分達到 -7.76(越低結合親和力越強),不僅超過了 DiffBP(-7.28)、TargetDiff(-7.38)等依賴 3D 坐標的領域專用模型,也遠超用 8 張 7B 卡堆疊的 NatureLM(-6.91)。更驚人的是,僅 1B 參數的 LOGOS-1B 就拿到了 -7.64 的得分,參數量只有 NatureLM 的 1/56,參數效率優勢明顯。同時在藥物相似性(QED)、合成可及性(SAS)等指標上也全面領先。
2、蛋白質配體結合位點識別
在 COACH420 和 HOLO4K 兩個基準數據集上,LOGOS-8B 的表現僅次于 P2Rank(其預訓練標注來源就是 P2Rank 的預測結果),超過了 Fpocket、DeepSite 等其他所有基線方法。關鍵是,所有對比方法都需要輸入蛋白質 3D 結構,而 LOGOS 僅用一維氨基酸序列就能完成預測,把口袋識別的適用范圍從“有解析結構的蛋白質”擴展到了所有已知序列的蛋白質——后者數量是前者的幾個數量級。
3、逆合成預測
在 USPTO-50K 數據集上,LOGOS-8B 的 Top-1 準確率達到 74.8%,超過了 NatureLM(8x7B,71.9%)和 EditRetro(60.8%)等模型。Top-1 準確率直接關系到合成路線規劃的實用性,說明 LOGOS 對化學轉化的鍵斷裂、重組模式有著更精準的概率建模。
4、無條件 MOF 材料生成
在 MOF 生成任務上,LOGOS-8B 的化學有效性(Valid,45.19%)、新穎性(VNU,39.02%)和新構件比例(NBB,17.78%)全部刷新 SOTA。尤其是 NBB 指標,比此前最好的 MOFFlow-2(10.10%)相對提升了 76%,意味著模型不僅能組合已知構件,還能生成訓練中從未見過的全新化學結構單元,真正拓展了材料設計的探索空間。
5、泛化到未見過的任務格式
更有說服力的是對預訓練未覆蓋任務的泛化能力:
蛋白質編輯:在 AAV 和 GFP 兩個基準數據集上,LOGOS 的優化后序列適應度(Fitness)大幅超過 GGS 等專用方法,且在難度更高的 Hard 設置下性能幾乎不下降。
抗體 CDR 區設計:在 SAbDab 數據集上,LOGOS-8B 在 CDR1 和 CDR2 區的氨基酸恢復率(AAR)和結構一致性(scRMSD)均優于所有逆折疊基線方法;雖然 CDR3 區因高度多樣性略遜于依賴 3D 結構的模型,但其生成的序列在抗體語言模型 AntiBERTy 的合理性評分(Plausibility)上表現最優,說明模型生成的是符合天然抗體分布的合理變體,而非單純擬合參考序列。
![]()
LOGOS 的基準性能
這僅僅是開始
LOGOS 已經初步驗證了“一個模型適配所有自然科學任務”的可行性,但研究團隊也坦承,目前的版本還有不少拓展空間:比如尚未納入基因組、轉錄組等核酸相關模態;預訓練語料僅覆蓋了公開數據的子集;完全基于序列的建模在部分對 3D 結構高度敏感的任務上仍有提升空間。
不過它的意義已經遠超一個模型的成功:它證明了科學基礎模型和通用大語言模型可以走深度對齊的路線,而不是各自搭建獨立的技術棧。未來,隨著數據規模的擴大、模型參數的提升,以及序列建模與顯式幾何信息的融合,這類通用科學大模型很可能成為 AI4S 的核心基礎設施,讓大語言模型真正成為科學家探索未知的新入口。
正如論文結尾所說——我們的目標是構建一個真正通用的科學基礎模型,實現跨域、跨尺度、跨模態的統一理解、預測和設計。而 LOGOS,已經邁出了堅實的第一步。
論文鏈接:
https://arxiv.org/abs/2606.16905
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.