網易首頁 > 網易號 > 正文申請入駐

阿里推出統一科學語言基礎模型——LOGOS，打造AI for Science新入口

2026-06-30 16:41:04　來源: 生物世界

上海舉報

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

在藥物研發實驗室里，科學家們還在為解析蛋白質三維結構頭疼；材料學家們正對著金屬有機框架的復雜構型反復試錯；化學家們則在海量反應路徑中篩選最優解。

而現在，這些看似割裂的自然科學場景，可能被阿里通義實驗室的一個大模型徹底打通——科學本身就有自己的“語法”，只要讓 AI 學會這門科學語言，它就能像寫文章一樣，生成符合科學規律的蛋白質、小分子、新材料...。

該研究提出了全球首個基于統一“科學語法”的多領域生成式基礎模型——LOGOS（Language Of Generative Objects in Science），它基于共享的“科學語法”，在單一的自回歸框架內統一了自然科學中的異構任務，不需要依賴顯式的 3D 坐標或幾何神經網絡，僅通過序列建模就能完成蛋白質設計、配體生成、逆合成預測、材料創造等跨領域任務，性能甚至超過多個領域專用模型，為“一個模型適用于所有”（one model fits all）在自然科學中的可行性提供了初步證據。

更重要的是，LOGOS為AI for Science（AI4S）指明了一條新路徑——不必為科學任務單獨搭建技術棧，而是可以和通用大語言模型共享架構、訓練范式和推理基礎設施，將科學基礎模型與大語言模型深度對齊，從而使大語言模型真正成為 AI4S 的新入口。

為什么我們需要“科學語言”？

過去十年，AI 在自然科學領域的應用大多基于預訓練語言模型 BERT 的預訓練-微調范式：先在大規模無標注數據上學習掩碼重建或對比學習，再適配下游任務。但這套方案存在天然短板：預訓練目標和真實任務語義不對齊，編碼器架構也缺乏原生的條件生成能力，往往需要額外加裝生成模塊。

后來學界嘗試用自回歸大語言模型破局，比如 ProGen2、Evo 系列等蛋白質生成模型，ProtGPT2 等核酸生成模型，但都局限于單一生物學領域，無法捕捉蛋白質、小分子、抗體等不同模態間的協同關系——而真實的生物過程，恰恰是這些多類分子復雜互作的結果。

還有研究試圖用自然語言作為跨域接口，比如 NatureLM 把各類科學任務包裝成“指令-響應”格式。但問題在于：生物化學數據的體量遠小于自然語言，強行用自然語言做中介，模型容易偏向通用語言模式，反而忽略了科學對象本身的結構規律；而且氨基酸序列、SMILES 式等科學表示和自然語言的組成規則、語義機制差異極大，存在天然的模態鴻溝。

研究團隊認為，既然蛋白質、小分子、材料、反應系統雖然符號表示不同，但都遵循特定的組成規則、結構約束和互作語義，那它們完全可以視為同一種“科學語言”的不同“方言”。

于是LOGOS的核心思路呼之欲出：給自然科學設計一套統一的“語法”，把所有科學對象和它們的互作都編碼成共享詞匯表下的 token 序列，用同一個自回歸框架解決所有生成任務。

LOGOS概述：一種基于統一“科學語法”的多領域生成框架

LOGOS 是怎么說“科學語言”的？

這套“科學語法”的設計非常巧妙，核心是把空間互作關系“離散化、語法化、token 化”，塞進純序列生成的框架里。

第一步：搭起七模態的知識版圖

研究團隊圍繞“蛋白質-小分子”這兩個核心科學實體，構建了覆蓋 7 大模態的預訓練語料庫：

生物大分子層：蛋白質（來自UniRef90數據庫）、抗體（來自OAS數據庫）；
化學實體與轉化層：小分子（來自PubChemQC數據庫）、化學反應（來自ORD和ECReact數據庫）、材料（以金屬有機框架MOF為代表，來自hypothetical MOF結構庫）；
跨域互作層：蛋白質配體結合位點（來自PDB數據庫，用P2Rank預測）、蛋白質-配體復合物（來自Q-BioLiP數據庫）；

每種模態都有專屬的邊界 token，比如蛋白質用 >和< ProteinE>包裹，小分子用 >和< MoleculeE >包裹，既明確區分實體類型，又能在共享詞匯表中無縫銜接。

第二步：把 3D 互作“翻譯”成序列

最精彩的設計在于對空間關系的處理。以蛋白質結合口袋為例，傳統方法必須輸入 3D 原子坐標，而 LOGOS 給出了四種遞進的序列表示：

1、氨基酸級口袋標注：在蛋白質線性序列中，用 >和< ProteinE>直接標記口袋殘基的位置；

2、小分子擴展口袋序列：把口袋殘基的側鏈展開成對應的 SMILES 片段，直接在 token 層面架起蛋白質和化學空間的橋梁；

3、氨基酸-小分子轉換序列：引入 >定向 token，把前兩種形式拼接成轉換任務，讓模型學習“氨基酸標識符→分子結構”的映射；

4、結合位點識別序列：加入任務語義 token ，把“從蛋白質序列預測結合位點”變成生成任務：輸入完整蛋白序列+ ，輸出帶口袋標注的序列。

這樣一來，原本需要 3D 坐標描述的“哪些殘基結合哪個配體”，就變成了一段符合語法的 token 序列。蛋白質-配體復合物的表示則更進一步：先按上述方式標記口袋殘基并展開為 SMILES，再在蛋白序列末尾拼接配體的 SMILES，完整編碼互作關系。

第三步：站在大語言模型肩膀上，但不被自然語言“綁架”

LOGOS 的基礎架構直接復用 Qwen3-8B、Llama3.2-1B/3B 等成熟的大語言模型，繼承 Transformer 的序列建模能力——實驗證明，繼承全部預訓練權重的配置，在配體生成任務上的 Vina 評分（-7.43）遠優于隨機初始化（-6.91）或僅繼承嵌入層（-6.78）的方案，說明自然語言預訓練學到的長程依賴捕獲、上下文推理能力，和科學序列的建模規律存在抽象共性。

但研究團隊同時發現：如果在持續預訓練階段混入大量自然語言語料，模型在科學任務上的性能會持續下降。畢竟參數總量固定，分給自然語言理解的能力多了，留給科學模態建模的容量就少了。因此，LOGOS 選擇完全聚焦科學原生表示，不把自然語言作為跨模態接口，把有限的參數容量用在刀刃上。

訓練流程分為兩步：先在七模態語料上做持續預訓練，優化標準下一 token 預測目標；再用少量下游任務數據做監督微調（SFT），且采用多任務聯合訓練——實驗證明，這種跨域聯合微調比單任務獨立訓練在所有任務上都表現更好，因為不同領域的知識可以互相補充：逆合成預測的鍵斷裂重組規律，能幫助配體生成的骨架構建；口袋識別任務學到的序列-結構-功能關系，能提升配體生成對口袋約束的理解。

效果有多驚艷？

研究團隊在 6 個代表性科學任務上驗證了 LOGOS 的性能，結果堪稱“降維打擊”——

1、口袋條件配體生成（藥物設計核心任務）

在 PDBBind 數據集中，LOGOS-8B 的 Vina 對接得分達到 -7.76（越低結合親和力越強），不僅超過了 DiffBP（-7.28）、TargetDiff（-7.38）等依賴 3D 坐標的領域專用模型，也遠超用 8 張 7B 卡堆疊的 NatureLM（-6.91）。更驚人的是，僅 1B 參數的 LOGOS-1B 就拿到了 -7.64 的得分，參數量只有 NatureLM 的 1/56，參數效率優勢明顯。同時在藥物相似性（QED）、合成可及性（SAS）等指標上也全面領先。

2、蛋白質配體結合位點識別

在 COACH420 和 HOLO4K 兩個基準數據集上，LOGOS-8B 的表現僅次于 P2Rank（其預訓練標注來源就是 P2Rank 的預測結果），超過了 Fpocket、DeepSite 等其他所有基線方法。關鍵是，所有對比方法都需要輸入蛋白質 3D 結構，而 LOGOS 僅用一維氨基酸序列就能完成預測，把口袋識別的適用范圍從“有解析結構的蛋白質”擴展到了所有已知序列的蛋白質——后者數量是前者的幾個數量級。

3、逆合成預測

在 USPTO-50K 數據集上，LOGOS-8B 的 Top-1 準確率達到 74.8%，超過了 NatureLM（8x7B，71.9%）和 EditRetro（60.8%）等模型。Top-1 準確率直接關系到合成路線規劃的實用性，說明 LOGOS 對化學轉化的鍵斷裂、重組模式有著更精準的概率建模。

4、無條件 MOF 材料生成

在 MOF 生成任務上，LOGOS-8B 的化學有效性（Valid，45.19%）、新穎性（VNU，39.02%）和新構件比例（NBB，17.78%）全部刷新 SOTA。尤其是 NBB 指標，比此前最好的 MOFFlow-2（10.10%）相對提升了 76%，意味著模型不僅能組合已知構件，還能生成訓練中從未見過的全新化學結構單元，真正拓展了材料設計的探索空間。

5、泛化到未見過的任務格式

更有說服力的是對預訓練未覆蓋任務的泛化能力：

蛋白質編輯：在 AAV 和 GFP 兩個基準數據集上，LOGOS 的優化后序列適應度（Fitness）大幅超過 GGS 等專用方法，且在難度更高的 Hard 設置下性能幾乎不下降。
抗體 CDR 區設計：在 SAbDab 數據集上，LOGOS-8B 在 CDR1 和 CDR2 區的氨基酸恢復率（AAR）和結構一致性（scRMSD）均優于所有逆折疊基線方法；雖然 CDR3 區因高度多樣性略遜于依賴 3D 結構的模型，但其生成的序列在抗體語言模型 AntiBERTy 的合理性評分（Plausibility）上表現最優，說明模型生成的是符合天然抗體分布的合理變體，而非單純擬合參考序列。

LOGOS 的基準性能

這僅僅是開始

LOGOS 已經初步驗證了“一個模型適配所有自然科學任務”的可行性，但研究團隊也坦承，目前的版本還有不少拓展空間：比如尚未納入基因組、轉錄組等核酸相關模態；預訓練語料僅覆蓋了公開數據的子集；完全基于序列的建模在部分對 3D 結構高度敏感的任務上仍有提升空間。

不過它的意義已經遠超一個模型的成功：它證明了科學基礎模型和通用大語言模型可以走深度對齊的路線，而不是各自搭建獨立的技術棧。未來，隨著數據規模的擴大、模型參數的提升，以及序列建模與顯式幾何信息的融合，這類通用科學大模型很可能成為 AI4S 的核心基礎設施，讓大語言模型真正成為科學家探索未知的新入口。

正如論文結尾所說——我們的目標是構建一個真正通用的科學基礎模型，實現跨域、跨尺度、跨模態的統一理解、預測和設計。而 LOGOS，已經邁出了堅實的第一步。

論文鏈接：

https://arxiv.org/abs/2606.16905

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.