无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

阿里推出統一科學語言基礎模型——LOGOS,打造AI for Science新入口

0
分享至


撰文丨王聰

編輯丨王多魚

排版丨水成文

在藥物研發實驗室里,科學家們還在為解析蛋白質三維結構頭疼;材料學家們正對著金屬有機框架的復雜構型反復試錯;化學家們則在海量反應路徑中篩選最優解。

而現在,這些看似割裂的自然科學場景,可能被阿里通義實驗室的一個大模型徹底打通——科學本身就有自己的“語法”,只要讓 AI 學會這門科學語言,它就能像寫文章一樣,生成符合科學規律的蛋白質、小分子、新材料...。


該研究提出了全球首個基于統一“科學語法”的多領域生成式基礎模型——LOGOS(Language Of Generative Objects in Science),它基于共享的“科學語法”,在單一的自回歸框架內統一了自然科學中的異構任務,不需要依賴顯式的 3D 坐標或幾何神經網絡,僅通過序列建模就能完成蛋白質設計、配體生成、逆合成預測、材料創造等跨領域任務,性能甚至超過多個領域專用模型,為“一個模型適用于所有”(one model fits all)在自然科學中的可行性提供了初步證據。

更重要的是,LOGOSAI for Science(AI4S)指明了一條新路徑——不必為科學任務單獨搭建技術棧,而是可以和通用大語言模型共享架構、訓練范式和推理基礎設施,將科學基礎模型與大語言模型深度對齊,從而使大語言模型真正成為 AI4S 的新入口。

為什么我們需要“科學語言”?

過去十年,AI 在自然科學領域的應用大多基于預訓練語言模型 BERT 的預訓練-微調范式:先在大規模無標注數據上學習掩碼重建或對比學習,再適配下游任務。但這套方案存在天然短板:預訓練目標和真實任務語義不對齊,編碼器架構也缺乏原生的條件生成能力,往往需要額外加裝生成模塊。

后來學界嘗試用自回歸大語言模型破局,比如 ProGen2、Evo 系列等蛋白質生成模型,ProtGPT2 等核酸生成模型,但都局限于單一生物學領域,無法捕捉蛋白質、小分子、抗體等不同模態間的協同關系——而真實的生物過程,恰恰是這些多類分子復雜互作的結果。

還有研究試圖用自然語言作為跨域接口,比如 NatureLM 把各類科學任務包裝成“指令-響應”格式。但問題在于:生物化學數據的體量遠小于自然語言,強行用自然語言做中介,模型容易偏向通用語言模式,反而忽略了科學對象本身的結構規律;而且氨基酸序列、SMILES 式等科學表示和自然語言的組成規則、語義機制差異極大,存在天然的模態鴻溝。

研究團隊認為,既然蛋白質、小分子、材料、反應系統雖然符號表示不同,但都遵循特定的組成規則、結構約束和互作語義,那它們完全可以視為同一種“科學語言”的不同“方言”。

于是LOGOS的核心思路呼之欲出:給自然科學設計一套統一的“語法”,把所有科學對象和它們的互作都編碼成共享詞匯表下的 token 序列,用同一個自回歸框架解決所有生成任務。


LOGOS概述:一種基于統一“科學語法”的多領域生成框架

LOGOS 是怎么說“科學語言”的?

這套“科學語法”的設計非常巧妙,核心是把空間互作關系“離散化、語法化、token 化”,塞進純序列生成的框架里。

第一步:搭起七模態的知識版圖

研究團隊圍繞“蛋白質-小分子”這兩個核心科學實體,構建了覆蓋 7 大模態的預訓練語料庫:

  • 生物大分子層蛋白質(來自UniRef90數據庫)、抗體(來自OAS數據庫);

  • 化學實體與轉化層小分子(來自PubChemQC數據庫)、化學反應(來自ORD和ECReact數據庫)、材料(以金屬有機框架MOF為代表,來自hypothetical MOF結構庫);

  • 跨域互作層蛋白質配體結合位點(來自PDB數據庫,用P2Rank預測)、蛋白質-配體復合物(來自Q-BioLiP數據庫);

每種模態都有專屬的邊界 token,比如蛋白質用 >和< ProteinE>包裹,小分子用 >和< MoleculeE >包裹,既明確區分實體類型,又能在共享詞匯表中無縫銜接。

第二步:把 3D 互作“翻譯”成序列

最精彩的設計在于對空間關系的處理。以蛋白質結合口袋為例,傳統方法必須輸入 3D 原子坐標,而 LOGOS 給出了四種遞進的序列表示:

1、氨基酸級口袋標注:在蛋白質線性序列中,用 >和< ProteinE>直接標記口袋殘基的位置;

2、小分子擴展口袋序列:把口袋殘基的側鏈展開成對應的 SMILES 片段,直接在 token 層面架起蛋白質和化學空間的橋梁;

3、氨基酸-小分子轉換序列:引入 >定向 token,把前兩種形式拼接成轉換任務,讓模型學習“氨基酸標識符→分子結構”的映射;

4、結合位點識別序列:加入任務語義 token ,把“從蛋白質序列預測結合位點”變成生成任務:輸入完整蛋白序列+ ,輸出帶口袋標注的序列。

這樣一來,原本需要 3D 坐標描述的“哪些殘基結合哪個配體”,就變成了一段符合語法的 token 序列。蛋白質-配體復合物的表示則更進一步:先按上述方式標記口袋殘基并展開為 SMILES,再在蛋白序列末尾拼接配體的 SMILES,完整編碼互作關系。

第三步:站在大語言模型肩膀上,但不被自然語言“綁架”

LOGOS 的基礎架構直接復用 Qwen3-8B、Llama3.2-1B/3B 等成熟的大語言模型,繼承 Transformer 的序列建模能力——實驗證明,繼承全部預訓練權重的配置,在配體生成任務上的 Vina 評分(-7.43)遠優于隨機初始化(-6.91)或僅繼承嵌入層(-6.78)的方案,說明自然語言預訓練學到的長程依賴捕獲、上下文推理能力,和科學序列的建模規律存在抽象共性。

但研究團隊同時發現:如果在持續預訓練階段混入大量自然語言語料,模型在科學任務上的性能會持續下降。畢竟參數總量固定,分給自然語言理解的能力多了,留給科學模態建模的容量就少了。因此,LOGOS 選擇完全聚焦科學原生表示,不把自然語言作為跨模態接口,把有限的參數容量用在刀刃上。

訓練流程分為兩步:先在七模態語料上做持續預訓練,優化標準下一 token 預測目標;再用少量下游任務數據做監督微調(SFT),且采用多任務聯合訓練——實驗證明,這種跨域聯合微調比單任務獨立訓練在所有任務上都表現更好,因為不同領域的知識可以互相補充:逆合成預測的鍵斷裂重組規律,能幫助配體生成的骨架構建;口袋識別任務學到的序列-結構-功能關系,能提升配體生成對口袋約束的理解。

效果有多驚艷?

研究團隊在 6 個代表性科學任務上驗證了 LOGOS 的性能,結果堪稱“降維打擊”——

1、口袋條件配體生成(藥物設計核心任務)

在 PDBBind 數據集中,LOGOS-8B 的 Vina 對接得分達到 -7.76(越低結合親和力越強),不僅超過了 DiffBP(-7.28)、TargetDiff(-7.38)等依賴 3D 坐標的領域專用模型,也遠超用 8 張 7B 卡堆疊的 NatureLM(-6.91)。更驚人的是,僅 1B 參數的 LOGOS-1B 就拿到了 -7.64 的得分,參數量只有 NatureLM 的 1/56,參數效率優勢明顯。同時在藥物相似性(QED)、合成可及性(SAS)等指標上也全面領先。

2、蛋白質配體結合位點識別

在 COACH420 和 HOLO4K 兩個基準數據集上,LOGOS-8B 的表現僅次于 P2Rank(其預訓練標注來源就是 P2Rank 的預測結果),超過了 Fpocket、DeepSite 等其他所有基線方法。關鍵是,所有對比方法都需要輸入蛋白質 3D 結構,而 LOGOS 僅用一維氨基酸序列就能完成預測,把口袋識別的適用范圍從“有解析結構的蛋白質”擴展到了所有已知序列的蛋白質——后者數量是前者的幾個數量級。

3、逆合成預測

在 USPTO-50K 數據集上,LOGOS-8B 的 Top-1 準確率達到 74.8%,超過了 NatureLM(8x7B,71.9%)和 EditRetro(60.8%)等模型。Top-1 準確率直接關系到合成路線規劃的實用性,說明 LOGOS 對化學轉化的鍵斷裂、重組模式有著更精準的概率建模。

4、無條件 MOF 材料生成

在 MOF 生成任務上,LOGOS-8B 的化學有效性(Valid,45.19%)、新穎性(VNU,39.02%)和新構件比例(NBB,17.78%)全部刷新 SOTA。尤其是 NBB 指標,比此前最好的 MOFFlow-2(10.10%)相對提升了 76%,意味著模型不僅能組合已知構件,還能生成訓練中從未見過的全新化學結構單元,真正拓展了材料設計的探索空間。

5、泛化到未見過的任務格式

更有說服力的是對預訓練未覆蓋任務的泛化能力:

  • 蛋白質編輯:在 AAV 和 GFP 兩個基準數據集上,LOGOS 的優化后序列適應度(Fitness)大幅超過 GGS 等專用方法,且在難度更高的 Hard 設置下性能幾乎不下降。

  • 抗體 CDR 區設計:在 SAbDab 數據集上,LOGOS-8B 在 CDR1 和 CDR2 區的氨基酸恢復率(AAR)和結構一致性(scRMSD)均優于所有逆折疊基線方法;雖然 CDR3 區因高度多樣性略遜于依賴 3D 結構的模型,但其生成的序列在抗體語言模型 AntiBERTy 的合理性評分(Plausibility)上表現最優,說明模型生成的是符合天然抗體分布的合理變體,而非單純擬合參考序列。


LOGOS 的基準性能

這僅僅是開始

LOGOS 已經初步驗證了“一個模型適配所有自然科學任務”的可行性,但研究團隊也坦承,目前的版本還有不少拓展空間:比如尚未納入基因組、轉錄組等核酸相關模態;預訓練語料僅覆蓋了公開數據的子集;完全基于序列的建模在部分對 3D 結構高度敏感的任務上仍有提升空間。

不過它的意義已經遠超一個模型的成功:它證明了科學基礎模型和通用大語言模型可以走深度對齊的路線,而不是各自搭建獨立的技術棧。未來,隨著數據規模的擴大、模型參數的提升,以及序列建模與顯式幾何信息的融合,這類通用科學大模型很可能成為 AI4S 的核心基礎設施,讓大語言模型真正成為科學家探索未知的新入口。

正如論文結尾所說——我們的目標是構建一個真正通用的科學基礎模型,實現跨域、跨尺度、跨模態的統一理解、預測和設計。而 LOGOS,已經邁出了堅實的第一步。

論文鏈接:

https://arxiv.org/abs/2606.16905





特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
三次絕佳的上位機會,你都把握不住,曾經的小杜蘭特恐又要被放棄

三次絕佳的上位機會,你都把握不住,曾經的小杜蘭特恐又要被放棄

大衛的籃球故事
2026-06-30 16:45:17
被菲律賓霸占長達15年,成功收回來的黃巖島,現如今是什么樣子?

被菲律賓霸占長達15年,成功收回來的黃巖島,現如今是什么樣子?

抽象派大師
2026-06-30 01:23:58
第二個韋東奕出現了!全國高考數學狀元,徐可滿分真相大白

第二個韋東奕出現了!全國高考數學狀元,徐可滿分真相大白

解說阿洎
2026-06-27 09:12:45
中國第三個“米”字形高鐵樞紐,來了

中國第三個“米”字形高鐵樞紐,來了

國民經略
2026-06-30 11:42:11
曝《現在就出發4》陣容大換血!沈騰白敬亭領銜,喜劇天團強勢集

曝《現在就出發4》陣容大換血!沈騰白敬亭領銜,喜劇天團強勢集

喜歡歷史的阿繁
2026-06-30 13:41:13
德國隊被淘汰,總理默茨發文:出局固然令人心痛,但我仍為你們驕傲;此前韓國隊出局后,韓國總統李在明怒批球隊表現

德國隊被淘汰,總理默茨發文:出局固然令人心痛,但我仍為你們驕傲;此前韓國隊出局后,韓國總統李在明怒批球隊表現

大風新聞
2026-06-30 11:24:04
500萬粉絲2歲吃播米樂人設崩塌,光鮮鏡頭背后 寶媽看著格外揪心

500萬粉絲2歲吃播米樂人設崩塌,光鮮鏡頭背后 寶媽看著格外揪心

天天熱點見聞
2026-06-30 08:16:39
阿利松:我告訴日本球員要昂首挺胸地離開,我們配得上晉級

阿利松:我告訴日本球員要昂首挺胸地離開,我們配得上晉級

懂球帝
2026-06-30 07:48:29
確認不打了!CBA最強主教練正式卸任,或加盟廣東隊取代杜鋒?

確認不打了!CBA最強主教練正式卸任,或加盟廣東隊取代杜鋒?

緋雨兒
2026-06-30 12:03:15
公務員查擺再升級!這5類行為,已納入紀檢跟蹤名單!

公務員查擺再升級!這5類行為,已納入紀檢跟蹤名單!

細說職場
2026-06-30 16:40:00
河南55歲農村大媽組團跳街舞走紅:以舞寄思念,延續去世兒子未竟熱愛

河南55歲農村大媽組團跳街舞走紅:以舞寄思念,延續去世兒子未竟熱愛

封面新聞
2026-06-29 23:09:16
哥哥:父親去世后那不勒斯要盧卡庫回去,他們的關系隨之惡化

哥哥:父親去世后那不勒斯要盧卡庫回去,他們的關系隨之惡化

懂球帝
2026-06-30 07:05:09
世界杯預測,科特迪瓦隊淘汰挪威隊,法國隊擊敗瑞典隊晉級16強

世界杯預測,科特迪瓦隊淘汰挪威隊,法國隊擊敗瑞典隊晉級16強

足球分析員
2026-06-30 11:00:03
出差歸來女兒變光頭,我帶剃刀到學校,當著全校給女老師剃光頭

出差歸來女兒變光頭,我帶剃刀到學校,當著全校給女老師剃光頭

墨染塵香
2026-06-29 09:06:44
“我穿的還是長褲”,浙江一女主播還沒走出小區門口,就遇到“攻擊”…...身上現多處傷痕……

“我穿的還是長褲”,浙江一女主播還沒走出小區門口,就遇到“攻擊”…...身上現多處傷痕……

新浪財經
2026-06-29 10:42:06
印度性感天花板迪莎!完美身材全靠自律撐住

印度性感天花板迪莎!完美身材全靠自律撐住

解說阿洎
2026-06-29 15:03:27
163的王祖藍和175的老婆換褲子穿,一個成人行拖把,一個成7分褲

163的王祖藍和175的老婆換褲子穿,一個成人行拖把,一個成7分褲

木子愛娛樂大號
2026-06-22 10:21:23
一位清華教授曾直言:過去三十年搞房地產,賺的都是斷子絕孫的錢

一位清華教授曾直言:過去三十年搞房地產,賺的都是斷子絕孫的錢

無意爭春
2026-06-02 20:45:10
博主吐槽張雪820RR操控感不如雅馬哈R9!張雪硬剛:挑戰輸了送100臺820RR

博主吐槽張雪820RR操控感不如雅馬哈R9!張雪硬剛:挑戰輸了送100臺820RR

快科技
2026-06-28 08:40:24
固態電池神話徹底破滅,中科院曾連發"王炸",電池行業迎來變局

固態電池神話徹底破滅,中科院曾連發"王炸",電池行業迎來變局

黑翼天使
2026-06-24 13:56:28
2026-06-30 18:27:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學研究
9649文章數 145112關注度
往期回顧 全部

科技要聞

iPhone18 Pro遭泄密!印度代工商惹禍

頭條要聞

無人機攻防正酣 烏克蘭卻在此時給俄羅斯出了個難題

頭條要聞

無人機攻防正酣 烏克蘭卻在此時給俄羅斯出了個難題

體育要聞

大熱倒灶壓力給到法國 王楚揭法國隊隱患

娛樂要聞

韓紅稱要退出公益,多位名人挽留

財經要聞

韓國萬億"芯"基建:存儲能否成AI時代油田

汽車要聞

誰懂啊家人們!爹味和班味一點都沒,這臺底盤最硬國產大獵裝太上頭!

態度原創

家居
親子
教育
旅游
公開課

家居要聞

傳奇筑 日常詩

親子要聞

太好了!蘇西的餐廳又增加一位成員!

教育要聞

一張“小紙條”撬動的教學變革

旅游要聞

泰安岱廟大葉黃楊盛放 千年古建藏清雅夏韻

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版