无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

深度科學(xué)| Nature: MOSAIC專用模型如何實(shí)現(xiàn)智能化學(xué)合成

0
分享至

編者語:

該方法避免了嚴(yán)格定義反應(yīng)類型的局限性,轉(zhuǎn)而讓系統(tǒng)直接從Voronoi單元中發(fā)現(xiàn)并利用轉(zhuǎn)化模式間的相似性。

01


背景介紹

在當(dāng)今科學(xué)飛速發(fā)展的時(shí)代,化學(xué)領(lǐng)域正面臨著一個(gè)前所未有的挑戰(zhàn):信息爆炸。每年有數(shù)十萬個(gè)新化學(xué)反應(yīng)被報(bào)道,加入已經(jīng)包含數(shù)百萬個(gè)已知反應(yīng)的龐大知識(shí)庫。然而,手動(dòng)查閱文獻(xiàn)變得低效且高度依賴個(gè)人經(jīng)驗(yàn),這些海量信息逐漸成為了化學(xué)家的負(fù)擔(dān)。并且,傳統(tǒng)的化學(xué)合成依賴研究人員的專業(yè)知識(shí)和直覺,往往需要通過反復(fù)試錯(cuò)來優(yōu)化反應(yīng)條件(圖1)。即使是經(jīng)驗(yàn)豐富的化學(xué)家,也難以掌握所有快速發(fā)展的實(shí)驗(yàn)方法學(xué)。這種局限性也影響了自動(dòng)化合成平臺(tái),缺失的實(shí)驗(yàn)方案常常需要人工干預(yù)關(guān)鍵參數(shù)。盡管大型語言模型(LLMs)在化學(xué)領(lǐng)域已展現(xiàn)出應(yīng)用潛力,但現(xiàn)有系統(tǒng)難以可靠地處理各種全新化合物的復(fù)雜轉(zhuǎn)化,且在提供可重復(fù)、完整、帶可信度評估的實(shí)驗(yàn)方案方面存在明顯不足。


1. 傳統(tǒng)經(jīng)驗(yàn)式試錯(cuò)合成(AI圖)

2026年01月19日,耶魯大學(xué)Victor S. Batista與Timothy R. Newhouse團(tuán)隊(duì)在Nature期刊發(fā)表題為“Collective intelligence for AI-assisted chemical synthesis”的研究論文。該研究開發(fā)了一種名為“多優(yōu)化專家AI輔助化學(xué)預(yù)測”的計(jì)算框架(MOSAIC框架,Multiple Optimized Specialists for AI-assisted Chemical Prediction),旨在讓化學(xué)家能夠利用數(shù)百萬反應(yīng)方案的集體知識(shí)(圖2)。MOSAIC基于Llama-3.1-8B-instruct架構(gòu)構(gòu)建,在Voronoi聚類劃分的空間中訓(xùn)練了2,498個(gè)高度專業(yè)化的化學(xué)專家模型。該方法能夠?yàn)閺?fù)雜合成提供可復(fù)現(xiàn)、可執(zhí)行的實(shí)驗(yàn)方案,并附帶置信度評估指標(biāo)。實(shí)驗(yàn)驗(yàn)證顯示,其整體成功率達(dá)到71%,實(shí)現(xiàn)了 35 種以上新化合物的合成,涵蓋藥物、材料、農(nóng)用化學(xué)品和化妝品等多個(gè)領(lǐng)域。值得注意的是,MOSAIC還能夠發(fā)現(xiàn)超出其訓(xùn)練專家知識(shí)范圍的全新反應(yīng)方法,這是推動(dòng)化學(xué)合成發(fā)展的關(guān)鍵能力。通過將龐大知識(shí)領(lǐng)域劃分為可搜索的專家區(qū)域,這一可擴(kuò)展范式為在信息增長速度超越知識(shí)獲取與應(yīng)用效率的領(lǐng)域中實(shí)現(xiàn)AI輔助發(fā)現(xiàn),提供了一種具有普適性的解決策略。


2. 圖文總覽

02


圖文解析

1.革命性設(shè)計(jì):從通用模型到化學(xué)專家委員會(huì)

研究團(tuán)隊(duì)首先開發(fā)了一種稱為核度量網(wǎng)絡(luò)(KMN)的系統(tǒng)(圖3),能夠?qū)⒒瘜W(xué)反應(yīng)轉(zhuǎn)化為128維的“反應(yīng)特異性指紋”。這種指紋類似于人類的指紋,能夠唯一標(biāo)識(shí)每個(gè)化學(xué)反應(yīng)的特征。通過FAISS相似性搜索庫,化學(xué)反應(yīng)空間被劃分為2,500個(gè)Voronoi區(qū)域,每個(gè)區(qū)域由專門的專家模型負(fù)責(zé)。

這種設(shè)計(jì)的巧妙之處在于:當(dāng)遇到一個(gè)新的合成問題時(shí),系統(tǒng)會(huì)先確定這個(gè)問題屬于哪個(gè)化學(xué)空間區(qū)域,然后激活對應(yīng)的專家提供解決方案。這就好比不是詢問一個(gè)“通才”,而是咨詢一個(gè)專門研究此類反應(yīng)的“領(lǐng)域?qū)<摇薄?/p>

MOSAIC的核心創(chuàng)新在于其獨(dú)特的架構(gòu)設(shè)計(jì)。與傳統(tǒng)的單一大型語言模型不同,MOSAIC基于Llama-3.1-8B-instruct架構(gòu),訓(xùn)練了2,498個(gè)專業(yè)化學(xué)專家,每個(gè)專家負(fù)責(zé)特定的化學(xué)反應(yīng)空間。


3.MOSAIC系統(tǒng)框架示意圖

2.專業(yè)化優(yōu)勢

研究團(tuán)隊(duì)還MOSAIC與當(dāng)前的主流大語言模型進(jìn)行了系統(tǒng)比較,包括ChatGPT-4o mini、Claude 3.5 Haiku、Claude 3.5 Sonnet和ChatGPT-o1 Pro。評估涵蓋了12種重要反應(yīng)類型,包括Suzuki偶聯(lián)、烯烴復(fù)分解、Buchwald-Hartwig胺化等。結(jié)果表明,盡管MOSAIC只有80億參數(shù),遠(yuǎn)小于ChatGPT-o1 Pro和Claude 3.5 Sonnet等模型,但其在提供明確化學(xué)合成指導(dǎo)方面表現(xiàn)更優(yōu)(圖4)。這表明在專業(yè)領(lǐng)域,針對性的微調(diào)和化學(xué)特定的優(yōu)化可以克服原始參數(shù)數(shù)量的優(yōu)勢。評估還發(fā)現(xiàn),遵循指令的能力與化學(xué)知識(shí)同樣重要。通用模型在相同提示下表現(xiàn)出顯著不同的響應(yīng)一致性。例如,Claude 3.5 Haiku在一次試驗(yàn)中能提供詳細(xì)回答,而在另一次試驗(yàn)中則拒絕回答,聲稱信息不足。這種不一致性給尋求可靠幫助的用戶帶來了挑戰(zhàn)。


4. 提示設(shè)計(jì)與量化評估指標(biāo)

3.從預(yù)測到實(shí)踐:71%的成功率驗(yàn)證

實(shí)驗(yàn)驗(yàn)證表明,該系統(tǒng)在合成超過35種新化合物時(shí)達(dá)到了71%的整體成功率。這些化合物涵蓋藥物、材料、農(nóng)用化學(xué)品和化妝品等多個(gè)領(lǐng)域(圖5和圖6)。

更為重要的是,MOSAIC展現(xiàn)出了強(qiáng)大的預(yù)測能力:當(dāng)轉(zhuǎn)化反應(yīng)與專家知識(shí)域距離較近(距離<100)時(shí),成功率超過75%;即使距離較遠(yuǎn)(>100),仍能達(dá)到約50%的成功率。這為實(shí)驗(yàn)優(yōu)先級提供了量化依據(jù)——研究人員可以優(yōu)先嘗試高置信度的預(yù)測,同時(shí)將資源合理分配于探索性研究。

具體案例充分展示了MOSAIC的實(shí)用價(jià)值。在Buchwald-Hartwig胺化反應(yīng)中(藥物分子中普遍存在的碳氮鍵形成反應(yīng)),MOSAIC不僅準(zhǔn)確預(yù)測了條件,還展示了深刻的化學(xué)洞察力,為不同底物提出了鈀催化的Buchwald-Hartwig、銅催化的Goldberg和SNAr反應(yīng)作為可行替代方案(圖5)。

在合成具有臨床重要性的化合物衍生物,如抗抑郁藥去甲替林和降膽固醇藥物非諾貝特時(shí),這種多功能性被證明非常寶貴。MOSAIC還成功指導(dǎo)了Heck偶聯(lián)反應(yīng),其中先前報(bào)道的轉(zhuǎn)化已被證明不成功,展示了其解決合成瓶頸的潛力。


5.基于計(jì)算預(yù)測指導(dǎo)的全新化合物合成

4.超越已知:發(fā)現(xiàn)全新反應(yīng)方法學(xué)

MOSAIC最引人注目的能力是能夠發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)中不存在的新反應(yīng)方法學(xué)。在案例研究中,研究團(tuán)隊(duì)使用雜芳基二鹵化物的級聯(lián)環(huán)化來形成吲哚的生物電子等排體類似物。研究表明,5-氮雜吲哚衍生物的合成在現(xiàn)有方法下無法進(jìn)行。基于這一局限性,MOSAIC指導(dǎo)開發(fā)了一種通過雜芳基二鹵化物與N-烷基烯丙胺的未報(bào)道環(huán)化反應(yīng)來合成各種氮雜吲哚的新方案(圖6, 13a-d)。

對于形成目標(biāo)產(chǎn)物的反應(yīng),最近的專家質(zhì)心距離為320,遠(yuǎn)高于典型的置信閾值(<150)。缺乏密切相關(guān)的前例反應(yīng)表明,該預(yù)測遠(yuǎn)遠(yuǎn)超出了知識(shí)空間,從預(yù)測專家的角度來看,這是一個(gè)真正的新轉(zhuǎn)化。


6. 面向跨化學(xué)工業(yè)轉(zhuǎn)化應(yīng)用合成的化合物

5.實(shí)際應(yīng)用:從藥物開發(fā)到材料科學(xué)

MOSAIC的實(shí)際影響跨越多個(gè)化學(xué)工業(yè)領(lǐng)域。在藥物研發(fā)方面,它準(zhǔn)確預(yù)測了類藥分子的合成路線;在材料科學(xué)中,精確預(yù)測了電子器件共軛化合物的合成路線;在農(nóng)業(yè)化學(xué)中,實(shí)現(xiàn)了用于作物保護(hù)的pyrabactin變體的創(chuàng)建;在消費(fèi)品領(lǐng)域,成功合成了潛在香料和抗衰老化合物(圖6)。

特別值得關(guān)注的是,在37種實(shí)現(xiàn)的化合物中,有35種使用排名最高的預(yù)測一次嘗試即成功,只有兩種需要較低排名的程序。這些成功應(yīng)用代表了所檢查轉(zhuǎn)化的大多數(shù),盡管并非所有預(yù)測都產(chǎn)生了成功的結(jié)果。

03


總結(jié)

這種利用計(jì)算搜索的方法原則隨著數(shù)據(jù)和資源的增加而有效擴(kuò)展。通過將巨大的化學(xué)反應(yīng)空間劃分為可搜索的Vonoroi區(qū)域并將專家分配給這些區(qū)域,MOSAIC可以隨著更多數(shù)據(jù)的可用而不斷擴(kuò)展其覆蓋范圍和精度。通過FAISS的搜索機(jī)制實(shí)現(xiàn)了高效導(dǎo)航,使系統(tǒng)能夠快速識(shí)別任何給定查詢的最相關(guān)專家模型。MOSAIC的價(jià)值不在于取代化學(xué)專業(yè)知識(shí),而在于快速調(diào)查廣闊的化學(xué)空間,確定有希望的實(shí)驗(yàn)方向,否則這些方向需要廣泛的文獻(xiàn)回顧和積累的經(jīng)驗(yàn)。它將傳統(tǒng)的迭代試錯(cuò)方法轉(zhuǎn)變?yōu)橹樘剿鳎铀龠M(jìn)入以前未知的化學(xué)空間區(qū)域。

文獻(xiàn)信息

Haote Li, Sumon Sarkar, Wenxin Lu, Patrick O. Loftus, Tianyin Qiu, Yu Shee, Abbigayle E. Cuomo, John-Paul Webster, H. Ray Kelly, Vidhyadhar Manee, Sanil Sreekumar, Frederic G. Buono, Robert H. Crabtree, Timothy R. Newhouse & Victor S. Batista, Collective intelligence for AI-assisted chemical synthesis, Nature, 2026, https://doi.org/10.1038/s41586-026-10131-4

聲明:

1. 版權(quán):推送內(nèi)容僅供學(xué)習(xí)交流分享使用,無任何商業(yè)用途,如有侵權(quán),請聯(lián)系后臺(tái)刪除或修改,感謝支持。

2. 投稿:非常歡迎各位老師在公眾號上介紹課題組前沿或經(jīng)典研究成果!后臺(tái)或郵箱聯(lián)系即可!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
錢再多有什么用?67歲身價(jià)千萬的李幼斌現(xiàn)狀曝光,給所有人提了醒

錢再多有什么用?67歲身價(jià)千萬的李幼斌現(xiàn)狀曝光,給所有人提了醒

林輕吟
2026-05-22 07:33:52
周琦被打爆,上海隊(duì)上演20分大逆轉(zhuǎn)晉級決賽,首鋼雇傭軍成為笑談

周琦被打爆,上海隊(duì)上演20分大逆轉(zhuǎn)晉級決賽,首鋼雇傭軍成為笑談

姜大叔侃球
2026-05-22 21:58:46
年入49300億,恐怖的沃爾瑪

年入49300億,恐怖的沃爾瑪

正和島
2026-05-20 17:45:40
請5萬員工帶薪玩迪士尼,預(yù)計(jì)花費(fèi)八千萬!老板豪氣回應(yīng):公司掙了錢就是要跟員工一起花

請5萬員工帶薪玩迪士尼,預(yù)計(jì)花費(fèi)八千萬!老板豪氣回應(yīng):公司掙了錢就是要跟員工一起花

新浪財(cái)經(jīng)
2026-05-22 21:20:17
美國最擔(dān)心的事發(fā)生?沙特有了危機(jī)感,請來“中械師”守護(hù)領(lǐng)空

美國最擔(dān)心的事發(fā)生?沙特有了危機(jī)感,請來“中械師”守護(hù)領(lǐng)空

空天力量
2026-05-22 17:19:43
北京出局揪出最大膿包!應(yīng)變能力太差,末節(jié)用錯(cuò)2人,京蜜:快滾

北京出局揪出最大膿包!應(yīng)變能力太差,末節(jié)用錯(cuò)2人,京蜜:快滾

南海浪花
2026-05-22 22:37:22
FSD入華后,我開始認(rèn)真想:特斯拉、華為,誰更值得把命交給它

FSD入華后,我開始認(rèn)真想:特斯拉、華為,誰更值得把命交給它

BT財(cái)經(jīng)
2026-05-22 14:00:14
最多判一千年,骨灰都不讓出獄!英國主持人拍攝薩爾瓦多超級監(jiān)獄,這是當(dāng)?shù)厝说逆?zhèn)妖塔...

最多判一千年,骨灰都不讓出獄!英國主持人拍攝薩爾瓦多超級監(jiān)獄,這是當(dāng)?shù)厝说逆?zhèn)妖塔...

英國那些事兒
2026-05-21 23:17:51
U17國足VS日本:442最強(qiáng)出擊,萬頃+何思凡領(lǐng)銜,天才雙前鋒出擊

U17國足VS日本:442最強(qiáng)出擊,萬頃+何思凡領(lǐng)銜,天才雙前鋒出擊

零度眼看球
2026-05-22 09:13:03
楊梅中的那點(diǎn)保鮮劑危害極低,沒必要恐慌!

楊梅中的那點(diǎn)保鮮劑危害極低,沒必要恐慌!

新浪財(cái)經(jīng)
2026-05-22 16:42:21
40天拉下5位院長!殺瘋了的耿同學(xué)到了最危險(xiǎn)時(shí)候!誰來保護(hù)他?

40天拉下5位院長!殺瘋了的耿同學(xué)到了最危險(xiǎn)時(shí)候!誰來保護(hù)他?

大江看潮
2026-05-20 06:46:22
伊朗“最大內(nèi)鬼”,原來是他?

伊朗“最大內(nèi)鬼”,原來是他?

中國新聞周刊
2026-05-22 21:03:52
高校男生沖老師喊“殺”后續(xù)!內(nèi)情曝光,同學(xué)發(fā)聲,難怪情緒崩潰

高校男生沖老師喊“殺”后續(xù)!內(nèi)情曝光,同學(xué)發(fā)聲,難怪情緒崩潰

閱微札記
2026-05-21 19:31:25
柬媒爆料:中國15家企業(yè)承諾,送50萬人去柬!1000多條評論很一致

柬媒爆料:中國15家企業(yè)承諾,送50萬人去柬!1000多條評論很一致

消失的電波
2026-05-22 21:31:30
朝鮮堅(jiān)決不允許韓國過度擴(kuò)軍!

朝鮮堅(jiān)決不允許韓國過度擴(kuò)軍!

IN朝鮮
2026-05-22 10:50:14
炸了!周也戀情曝光,對象身份不簡單

炸了!周也戀情曝光,對象身份不簡單

黎兜兜
2026-05-22 12:29:13
曼城官方:阿提哈德北看臺(tái)命名為瓜迪奧拉看臺(tái),并為他立雕像

曼城官方:阿提哈德北看臺(tái)命名為瓜迪奧拉看臺(tái),并為他立雕像

懂球帝
2026-05-22 20:07:40
上海警方嚴(yán)查網(wǎng)約車搶單外掛、出租車計(jì)價(jià)器作弊亂象,今年已抓獲73人

上海警方嚴(yán)查網(wǎng)約車搶單外掛、出租車計(jì)價(jià)器作弊亂象,今年已抓獲73人

澎湃新聞
2026-05-22 12:12:36
非法跨境展業(yè)遭重拳整治:中國證監(jiān)會(huì)擬對富途罰款18.5億,老虎證券罰沒4.112億

非法跨境展業(yè)遭重拳整治:中國證監(jiān)會(huì)擬對富途罰款18.5億,老虎證券罰沒4.112億

澎湃新聞
2026-05-22 22:30:27
袁詠儀戳破方媛天王嫂體面!9年生3胎,仍融不進(jìn)郭富城的朋友圈

袁詠儀戳破方媛天王嫂體面!9年生3胎,仍融不進(jìn)郭富城的朋友圈

夜深愛雜談
2026-05-22 20:19:27
2026-05-23 00:15:00
原子量 incentive-icons
原子量
探索科學(xué)魅力,實(shí)踐科技創(chuàng)新;分享化學(xué)奇趣,服務(wù)知識(shí)交流。
103文章數(shù) 11關(guān)注度
往期回顧 全部

科技要聞

雷軍:輸給特斯拉不丟人

頭條要聞

伊朗前總統(tǒng)內(nèi)賈德被指是"最大內(nèi)鬼" 其目前下落不明

頭條要聞

伊朗前總統(tǒng)內(nèi)賈德被指是"最大內(nèi)鬼" 其目前下落不明

體育要聞

最糟糕裁判?他想要退役當(dāng)市長

娛樂要聞

周也戀情曝光!對象身份不簡單

財(cái)經(jīng)要聞

富途擬被罰18.5億元 老虎 長橋也回應(yīng)了

汽車要聞

11萬級直接上四驅(qū) 銀河星耀7限時(shí)權(quán)益價(jià)9.88萬起

態(tài)度原創(chuàng)

家居
教育
旅游
公開課
軍事航空

家居要聞

低調(diào)傳承 溫潤沉靜

教育要聞

人附系學(xué)校的“隱藏王牌”是啥?這所學(xué)校告訴你——

旅游要聞

【場面】天天都是花卉節(jié),賞花流量變幸福增量

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄羅斯試射具備核打擊能力的高超音速導(dǎo)彈

無障礙瀏覽 進(jìn)入關(guān)懷版