无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中科大、科大訊飛開發(fā)ChemEval:化學大模型多維度能力評估新基準

0
分享至



作者丨論文團隊

編輯丨ScienceAI

近年來,大語言模型在文本理解、知識問答和通用推理任務中展現(xiàn)出驚人的能力,也逐漸被引入到化學文獻分析、反應預測和分子設計等科學場景中。然而,一個關鍵問題長期被忽視:

模型「看起來會化學」,是否真的具備化學研究所需的能力?

現(xiàn)有主流評測基準(如 MMLU、SciEval 等)大多以通用學科或淺層科學問答為主,難以刻畫化學研究中高度專業(yè)、層次分明且跨模態(tài)的能力需求。即便是已有的化學評測工作,也往往局限于少量任務或單一能力維度,難以反映模型在真實科研場景中的綜合表現(xiàn)。

針對這一核心缺口,認知智能全國重點實驗室聯(lián)合研究團隊 —— 中國科學技術大學陳恩紅教授團隊與科大訊飛研究院 AI for Science 團隊,在人工智能領域頂級國際會議 ICLR 2026 發(fā)表最新研究成果,論文提出了多層級、細粒度的化學能力評測框架 ChemEval,并系統(tǒng)性揭示了大語言模型在化學領域的真實能力邊界。

該工作為 AI for Science 方向中「如何科學地評估大模型是否真正理解化學」這一核心問題,提供了完整、可復現(xiàn)且具有學術深度的答案。



論文地址:https://openreview.net/forum?id=JrqjSkEPrX

論文的主要作者為中國科學技術大學博士生黃育慶、張榮楊,所屬認知智能全國重點實驗室陳恩紅教授團隊,其他作者包括科大訊飛 AI 研究院執(zhí)行院長王士進、副院長李鑫、研究員徐飛揚、梁華東等人。團隊在 AI4Chemistry 領域開展深入研究,具體包括化學推理大模型 post-training、化工大模型 DeepReasearch、化學大模型智能體、化學領域大模型評測等。

ChemEval —— 從化學研究者視角出發(fā)的評測體系

ChemEval 并非簡單堆疊題目,而是圍繞化學研究的認知過程,構建了一套四層遞進式評測結(jié)構:

  • 基礎與進階化學知識問答:考察模型對核心化學概念、定量計算與理論知識的掌握;
  • 化學文獻理解與信息抽取:評估模型從論文、表格和圖像中提取關鍵信息并進行歸納生成的能力;
  • 分子層級理解:覆蓋分子命名、結(jié)構轉(zhuǎn)換、性質(zhì)預測與描述等核心分子認知任務;
  • 科學推理與化學推斷:包括逆合成分析、反應條件推薦、產(chǎn)物預測與機理分析等高階任務。

整個評測體系共包含 13 個能力維度、62 項具體任務,既涵蓋文本任務,也系統(tǒng)引入分子結(jié)構圖、光譜圖等多模態(tài)輸入,貼近真實化學研究流程。

更重要的是,ChemEval 的數(shù)據(jù)并非簡單復用已有公開數(shù)據(jù),而是結(jié)合開源數(shù)據(jù)集與化學領域?qū)<胰斯嫿ǖ臄?shù)據(jù),通過嚴格的三階段標注與審校流程,確保科學性與評測可靠性。



ChemEval 概覽圖與測試數(shù)據(jù)示例

通用大模型 vs. 化學專用模型,誰更「懂化學」?

基于 ChemEval,研究團隊對主流通用大語言模型與化學專用模型進行了系統(tǒng)評測,得到了一系列具有啟發(fā)性的結(jié)論:

  • 通用大模型在化學文獻理解、指令遵循和部分推理任務中表現(xiàn)突出,但在涉及分子結(jié)構、反應機理等深度化學知識時明顯乏力;
  • 化學專用模型在術語理解、分子性質(zhì)等專業(yè)任務上具備優(yōu)勢,但往往犧牲了通用語言理解能力,存在「災難性遺忘」和指令不穩(wěn)定問題;
  • 單純增加模型規(guī)模或引入「思考鏈」并不足以解決復雜化學任務,瓶頸并不在推理長度,而在領域知識建模與表示能力本身;
  • 在多模態(tài)化學任務中,當前模型在簡單結(jié)構識別上尚可,但在綜合結(jié)構識別 + 機理推斷的任務中普遍存在顯著困難。

這些結(jié)果以系統(tǒng)性、量化方式揭示了當前大模型在化學研究中的真實能力邊界,也為后續(xù)模型設計與訓練方向提供了明確指引。



通用大模型與化學專用模型的評估結(jié)果

為 AI for Science 提供「標尺」,而不只是排行榜

不同于「刷榜型」評測工作,ChemEval 更強調(diào)診斷價值:

  • 它能夠精確定位模型在化學研究流程中「卡在哪一層能力」;
  • 揭示通用能力與領域能力之間的結(jié)構性矛盾;
  • 為化學大模型的訓練策略、數(shù)據(jù)構建和工具增強提供可操作的參考依據(jù)。

研究團隊認為,真正推動 AI for Science 的關鍵,不是讓模型在單一任務上表現(xiàn)更好,而是讓模型在完整科學認知鏈條中更可靠、更可解釋。ChemEval 正是朝這一目標邁出的重要一步。

實驗室持續(xù)推進 AI × Chemistry 深度融合

該工作是認知智能全國重點實驗室與科大訊飛 AI for Science 團隊在科學智能與化學大模型評測方向的重要進展之一。近年來,團隊圍繞「模型是否真正理解科學」這一核心問題,持續(xù)在科學推理、多模態(tài)理解和領域評測體系建設方面開展系統(tǒng)研究。

未來,團隊將進一步探索化學大模型與專業(yè)仿真工具、實驗數(shù)據(jù)和多模態(tài)信息的深度融合,推動 AI 從「輔助理解」走向「參與發(fā)現(xiàn)」,為化學研究范式變革提供堅實的智能基礎。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

“你找媒體,我們就不幫你了”:30多萬買的問界,12天增程器壞了

漢史趣聞
2026-05-21 11:05:32
女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務員一直舉牌勸阻卻被忽視

女子在高鐵靜音車廂連打20分鐘電話 乘客:乘務員一直舉牌勸阻卻被忽視

封面新聞
2026-05-21 12:12:47
繼蘿卜崗后,又出來“祖墳”崗?網(wǎng)友:誰能考上,一輩子有的吹了

繼蘿卜崗后,又出來“祖墳”崗?網(wǎng)友:誰能考上,一輩子有的吹了

社會日日鮮
2026-05-21 09:22:29
胡歌被正式確診為早F晚E,粉絲們都痛心不已

胡歌被正式確診為早F晚E,粉絲們都痛心不已

LULU生活家
2026-05-21 08:43:17
19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復;死者父親:他遇害前一個月未騎摩托

19歲男生凌晨2點多騎摩托被殺害,家屬稱兇手已被判處死刑!兇手:長期被噪音影響,想報復;死者父親:他遇害前一個月未騎摩托

都市快報橙柿互動
2026-05-20 17:07:55
普京回去了,給人一種莫名的傷感!

普京回去了,給人一種莫名的傷感!

達文西看世界
2026-05-21 09:48:14
網(wǎng)戀10天奔現(xiàn)4天領證!安徽離異女子攜子與新婚丈夫露營走紅網(wǎng)絡

網(wǎng)戀10天奔現(xiàn)4天領證!安徽離異女子攜子與新婚丈夫露營走紅網(wǎng)絡

火山詩話
2026-05-21 06:43:02
被判賠三家車企共226萬元,知名汽車博主回應:正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據(jù)支撐

被判賠三家車企共226萬元,知名汽車博主回應:正籌錢賠償,沒收任何黑心錢!律師:批評性言論須有可信證據(jù)支撐

每日經(jīng)濟新聞
2026-05-21 00:51:17
楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區(qū)人心惶惶

楊梅才剛撲街,荔枝又被曝用藥!添加劑包裝曝光,評論區(qū)人心惶惶

譚談社會
2026-05-21 11:24:12
我定居日本20年,娶過3個妻子,發(fā)現(xiàn)日本的女人都有一個共同特點

我定居日本20年,娶過3個妻子,發(fā)現(xiàn)日本的女人都有一個共同特點

千秋文化
2026-05-20 20:33:05
職業(yè)運動員究竟有多厲害?網(wǎng)友:在天賦面前,努力一文不值!

職業(yè)運動員究竟有多厲害?網(wǎng)友:在天賦面前,努力一文不值!

另子維愛讀史
2026-05-21 08:03:05
A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

A股:今天沖到4198后突然跳水,種種跡象表明,A股反彈浪已接近尾聲?

趨勢清風俠
2026-05-21 11:13:14
越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內(nèi)這么簡單

越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內(nèi)這么簡單

觀史搜尋著
2026-05-21 05:41:15
恐怖!深圳深中通道雨水倒灌、大面積積水,有網(wǎng)友發(fā)帖一針見血

恐怖!深圳深中通道雨水倒灌、大面積積水,有網(wǎng)友發(fā)帖一針見血

火山詩話
2026-05-21 16:07:16
爭議!國際足聯(lián)重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

爭議!國際足聯(lián)重大錯誤:U17世界杯抽簽分檔公布 竟然漏掉中國隊

念洲
2026-05-21 08:02:07
光速失業(yè)!禁足名單內(nèi)10人目前仍為現(xiàn)役球員或在足球行業(yè)從事

光速失業(yè)!禁足名單內(nèi)10人目前仍為現(xiàn)役球員或在足球行業(yè)從事

懂球帝
2026-05-21 15:41:08
三大元兇引發(fā)跳水 后期策略

三大元兇引發(fā)跳水 后期策略

趨勢巡航
2026-05-21 14:55:48
上海工大男生課堂喊殺后續(xù):大四重修生,老師道歉,學校回應來了

上海工大男生課堂喊殺后續(xù):大四重修生,老師道歉,學校回應來了

奇思妙想草葉君
2026-05-21 02:23:55
今天直接跌成股災了

今天直接跌成股災了

曹多魚的財經(jīng)世界
2026-05-21 15:35:37
為了給中國人留下好印象,一生出訪無數(shù)的普京,這次終于破了例

為了給中國人留下好印象,一生出訪無數(shù)的普京,這次終于破了例

福建睿平
2026-05-20 14:09:24
2026-05-21 18:11:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1307文章數(shù) 227關注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達交出816億美元營收

頭條要聞

中紀委連打三"虎":一人被指違規(guī)核發(fā)機動車號牌

頭條要聞

中紀委連打三"虎":一人被指違規(guī)核發(fā)機動車號牌

體育要聞

常住人口7000的小鎮(zhèn),擁有了一支德甲球隊

娛樂要聞

反轉(zhuǎn)!金秀賢與金賽綸未成年時交往不實

財經(jīng)要聞

英偉達業(yè)績超預!指引再新高仍不夠亮眼

汽車要聞

小鵬正在研發(fā)"高達" 融合機器人技術的主動懸架

態(tài)度原創(chuàng)

游戲
本地
教育
手機
數(shù)碼

《生化9》當之無愧年度級別!美國年度銷量冠軍

本地新聞

用云錦的方式,打開江蘇南京

教育要聞

嶺大AI學科躋身軟科2025全球前200!三大碩士課程招生中!

手機要聞

蘋果史詩級大改!20周年iPhone測試四曲面屏:告別直屏時代

數(shù)碼要聞

AMD攜手多家中國臺灣地區(qū)OSAT企業(yè)推進新一代EFB技術研發(fā)

無障礙瀏覽 進入關懷版