无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Google與康奈爾用1726篇論文測試大模型理解科學(xué)的極限

0
分享至



編輯丨&

在過去幾年里,大語言模型已經(jīng)在寫作、編程和知識(shí)問答上展示出驚人的能力。它們可以總結(jié)論文、解釋概念,甚至提出科研假設(shè)。

但一個(gè)關(guān)鍵問題始終存在:

當(dāng)面對(duì)真正的科學(xué)研究問題時(shí),這些模型是否真的「理解」科學(xué)?

為了回答這個(gè)問題,Google Research 與康奈爾大學(xué)的一組物理學(xué)家設(shè)計(jì)了一場不同尋常的實(shí)驗(yàn): 不是用考試題,也不是用標(biāo)準(zhǔn) AI benchmark,而是直接把真實(shí)的科學(xué)研究問題交給大語言模型。

他們選擇的測試領(lǐng)域是高溫超導(dǎo)。這個(gè)研究方向擁有幾十年的理論爭論、復(fù)雜的實(shí)驗(yàn)結(jié)果以及大量彼此矛盾的解釋,被認(rèn)為是凝聚態(tài)物理中最難理解的問題之一。如果一個(gè) AI 模型真的能夠理解科學(xué)文獻(xiàn),那么它應(yīng)該能在這樣的領(lǐng)域中給出接近專家水平的回答。

于是,一場前所未有的測試開始了。

這些研究內(nèi)容以「Expert evaluation of LLM world models: A high-T(c) superconductivity case study」為題,于 2026 年 3 月 10 日發(fā)布在《Proceedings of the National Academy of Sciences》。



論文鏈接:https://www.pnas.org/doi/10.1073/pnas.2533676123

專家級(jí)科學(xué)考試

高溫超導(dǎo)是自 1987 年諾貝爾獎(jiǎng)發(fā)現(xiàn)以來的一個(gè)開放研究領(lǐng)域。本次研究案例中的銅酸鹽便是已知的相關(guān)材料之一。它可在遠(yuǎn)高于傳統(tǒng)超導(dǎo)材料的溫度下導(dǎo)電零電阻的電子(即使最高溫度閾值仍為 -140℃),理解這種行為背后的機(jī)制,可能有助于發(fā)現(xiàn)更多具有類似性質(zhì)的化合物,甚至可能在更高溫度下,并為更多應(yīng)用鋪平道路。

研究團(tuán)隊(duì)邀請(qǐng)了共計(jì)六個(gè)大型語言模型,包括四個(gè)完全訪問網(wǎng)絡(luò)的模型與兩個(gè)封閉系統(tǒng)。他們首先構(gòu)建了一套高度專業(yè)化的知識(shí)基礎(chǔ),整理了1,726 篇關(guān)于銅氧化物高溫超導(dǎo)體(cuprates)的研究論文,覆蓋這一領(lǐng)域幾十年的實(shí)驗(yàn)和理論成果,并在此基礎(chǔ)上設(shè)計(jì)了一組67 個(gè)專家級(jí)研究問題



圖示:封閉系統(tǒng)的創(chuàng)建。

這些問題將在六個(gè)指標(biāo)上對(duì)模型進(jìn)行評(píng)判:

  • 平衡視角:是否考慮了不同的科學(xué)觀點(diǎn)。
  • 全面性:事實(shí)深度且不遺漏相關(guān)實(shí)驗(yàn)。
  • :提供簡明明快的答案。
  • 證據(jù):有證據(jù)支持,并附有來源鏈接。
  • 視覺相關(guān)性:任何提供圖像的質(zhì)量(適用于持續(xù)包含圖像的兩個(gè)大型語言模型)。
  • 定性反饋:開放式專家評(píng)論。



圖示:文獻(xiàn)數(shù)據(jù)庫的組成。

AI 能讀懂論文,但不一定理解科學(xué)

實(shí)驗(yàn)結(jié)果呈現(xiàn)出一個(gè)耐人尋味的圖景。

在某些問題上,大語言模型確實(shí)表現(xiàn)出令人印象深刻的能力。它們能夠快速總結(jié)多篇論文的結(jié)果,提取關(guān)鍵實(shí)驗(yàn)結(jié)論,并組織出結(jié)構(gòu)清晰的回答。尤其是在使用檢索增強(qiáng)系統(tǒng)(RAG)的情況下,一些模型的表現(xiàn)甚至超過了傳統(tǒng)閉源模型,在多個(gè)指標(biāo)上取得更高評(píng)分。



圖示:六名大型語言模型在回答專家提出的問題時(shí)的平均得分。

不過,盡管 RAG 系統(tǒng)表現(xiàn)更優(yōu),但專家們?cè)谠u(píng)估中指出了所有模型的共同且嚴(yán)重的局限性,揭示了它們與「真正理解」的差距:模型常能找到包含相同關(guān)鍵詞的論文,卻無法建立概念上的聯(lián)系;模型會(huì)不加區(qū)分地引用早期和近期的文獻(xiàn),無法識(shí)別出某些早期結(jié)論已被后續(xù)研究修正。

最后,所有模型都有一個(gè)顯著的短板:雖然自定義 RAG 系統(tǒng)能返回相關(guān)圖片,但它無法像人類專家那樣,從圖像的坐標(biāo)軸、刻度、標(biāo)尺、圖注和曲線趨勢中定量地提取信息并進(jìn)行推理

通向可信 AI 科學(xué)助手的漫漫長路

盡管當(dāng)前模型仍存在局限,這項(xiàng)研究并不意味著 AI 在科學(xué)研究中沒有價(jià)值。

事實(shí)上,AI 可以協(xié)助瀏覽大量文獻(xiàn),總結(jié)實(shí)驗(yàn)結(jié)果。在材料科學(xué)等領(lǐng)域,一些研究已經(jīng)開始利用 LLM 從論文中自動(dòng)提取實(shí)驗(yàn)數(shù)據(jù),并構(gòu)建新的材料數(shù)據(jù)庫。這些工作表明,AI 可能成為科學(xué)發(fā)現(xiàn)流程中的一種新工具,但真正的科學(xué)推理仍然需要人類專家的參與。

https://research.google/blog/testing-llms-on-superconductivity-research-questions/

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
飯局酒局的二場,現(xiàn)在沒人再去KTV了

飯局酒局的二場,現(xiàn)在沒人再去KTV了

微微熱評(píng)
2026-05-21 00:38:48
維吾爾族博主遭死亡威脅背后,是一場沒有退路的文明保衛(wèi)戰(zhàn)

維吾爾族博主遭死亡威脅背后,是一場沒有退路的文明保衛(wèi)戰(zhàn)

西域都護(hù)
2026-05-20 22:42:58
17年前他在愛妻葬禮上哭到昏厥,發(fā)誓永不再娶,現(xiàn)在他做到了嗎?

17年前他在愛妻葬禮上哭到昏厥,發(fā)誓永不再娶,現(xiàn)在他做到了嗎?

妙?yuàn)蔬B珠
2026-05-21 16:20:01
200架波音大單落地,中國成功從美國手中,換回一個(gè)關(guān)鍵承諾

200架波音大單落地,中國成功從美國手中,換回一個(gè)關(guān)鍵承諾

普陀動(dòng)物世界
2026-05-21 01:27:39
張本智和棄日赴德?德乒國家隊(duì)教練發(fā)聲,真相估計(jì)和你想的不一樣

張本智和棄日赴德?德乒國家隊(duì)教練發(fā)聲,真相估計(jì)和你想的不一樣

阿纂看事
2026-05-20 12:33:01
“大傻”去世15年后,兒子入獄孫子身亡,王晶爆料往事:絕對(duì)狠人

“大傻”去世15年后,兒子入獄孫子身亡,王晶爆料往事:絕對(duì)狠人

林輕吟
2026-05-21 14:25:53
比開塞露還管用!這3種“推屎”食物,每天吃一點(diǎn),清空宿便

比開塞露還管用!這3種“推屎”食物,每天吃一點(diǎn),清空宿便

白宸侃片
2026-05-19 11:56:50
美國人意識(shí)到,貿(mào)易戰(zhàn)之后,不會(huì)再有中國外的大規(guī)模工業(yè)化國家了

美國人意識(shí)到,貿(mào)易戰(zhàn)之后,不會(huì)再有中國外的大規(guī)模工業(yè)化國家了

遁走的兩輪
2026-05-21 12:10:14
藏不住了!王傳福親口實(shí)錘!比亞迪準(zhǔn)車主最擔(dān)心的事發(fā)生了

藏不住了!王傳福親口實(shí)錘!比亞迪準(zhǔn)車主最擔(dān)心的事發(fā)生了

老特有話說
2026-05-19 17:22:06
殺得過就殺,殺不過就死,妻子和母親遭受凌辱,男子怒殺村霸全家

殺得過就殺,殺不過就死,妻子和母親遭受凌辱,男子怒殺村霸全家

易玄
2026-05-20 18:55:42
越扒瓜越大!交大女學(xué)生吞獎(jiǎng)金再添猛料,不止想進(jìn)體制內(nèi)這么簡單

越扒瓜越大!交大女學(xué)生吞獎(jiǎng)金再添猛料,不止想進(jìn)體制內(nèi)這么簡單

觀史搜尋著
2026-05-21 05:41:15
馬爾代夫洞潛事故5人遺體全找到!疑被60米深“鯊魚洞”窄口吸入,全堵在一起?

馬爾代夫洞潛事故5人遺體全找到!疑被60米深“鯊魚洞”窄口吸入,全堵在一起?

英國報(bào)姐
2026-05-20 21:47:13
傳奇繼續(xù)!Shams:湖人正在全力挽留老詹,后者至少還會(huì)再戰(zhàn)一季

傳奇繼續(xù)!Shams:湖人正在全力挽留老詹,后者至少還會(huì)再戰(zhàn)一季

移動(dòng)擋拆
2026-05-21 09:16:40
事態(tài)升級(jí)!川觀新聞怒批《監(jiān)獄來的媽媽》,李敖的話終于有人信了

事態(tài)升級(jí)!川觀新聞怒批《監(jiān)獄來的媽媽》,李敖的話終于有人信了

八斗小先生
2026-05-20 10:49:17
中俄元首簽署兩國關(guān)于進(jìn)一步加強(qiáng)全面戰(zhàn)略協(xié)作、深化睦鄰友好合作的聯(lián)合聲明

中俄元首簽署兩國關(guān)于進(jìn)一步加強(qiáng)全面戰(zhàn)略協(xié)作、深化睦鄰友好合作的聯(lián)合聲明

澎湃新聞
2026-05-20 15:04:15
嚴(yán)幼韻98歲確診大腸癌,醫(yī)生勸她手術(shù),她嘆了口氣:還是安樂死吧

嚴(yán)幼韻98歲確診大腸癌,醫(yī)生勸她手術(shù),她嘆了口氣:還是安樂死吧

興趣知識(shí)
2026-05-20 00:27:29
跳水100點(diǎn)!2個(gè)信號(hào)明顯了!周五,A股迎來救贖了

跳水100點(diǎn)!2個(gè)信號(hào)明顯了!周五,A股迎來救贖了

郭小凡財(cái)經(jīng)
2026-05-21 15:01:04
1983年,紅衛(wèi)兵頭子被判刑,晚年淪落到撿菜葉子充饑,活到2019年

1983年,紅衛(wèi)兵頭子被判刑,晚年淪落到撿菜葉子充饑,活到2019年

米果說識(shí)
2024-09-12 04:20:03
假賭黑處罰追加扣除梅州客家6分 負(fù)3分暫墊底中甲

假賭黑處罰追加扣除梅州客家6分 負(fù)3分暫墊底中甲

體壇周報(bào)
2026-05-21 16:06:12
保羅獲得人文學(xué)博士學(xué)位:以后可以叫CP3博士,別忘了加博士

保羅獲得人文學(xué)博士學(xué)位:以后可以叫CP3博士,別忘了加博士

懂球帝
2026-05-21 16:02:20
2026-05-21 17:28:49
ScienceAI incentive-icons
ScienceAI
關(guān)注人工智能與其他前沿技術(shù)
1307文章數(shù) 227關(guān)注度
往期回顧 全部

科技要聞

好到離譜也不夠!英偉達(dá)交出816億美元營收

頭條要聞

特朗普稱將與賴清德交談 外交部表態(tài)

頭條要聞

特朗普稱將與賴清德交談 外交部表態(tài)

體育要聞

常住人口7000的小鎮(zhèn),擁有了一支德甲球隊(duì)

娛樂要聞

反轉(zhuǎn)!金秀賢與金賽綸未成年時(shí)交往不實(shí)

財(cái)經(jīng)要聞

英偉達(dá)業(yè)績超預(yù)!指引再新高仍不夠亮眼

汽車要聞

26.98萬起步 看小鵬GX如何詮釋一車多能以及滿配的科技與豪華

態(tài)度原創(chuàng)

藝術(shù)
健康
本地
房產(chǎn)
公開課

藝術(shù)要聞

崔雪冬 2026年油畫新作

專家:別把PRP當(dāng)作“自體干細(xì)胞”

本地新聞

用云錦的方式,打開江蘇南京

房產(chǎn)要聞

順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學(xué)之約

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版