網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Google與康奈爾用1726篇論文測試大模型理解科學(xué)的極限

2026-03-18 12:14:45　來源: ScienceAI

河北舉報(bào)

分享至

編輯丨&

在過去幾年里，大語言模型已經(jīng)在寫作、編程和知識(shí)問答上展示出驚人的能力。它們可以總結(jié)論文、解釋概念，甚至提出科研假設(shè)。

但一個(gè)關(guān)鍵問題始終存在：

當(dāng)面對(duì)真正的科學(xué)研究問題時(shí)，這些模型是否真的「理解」科學(xué)？

為了回答這個(gè)問題，Google Research 與康奈爾大學(xué)的一組物理學(xué)家設(shè)計(jì)了一場不同尋常的實(shí)驗(yàn)：不是用考試題，也不是用標(biāo)準(zhǔn) AI benchmark，而是直接把真實(shí)的科學(xué)研究問題交給大語言模型。

他們選擇的測試領(lǐng)域是高溫超導(dǎo)。這個(gè)研究方向擁有幾十年的理論爭論、復(fù)雜的實(shí)驗(yàn)結(jié)果以及大量彼此矛盾的解釋，被認(rèn)為是凝聚態(tài)物理中最難理解的問題之一。如果一個(gè) AI 模型真的能夠理解科學(xué)文獻(xiàn)，那么它應(yīng)該能在這樣的領(lǐng)域中給出接近專家水平的回答。

于是，一場前所未有的測試開始了。

這些研究內(nèi)容以「Expert evaluation of LLM world models: A high-T(c) superconductivity case study」為題，于 2026 年 3 月 10 日發(fā)布在《Proceedings of the National Academy of Sciences》。

論文鏈接：https://www.pnas.org/doi/10.1073/pnas.2533676123

專家級(jí)科學(xué)考試

高溫超導(dǎo)是自 1987 年諾貝爾獎(jiǎng)發(fā)現(xiàn)以來的一個(gè)開放研究領(lǐng)域。本次研究案例中的銅酸鹽便是已知的相關(guān)材料之一。它可在遠(yuǎn)高于傳統(tǒng)超導(dǎo)材料的溫度下導(dǎo)電零電阻的電子（即使最高溫度閾值仍為 -140℃），理解這種行為背后的機(jī)制，可能有助于發(fā)現(xiàn)更多具有類似性質(zhì)的化合物，甚至可能在更高溫度下，并為更多應(yīng)用鋪平道路。

研究團(tuán)隊(duì)邀請(qǐng)了共計(jì)六個(gè)大型語言模型，包括四個(gè)完全訪問網(wǎng)絡(luò)的模型與兩個(gè)封閉系統(tǒng)。他們首先構(gòu)建了一套高度專業(yè)化的知識(shí)基礎(chǔ)，整理了1,726 篇關(guān)于銅氧化物高溫超導(dǎo)體（cuprates）的研究論文，覆蓋這一領(lǐng)域幾十年的實(shí)驗(yàn)和理論成果，并在此基礎(chǔ)上設(shè)計(jì)了一組67 個(gè)專家級(jí)研究問題。

圖示：封閉系統(tǒng)的創(chuàng)建。

這些問題將在六個(gè)指標(biāo)上對(duì)模型進(jìn)行評(píng)判：

平衡視角：是否考慮了不同的科學(xué)觀點(diǎn)。
全面性：事實(shí)深度且不遺漏相關(guān)實(shí)驗(yàn)。
：提供簡明明快的答案。
證據(jù)：有證據(jù)支持，并附有來源鏈接。
視覺相關(guān)性：任何提供圖像的質(zhì)量（適用于持續(xù)包含圖像的兩個(gè)大型語言模型）。
定性反饋：開放式專家評(píng)論。

圖示：文獻(xiàn)數(shù)據(jù)庫的組成。

AI 能讀懂論文，但不一定理解科學(xué)

實(shí)驗(yàn)結(jié)果呈現(xiàn)出一個(gè)耐人尋味的圖景。

在某些問題上，大語言模型確實(shí)表現(xiàn)出令人印象深刻的能力。它們能夠快速總結(jié)多篇論文的結(jié)果，提取關(guān)鍵實(shí)驗(yàn)結(jié)論，并組織出結(jié)構(gòu)清晰的回答。尤其是在使用檢索增強(qiáng)系統(tǒng)（RAG）的情況下，一些模型的表現(xiàn)甚至超過了傳統(tǒng)閉源模型，在多個(gè)指標(biāo)上取得更高評(píng)分。

圖示：六名大型語言模型在回答專家提出的問題時(shí)的平均得分。

不過，盡管 RAG 系統(tǒng)表現(xiàn)更優(yōu)，但專家們?cè)谠u(píng)估中指出了所有模型的共同且嚴(yán)重的局限性，揭示了它們與「真正理解」的差距：模型常能找到包含相同關(guān)鍵詞的論文，卻無法建立概念上的聯(lián)系；模型會(huì)不加區(qū)分地引用早期和近期的文獻(xiàn)，無法識(shí)別出某些早期結(jié)論已被后續(xù)研究修正。

最后，所有模型都有一個(gè)顯著的短板：雖然自定義 RAG 系統(tǒng)能返回相關(guān)圖片，但它無法像人類專家那樣，從圖像的坐標(biāo)軸、刻度、標(biāo)尺、圖注和曲線趨勢中定量地提取信息并進(jìn)行推理。

通向可信 AI 科學(xué)助手的漫漫長路

盡管當(dāng)前模型仍存在局限，這項(xiàng)研究并不意味著 AI 在科學(xué)研究中沒有價(jià)值。

事實(shí)上，AI 可以協(xié)助瀏覽大量文獻(xiàn)，總結(jié)實(shí)驗(yàn)結(jié)果。在材料科學(xué)等領(lǐng)域，一些研究已經(jīng)開始利用 LLM 從論文中自動(dòng)提取實(shí)驗(yàn)數(shù)據(jù)，并構(gòu)建新的材料數(shù)據(jù)庫。這些工作表明，AI 可能成為科學(xué)發(fā)現(xiàn)流程中的一種新工具，但真正的科學(xué)推理仍然需要人類專家的參與。

https://research.google/blog/testing-llms-on-superconductivity-research-questions/

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.