![]()
編輯丨&
在過去幾年里,大語言模型已經(jīng)在寫作、編程和知識(shí)問答上展示出驚人的能力。它們可以總結(jié)論文、解釋概念,甚至提出科研假設(shè)。
但一個(gè)關(guān)鍵問題始終存在:
當(dāng)面對(duì)真正的科學(xué)研究問題時(shí),這些模型是否真的「理解」科學(xué)?
為了回答這個(gè)問題,Google Research 與康奈爾大學(xué)的一組物理學(xué)家設(shè)計(jì)了一場不同尋常的實(shí)驗(yàn): 不是用考試題,也不是用標(biāo)準(zhǔn) AI benchmark,而是直接把真實(shí)的科學(xué)研究問題交給大語言模型。
他們選擇的測試領(lǐng)域是高溫超導(dǎo)。這個(gè)研究方向擁有幾十年的理論爭論、復(fù)雜的實(shí)驗(yàn)結(jié)果以及大量彼此矛盾的解釋,被認(rèn)為是凝聚態(tài)物理中最難理解的問題之一。如果一個(gè) AI 模型真的能夠理解科學(xué)文獻(xiàn),那么它應(yīng)該能在這樣的領(lǐng)域中給出接近專家水平的回答。
于是,一場前所未有的測試開始了。
這些研究內(nèi)容以「Expert evaluation of LLM world models: A high-T(c) superconductivity case study」為題,于 2026 年 3 月 10 日發(fā)布在《Proceedings of the National Academy of Sciences》。
![]()
論文鏈接:https://www.pnas.org/doi/10.1073/pnas.2533676123
專家級(jí)科學(xué)考試
高溫超導(dǎo)是自 1987 年諾貝爾獎(jiǎng)發(fā)現(xiàn)以來的一個(gè)開放研究領(lǐng)域。本次研究案例中的銅酸鹽便是已知的相關(guān)材料之一。它可在遠(yuǎn)高于傳統(tǒng)超導(dǎo)材料的溫度下導(dǎo)電零電阻的電子(即使最高溫度閾值仍為 -140℃),理解這種行為背后的機(jī)制,可能有助于發(fā)現(xiàn)更多具有類似性質(zhì)的化合物,甚至可能在更高溫度下,并為更多應(yīng)用鋪平道路。
研究團(tuán)隊(duì)邀請(qǐng)了共計(jì)六個(gè)大型語言模型,包括四個(gè)完全訪問網(wǎng)絡(luò)的模型與兩個(gè)封閉系統(tǒng)。他們首先構(gòu)建了一套高度專業(yè)化的知識(shí)基礎(chǔ),整理了1,726 篇關(guān)于銅氧化物高溫超導(dǎo)體(cuprates)的研究論文,覆蓋這一領(lǐng)域幾十年的實(shí)驗(yàn)和理論成果,并在此基礎(chǔ)上設(shè)計(jì)了一組67 個(gè)專家級(jí)研究問題。
![]()
圖示:封閉系統(tǒng)的創(chuàng)建。
這些問題將在六個(gè)指標(biāo)上對(duì)模型進(jìn)行評(píng)判:
- 平衡視角:是否考慮了不同的科學(xué)觀點(diǎn)。
- 全面性:事實(shí)深度且不遺漏相關(guān)實(shí)驗(yàn)。
- :提供簡明明快的答案。
- 證據(jù):有證據(jù)支持,并附有來源鏈接。
- 視覺相關(guān)性:任何提供圖像的質(zhì)量(適用于持續(xù)包含圖像的兩個(gè)大型語言模型)。
- 定性反饋:開放式專家評(píng)論。
![]()
圖示:文獻(xiàn)數(shù)據(jù)庫的組成。
AI 能讀懂論文,但不一定理解科學(xué)
實(shí)驗(yàn)結(jié)果呈現(xiàn)出一個(gè)耐人尋味的圖景。
在某些問題上,大語言模型確實(shí)表現(xiàn)出令人印象深刻的能力。它們能夠快速總結(jié)多篇論文的結(jié)果,提取關(guān)鍵實(shí)驗(yàn)結(jié)論,并組織出結(jié)構(gòu)清晰的回答。尤其是在使用檢索增強(qiáng)系統(tǒng)(RAG)的情況下,一些模型的表現(xiàn)甚至超過了傳統(tǒng)閉源模型,在多個(gè)指標(biāo)上取得更高評(píng)分。
![]()
圖示:六名大型語言模型在回答專家提出的問題時(shí)的平均得分。
不過,盡管 RAG 系統(tǒng)表現(xiàn)更優(yōu),但專家們?cè)谠u(píng)估中指出了所有模型的共同且嚴(yán)重的局限性,揭示了它們與「真正理解」的差距:模型常能找到包含相同關(guān)鍵詞的論文,卻無法建立概念上的聯(lián)系;模型會(huì)不加區(qū)分地引用早期和近期的文獻(xiàn),無法識(shí)別出某些早期結(jié)論已被后續(xù)研究修正。
最后,所有模型都有一個(gè)顯著的短板:雖然自定義 RAG 系統(tǒng)能返回相關(guān)圖片,但它無法像人類專家那樣,從圖像的坐標(biāo)軸、刻度、標(biāo)尺、圖注和曲線趨勢中定量地提取信息并進(jìn)行推理。
通向可信 AI 科學(xué)助手的漫漫長路
盡管當(dāng)前模型仍存在局限,這項(xiàng)研究并不意味著 AI 在科學(xué)研究中沒有價(jià)值。
事實(shí)上,AI 可以協(xié)助瀏覽大量文獻(xiàn),總結(jié)實(shí)驗(yàn)結(jié)果。在材料科學(xué)等領(lǐng)域,一些研究已經(jīng)開始利用 LLM 從論文中自動(dòng)提取實(shí)驗(yàn)數(shù)據(jù),并構(gòu)建新的材料數(shù)據(jù)庫。這些工作表明,AI 可能成為科學(xué)發(fā)現(xiàn)流程中的一種新工具,但真正的科學(xué)推理仍然需要人類專家的參與。
https://research.google/blog/testing-llms-on-superconductivity-research-questions/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.