網易首頁 > 網易號 > 正文 申請入駐

距離“數字科學家”還有多遠?從“死記硬背”到“邏輯博弈”

0
分享至


潘 展|編譯

在實驗室的幽暗燈光下,科學家常年與實驗數據和復雜的理論公式博弈。而如今,一個全新的“協作者”出現在了實驗臺上。大語言模型(LLMs)已經展示了書寫論文、總結文獻、甚至是構思復雜實驗流程的驚人能力。

然而,當一個AI系統提出一種新的催化劑分子,或是預測了一種全新的蛋白質結構時,我們如何確定它是真的通過“理解”科學原理得出的結論,還是僅僅在進行一場精密的統計游戲?


近日,《科學》雜志探討了這一核心議題:我們究竟該如何衡量人工智能是否聰明到足以從事科學研究?

01


從“死記硬背”到“邏輯博弈”

在過去幾年中,AI 模型在各類學術基準測試中表現出了近乎狂飆的性能。無論是 MMLU(大規模多任務語言理解)還是其他通用學科測試,AI的得分屢創新高。然而,這引發了研究界深層的擔憂:這些測試是否正在失效?


前沿LLMs在流行基準和HLE上的性能,圖源:HLE

AI模型在訓練階段幾乎“閱讀”了互聯網上公開的所有科學論文、教科書和在線習題集,許多基準測試題本質上已經成為了模型的“考前背誦材料”。由于目前的AI模型在訓練階段幾乎“閱讀”了互聯網上公開的所有科學論文、教科書和在線習題集,許多基準測試題本質上已經成為了模型的“考前背誦材料”。

當模型面對一道復雜的物理競賽題時,它給出的正確答案可能并非基于對物理定律的深刻推演,而是基于海量訓練數據中的相似模式匹配。也由此,這種“記憶力驅動的智能”在科學研究中是危險的,科學家將它稱之為“數據污染”——科學的本質在于探索未知,而記憶只能復述已知。

為了甄別真正的科學智能,研究人員開始設計那些“無法通過互聯網搜索找到答案”的極端考題。其中,生物、化學、物理領域的GPQA(研究生級別谷歌驗證問答集)成為衡量這一能力的標桿。


各流行模型GPQA分數排行榜,圖片來源Frontier

GPQA的獨特之處在于其極高的門檻。即使是相關學科的專家,在擁有無限互聯網訪問權限的情況下,回答這些問題的正確率也僅在65%至70%之間。如果一個非相關領域的博士去參加測試,正確率往往會大幅跌落。

當新一代AI 模型(如 OpenAI o1 系列)在 GPQA-Diamond 測試中取得超過80%的正確率時,科研界感受到了震動。

他們認為,這不再是簡單的記憶檢索,而是模型展現出了某種形式的“科學推演能力”——它能夠處理多步驟的邏輯鏈條,在信息不足的情況下進行嚴謹的外推。

02


從“結果導向”轉向“過程審計”

在科學發現中,結論的正確性固然重要,但推導過程的嚴謹性往往決定了研究的價值。最新的評估框架開始引入“過程監督”。


FrontierScience奧林匹克與科學研究上各模型準確率,圖源:OpenAI

這不僅僅是檢查AI最后的答案是否正確,而是要求模型展示其思維路徑,如在評估一個AI是否具備合成復雜有機分子的能力時,評估者不再只看最終產量,而是逐一審查AI的每一步操作邏輯:它是否考慮了反應環境的溫度與壓力?是否識別并避開了可能發生的副反應?在實驗失敗時,它能否根據異常數據進行正確的歸因分析?

這種方法有力地剔除了“邏輯幻覺”。許多模型在測試中能夠寫出優美的科研術語,但在嚴密的邏輯審查下,其推導鏈條往往存在致命的科學漏洞。

03


從“實戰測試”到回歸科學的本質

衡量AI性能的最終戰場是真實的實驗室。目前,最前沿的評估方式被稱為“閉環自動化發現”。

在這種模式下,AI 被直接連接到自動化的化學合成實驗室或計算平臺。研究人員只給出一個宏大的目標,如“尋找一種能更高效固碳的納米材料”。AI 必須在海量假設中篩選最優路線,指導機器人進行實驗,并根據實驗回傳的實時數據,動態調整自己的假設。

當實驗數據與初始理論沖突時,AI能否迅速識別出是模型偏差還是實驗誤差的反思能力,成為衡量其是否“聰明”的黃金標準。那些能夠通過少量實驗修正自身知識結構、進而逼近真理的AI,才被認為具備了真正的科學直覺。

然而,即便是最先進的AI,在科學領域的表現依然面臨界限。我們衡量AI,并非為了證明它能取代科學家,而是為了確立一種全新的協作范式。

科學研究不僅需要邏輯推演,還需要那種打破范式的“直覺”。目前,AI擅長在既定的科學空間內進行海量的、高維度的搜索與優化,但在提出顛覆性的科學假說、或在模糊的交叉學科邊緣進行原創性飛躍方面,人類科學家依然掌握著主導權。

04


結語

我們距離創造出一個能夠獨立從事科學研究的“數字科學家”還有多遠?《科學》這篇文章的結論或許可以給予我們啟發:這取決于我們的評估體系演進得有多快。

當我們不再僅僅以“考試成績”來衡量模型,而是以“邏輯嚴謹度”、“實驗修正能力”和“跨學科泛化能力”為坐標系時,我們不僅在篩選更好的工具,更是在重新定義科學本身。

在這個人機共進的時代,衡量AI的過程,本質上也是人類在不斷審視自身如何理解自然界的過程。

https://www.science.org/content/article/how-will-we-know-if-ai-smart-enough-do-science

Deep Science預印本



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黃一鳴回應:沒結婚一天找8個男的也沒關系 承認跟40歲大叔交往過

黃一鳴回應:沒結婚一天找8個男的也沒關系 承認跟40歲大叔交往過

法老不說教
2026-04-25 14:34:56
詹皇29+13+6無緣今日最佳,申京33+16也落選,只因塔圖姆刷爆紀錄

詹皇29+13+6無緣今日最佳,申京33+16也落選,只因塔圖姆刷爆紀錄

你的籃球頻道
2026-04-25 13:33:54
蔣介石遺體已腐爛不堪?守靈三年的侍衛,終于說出慈湖的秘密!

蔣介石遺體已腐爛不堪?守靈三年的侍衛,終于說出慈湖的秘密!

云霄紀史觀
2026-04-25 19:33:41
烏軍曝出丑聞,西爾斯基怒不可遏:所有指揮官撤職查辦!

烏軍曝出丑聞,西爾斯基怒不可遏:所有指揮官撤職查辦!

史政先鋒
2026-04-25 20:38:13
Meta官宣大裁員后,員工吐槽“歡迎來到地獄般的28天”

Meta官宣大裁員后,員工吐槽“歡迎來到地獄般的28天”

IT之家
2026-04-25 09:01:24
DeepSeek+華為,黃仁勛:我們的噩夢來了!

DeepSeek+華為,黃仁勛:我們的噩夢來了!

藍字計劃
2026-04-24 19:59:54
美國一旦霸權結束,一定會滅亡的三個國家,排第一的果然是它

美國一旦霸權結束,一定會滅亡的三個國家,排第一的果然是它

琴音繚繞回
2026-04-25 07:21:31
江蘇一爺爺得知孫女懷孕,一周建成豪華雞窩:已經養了20只小雞

江蘇一爺爺得知孫女懷孕,一周建成豪華雞窩:已經養了20只小雞

極目新聞
2026-04-24 14:04:58
小米粥再次被關注!醫生發現:糖尿病患者喝小米粥時要重視這6點

小米粥再次被關注!醫生發現:糖尿病患者喝小米粥時要重視這6點

芹姐說生活
2026-04-25 12:32:30
福原愛生三胎后首次露面 日本網友稱她與古賀紗里奈站一起像母女

福原愛生三胎后首次露面 日本網友稱她與古賀紗里奈站一起像母女

勁爆體壇
2026-04-25 12:44:09
女子用飲料把男子手中煙給澆滅,得知要被拘留后立馬選擇和解

女子用飲料把男子手中煙給澆滅,得知要被拘留后立馬選擇和解

映射生活的身影
2026-04-25 15:40:32
4-0,成都蓉城5連勝碾壓浙江 拜合拉木韋世豪破門 羅斯下課倒計時

4-0,成都蓉城5連勝碾壓浙江 拜合拉木韋世豪破門 羅斯下課倒計時

替補席看球
2026-04-25 21:01:23
扎心了!21歲大一女生月開銷曝光!網友驚問:畢業后能掙這么多嗎

扎心了!21歲大一女生月開銷曝光!網友驚問:畢業后能掙這么多嗎

慧翔百科
2026-04-24 08:58:31
18歲康克清嫁43歲朱德,沒生半個親骨肉,晚年究竟憑啥讓十幾個子孫承歡膝下?

18歲康克清嫁43歲朱德,沒生半個親骨肉,晚年究竟憑啥讓十幾個子孫承歡膝下?

歷史回憶室
2026-04-23 22:43:15
大學“倒閉潮”倒計時?7年后你的文憑,或許還不如一張電工證

大學“倒閉潮”倒計時?7年后你的文憑,或許還不如一張電工證

小談食刻美食
2026-04-25 09:37:54
連院子里的樹都被貼了封條,山東臨沂納稅狀元變“黑老大”

連院子里的樹都被貼了封條,山東臨沂納稅狀元變“黑老大”

有戲
2026-04-16 18:23:20
基萊斯無解凌空斬!3戰國安轟5球,中超3戰4球,378天首次

基萊斯無解凌空斬!3戰國安轟5球,中超3戰4球,378天首次

奧拜爾
2026-04-25 21:14:39
臺灣省經濟數據看著越來越亮眼,可普通老百姓的日子卻越來越緊巴

臺灣省經濟數據看著越來越亮眼,可普通老百姓的日子卻越來越緊巴

流蘇晚晴
2026-04-20 20:12:45
刷新歷史第一!詹姆斯29+13+6獻扳平三分 加時奪賽點觸發晉級定律

刷新歷史第一!詹姆斯29+13+6獻扳平三分 加時奪賽點觸發晉級定律

醉臥浮生
2026-04-25 11:02:29
世界第2無緣八強!艾倫13-9送囧哥出局,鎖定世錦賽1/4決賽席位

世界第2無緣八強!艾倫13-9送囧哥出局,鎖定世錦賽1/4決賽席位

全景體育V
2026-04-25 19:58:16
2026-04-25 22:07:00
深究科學 incentive-icons
深究科學
科學、技術、創新。
218文章數 11關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

健康
教育
親子
房產
軍事航空

干細胞如何讓燒燙傷皮膚"再生"?

教育要聞

教育縱深 | 閱讀走新更走心

親子要聞

寶媽必學,性教育和防侵犯教育有哪些區別?

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

軍事要聞

美防長:戰事不會“沒完沒了”

無障礙瀏覽 進入關懷版