无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

如何判斷 AI 是否具備開展科學研究的智能?|深度報道

0
分享至


原文發表于 《科技導報》2026年第6期科技新聞-深度報道

如何判斷 AI 是否具備開展科學研究的智能?——新型測試評估大語言模型能否運用海量知識實現真正科學發現


圖片來源:攝圖網

多年來,人工智能(AI)研究者夢想開發能通過提出新問題、設計實驗乃至執行實驗來加速科學進程的工具。近期,大語言模型(large language models,LLM)已取得若干發現,部分AI開發者宣稱這使我們更接近該未來。但尚不知道如何測試AI模型是否真能開展科學研究?

為尋求答案,研究者轉向基準測試:用于評估AI能力并與其他模型比較的標準化問題或任務集。但科學的復雜性使評判其科研能力尤為困難。美國伊利諾伊大學厄巴納-香檳分校計算機科學家Hao Peng表示:“模型擁有海量知識,但它們懂得如何運用嗎?”

過去1年涌現數10項面向科學的新基準測試以回答該問題,但科學家尚未就最佳方法達成共識。其中最受歡迎者之一是2026年1月28日發表于Nature的“人類終極考試”(Humanity's Last Exam,HLE)。該測試采用2500道源自“人類知識前沿”的問題考驗LLM。例如其中一題詢問蜂鳥籽骨支撐多少對肌腱。HLE開發者、非營利組織人工智能安全中心研究工程師Long Phan表示:“我們希望構建僅長期深耕該領域的專家才能回答的多樣化數據集?!?/p>

HLE自2025年1月24日首次以預印本形式發布以來,已成為LLM的重要試金石——HLE得分現已成為AI公司彰顯產品能力的常見談資。HLE發布時,知名開發者OpenAI的o1模型以僅8.3%的得分位居榜首。2026年3月早些時候,Google宣稱其最新科學推理模型Gemini 3 Deep Think創下48.4%的HLE新紀錄。

但部分科學家指出,HLE諸多問題測試的是晦澀乃至瑣碎的知識,而非開展有意義研究的能力。AI for Science公司Deep Principle創始人段辰儒質疑:“知曉世界上磷同素異形體有多少種顏色,如何助人實現科學發現?”

OpenAI研究者表示,他們開發了朝此方向邁進的新基準測試。2025年12月16日發布的FrontierScience借助700道化學、生物學與物理學問題,旨在識別“專家級科學推理”能力。部分問題類似數學與科學奧林匹克競賽題目:通?;诤喍虉鼍啊⒋鸢该鞔_,OpenAI研究科學家Miles Wang稱之為“純推理努力的合理代理”。例如識別系列化學反應的產物。其他問題則基于博士科學家在實際工作中處理的復雜開放式研究問題,如推理修飾特定分子可能影響其性質的多種途徑。

Wang表示,該基準測試的關鍵優勢在于可驗證性——這是公平測試的最重要特征之一。奧林匹克題目易于評分,而對于開放式研究問題,LLM因識別中間推理步驟而獲分。截至目前,OpenAI自家產品GPT-5.2取得最佳FrontierScience成績:奧林匹克題目正確率77%,研究挑戰得分25%。

其他研究者認為這一巨大分差頗具啟示性。他們主張基準測試應聚焦直接衡量AI開展現實世界研究的能力。這正是段辰儒及其合作者與FrontierScience同期發布的“科學發現評估”(Scientific Discovery Evaluation,SDE)基準測試的指導原則。該測試不提困難但孤立的問題,而是向AI呈現源自8項進行中、數據尚未發表的真實研究項目的1125項任務,關聯43種研究場景。例如要求LLM推導如何將目標分子分解為更簡單、市售可得的組分。模型評估不僅基于單個答案,更基于其整合完整項目的能力——在多步驟中提出、檢驗并完善假設。段辰儒表示:“我們確保回答每個問題都關聯真實科學發現的微小片段?!?/p>

SDE得分顯示,LLM正確回答單個問題的能力并不總能轉化為完整項目的穩健表現,反之亦然。段辰儒表示:“知曉宏觀前進方向往往比知曉特定分子的精確性質更重要?!痹摶鶞蕼y試還發現,來自OpenAI、Anthropic、xAI和DeepSeek等不同供應商的頂尖模型常在同一最難問題上受阻。這一模式暗示它們可能遭遇相同局限,很可能因其在相似科學數據池上訓練所致。

然而SDE方法仍僅捕捉科學工作流的片段。AI for Science初創公司FutureHouse推出的生物學導向新基準測試LABBench2,旨在測試面向科學的AI能否將項目從初始構想推進至完成論文。2月發布的該測試采用近1900項任務,評估所謂“代理型www.kjdb.orgAI模型”(能獨立完成多步驟任務的系統)執行文獻檢索、數據獲取與基因序列構建等工作的能力。

目前結果喜憂參半。多數領先LLM在全文專利與實驗室試驗論文檢索方面表現良好,但在LABBench2更復雜的任務上常遇困難,例如交叉引用多個數據庫,或在密集論文中定位并解讀特定圖表或數據。FutureHouse商業衍生公司Edison Scientific 的Jon Laurent表示,這表明邁向真正AI科學家的進展,部分也取決于改進模型檢索與導航信息的方式。

研究者強調,基準測試不僅用于記錄當前贏家。更嚴格的基準測試還可通過為LLM及其他AI工具提供新目標來驅動創新。Laurent表示:“基準測試的目的之一是領先時代,衡量潛在能力,并推動其發展?!?/p>

在諸多領域,或不存在衡量AI是否“擅長”科學的單一標準。美國佐治亞理工學院認知神經科學與AI研究者Anna Ivanova表示:“這正是我們看到所用基準測試高度異質的原因。系統繪制數據的能力與其分析化學事實知識截然不同——盡管科學家可能兩者都需要?!?/p>

鑒于科學所需技能的廣泛性,AI專家認為研究界或宜依賴測試組合,每項測試針對并催化科學工作流不同環節的改進。Wang表示:“我們正邁向需要更多元化評估體系的世界?!?/p>

無論采用何種方法,被衡量的內容很可能引導改進方向。Peng表示:“要取得進展,你必須能夠衡量它。

文 /Celina Zhao

(譯自Science,2026,391(6790))

《科技導報》創刊于1980年,中國科協學術會刊,主要刊登科學前沿和技術熱點領域突破性的研究成果、權威性的科學評論、引領性的高端綜述,發表促進經濟社會發展、完善科技管理、優化科研環境、培育科學文化、促進科技創新和科技成果轉化的決策咨詢建議。常設欄目有院士卷首語、科技新聞、科技評論、專稿專題、綜述、論文、政策建議、科技人文等。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
UA858航班事件最新進展:知情人曝內情,正臉曝光,這下攤上事了

UA858航班事件最新進展:知情人曝內情,正臉曝光,這下攤上事了

老娛記啊
2026-07-01 15:39:45
綠源有點“黃”?模特車把搭腳、絲襪曖昧擺拍引擦邊爭議

綠源有點“黃”?模特車把搭腳、絲襪曖昧擺拍引擦邊爭議

鳳凰網財經
2026-06-30 22:43:05
塞爾維亞即將變天,武契奇宣布將走西方路線,并對中俄許下承諾

塞爾維亞即將變天,武契奇宣布將走西方路線,并對中俄許下承諾

老澽爆笑大聰明
2026-06-30 14:04:44
2799,小米瘋了...

2799,小米瘋了...

放毒
2026-07-01 16:06:16
歷史上的相生相克定律:為何蔣介石那么厲害,遇到毛澤東就不行了

歷史上的相生相克定律:為何蔣介石那么厲害,遇到毛澤東就不行了

小港哎歷史
2026-06-20 16:50:03
如果沒有中美金融戰,房地產就是國家下的一盤完美大棋

如果沒有中美金融戰,房地產就是國家下的一盤完美大棋

飄逸的云朵
2026-07-01 17:06:48
重慶一銀行副行長借朋友名義貸款470萬元,400萬元自用,70萬元給朋友用;法院:犯挪用公款罪,受賄、非法經營同類營業罪,判刑16年

重慶一銀行副行長借朋友名義貸款470萬元,400萬元自用,70萬元給朋友用;法院:犯挪用公款罪,受賄、非法經營同類營業罪,判刑16年

大風新聞
2026-07-01 17:56:22
大蒜被點名了!發現:肺結節病人吃大蒜,不必等多久,或有4變化

大蒜被點名了!發現:肺結節病人吃大蒜,不必等多久,或有4變化

岐黃傳人孫大夫
2026-07-01 22:20:03
著名評論員項立剛疑暗諷韓紅:所有不是花自己錢做公益,都是騙子

著名評論員項立剛疑暗諷韓紅:所有不是花自己錢做公益,都是騙子

小徐講八卦
2026-07-01 07:01:18
悲哀!帶4孩留守女子痛斥,打工丈夫發工資轉4200,自己留3000多

悲哀!帶4孩留守女子痛斥,打工丈夫發工資轉4200,自己留3000多

火山詩話
2026-06-30 10:32:13
TA:森林狼隊已經跟詹姆斯陣營進行了接觸

TA:森林狼隊已經跟詹姆斯陣營進行了接觸

北青網-北京青年報
2026-07-01 19:54:08
淚奔!奇才簽回威少?這一等,5年啊……

淚奔!奇才簽回威少?這一等,5年啊……

體育新角度
2026-07-01 14:55:30
央視發聲!如果不出意外的話,7月開始后,社會上或將出現3大變化

央視發聲!如果不出意外的話,7月開始后,社會上或將出現3大變化

陳博世財經
2026-07-01 14:05:05
2026年6月銷量榜:比亞迪月銷超50萬輛,小米汽車交付突破3萬

2026年6月銷量榜:比亞迪月銷超50萬輛,小米汽車交付突破3萬

娛樂圈的筆娛君
2026-07-01 11:01:37
建議大家:馬桶沖水時,不能做這3個動作,危害很大,可別大意!

建議大家:馬桶沖水時,不能做這3個動作,危害很大,可別大意!

家居設計師蘇哥
2026-05-08 13:03:44
亨利:法國隊最關鍵的球員應該是奧利塞,他無球表現無人能及

亨利:法國隊最關鍵的球員應該是奧利塞,他無球表現無人能及

畫夕
2026-07-01 20:50:03
網紅一栗小莎子最后一次化療:最后一次治療前,記一下普通的一天

網紅一栗小莎子最后一次化療:最后一次治療前,記一下普通的一天

韓小娛
2026-06-30 16:43:17
一個奇怪的現象:把孩子教育好了,你30年來沒掙的錢,他三年能給你掙回來;而相反,你沒把孩子教育好,30年掙來的錢,他三年就能給敗光

一個奇怪的現象:把孩子教育好了,你30年來沒掙的錢,他三年能給你掙回來;而相反,你沒把孩子教育好,30年掙來的錢,他三年就能給敗光

勵職派
2026-06-09 19:37:15
俄烏戰爭最糟結局,并非俄羅斯戰敗,而是中國被拖入沖突泥潭

俄烏戰爭最糟結局,并非俄羅斯戰敗,而是中國被拖入沖突泥潭

夏至陌離殤
2026-06-28 15:19:45
重磅!美國宣布退出美墨加貿易協定

重磅!美國宣布退出美墨加貿易協定

貿易夜航
2026-07-01 08:53:42
2026-07-01 23:35:00
科技導報 incentive-icons
科技導報
中國科協學術會刊
5373文章數 8368關注度
往期回顧 全部

科技要聞

Claude Code被曝“植入木馬”識別中國用戶

頭條要聞

前往日本周邊海域的中國軍艦 在日本防衛省網站"刷屏"

頭條要聞

前往日本周邊海域的中國軍艦 在日本防衛省網站"刷屏"

體育要聞

賣球衣救子的門將,把德國撲出了世界杯

娛樂要聞

張凌赫:我連心疼你都隔著時差

財經要聞

新氧貸款:宣傳年化15%,實際頂格24%

汽車要聞

上半年累計銷量突破142萬輛 吉利6月銷量出爐

態度原創

親子
旅游
時尚
房產
藝術

親子要聞

家庭干預比機構干預好?

旅游要聞

9條青春線路,30余項優惠政策!煙臺大學生畢業季嘉年華啟動

Meiinpsn的穿衣風格,清新又叛逆

房產要聞

洞察新局 | 2026年天河置業紅盤圖鑒

藝術要聞

西安美術學院,2026屆油畫系碩士研究生畢業作品選(二)

無障礙瀏覽 進入關懷版