无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

如何判斷 AI 是否具備開展科學研究的智能?|深度報道

0
分享至


圖片來源:攝圖網

來源:科技導報

文章來源:原文發表于《科技導報》2026年第6期科技新聞-深度報道

文:Celina Zhao

多年來,人工智能(AI)研究者夢想開發能通過提出新問題、設計實驗乃至執行實驗來加速科學進程的工具。近期,大語言模型(large language models,LLM)已取得若干發現,部分AI開發者宣稱這使我們更接近該未來。但尚不知道如何測試AI模型是否真能開展科學研究?

為尋求答案,研究者轉向基準測試:用于評估AI能力并與其他模型比較的標準化問題或任務集。但科學的復雜性使評判其科研能力尤為困難。美國伊利諾伊大學厄巴納-香檳分校計算機科學家Hao Peng表示:“模型擁有海量知識,但它們懂得如何運用嗎?”

過去1年涌現數10項面向科學的新基準測試以回答該問題,但科學家尚未就最佳方法達成共識。其中最受歡迎者之一是2026年1月28日發表于Nature的“人類終極考試”(Humanity's Last Exam,HLE)。該測試采用2500道源自“人類知識前沿”的問題考驗LLM。例如其中一題詢問蜂鳥籽骨支撐多少對肌腱。HLE開發者、非營利組織人工智能安全中心研究工程師Long Phan表示:“我們希望構建僅長期深耕該領域的專家才能回答的多樣化數據集。”

HLE自2025年1月24日首次以預印本形式發布以來,已成為LLM的重要試金石——HLE得分現已成為AI公司彰顯產品能力的常見談資。HLE發布時,知名開發者OpenAI的o1模型以僅8.3%的得分位居榜首。2026年3月早些時候,Google宣稱其最新科學推理模型Gemini 3 Deep Think創下48.4%的HLE新紀錄。

但部分科學家指出,HLE諸多問題測試的是晦澀乃至瑣碎的知識,而非開展有意義研究的能力。AI for Science公司Deep Principle創始人段辰儒質疑:“知曉世界上磷同素異形體有多少種顏色,如何助人實現科學發現?”

OpenAI研究者表示,他們開發了朝此方向邁進的新基準測試。2025年12月16日發布的FrontierScience借助700道化學、生物學與物理學問題,旨在識別“專家級科學推理”能力。部分問題類似數學與科學奧林匹克競賽題目:通常基于簡短場景、答案明確,OpenAI研究科學家Miles Wang稱之為“純推理努力的合理代理”。例如識別系列化學反應的產物。其他問題則基于博士科學家在實際工作中處理的復雜開放式研究問題,如推理修飾特定分子可能影響其性質的多種途徑。

Wang表示,該基準測試的關鍵優勢在于可驗證性——這是公平測試的最重要特征之一。奧林匹克題目易于評分,而對于開放式研究問題,LLM因識別中間推理步驟而獲分。截至目前,OpenAI自家產品GPT-5.2取得最佳FrontierScience成績:奧林匹克題目正確率77%,研究挑戰得分25%

其他研究者認為這一巨大分差頗具啟示性。他們主張基準測試應聚焦直接衡量AI開展現實世界研究的能力。這正是段辰儒及其合作者與FrontierScience同期發布的“科學發現評估”(Scientific Discovery Evaluation,SDE)基準測試的指導原則。該測試不提困難但孤立的問題,而是向AI呈現源自8項進行中、數據尚未發表的真實研究項目的1125項任務,關聯43種研究場景。例如要求LLM推導如何將目標分子分解為更簡單、市售可得的組分。模型評估不僅基于單個答案,更基于其整合完整項目的能力——在多步驟中提出、檢驗并完善假設。段辰儒表示:“我們確保回答每個問題都關聯真實科學發現的微小片段。”

SDE得分顯示,LLM正確回答單個問題的能力并不總能轉化為完整項目的穩健表現,反之亦然。段辰儒表示:“知曉宏觀前進方向往往比知曉特定分子的精確性質更重要。”該基準測試還發現,來自OpenAI、Anthropic、xAI和DeepSeek等不同供應商的頂尖模型常在同一最難問題上受阻。這一模式暗示它們可能遭遇相同局限,很可能因其在相似科學數據池上訓練所致。

然而SDE方法仍僅捕捉科學工作流的片段。AI for Science初創公司FutureHouse推出的生物學導向新基準測試LABBench2,旨在測試面向科學的AI能否將項目從初始構想推進至完成論文。2月發布的該測試采用近1900項任務,評估所謂“代理型www.kjdb.orgAI模型”(能獨立完成多步驟任務的系統)執行文獻檢索、數據獲取與基因序列構建等工作的能力。

目前結果喜憂參半。多數領先LLM在全文專利與實驗室試驗論文檢索方面表現良好,但在LABBench2更復雜的任務上常遇困難,例如交叉引用多個數據庫,或在密集論文中定位并解讀特定圖表或數據。FutureHouse商業衍生公司Edison Scientific 的Jon Laurent表示,這表明邁向真正AI科學家的進展,部分也取決于改進模型檢索與導航信息的方式。

研究者強調,基準測試不僅用于記錄當前贏家。更嚴格的基準測試還可通過為LLM及其他AI工具提供新目標來驅動創新。Laurent表示:“基準測試的目的之一是領先時代,衡量潛在能力,并推動其發展。”

在諸多領域,或不存在衡量AI是否“擅長”科學的單一標準。美國佐治亞理工學院認知神經科學與AI研究者Anna Ivanova表示:“這正是我們看到所用基準測試高度異質的原因。系統繪制數據的能力與其分析化學事實知識截然不同——盡管科學家可能兩者都需要。”

鑒于科學所需技能的廣泛性,AI專家認為研究界或宜依賴測試組合,每項測試針對并催化科學工作流不同環節的改進。Wang表示:“我們正邁向需要更多元化評估體系的世界。”

無論采用何種方法,被衡量的內容很可能引導改進方向。Peng表示:“要取得進展,你必須能夠衡量它。

閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《五十公里桃花塢6》最絕情商反差!袁詠儀賺足好感全身而退,方媛無腦接盤被網暴

《五十公里桃花塢6》最絕情商反差!袁詠儀賺足好感全身而退,方媛無腦接盤被網暴

鄉野小珥
2026-05-18 08:50:22
放棄 1.2 億標王!切爾西 7000 萬鎖定新核,阿隆索首簽要來了

放棄 1.2 億標王!切爾西 7000 萬鎖定新核,阿隆索首簽要來了

瀾歸序
2026-05-18 01:50:02
特朗普剛走,普京后腳到,外媒急了:中國或迎來“萬國來朝”時代

特朗普剛走,普京后腳到,外媒急了:中國或迎來“萬國來朝”時代

梁濆愛玩車
2026-05-18 21:14:10
NBA季后賽明天5月19日賽程:CCTV5直播,西決G1雷霆VS馬刺

NBA季后賽明天5月19日賽程:CCTV5直播,西決G1雷霆VS馬刺

薇說體育
2026-05-18 16:33:38
特朗普甩出四個“不”,明確拒不出兵護臺,賴清德當場就慫了

特朗普甩出四個“不”,明確拒不出兵護臺,賴清德當場就慫了

趣文說娛
2026-05-18 21:47:03
74歲上海女知青重返貴州尋找初戀,再相遇,對方一句話讓她淚崩

74歲上海女知青重返貴州尋找初戀,再相遇,對方一句話讓她淚崩

燦爛夏天
2025-04-07 21:20:37
大家怎么看待人體藝術?

大家怎么看待人體藝術?

文一史二
2026-05-18 07:35:12
陪睡只是入門!認干爹、舔手指,背地里的陰暗面完全藏不住了...

陪睡只是入門!認干爹、舔手指,背地里的陰暗面完全藏不住了...

芳華青年
2026-05-18 13:07:54
中國最好吃的6個城市,50歲前要去一次

中國最好吃的6個城市,50歲前要去一次

簡食記工作號
2026-05-14 00:06:06
心理學上有個詞叫:逆火效應(永遠不要指出你身邊人的任何問題,包括你的親戚朋友。成年人的最大清醒就是不介入他人的生活)

心理學上有個詞叫:逆火效應(永遠不要指出你身邊人的任何問題,包括你的親戚朋友。成年人的最大清醒就是不介入他人的生活)

德魯克博雅管理
2026-05-18 17:11:20
12小時航程1萬公里,全程不加油,特朗普的空軍一號,我國能造嗎

12小時航程1萬公里,全程不加油,特朗普的空軍一號,我國能造嗎

泠泠說史
2026-05-14 21:50:29
唐伯虎真跡現身美國,世上僅此一件,網友:讓當代書家汗顏

唐伯虎真跡現身美國,世上僅此一件,網友:讓當代書家汗顏

幸福娃3790
2025-12-04 11:10:09
U16江宇涵:跟亞洲一流對手比賽,能讓我找到今后努力的方向

U16江宇涵:跟亞洲一流對手比賽,能讓我找到今后努力的方向

懂球帝
2026-05-18 17:36:37
特朗普連發15張圖分享“中國記憶”,“不可思議的中國”依然刷屏海外

特朗普連發15張圖分享“中國記憶”,“不可思議的中國”依然刷屏海外

臺州交通廣播
2026-05-18 16:45:24
畢業旅行變永別:24歲學霸懸崖跳水失蹤,沖擊力等同18米撞玻璃

畢業旅行變永別:24歲學霸懸崖跳水失蹤,沖擊力等同18米撞玻璃

最英國
2026-05-18 18:46:01
淚目!曼聯官宣小將離隊,卡里克全程不談自己,只談曼聯的崛起

淚目!曼聯官宣小將離隊,卡里克全程不談自己,只談曼聯的崛起

嗨皮看球
2026-05-18 17:17:48
全球異動:歐美股市、黃金白銀一度拉升!美方暫時豁免對伊石油制裁;霍爾木茲海峽,又有新消息

全球異動:歐美股市、黃金白銀一度拉升!美方暫時豁免對伊石油制裁;霍爾木茲海峽,又有新消息

中國基金報
2026-05-18 21:40:28
梁靖崑奚美麗從離婚到復婚,這對姐弟戀夫妻如今一家四口其樂融融

梁靖崑奚美麗從離婚到復婚,這對姐弟戀夫妻如今一家四口其樂融融

科學發掘
2026-05-18 10:02:59
凌晨通報:教官張某(男,27歲)被刑拘

凌晨通報:教官張某(男,27歲)被刑拘

南方都市報
2026-05-18 14:05:14
G2廣廈92-85力克深圳 球員評價:2人優秀,7人及格,2人低迷

G2廣廈92-85力克深圳 球員評價:2人優秀,7人及格,2人低迷

籃球資訊達人
2026-05-18 21:43:10
2026-05-18 22:52:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4744文章數 37464關注度
往期回顧 全部

科技要聞

同一公司,有人獎金是6年工資,我卻只有半年

頭條要聞

伊朗披露穆杰塔巴受傷細節:未導致面容損毀或肢體傷殘

頭條要聞

伊朗披露穆杰塔巴受傷細節:未導致面容損毀或肢體傷殘

體育要聞

58順位的保羅,最強第三中鋒

娛樂要聞

票房會破14億!口碑第一電影出現了

財經要聞

中國芯片,怎么突然不便宜了?

汽車要聞

歸元S平臺首款車型 魏牌V9X上市 34.98萬元起

態度原創

本地
健康
教育
家居
公開課

本地新聞

用蘇繡的方式,打開江西婺源

專家揭秘干細胞回輸的安全風險

教育要聞

一所京城學校,能提供的“天花板資源”,是什么樣的?

家居要聞

觀山隱秀 心靈沉淀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版