无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

裸考奧賽也能奪金?人類集體“交白卷”的數(shù)學(xué)題,被一個中等尺寸AI做對了

0
分享至



上海人工智能實驗室(上海AI實驗室)聯(lián)合團(tuán)隊近日公布了一項面向奧賽級科學(xué)推理的新成果:他們提出一套通專融合訓(xùn)練方案,并基于30B-A3B架構(gòu)構(gòu)建出科學(xué)推理模型SU-01。在完全不調(diào)用外部工具、不執(zhí)行代碼、不依賴專用符號求解器的純自然語言推理條件下,這一模型在數(shù)學(xué)和物理雙學(xué)科奧賽評測中均達(dá)到金牌水平。


IMO-Bench所含ProofBench結(jié)果。SU-01在直接生成時取得57.6%,經(jīng)推理階段擴(kuò)展提升至70.2%,顯著超越同尺寸模型,并接近Gemini 3.1 Pro Thinking等強(qiáng)閉源模型

在第66屆國際數(shù)學(xué)奧林匹克(IMO 2025)和2026年美國數(shù)學(xué)奧林匹克(USAMO 2026)中,SU-01均取得35分,超過金牌線。其中,USAMO 2026第三題拿到滿分,而該題所有人類選手的平均分僅為0.01分,最高分不到5分。在2024年和2025年國際物理奧林匹克(IPhO)評測中,模型得分同樣超越金牌線。

這一表現(xiàn)背后,是上海AI實驗室“通專融合”理念的直接驗證:奧賽級科學(xué)推理不一定需要超大規(guī)模模型,也不必為數(shù)學(xué)、物理等學(xué)科分別搭建繁瑣的專用系統(tǒng)。通過統(tǒng)一的訓(xùn)練目標(biāo)、獎勵設(shè)計以及“生成—驗證—修正”推理機(jī)制,一般尺寸的模型也可以在數(shù)學(xué)證明、物理推導(dǎo)等高難度任務(wù)中形成可復(fù)用的專家級推理能力。

研究團(tuán)隊將這一過程設(shè)計為“先塑造行為,再擴(kuò)展能力”的后訓(xùn)練閉環(huán),分三步遞進(jìn)實現(xiàn)——

第一步是行為塑造。利用約33.8萬條高質(zhì)量解題軌跡進(jìn)行反向困惑度課程監(jiān)督微調(diào),讓通用模型學(xué)會如何組織證明、檢查假設(shè)和修復(fù)漏洞,把“嚴(yán)謹(jǐn)證明”的行為范式植入模型。

第二步是能力強(qiáng)化。經(jīng)過200步兩階段強(qiáng)化學(xué)習(xí):第一階段提升直接求解能力,第二階段引入證明級獎勵模型,使模型不僅“答對”,更學(xué)會給出完整、可檢驗的推理過程。

第三步是推理擴(kuò)展。面對奧賽級難題時,模型啟動多輪“生成—驗證—修正”循環(huán),將訓(xùn)練階段學(xué)到的自驗證與自修正行為延伸至長程證明搜索中。

評測結(jié)果直觀反映了這套方法的有效性。在證明質(zhì)量基準(zhǔn)ProofBench上,SU-01直接生成得分為57.6%,經(jīng)推理擴(kuò)展后提升至70.2%,顯著優(yōu)于同尺寸模型,并接近Gemini-3.1-Pro等前沿模型的表現(xiàn)。

更值得關(guān)注的是其長程推理能力:在USAMO 2026的解題過程中,模型單次生成證明的中位長度達(dá)到10.6萬個詞元,修正階段也長達(dá)8.3萬個詞元。這意味著一個30B量級的通用模型,能夠持續(xù)進(jìn)行超過十萬詞元量級的有效推理,把計算資源集中用于構(gòu)建邏輯、定位漏洞和完善論證。



USAMO 2026推理階段擴(kuò)展流程中不同動作的生成長度分布

在與人類選手的直接對比中,SU-01同樣經(jīng)受住了“地獄難度”的考驗。USAMO 2026人類選手平均分8.59分,中位數(shù)僅6分;第三題平均分更是低至0.01分,無一人超過5分。SU-01正是在這道題上拿到滿分,說明它的推理能力并非靠簡單題目拉高分?jǐn)?shù),而是真正具備攻克超高難度證明題的實力。

除數(shù)學(xué)奧賽外,研究團(tuán)隊還將AMO-Bench、FrontierScience等基準(zhǔn)納入評測范圍。結(jié)果顯示,同一套證明搜索、驗證和修正機(jī)制可以直接遷移到物理建模以及更廣泛的科學(xué)推理任務(wù)上,展現(xiàn)出跨學(xué)科復(fù)用價值。這恰恰是通專融合相較于垂直領(lǐng)域定制系統(tǒng)的核心優(yōu)勢。

據(jù)悉,這一工作也延續(xù)了上海AI實驗室2024年提出的通專融合技術(shù)架構(gòu)SAGE(智者)。SAGE包含基礎(chǔ)模型、融合協(xié)同與探索進(jìn)化三個層次,其中融合協(xié)同層負(fù)責(zé)動態(tài)協(xié)調(diào)直覺式“快思考”與邏輯性“慢思考”,通過精確獎勵和智能體自進(jìn)化,決定何時泛化、何時專精。SU-01的表現(xiàn),正是這種思路在奧賽級科學(xué)推理上的落地。


SU-01訓(xùn)練與推理流程,以一般尺寸30B-A3B推理主干為基礎(chǔ),依次經(jīng)過監(jiān)督微調(diào)、兩階段強(qiáng)化學(xué)習(xí)和推理階段擴(kuò)展,使模型形成證明搜索、自我驗證和多輪修正能力

研究團(tuán)隊認(rèn)為,科學(xué)發(fā)現(xiàn)是對智能的終極考驗,也是驗證通專融合的舞臺。當(dāng)AI能夠像科學(xué)家一樣進(jìn)行嚴(yán)謹(jǐn)、長程且可自我驗證的思考時,就向“AGI for Science”的目標(biāo)更近了一步。

【上海AI實驗室科研進(jìn)展】

AI出手,石墨“增厚”三倍!我國科研團(tuán)隊“造”出200微米高質(zhì)量單晶石墨

“書生”跨界造膠:高純度、高一致、高效率,這種芯片核心材料能穩(wěn)定量產(chǎn)了

原標(biāo)題:《裸考奧賽也能奪金?人類集體“交白卷”的數(shù)學(xué)題,被一個中等尺寸AI做對了》

欄目編輯:王蕾 題圖來源:海螺AI 圖片來源:上海AI實驗室

來源:作者:新民晚報 郜陽

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
比氦氣漲價還猛!電子級氫氟酸漲價40%  這6家產(chǎn)能龍即將迎來爆發(fā)

比氦氣漲價還猛!電子級氫氟酸漲價40% 這6家產(chǎn)能龍即將迎來爆發(fā)

元芳說投資
2026-05-19 06:00:31
廣西車輛墜河致10人遇難

廣西車輛墜河致10人遇難

界面新聞
2026-05-19 18:47:23
1959年陳璧君病逝,臨終前寫信叮囑子女:不要忘記報答國家的恩情

1959年陳璧君病逝,臨終前寫信叮囑子女:不要忘記報答國家的恩情

大運河時空
2026-05-18 20:00:03
一個人強(qiáng)大到可怕的10種心境

一個人強(qiáng)大到可怕的10種心境

洞見
2026-05-19 10:07:33
這就是赤裸裸的現(xiàn)實!現(xiàn)在煙草正式員工每月的公積金能有多離譜?

這就是赤裸裸的現(xiàn)實!現(xiàn)在煙草正式員工每月的公積金能有多離譜?

墜入二次元的海洋
2026-05-19 17:57:33
張玉寧缺席國安vs西海岸,據(jù)悉其因家中有喜返京

張玉寧缺席國安vs西海岸,據(jù)悉其因家中有喜返京

懂球帝
2026-05-19 18:58:16
毒楊梅風(fēng)波蔓延全國!多人或判刑,最致命的那一刀還沒落下

毒楊梅風(fēng)波蔓延全國!多人或判刑,最致命的那一刀還沒落下

素衣讀史
2026-05-18 21:27:56
騰訊為什么推不出豆包

騰訊為什么推不出豆包

鈦媒體APP
2026-05-18 22:08:40
國企央企加速清退勞務(wù)派遣!2026年底前必須整改完,千萬打工人面臨大變動

國企央企加速清退勞務(wù)派遣!2026年底前必須整改完,千萬打工人面臨大變動

一口娛樂
2026-05-17 05:59:22
今年榴蓮為啥這么便宜?不是商超良心發(fā)現(xiàn),而是東南亞供應(yīng)鏈崩了

今年榴蓮為啥這么便宜?不是商超良心發(fā)現(xiàn),而是東南亞供應(yīng)鏈崩了

嘴角上翹的弧度
2026-05-19 03:18:52
韓媒:朝鮮女足粗魯無禮!她們和中國隊擊掌問候,卻拒與日韓握手

韓媒:朝鮮女足粗魯無禮!她們和中國隊擊掌問候,卻拒與日韓握手

劉哥談體育
2026-05-19 13:00:15
外媒又爆大瓜,馬克龍跟伊朗裔美女秘密交往幾個月,沒有肉體接觸

外媒又爆大瓜,馬克龍跟伊朗裔美女秘密交往幾個月,沒有肉體接觸

魔都姐姐雜談
2026-05-18 19:57:33
在日打拼國人感慨:別聽媒體吹牛,日本如今相當(dāng)于我國二線城市

在日打拼國人感慨:別聽媒體吹牛,日本如今相當(dāng)于我國二線城市

鯨探所長
2026-05-18 19:32:54
馬斯克的上海同學(xué)任宇翔,他在上海辦廠離不開他的幫忙,人生贏家

馬斯克的上海同學(xué)任宇翔,他在上海辦廠離不開他的幫忙,人生贏家

魔都姐姐雜談
2026-05-18 17:30:25
樊振東歐冠輸球僅1天,日媒、德媒接連發(fā)文銳評,態(tài)度出奇的一致

樊振東歐冠輸球僅1天,日媒、德媒接連發(fā)文銳評,態(tài)度出奇的一致

天天熱點見聞
2026-05-19 04:35:15
41+24!馬刺122-115勝雷霆,文班亞馬砍4大紀(jì)錄,一戰(zhàn)看清4個現(xiàn)實

41+24!馬刺122-115勝雷霆,文班亞馬砍4大紀(jì)錄,一戰(zhàn)看清4個現(xiàn)實

毒舌NBA
2026-05-19 11:56:08
馬自達(dá)悄悄換標(biāo):從鍍鉻翅膀到單色極簡,車企集體"扁平化"圖什么

馬自達(dá)悄悄換標(biāo):從鍍鉻翅膀到單色極簡,車企集體"扁平化"圖什么

摸魚算法
2026-05-19 06:06:07
江西舉報恩人沈女士已社死!正臉照曝光,大叔被調(diào)崗景區(qū)出面回應(yīng)

江西舉報恩人沈女士已社死!正臉照曝光,大叔被調(diào)崗景區(qū)出面回應(yīng)

星娛叨叨社
2026-05-19 15:40:34
狂人回歸!羅馬諾官宣穆帥重返皇馬,伯納烏整頓大戲開播

狂人回歸!羅馬諾官宣穆帥重返皇馬,伯納烏整頓大戲開播

仰臥撐FTUer
2026-05-18 21:44:38
貴州省貴定縣暴雨洪災(zāi)已致4人死亡5人失聯(lián)

貴州省貴定縣暴雨洪災(zāi)已致4人死亡5人失聯(lián)

界面新聞
2026-05-19 17:06:52
2026-05-19 20:27:00
上觀新聞 incentive-icons
上觀新聞
站上海,觀天下
485132文章數(shù) 761556關(guān)注度
往期回顧 全部

教育要聞

小學(xué)常見的易錯題 聽說很多大學(xué)生都做錯了

頭條要聞

菲總統(tǒng)稱不希望卷入任何與臺灣有關(guān)的戰(zhàn)爭 外交部回應(yīng)

頭條要聞

菲總統(tǒng)稱不希望卷入任何與臺灣有關(guān)的戰(zhàn)爭 外交部回應(yīng)

體育要聞

文班亞馬:沒拿到MVP,就證明自己是MVP

娛樂要聞

姚晨刪博難平眾怒,為什么她還能蹦噠

財經(jīng)要聞

從賣流量到賣Token,運營商算力生意破局

科技要聞

馬斯克敗訴,法院判他起訴OpenAI太晚了

汽車要聞

配置全家桶 全新海獅05這次升級全在點上

態(tài)度原創(chuàng)

教育
家居
藝術(shù)
房產(chǎn)
軍事航空

教育要聞

面積差80?這個技巧讓你秒解陰影面積!

家居要聞

觀山隱秀 心靈沉淀

藝術(shù)要聞

唐代書仙寫的《出師表》,趙孟頫畢生都在學(xué)

房產(chǎn)要聞

7516元/㎡,161套一次全甩!海口住宅最低價出現(xiàn)了!

軍事要聞

特朗普暫緩打擊伊朗 稱系應(yīng)中東三國請求

無障礙瀏覽 進(jìn)入關(guān)懷版