網易首頁 > 網易號 > 正文申請入駐

開源模型89.2%的數學成績，讓閉源神話開始動搖

2026-05-25 01:00:41　來源: Ping值焦慮

北京舉報

分享至

美國高中數學邀請賽（AIME）的考場上，能坐著的都是全美前5%的數學尖子。這場考試考的不是刷題速度，是多步驟證明構造、數論與組合幾何的優雅推理——大多數成年人連題目都讀不懂。

去年，谷歌的Gemma 3在這張卷子上拿了20.8%。

今年，Gemma 4拿了89.2%。

這不是迭代優化，是質變。而且發生在單代模型之間，發生在一臺消費級GPU就能跑的開源權重模型上。

先看完整體數據，再談這意味著什么。

Codeforces ELO 2150是什么概念？全球競技編程選手中的前0.1%，大師級段位。Gemma 3的ELO只有110， essentially是個新手。Gemma 4的2150意味著：在算法競賽里，它能擊敗幾乎所有職業軟件工程師。

但真正讓開發者坐直的是另一組數字：智能體工具使用率，從6.6%跳到86.4%。這不是學術基準測試，是模型鏈式調用工具、處理錯誤、自主完成多步驟任務的實際能力。成功率86%的智能體是生產工具，6.6%的是玩具。

什么變了？

不是簡單的堆算力、灌數據。架構和訓練方式發生了實質性轉向：

第一，思考模式（Thinking mode）。Gemma 4內置了思維鏈推理，解題前會先"打草稿"——最多4000多個token的推演過程，再給出答案。20.8%是立即作答的成績，89.2%是擁有4000 token草稿紙后的成績。

第二，原生函數調用。智能體能力的躍升幾乎完全源于此。Gemma 3是被提示詞逼出函數調用的，Gemma 4把工具使用作為一等訓練目標。

第三，MoE架構。26B參數的A4B MoE模型在AIME上拿到88.3%，幾乎追平31B的稠密模型，但每次推理只激活4B參數。專家 specialization 確實在起作用：數學題被路由給數學專家。

第四，256K上下文。多步推理需要跨步驟維持復雜狀態，更長的上下文意味著推理鏈延長時信息損失更少。

這些不是同一思路的漸進改良，是換了一條路。

一年前的行業共識是：開源模型落后前沿6-12個月，且將維持這個差距；正經干活還得用GPT-4或Claude。

Gemma 4 31B的基準測試對比正在動搖這個判斷。需要謹慎的是：這些測試并非同步進行，模型能力也會隨更新變化。關鍵不在于"Gemma 4在某項上擊敗了GPT-4o"，而在于開源與閉源的差距正在以快于預期的速度收窄。

當消費級硬件能跑起接近前沿的推理能力，當89.2%的數學成績來自公開權重而非API密鑰——開發者開始重新計算成本結構、數據主權和定制自由度。這不是說閉源模型沒有優勢，是說"必須用閉源"的默認假設，正在變得可質疑。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

巧用最小公倍數，求自然數的值！

秒懂奧數李菁老師 2026-05-23 16:12:07
5 跟貼 5
小學數學比例應用題差不變原理

天天數理學習分享 2026-05-20 12:27:40
4 跟貼 4

典型的平均數問題你會嗎？

言西早老師 2026-05-21 18:41:33
0 跟貼 0

“數學如何開竅記住這4句話”，男子：簡單的題慢慢做，復雜的題畫圖做，不會的題反復做，做錯的題下次邊講邊做

河南都市頻道 2026-05-22 14:19:47
0 跟貼 0
初中數學經典幾何題

天天數理學習分享 2026-05-23 16:38:33
5 跟貼 5

以前和現在的計算題

皮特兒動漫 2026-05-21 22:13:09
1 跟貼 1

小升初，難倒了不少學霸，長方形面積為140，求陰影面積

大力小學數學 2026-05-22 13:46:00
17 跟貼 17
輕松搞定數學難題，數學學霸教你一招搞定！

壹號紀館 2026-05-22 05:05:35
0 跟貼 0

小升初考試題，全班全軍覆沒

郎老師趣味數學課堂 2026-05-20 17:18:27
0 跟貼 0
三年級數學，速算技巧，學會了很簡單

大力小學數學 2026-05-23 06:08:00
0 跟貼 0
數學難題解答！快來看看這位老師的巧思妙解吧！

布布丁動漫 2026-05-25 01:04:22
0 跟貼 0
數學難題解析，快來挑戰吧！

忘記的太多 2026-05-23 01:43:44
0 跟貼 0
小學數學課外拓展-6年級-第38講行程問題（1）

維七的教育分享圈 2026-05-23 07:56:43
5 跟貼 5
解方程，多數同學想不到解題方法

智慧的小老虎 2026-05-24 20:45:10
0 跟貼 0
美國競賽題，把老外難得哇哇哭

郎老師趣味數學課堂 2026-05-22 09:33:31
0 跟貼 0
數學不好的本質原因！

摩天輪悲傷 2026-05-23 05:41:09
0 跟貼 0
易錯題，原以為是送分題，結果丟分的一大批

智慧的小老虎 2026-05-24 20:52:14
0 跟貼 0
這題難倒一大批，看看你能搞定嗎？

智慧的小老虎 2026-05-20 20:31:23
0 跟貼 0
這題有點難，你不一定有更好的解法

智慧的小老虎 2026-05-24 19:30:43
0 跟貼 0
四年級簡便計算，仔細觀察就會發現端倪

郎老師趣味數學課堂 2026-05-22 09:31:04
17 跟貼 17
中考滑輪組易錯題拆解：避開這些坑，多拿 3 分

天物地理 2026-05-24 22:40:49
0 跟貼 0
北京500余青少年齊聚野鴨湖觀鳥比賽解鎖濕地鳥兒奧秘

新浪財經 2026-05-25 01:43:38
0 跟貼 0
她是美國最想挖走的中國人！美國專家見他畢恭畢敬，國人十萬知一

最美的筆觸 2026-05-21 21:10:42
0 跟貼 0
我不是最聰明的，但我是最踏實的！考研上岸哈工大，數學滿分，方向第一！

民生大參考 2026-05-24 06:21:16
0 跟貼 0
“80后”新晉院士，發數學頂刊！

算法與數學之美 2026-05-22 21:39:55
22 跟貼 22
小升初幾何：正方形面積是100，求圓的面積

大力小學數學 2026-05-22 13:47:00
0 跟貼 0
中考數學幾何，學會這模型秒殺難題

大力小學數學 2026-05-24 09:51:00
0 跟貼 0
大模型兩年進化：從數錯字母到奧數金牌

野生運營 2026-05-22 00:19:29
0 跟貼 0
8小時狂攬15K美金！Claude Code屠榜黑客馬拉松，開源神器爆15萬星

新智元 2026-05-24 19:03:59
11 跟貼 11
跟我學：給5歲孩子做數學啟蒙，不用刷題輕松識數算數

枕邊聊育兒 2026-05-21 09:56:46
4 跟貼 4
278高考數學天津卷 16 運用三角函數解三角形

我服子佩 2026-05-24 21:23:41
1 跟貼 1
老師當場批改學生試卷，字體工整卷面干凈整潔還是全對

CQTV探索 2026-05-23 14:05:00
0 跟貼 0
梁文鋒與DeepSeek的十萬億美元棋盤

新智元 2026-05-24 15:05:42
98 跟貼 98
潘洛思維挺有意思，是我們小時候沒學過的解題方法。楊雪呀

楊雪呀 2026-05-23 11:54:23
0 跟貼 0
白紙模型助瓷磚嚴絲合縫

超市王小小 2026-05-21 21:35:19
4 跟貼 4
面試AI崗只拿6分，我卻拿到了offer

固件更新中 2026-05-25 01:18:45
0 跟貼 0
兩個圓拼出來的怪東西，憑什么驚動整個幾何界 #幾何體

熊貓機庫 2026-05-23 06:37:33
3 跟貼 3
30年數學懸案，Claude一小時破解，88歲圖靈獎得主震驚

量子位 2026-03-07 20:19:13
0 跟貼 0
一個尋寶游戲的后臺重構：從堆硬件到改架構

固件更新中 2026-05-24 03:20:43
0 跟貼 0
女兒自信安利熱門聊天軟件，還得意展示自身等級，轉頭看見媽媽賬號直接傻眼

樂動向前 2026-05-22 23:07:07
1 跟貼 1

手機 / 數碼

房產 / 家居

開源模型89.2%的數學成績，讓閉源神話開始動搖

今天是5月25日，距離高考僅剩13天“525”諧音“我愛我”，請高三學子大聲告訴自己：我愛拼搏，我愛...

山西礦難遇難者家屬:父親年過半百 我們一直勸他別干了

山西礦難遇難者家屬:父親年過半百 我們一直勸他別干了

唐斯發牌，大頭逆襲：騎士跌向殘忍夏季

王鶴棣掉粉超20萬！代言和作品遭抵制

什么情況下，本輪AI大行情會結束？

我戴著攝像頭上班，正在幫AI搶走我飯碗

國民家轎再上新 帝豪向上系列限時5.59萬起

態度原創

為什么建議大家趕緊換新機？五點原因，望周知！

低調傳承 溫潤沉靜

618游戲本怎么選？ROG魔霸新銳2026來襲，福利秒殺讓戰力飛

砸12億！中國第一座“星穹大球”，上海人沸騰！

山西礦難遇難者家屬:父親年過半百我們一直勸他別干了

山西礦難遇難者家屬:父親年過半百我們一直勸他別干了

國民家轎再上新帝豪向上系列限時5.59萬起

低調傳承溫潤沉靜