无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

開源模型89.2%的數學成績,讓閉源神話開始動搖

0
分享至

美國高中數學邀請賽(AIME)的考場上,能坐著的都是全美前5%的數學尖子。這場考試考的不是刷題速度,是多步驟證明構造、數論與組合幾何的優雅推理——大多數成年人連題目都讀不懂。

去年,谷歌的Gemma 3在這張卷子上拿了20.8%。


今年,Gemma 4拿了89.2%。


這不是迭代優化,是質變。而且發生在單代模型之間,發生在一臺消費級GPU就能跑的開源權重模型上。

先看完整體數據,再談這意味著什么。

Codeforces ELO 2150是什么概念?全球競技編程選手中的前0.1%,大師級段位。Gemma 3的ELO只有110, essentially是個新手。Gemma 4的2150意味著:在算法競賽里,它能擊敗幾乎所有職業軟件工程師。

但真正讓開發者坐直的是另一組數字:智能體工具使用率,從6.6%跳到86.4%。這不是學術基準測試,是模型鏈式調用工具、處理錯誤、自主完成多步驟任務的實際能力。成功率86%的智能體是生產工具,6.6%的是玩具。

什么變了?

不是簡單的堆算力、灌數據。架構和訓練方式發生了實質性轉向:

第一,思考模式(Thinking mode)。Gemma 4內置了思維鏈推理,解題前會先"打草稿"——最多4000多個token的推演過程,再給出答案。20.8%是立即作答的成績,89.2%是擁有4000 token草稿紙后的成績。


第二,原生函數調用。智能體能力的躍升幾乎完全源于此。Gemma 3是被提示詞逼出函數調用的,Gemma 4把工具使用作為一等訓練目標。

第三,MoE架構。26B參數的A4B MoE模型在AIME上拿到88.3%,幾乎追平31B的稠密模型,但每次推理只激活4B參數。專家 specialization 確實在起作用:數學題被路由給數學專家。

第四,256K上下文。多步推理需要跨步驟維持復雜狀態,更長的上下文意味著推理鏈延長時信息損失更少。

這些不是同一思路的漸進改良,是換了一條路。

一年前的行業共識是:開源模型落后前沿6-12個月,且將維持這個差距;正經干活還得用GPT-4或Claude。

Gemma 4 31B的基準測試對比正在動搖這個判斷。需要謹慎的是:這些測試并非同步進行,模型能力也會隨更新變化。關鍵不在于"Gemma 4在某項上擊敗了GPT-4o",而在于開源與閉源的差距正在以快于預期的速度收窄。

當消費級硬件能跑起接近前沿的推理能力,當89.2%的數學成績來自公開權重而非API密鑰——開發者開始重新計算成本結構、數據主權和定制自由度。這不是說閉源模型沒有優勢,是說"必須用閉源"的默認假設,正在變得可質疑。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
手機殼正在悄悄吃掉你的電池壽命

手機殼正在悄悄吃掉你的電池壽命

全棧遛狗員
2026-05-18 04:51:52
山西礦難已致90死!國務院“較真碰硬”背后,老板會被判重刑嗎?

山西礦難已致90死!國務院“較真碰硬”背后,老板會被判重刑嗎?

荊門熱點
2026-05-24 09:32:09
25/26賽季英超射手榜:哈蘭德27球奪金靴,伊戈爾22球第二

25/26賽季英超射手榜:哈蘭德27球奪金靴,伊戈爾22球第二

懂球帝
2026-05-25 01:37:15
張國清趕赴山西長治市沁源縣煤礦瓦斯爆炸事故現場指導應急處置工作

張國清趕赴山西長治市沁源縣煤礦瓦斯爆炸事故現場指導應急處置工作

澎湃新聞
2026-05-23 20:24:03
安妮·海瑟薇回應整容傳聞:只是扎了兩條辮子

安妮·海瑟薇回應整容傳聞:只是扎了兩條辮子

時光慢旅人
2026-05-25 00:07:22
美籍華人雇主把58歲中國保姆當成狗馴,被逮捕后仍叫囂:她別想活

美籍華人雇主把58歲中國保姆當成狗馴,被逮捕后仍叫囂:她別想活

莫地方
2026-05-25 01:15:03
張蘭沉浸式帶娃,全程愛不釋手,萌娃乖巧惹人愛

張蘭沉浸式帶娃,全程愛不釋手,萌娃乖巧惹人愛

蹲坑看世界
2026-05-24 16:46:06
123人“消失”!山西礦難傷亡人數統計出大幅偏差,有網友稱正常

123人“消失”!山西礦難傷亡人數統計出大幅偏差,有網友稱正常

火山詩話
2026-05-24 11:58:28
新加坡部長辭職信曝光,請辭理由太戳心

新加坡部長辭職信曝光,請辭理由太戳心

新加坡眼
2026-05-24 20:34:03
教師參加婚宴連喝3場后酒駕身亡,家屬向新人及同飲者索賠40余萬元,法院:應自行承擔90%責任

教師參加婚宴連喝3場后酒駕身亡,家屬向新人及同飲者索賠40余萬元,法院:應自行承擔90%責任

大風新聞
2026-05-24 10:05:08
NBA交易市場格局生變!倫納德將打亂雄鹿心儀的字母哥交易計劃

NBA交易市場格局生變!倫納德將打亂雄鹿心儀的字母哥交易計劃

夜白侃球
2026-05-24 21:56:31
沈陽開往成都的列車,在南陽站停靠1388分鐘?12306回應

沈陽開往成都的列車,在南陽站停靠1388分鐘?12306回應

沈陽公交網小林
2026-05-24 00:10:57
7年敗光2個億,鄒市明冉瑩穎共同發文,終究還是踏出了這一步

7年敗光2個億,鄒市明冉瑩穎共同發文,終究還是踏出了這一步

林輕吟
2026-02-11 11:29:40
六盤水用1200萬抵扣2.2億債務,女子拒絕后遭逮捕,被批不識抬舉

六盤水用1200萬抵扣2.2億債務,女子拒絕后遭逮捕,被批不識抬舉

干史人
2025-04-25 08:30:03
連續13個跌停板!股民:不帶這樣玩的!

連續13個跌停板!股民:不帶這樣玩的!

數據挖掘分析
2026-05-24 15:23:17
日本預測,未來20年亞洲最發達的“四座城市”,我國幾座榜上有名

日本預測,未來20年亞洲最發達的“四座城市”,我國幾座榜上有名

牛牛叨史
2024-07-19 23:32:16
黃仁勛一家回臺灣!與親戚相聚吃飯被拍,年邁的黃父黃母罕見出鏡

黃仁勛一家回臺灣!與親戚相聚吃飯被拍,年邁的黃父黃母罕見出鏡

另子維愛讀史
2026-05-24 10:18:20
心理學上有個詞叫:逆火效應(永遠不要指出你身邊人的任何問題,包括你的親戚朋友。成年人的最大清醒就是不介入他人的生活)

心理學上有個詞叫:逆火效應(永遠不要指出你身邊人的任何問題,包括你的親戚朋友。成年人的最大清醒就是不介入他人的生活)

德魯克博雅管理
2026-05-18 17:11:20
索尼PS發布會將炸裂全網!內部員工激動到無以言表

索尼PS發布會將炸裂全網!內部員工激動到無以言表

游民星空
2026-05-22 22:52:34
你真是DPOY?騎士內線新星在防守端甚至是被對手各種針對?

你真是DPOY?騎士內線新星在防守端甚至是被對手各種針對?

稻谷與小麥
2026-05-25 01:18:09
2026-05-25 02:12:49
Ping值焦慮
Ping值焦慮
有態度網友ytd
3569文章數 52關注度
往期回顧 全部

教育要聞

今天是5月25日,距離高考僅剩13天“525”諧音“我愛我”,請高三學子大聲告訴自己:我愛拼搏,我愛...

頭條要聞

山西礦難遇難者家屬:父親年過半百 我們一直勸他別干了

頭條要聞

山西礦難遇難者家屬:父親年過半百 我們一直勸他別干了

體育要聞

唐斯發牌,大頭逆襲:騎士跌向殘忍夏季

娛樂要聞

王鶴棣掉粉超20萬!代言和作品遭抵制

財經要聞

什么情況下,本輪AI大行情會結束?

科技要聞

我戴著攝像頭上班,正在幫AI搶走我飯碗

汽車要聞

國民家轎再上新 帝豪向上系列限時5.59萬起

態度原創

手機
家居
數碼
藝術
公開課

手機要聞

為什么建議大家趕緊換新機?五點原因,望周知!

家居要聞

低調傳承 溫潤沉靜

數碼要聞

618游戲本怎么選?ROG魔霸新銳2026來襲,福利秒殺讓戰力飛

藝術要聞

砸12億!中國第一座“星穹大球”,上海人沸騰!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版