美國高中數學邀請賽(AIME)的考場上,能坐著的都是全美前5%的數學尖子。這場考試考的不是刷題速度,是多步驟證明構造、數論與組合幾何的優雅推理——大多數成年人連題目都讀不懂。
去年,谷歌的Gemma 3在這張卷子上拿了20.8%。
![]()
今年,Gemma 4拿了89.2%。
![]()
這不是迭代優化,是質變。而且發生在單代模型之間,發生在一臺消費級GPU就能跑的開源權重模型上。
先看完整體數據,再談這意味著什么。
Codeforces ELO 2150是什么概念?全球競技編程選手中的前0.1%,大師級段位。Gemma 3的ELO只有110, essentially是個新手。Gemma 4的2150意味著:在算法競賽里,它能擊敗幾乎所有職業軟件工程師。
但真正讓開發者坐直的是另一組數字:智能體工具使用率,從6.6%跳到86.4%。這不是學術基準測試,是模型鏈式調用工具、處理錯誤、自主完成多步驟任務的實際能力。成功率86%的智能體是生產工具,6.6%的是玩具。
什么變了?
不是簡單的堆算力、灌數據。架構和訓練方式發生了實質性轉向:
第一,思考模式(Thinking mode)。Gemma 4內置了思維鏈推理,解題前會先"打草稿"——最多4000多個token的推演過程,再給出答案。20.8%是立即作答的成績,89.2%是擁有4000 token草稿紙后的成績。
![]()
第二,原生函數調用。智能體能力的躍升幾乎完全源于此。Gemma 3是被提示詞逼出函數調用的,Gemma 4把工具使用作為一等訓練目標。
第三,MoE架構。26B參數的A4B MoE模型在AIME上拿到88.3%,幾乎追平31B的稠密模型,但每次推理只激活4B參數。專家 specialization 確實在起作用:數學題被路由給數學專家。
第四,256K上下文。多步推理需要跨步驟維持復雜狀態,更長的上下文意味著推理鏈延長時信息損失更少。
這些不是同一思路的漸進改良,是換了一條路。
一年前的行業共識是:開源模型落后前沿6-12個月,且將維持這個差距;正經干活還得用GPT-4或Claude。
Gemma 4 31B的基準測試對比正在動搖這個判斷。需要謹慎的是:這些測試并非同步進行,模型能力也會隨更新變化。關鍵不在于"Gemma 4在某項上擊敗了GPT-4o",而在于開源與閉源的差距正在以快于預期的速度收窄。
當消費級硬件能跑起接近前沿的推理能力,當89.2%的數學成績來自公開權重而非API密鑰——開發者開始重新計算成本結構、數據主權和定制自由度。這不是說閉源模型沒有優勢,是說"必須用閉源"的默認假設,正在變得可質疑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.