網易首頁 > 網易號 > 正文 申請入駐

Squeeze Evolve:無需驗證器實現推理新SOTA

0
分享至



本文由加州大學伯克利分校、德克薩斯大學奧斯汀分校、斯坦福大學、普林斯頓大學與 Together AI 的研究團隊共同完成。研究團隊致力于探索大語言模型推理優化、多模型協同與高效計算等前沿方向。

本文作者Monishwaran 和 Leon Lakhani 來自 UC Berkeley,研究方向為大語言模型。指導教師是UT Austin 助理教授徐晨豐(研究方向為高效機器學習)和Stanford 教授 James Zou(研究方向為機器學習、計算生物學等)。



  • 論文鏈接:https://arxiv.org/abs/2604.07725
  • 項目主頁:https://squeeze-evolve.github.io
  • 代碼倉庫:https://github.com/squeeze-evolve/squeeze-evolve



每個大語言模型都有其能力天花板。增加推理預算、生成更多候選、運行更多優化循環 —— 單個模型只是在重復同樣的先驗知識、同樣的失敗模式、同樣的盲點。其生成的答案種群會逐漸收斂并停滯不前。

如果突破天花板的方法不是更大的模型,而是一套協同進化的模型系統呢?

這就是 Squeeze Evolve 的核心理念:一個多模型進化框架,通過編排具有不同優勢、失敗模式和推理風格的模型,在無需任何外部驗證器的情況下,產生任何單一模型都無法單獨實現的能力。

研究背景

測試時擴展(Test-time Scaling)通過生成多個候選答案并通過選擇和重組進行迭代優化,使模型能夠「更深入地思考」。當與外部驗證器配合使用時,這種進化方法已在代碼生成和科學發現領域取得突破。

然而,在許多重要領域(例如等離子體模擬、濕實驗室實驗、開放式數學推理等),驗證要么成本過高、速度過慢,要么根本不可用。進化必須在沒有真實反饋的情況下進行。

這就是無驗證器進化,它面臨一個根本性問題:單模型種群會崩潰。

沒有外部校正時,模型會放大它已經知道如何識別和重現的軌跡。丟棄數量極少但正確的方案。因此,多樣性在進化中至關重要。一旦多樣性喪失,就無法恢復,后續循環只能重組幸存軌跡的后代,陷入狹窄的解空間模式。

這就是為什么單純擴大單個模型的推理預算會遇到收益遞減。瓶頸不是算力,而是多樣性。



方法概述

不同模型具有不同的先驗知識、不同的訓練數據分布、不同的失敗模式。當它們參與同一個進化過程時,能夠維持單一模型無法獨立保持的互補譜系。

一個推理模型可能擅長多步邏輯推理,但在空間推理上表現不佳。一個指令微調模型可能整體較弱,但帶來不同的歸納偏置,保留了推理模型會剪枝的解決路徑。即使是一個小得多的模型也能做出有意義的貢獻 —— 不是因為它 individually 更強,而是因為它以不同的方式犯錯。

這就是 Squeeze Evolve 能夠超越任何單一模型能力的機制。多模型編排不僅僅是成本工程 —— 它是能力放大器。

研究團隊發現了三個關鍵實證結果:

  1. 初始化主導最終準確性:Loop 0(初始種群)的質量是最終性能的最強預測因子。在 AIME 2025 上,反轉初始化模型和重組模型的角色會導致準確率下降高達 23 個百分點。最強模型必須錨定起始種群。
  2. 當候選集足夠強時,弱模型是強大的聚合器:當一個組已經包含正確軌跡時,即使小得多的模型也能有效聚合它們 —— 接近 100% 的準確率。昂貴模型的優勢集中在最難、最不確定的組上。在其他地方,便宜模型不僅足夠,而且充分。
  3. 模型置信度預測哪里需要能力:從 token 對數概率導出的組置信度(Group Confidence, GC)能夠清晰地區分包含正確軌跡的組和不包含的組。這個信號是沒有任何成本的(在推理過程中產生),適用于不同模型家族,并直接告訴我們哪些組需要昂貴模型,哪些可以安全地交給便宜模型處理。



實驗評估

研究團隊在數學推理、視覺理解、科學發現等多個領域進行了系統驗證。相比單模型 RSA 基線:

  • AIME 2025:GPT-OSS-20B 與 GPT-5 mini 組合后以 55% 成本超越 GPT-5 mini(95.4% vs 94.2%)



  • MMMU-Pro:使用 Qwen3.5-35B-A3B 和 Kimi-2.5-Thingking 的組合以 43% 的成本超越 Kimi-2.5-Thingking 單模型(79.1% vs 78.6%)



  • ARC-AGI-V2:使用 Gemini3 3.1 Pro 大幅超越此前的 RSA 方法 (3.7x 成本節約,93.3?97.5% 準確率提升)



  • 圓堆積問題:無需驗證器的情況下使用開源模型(GPT-OSS 120B + 20B)效果匹配基于驗證器的閉源 AlphaEvolve 基線方法(使用 Gemini-2.0 Pro + Flash)



  • 在所有 8 個基準測試上成本降低 1.4–3.3x,吞吐量提升 4–10x



總結與展望

Squeeze Evolve 的核心洞見是:單個模型的天花板不是模型系統的天花板。

通過將現有的測試時擴展方法統一到共同的進化框架中,研究團隊揭示了一個設計空間,在這個空間中,模型根據它們的能力在何處具有最高邊際效用被分配到進化角色。結果不僅僅是更便宜的推理 —— 而是真正更強的推理。協同進化的模型產生它們單獨無法產生的解決方案。

這將測試時擴展從「在更大的模型上花更多錢」重新定義為多模型系統優化問題。前沿不是僅由單個模型能力推動的 —— 而是由你如何智能地編排已有模型推動的。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國已收到伊朗談判新方案

美國已收到伊朗談判新方案

界面新聞
2026-04-27 11:28:26
芬蘭外長突然發難:不和中國簽自貿協定!中方一句話淡定回應

芬蘭外長突然發難:不和中國簽自貿協定!中方一句話淡定回應

聞識
2026-04-27 12:07:18
觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

人間頌
2026-04-20 10:16:00
一季度外貿高增長背后:一批中國工廠,正在“系統升級”

一季度外貿高增長背后:一批中國工廠,正在“系統升級”

正解局
2026-04-24 14:31:48
代縣推土埋人后續:火到央媒,任某平多重身份曝光,村民病情加重

代縣推土埋人后續:火到央媒,任某平多重身份曝光,村民病情加重

天天熱點見聞
2026-04-27 06:10:34
女大學生泰國旅游被轉賣緬甸園區,照片流出長這么好看被折磨太慘

女大學生泰國旅游被轉賣緬甸園區,照片流出長這么好看被折磨太慘

老貓觀點
2026-04-27 07:20:19
就在今天!NBA過去80年季后賽歷史記錄,被22歲的文班輕松達成了

就在今天!NBA過去80年季后賽歷史記錄,被22歲的文班輕松達成了

秋姐居
2026-04-27 14:36:49
最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
二手交易平臺能買“機場貴賓室使用權益”?買賣雙方均涉嫌違規

二手交易平臺能買“機場貴賓室使用權益”?買賣雙方均涉嫌違規

上觀新聞
2026-04-27 08:29:07
世錦賽最新戰報:吳宜澤10-6壓制塞爾比,世界排名前二領先

世錦賽最新戰報:吳宜澤10-6壓制塞爾比,世界排名前二領先

港灣無船
2026-04-27 12:53:49
四年虧光74億!華誼走到今天,全是當年坑周星馳作的!

四年虧光74億!華誼走到今天,全是當年坑周星馳作的!

喜歡歷史的阿繁
2026-04-26 14:01:13
草蜢40周年演唱會,蔡一杰首度公開病情:腦癌已擴散,但永不言棄

草蜢40周年演唱會,蔡一杰首度公開病情:腦癌已擴散,但永不言棄

一盅情懷
2026-04-27 09:48:43
30多家法院集體引用一部“空氣法”:這不是荒唐劇,是恐怖片

30多家法院集體引用一部“空氣法”:這不是荒唐劇,是恐怖片

迷世書童H9527
2026-04-25 14:15:25
斯諾克賽程:決出4席8強,吳宜澤生死戰,火箭沖8冠,5虎變3虎?

斯諾克賽程:決出4席8強,吳宜澤生死戰,火箭沖8冠,5虎變3虎?

劉姚堯的文字城堡
2026-04-27 07:56:16
南方黑芝麻創始人,被立案調查

南方黑芝麻創始人,被立案調查

第一財經資訊
2026-04-27 09:28:28
人性何在?伊朗宣布服兵役的年齡低至12歲了,少年征兵引發爭議

人性何在?伊朗宣布服兵役的年齡低至12歲了,少年征兵引發爭議

吃瓜局
2026-04-26 14:50:58
從武大碩士到商場導購:誣告學弟性騷擾的楊景媛,終于付出了代價

從武大碩士到商場導購:誣告學弟性騷擾的楊景媛,終于付出了代價

地理三體說
2026-04-25 22:06:06
中國拋得太及時,8500億美債沒人接盤。

中國拋得太及時,8500億美債沒人接盤。

流蘇晚晴
2026-04-26 18:32:23
美軍試探中方紅線,在東南亞攔截伊朗油輪,給中方敲響了警鐘

美軍試探中方紅線,在東南亞攔截伊朗油輪,給中方敲響了警鐘

第一軍情
2026-04-27 11:40:03
難以置信!洛陽某三甲醫院給孩子脫臼復位花1分鐘,收費100元舉報

難以置信!洛陽某三甲醫院給孩子脫臼復位花1分鐘,收費100元舉報

火山詩話
2026-04-26 07:23:48
2026-04-27 14:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12868文章數 142636關注度
往期回顧 全部

科技要聞

打1折!DeepSeek輸入緩存降價

頭條要聞

美海軍考慮從外國購買軍艦和零部件:日韓成潛在選擇

頭條要聞

美海軍考慮從外國購買軍艦和零部件:日韓成潛在選擇

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

《奔跑吧14》剛播就把一手好牌打稀爛

財經要聞

DeepSeek融資、字節加碼 AI開始真燒錢了

汽車要聞

在不確定中尋找確定性:大眾汽車的中國解法

態度原創

藝術
本地
時尚
教育
公開課

藝術要聞

你絕對想不到,攝影能讓她成為女神!

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

比起買大件,這些“小裝備”更派得上用場!

教育要聞

AI賦能中學英語學科建設與拔尖創新人才貫通培養研討會在京舉辦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版