網易首頁 > 網易號 > 正文申請入駐

開源模型橫掃21個科學任務!寬德Will聯手斯坦福清北,試錯變武器

2026-04-26 13:19:19　來源: 機器之心Pro

河北舉報

分享至

編輯｜Sia

不是讓模型更聰明，而是讓試錯本身變得更高效。有了這套框架「傍身」，普通開源模型也能「逆襲」做出驚人科學發現。

假設你手里只有一筆有限預算，要去搏一項未知的科學發現。你會怎么選？

把錢全砸給一個頂級模型（比如 OpenAI o1、DeepSeek），讓它長時間深思熟慮，試圖一擊即中？

還是反過來，搭一個「想法實驗室」——同時跑幾十、上百個實驗假設，讓它們彼此競爭、快速淘汰，最后篩出最有潛力的解？

前者，是我們熟悉的大模型敘事：相信「更聰明的大腦 + 更深的推理」，就能逼近真理。

最近，寬德智能學習實驗室（ Will ）聯合斯坦福、清華、北大等頂尖高校發布的一項新研究卻表明，科學發現的上限，不只是模型有多聰明，而是如何組織試錯與評估

Will 是頂級量化私募寬德投資獨立孵化的研究機構，秉持「AI for Good 」與長期主義，致力于構建服務科學與技術的通用人工智能（ ASI ）基礎平臺，賦能人類實現科學發現與技術創新。實驗室還作為贊助商參與了今年 ICLR 。

不同于側重論文產出的實驗室，Will 是一個深度融合研究與工業落地的全棧式「創新中樞」，在北京、上海、紐約均設有辦公室，依托頂級算力與數據資源，利用全鏈路工程實踐解決真實挑戰，用極致工程水準定義未來的科學發現。

論文地址：
https://www.wizardquant.com/will/simpletes

這篇名為Evaluation-driven Scaling for Scientiffc Discovery的研究，提出了一項足以讓開源模型「暴力逆襲」的通用框架 SimpleTES。

它將試錯拆解為三個可調度的維度，并在此基礎上實現「測試時擴展」（ test-time scaling ），讓開源模型在 21 項前沿科學任務中集體「封神」。

不僅刷新了多項 SOTA，甚至在數學構造、代碼優化等領域，反超人類專家和那些頂級閉源模型。

在尋找使自卷積比 R 最大化的非負函數 f 這一任務上的擴展范式對比。以推理為中心（reasoning-centric）和以評估為中心（evaluation-centric）的方法都只專注于單一軸線的擴展，并最終陷入平臺期（增長停滯）。SimpleTES通過四項獨立的學術突破，實現了雙軸協同擴展，并達到了新的行業領先水平（SOTA）。

實驗表明，針對不同類型的科學任務，動態平衡這三個軸的算力分配，是超越現有 SOTA解的關鍵。

這，還只是 Will 野心版圖中的第一塊拼圖。

在評估驅動的科學發現引擎之外，Will 同時還在推進另外兩條關鍵路徑：自研基座大模型，以及面向科學研究的方法論探索。

三條線并行推進，在當前 AI 研究機構中并不多見。但他們的目標并不局限于單點突破，而是從零構建一整套面向科學發現的 AI 基礎設施

在這套體系中，AI 不再只是「回答問題的系統」，而是逐步演化為能夠參與完整科研閉環的主體。

換句話說，他們最終想實現的，是讓 AI 學會做科研。

被忽略的「第三極」：生成-評估的閉環

其實，在 AI4S 這件事上，大家已經卷過一輪了。

一派思路很直接，繼續往「更聰明的模型」上加碼——更長的推理鏈、更復雜的 Agent 流程、更強的閉源模型，認為只要多想一會兒、多對話幾輪，總能逼近新發現。

也有人把目光轉向「試錯循環」：生成 → 評估 → 改進，跑上幾輪，拿到一個還不錯的結果就收手（典型如 AlphaEvolve 一路）。

但問題在于，大家幾乎都在放大「生成側的算力」，卻很少真正放大「評估反饋」本身。于是，一些老問題反復上演。

比如，經典的順序改進（ Sequential Refinement ），本質是單路徑搜索，一旦早期方向選錯，后面只會越修越偏。

科學問題往往是多目標、強約束的復雜空間，哪怕模型再強，也很難「一路推理」跨過去。

即使引入評估，反饋也不過是搜索流程的一個組件。更別提，這類系統高度依賴人工設計，工程復雜度極高，可歸因和可遷移性都很差。

卡爾·波普爾說過，科學知識的增長，來自一輪輪基于「猜想—反駁」的證偽。如果把「試錯 + 評估」本身，做成一個可以規?；?、可以自動調度資源、可以持續放大有效信號的系統，會發生什么？

SimpleTES ：

把試錯變成一臺可以擴展的流水線

這篇工作的關鍵突破在于，把試錯、探索拆成一套可以被調度、可以被擴展、甚至可以被優化的計算流程。

核心是三個維度，非常極簡：

C（ Concurrency ）：并行多少條軌跡
L（ Length ）：每條軌跡走多深
K（ K-candidates ）：每一步生成多少候選

這三件事拼在一起，本質上是在做一件此前很少被正視的事情：把算力，從「堆模型能力」，轉移到「精細分配搜索成本」?？茖W發現，從「靈光一現」，變成了一種可以被系統性放大的過程。

測試時評估驅動的循環縮放架構及其三維縮放維度。左側展示了基于策略網絡、生成器與評估器的閉環迭代過程，通過 L次循環實現軌跡優化。右側定義了縮放的三維空間：全局寬度 C、細化深度 L和局部樣本量 K。

1、看得更廣：C（并行探索）

不再「一條路走到黑」，同時啟動 C 條獨立軌跡，各自探索不同方向。避免開局選錯方向，后面全盤皆輸」。在復雜科學問題里，「想得更深」之前，必須先「看得更廣」。

2、走得更深：L（迭代改進）

每一條軌跡，都不是一次性生成，而是在 evaluator（驗證器、打分函數、模擬器等）的驅動下持續迭代。關鍵點在于評估，不再只是「打分器」，而是「方向控制器」。每一次反饋，都會微調搜索路徑，把模型一點點推向更優解。

3、選得更準：K（局部篩選）

每一步不是生成一個解，而是生成 K 個，再只保留最優的那個。這一步相當于在局部做了一次「小進化」，把噪聲遺忘，避免劣質解污染后續軌跡。

三維框架一旦確定，一個現實問題撲面而來：歷史軌跡越來越多，但上下文裝不下。

SimpleTES 的做法是，不把歷史當「記錄」，而是當「資源池」。哪些經驗能進 prompt，被視為一個調度問題。他們引入 RPUCG（類似 UCB 的策略）：一邊優先高分或「曾經啟發出好結果」的節點，一邊給低頻節點加探索補償。

這其實是在 prompt 層做了一次「探索-利用權衡」，既不放過熱門路徑，也不忽視冷門潛力，避免搜索早早收斂到局部最優。

除了三維框架這一結構性的核心創新，SimpleTES 也從根本上解決了 AI 在科研決策中的短視挑戰。

傳統方法會優化每一步的 reward，但這樣會讓模型越來越保守。而科學發現恰恰需要允許早期「走彎路」。因此，在 Trajectory-Level Post-training 中，SimpleTES 直接換了訓練目標，不看每一步，只看整條軌跡的最終最好結果。具體做法很利落：

一條完整探索軌跡等于一個 rollout ，忽略中間所有 step reward ；

用「最高分」作為唯一監督信號，反向賦給整條路徑；

再配上簡單但有效的策略：只保留 top R% 的軌跡（我要精英），截斷無效后綴，用 replay buffer 持續累積經驗

結果，模型學到的不是「下一步怎么更對」，而是「怎樣的一整條探索路徑更可能成功」。

這套 Trajectory-Level Post-training 如同煉金術，把「搜索能力」蒸餾進模型本身，使其逐漸形成一種接近「科研直覺」的能力。

基礎模型與后訓練模型在多維度科學任務下的表現對比。重點展示了模型在域內（ID）與域外（OOD）環境下的適應性差異，加粗項反映了后訓練技術對模型邏輯推理和泛化能力的提升。

21個結果，21次振奮

結果顯示（設定 C=32, L=100, K=16），在六大領域、21 個科學問題上跑通一整套「試錯流水線」，只用 gpt-oss 這樣的開源模型，就能不斷刷出新的最優解，甚至把不少前沿閉源模型和精心調整過的優化流程都壓了過去。

在許多硬核的領域也突破了人類最佳紀錄。

該方法涵蓋的量子電路編譯、GPU 核函數優化等六大科學應用領域。

在 SimpleTES 框架的加持下，開源模型不僅超越了眾多閉源模型，在許多硬核的領域也突破了人類最佳紀錄。

以下是三個特別有沖擊力的發現。

1、LASSO 路徑求解（算法工程）

LASSO 是統計學、生物信息學和金融建模中極其基礎且廣泛使用的算法。像 glmnet 這種標準解法，本質是幾十年工程經驗的結晶。

SimpleTES 做的不是微調，而是直接改寫解法。在保證精度（誤差 ≤1e-6）完全一致的前提下，平均比 glmnet 快2.17 倍，比 sklearn 快14 倍以上

關鍵是它怎么做到的。傳統方法基本是固定策略，而 SimpleTES 最終演化出來一套按問題結構動態切換的混合解法。

當問題處在某個幾何區間（比如中等維度、樣本不太少）時，它直接放棄 coordinate descent，切換到 LARS homotopy 路徑算法，沿著正則路徑解析式推進；在高維稀疏或更復雜結構下，保留 coordinate descent，再配合更激進的篩選機制。

這也是最有意思的地方，算法設計本身，開始變成可以被大規模試錯搜出來的東西。

再看 AtCoder 這種比賽就更直觀了。這類題本質上沒有標準解，拼的是「解題套路」和「搜索策略」。SimpleTES 從零開始，獨立發現了如「多起點模擬退火」等極具競爭力的程序，得分以絕對優勢全面超越所有人類玩家記錄與現有的 AI 解決方案。

2、量子比特路由（量子電路編譯）

這個任務更有硬件味：量子門只能在相鄰比特上執行，不相鄰就必須插入 SWAP，把量子態搬過去。問題在于，每多一個 SWAP，電路就更慢、更不穩定。

所以，需要在保證所有操作可執行的前提下，把 SWAP 數量壓到最低。但難點在于，這也是個典型的長程組合優化問題——你現在做的一個交換，會影響后面所有步驟。

目前，主要由頂尖的量子物理學家和計算機科學家設計的啟發式算法來處理。

結果，SimpleTES 在不同量子計算機平臺架構上均展現了強大的編譯優化能力，有效降低了滿足硬件約束的執行開銷。

在超導架構上，SimpleTES 在整體上比經典算法 SABRE 提升 21.7%，比改進版 LightSABRE 提升 14.9%。在 IBM Q20 實例上更是將 SWAP 門開銷降低了 24.5%。

在分區中性原子架構上，其發現的編譯策略在 36 個多樣化電路中將平均執行時間縮短了 33.2%，穩定提升了絕大多數測試用例的表現。

可見，當評估循環縮放到足夠大時，AI 能夠通過寬度探索出人類直覺無法觸及的怪異但高效的路徑。在嚴謹的物理約束下，AI 也可以成為真正的發現者。

3、Erd?s 最小重疊問題（數學極值分析）

這是一個典型的極值構造難題：搜索空間巨大且極其崎嶇，只要某個位置稍微偏一點，整體重疊就會瞬間放大，幾乎就是在針尖上跳舞。

結果也很有意思——人類和現有 AI 基本都卡在 0.38087 附近，已經接近公認極限。但 SimpleTES 還是硬生生往下摳了一點：做到 0.380868，甚至在額外搜索中達到 0.380856。表面看只是小數點后幾位，在這種問題里卻是實打實的「極限推進」。

更關鍵的是，這個提升幾乎和模型大小無關，而是來自搜索過程本身：既沒錯過正確方向，也有足夠耐心往下摳細節，同時還把隨機性壓到最低。

這已經不是「更聰明的模型」，而是更高效的試錯機制在發揮作用。

AI4S 新范式：

把「試錯閉環」當成一等公民

如果說以 OpenAI o1 為代表的推理模型，開啟了「深度思考」的縮放時代，那么 SimpleTES 做的，是把另一件長期被低估的能力，推上主舞臺——嘗試與驗證，本身也可以被縮放。

但這套方法，也不是沒有邊界。

SimpleTES 的能力，本質上被一個東西「鎖死」：評估器（evaluator）。它之所以有效，是因為每一步試錯都能被快速、明確地打分。一旦進入那些評估昂貴、主觀、或者必須依賴真實世界反饋的領域，這套機制就會變得吃力，因為你已經沒法再高頻地「試—評—改」。

另一個限制在于算力怎么分。三個維度現在還是手動調的，而不同任務、不同階段，其實最優分配完全不一樣。真正理想的狀態，是系統能根據搜索進展動態調整，而不是一開始就把資源「寫死」。

還有，這套方法天然適合「有連續分數」的世界。但在一些更離散的場景（比如定理證明），對錯之間沒有細粒度反饋，很多「差一點」的嘗試看起來是一樣的失敗，這會讓搜索信號變得模糊，甚至誤導方向。

因此，Will 下一步，不只是把試錯做大，還要讓它更聰明，從一個高頻運轉的計算閉環，進化為一個真正具備理解、判斷與探索能力的系統。

當「試錯」不再只是蠻力搜索，而開始具備結構感和方向感時，AI4S 的上限，才會真正被打開。

目前，基于 SimpleTES 方法構建的試用平臺已經在 Will 官網上線，歡迎大家前往申請加入 Waitlist，率先體驗這一全新的科研范式。

https://www.wizardquant.com/will/simpletes

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.