網易首頁 > 網易號 > 正文申請入駐

博世x清華推出FunctionEvolve：LLM-SRBench提升3.6倍

2026-06-21 21:11:23　來源: 機器之心Pro

天津舉報

分享至

從實驗數據中發掘科學規律，這件事每天都在世界各地的實驗室里上演：研究者們把觀測結果整理成表格、畫成曲線，憑直覺和經驗猜測背后的函數形式，再反復修正，最終得到一個既能擬合數據、又能理解機制的數學公式。無論是開普勒從第谷的觀測數據中提煉出行星運動定律，還是當代工程師們每天進行著的各種標定，背后依賴的都是這樣的過程。

符號回歸（Symbolic Regression）的目標，就是讓計算機自動完成這種 “從數據到公式” 的發現。但這項任務長期以困難著稱：候選公式的空間近乎無限。即使加上大語言模型（LLM）的語義引導，此前最好的方法在面對最新基準 LLM-SRBench 的 129 個合成科學方程任務時，準確率也僅有 15%。

近期，來自博世中央研究院與清華大學的研究人員提出FunctionEvolve 框架，在兩大基準測試上大幅刷新了這項任務的結果。在 LLM-SRBench 的 129 個合成科學方程任務上，FunctionEvolve 最終給出的公式在 55.8% 的任務上與真實公式等價（SA@1 = 72/129），是此前最好結果的3.6 倍；若將范圍放寬至誤差最小的前 50 個公式，這一比例更是達到82.9%（SA@50 = 107/129）。而在經典測試基準 AI-Feynman 的 120 個任務上，FunctionEvolve 則拿到了滿分：SA@1 = 120/120，即最終給出的每一個公式都正確。

LLM-SRBench 129 個合成任務上的主結果：表中報告 SA@50（括號內為 SA@1）、Acc0.1 任務數與測試集 NMSE 中位數；加粗為各列最優，ground-truth 行是作為參考上界的真實公式表現

論文標題：FunctionEvolve: Structure-Guided Symbolic Regression with LLMs
項目地址：https://github.com/Phoinikas03/FunctionEvolve
論文鏈接：https://arxiv.org/abs/2606.07704

本文第一作者夏澤宇，是清華大學計算機系朱軍教授課題組的博士一年級學生，研究方向為 LLM 推理及其科學應用。通訊作者閻棟博士是博世首席 AI 科學家、前百川智能研究負責人，長期從事 LLM 訓練、推理和強化學習研究。博世中央研究院聚焦 LLM、AI4Science 等前沿方向，致力于打通從學術突破到工業落地的全鏈路創新，以前沿技術賦能產業變革。

FunctionEvolve 總體流程：從任務背景中提取先驗，生成種子公式，再通過結構信息引導父本選擇、AST 與 LLM 局部變異、結構分類的系數優化等步驟，持續迭代候選表達式

為什么要讓公式沿結構進化

符號回歸的難，首先難在問題本身：幾個變量加上十幾個運算符，能組合出的公式數量多到天文數字，逐一去試根本不現實。更關鍵的是，符號回歸的目標從來不是 “把數據擬合準” 這么簡單。用馮?諾依曼的話說：“給我四個參數，我可以擬合出一頭大象，而用五個參數我可以讓它的鼻子擺動。” 它說明只要表達式足夠復雜，我們幾乎總能構造出一個公式，把有限的數據點擬合的天衣無縫；但這只是記住了數據，而不是發現了規律。一旦輸入范圍發生變化，或者遇到新的實驗條件，這類公式的預測就可能迅速崩掉。因此，符號回歸真正困難的地方，不只是從巨大公式空間里找到一個低誤差表達式，而是在低誤差、簡潔性、可解釋性和外推能力之間找到平衡。

要把符號回歸搜索從 “壓低誤差” 引向 “找對規律”，就得用上領域知識。比如任務描述里寫著 “r 是兩個帶電粒子之間的距離”，那么平方反比項就比 r 的高次多項式更值得一試 —— 這種判斷正是 LLM 擅長的，它能讀懂任務背景，把領域知識變成對公式形式的建議。但這種語義判斷必須落到可操作的公式語法上，才能真正進入搜索過程：同樣是 “試試平方反比”，究竟該在當前公式里找到含 r 的哪一項替換？這就要求系統清楚公式由哪些部分組成、改動該落在哪。表達式樹 / 抽象語法樹（AST, Abstract Syntax Tree）提供的正是這種語法形式：它把公式拆成層級結構，公式由哪幾部分組成、哪些部分值得保留、改動可以落在哪里，都一目了然。從 AST 的視角出發，傳統 Genetic Programming（GP）有語法表示，卻缺少語義引導，結構變異多是隨機試探；而直接用 LLM 生成公式雖有語義方向，卻缺少穩定的語法約束，容易整體改寫公式并破壞已有子結構。

FunctionEvolve 的切入點，就是把公式顯式表示為表達式樹。它重新定位了 LLM 的參與方式：系統看到的除了擬合誤差，還有公式的內部構造，每一步修改都落在公式的一個子結構上。這棵樹也貫穿 FunctionEvolve 的每個環節：

生成起點（Generator）：先由 LLM 根據任務背景寫出一批種子公式，讓搜索從貼合問題的起點出發；
選擇方向（Selector）：結構相近的候選被歸為一類，搜索預算優先分給結構上有差異的方向，避免在同一類結構上反復打轉；
局部變異（Mutator）：LLM 提出的改進意見（比如 “把這一項換成平方反比”）被落實為表達式樹上的局部操作，避免推倒重寫或隨意更改；
擬合與評分（Optimizer）：結構定下來后，公式里的待定系數還要靠數據調到最合適。系統利用結構信息讓這一步更可靠：線性疊加的系數可以直接解出，不必參與搜索；剩下的系數也能按所在位置壓縮搜索范圍，比如三角函數里的相位只需在一個周期內找。這顯著降低了正確的公式形式因為系數沒調好而被錯判的風險。最后，系統還會認出寫法不同、實則相同的候選，去掉重復，再決定哪些公式進入下一輪。

因此，FunctionEvolve把 LLM 的語義引導約束在表達式樹這套語法里，讓生成、選擇、變異和評分都圍繞結構展開。

FunctionEvolve 在表達式樹上進行局部結構變異，使 LLM 的語義建議能夠落到可控的子結構擴展或替換上

主要結果：雙基準驗證

研究團隊選擇了兩個互補的基準來評估 FunctionEvolve。主要結果基于最新的 LLM-SRBench：它的 129 個科學方程任務覆蓋化學、生物、物理和材料科學四個領域，并且都是人工合成的，LLM 幾乎不可能在訓練預料中見過，因此更能考察方法是否真的是在 “發現” 公式，還是在背誦記憶。補充驗證使用經典的 AI-Feynman：它的 120 個方程取自《費曼物理學講義》，從萬有引力到電磁學，都是物理學里真實的定律，長期以來是符號回歸方法的標準試金石，能檢驗方法在真實科學公式上是否同樣有效。

論文主要報告三類指標。導語中出現的符號準確率 SA@k，它的定義是按訓練數據上的歸一化均方誤差（NMSE）排序后，前 k 個候選表達式中是否出現與目標公式符號等價的結果。事實上，很多公式寫法不同，但數學上是等價的，也就是本文說的 “正確公式”；SA@50 衡量了 FunctionEvolve 是否找到了答案，SA@1 則衡量其能否把答案排在首位。Acc (τ) 衡量首位候選公式在測試點上的最大相對誤差是否低于閾值 τ，因此 Acc (0.1) 表示相對誤差低于 0.1 的任務數；測試集 NMSE 的中位數則反映整體數值擬合誤差，數值越低說明擬合越好。

LLM-SRBench：符號準確率 3.6 倍于此前最好結果

在 LLM-SRBench 主實驗中，對比最明顯地體現在公式的符號準確率上。使用同樣的 Claude Opus 4.6 作為后端，此前方法 LLM-SR 與 OpenEvolve 的 SA@50 都是24/129，而 FunctionEvolve 提升到107/129；只看首位候選，FunctionEvolve 的 SA@1 也達到 72/129。換用 GPT-5.2 medium、DeepSeek-V4-Pro、Qwen3.6-27B 和 Llama-3.1-8B 測試，SA@50 仍分別達到 103、99、86 和 62。即便是開源的 8B 小模型，也遠高于此前方法用強閉源模型取得的結果，說明提升主要來自結構化 FunctionEvolve 框架本身，而非某個閉源模型。

注：PiT-PO 原文只報告了 top-1 結果，故無 SA@50；它是此前 SA@1 的最好公開結果（20/129，約 15%），本文中的 "3.6 倍" 即以此為基準。

AI-Feynman：120/120 全命中，但要區分 “背” 與 “推”

在補充驗證的 AI-Feynman 上，FunctionEvolve 的 top-1 候選在全部 120 個任務中命中正確公式；作為參照，此前的 SOTA 方法 QDSR 命中了 107 個。也就是說，無論面對合成方程還是真實物理定律，FunctionEvolve 都取得了迄今為止的最高準確率。不過，AI-Feynman 的公式來自經典物理教材，LLM 很可能在訓練語料中見過。為檢驗記憶的影響，研究團隊統計了每個任務中第一個正確公式出現的輪次：第 0 輪就命中，說明答案已經寫在 LLM 生成的初始種子里，更像是 “背” 出來的；出現在后續輪次，則說明答案來自搜索過程本身。下圖的輪次分布顯示，兩個基準恰好呈現出相反的模式：AI-Feynman 的正確公式集中在第 0 輪，記憶的成分確實存在；而在不可能被背過的 LLM-SRBench 上，正確公式大多出現在后續輪次。這正說明，FunctionEvolve 并不是在調取 LLM 的記憶，而是把 LLM 放進了推理過程，讓正確公式在一輪輪局部變異、系數擬合和重新評分中逐步被 “推” 出來。

LLM-SRBench/AIFeynman 任務中第一個符號等價表達式出現的輪次分布

分析實驗：候選篩選與組件消融

除兩個基準上的主結果外，論文還進行了兩組分析：一組考察最終候選的篩選策略，說明許多已被推出來的正確公式只是在排序階段被擠出了首位；另一組通過系統消融，量化各組件對整體性能的貢獻。

正確公式常被擠出首位：讓篩選偏好更簡單的公式

LLM-SRBench 的 129 個任務中，若看 SA@50 FunctionEvolve答對了 107 個，看 SA@1 則答對 72 個。這個差距揭示了另一個問題：推理過程常常已經找到了正確公式，只是按訓練 NMSE 排序時，它會被誤差更低的復雜近似式擠到后面。那么，在不動用測試集等額外信息的前提下，能否靠 “選擇形式更簡潔的公式”把這些已經找到的答案篩出來？為檢驗這一點，論文固定完整搜索軌跡，不改變生成、變異和系數優化過程，只在推理結束后比較三種基于訓練誤差與表達式復雜度的篩選方案：Pareto 保留在誤差和復雜度之間不可同時改進的候選，Occam 在誤差接近時優先選擇更簡單的表達式，MDL（Minimum Description Length）則把誤差和復雜度合并為一個總成本。

三種精篩方案：Pareto 通過平衡 NMSE 與復雜度對候選進行非支配排序，Occam 在近似最優訓練誤差范圍內篩選簡單表達式，MDL 則將訓練誤差與復雜度加權評分

結果顯示，同樣只篩出 5 個表達式，Pareto 和 Occam 分別讓 102 和 101 個任務的最終名單中包含正確公式；而單純按訓練 NMSE 取前 5 名，做到這一點的只有 89 個任務。換句話說，很多第一候選錯誤的任務其實早已生成過正確公式，只是被誤差更低的復雜近似式擠到了后面。

消融實驗：結構信息帶來了什么

為了驗證各環節的作用，研究團隊把它們逐一移除，做了系統消融。表中的組件名即 FunctionEvolve 的四個環節：Generator 生成起點、Selector 挑選方向、Mutator 局部修改、Optimizer 擬合與評分；其中 Mutator 又分為兩路，LLM Mutator 是 LLM 給出的語義引導修改，AST Mutator 是程序化的規則增刪。下表匯總了使用 Claude Opus 4.6 的主要消融結果：

幾個值得注意的結論：

移除 LLM Mutator 后，SA@50從 107 降到 46，說明語義引導的局部結構改進貢獻了很大一部分收益。
移除結構感知 Optimizer 后，SA@50降到 53，說明 “公式骨架正確但系數擬合失敗” 是符號回歸中的常見失敗模式。
完全移除 LLM 對 AST 結構的可見性后，SA@50 從 107降到 60，明顯差于只移除 AST 規則變異時的 84。AST 在這里既用于生成新候選，也給 LLM 提供了理解公式復雜度、子結構和局部修改位置的接口。

結構感知優化器在真實公式骨架及其變體上顯著提高常數擬合成功率，避免骨架正確卻因參數優化失敗被誤判

這幾組消融共同說明，FunctionEvolve 的收益來自 LLM 語義引導與表達式結構之間的結合：候選公式經過局部修改、系數擬合和去重后再進入下一輪搜索。AST在這里提供了關鍵接口：它讓有用子結構能夠被保留，也讓新的語義建議可以被放到明確的位置上繼續檢驗。

結構化表示帶來的啟發

FunctionEvolve 的核心啟發，是把表達式結構作為 LLM 與符號搜索之間的接口。LLM 提供來自任務背景的語義線索，表達式樹把這些線索落到具體子結構上，使系統能夠比較候選骨架、保留有用子式，并把新的結構改動放到明確位置。后續搜索、去重、系數擬合和重新評分都圍繞這套結構展開。實驗結果表明，這種流程顯著縮小了 LLM 驅動符號回歸中 “數值準確” 和 “符號等價” 之間的差距。在實際應用中，它可以用于把實驗或仿真數據轉化為可檢查的顯式模型，用于材料參數標定、傳感器校準、動力系統辨識等場景。相比黑箱預測模型，顯式公式也更容易嵌入后續的控制、優化和機理分析流程。可以說，這是從 “數值擬合” 邁向科學發現與應用的關鍵一步。

未來，團隊會面向更低的信噪比，更復雜的動力系統高維候選變量、以及沒有緊湊閉式解的場景繼續開展研究，以將FunctionEvolve適配到更多應用場景上。與此同時，基準測試本身也需要更可靠的采樣協議，避免讓多個不同科學機制在數據上無法區分。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.