无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Auto Research最后一塊拼圖,Frontier-Eng Bench,工程閉環(huán)里最優(yōu)

0
分享至




機(jī)器之心發(fā)布

科研,能被 AI 全程加速嗎?

過去兩年,Auto Research 被寄予厚望:讀論文、找方向、寫代碼、跑實(shí)驗(yàn),甚至生成新假設(shè) ——AI 仿佛要成為科研全能助手。

但做過科研的人都知道,真正燒腦、耗時(shí)間的不是「能跑」,而是「夠好」:調(diào)參數(shù)、改代碼、看輸出,再跑,再調(diào)…… 每一次優(yōu)化都瑣碎又重復(fù),卻幾乎無法跳過。

于是問題來了:能不能把這些繁瑣的迭代交給 AI?Researcher 只提供方向,后續(xù)的「看反饋 → 調(diào)代碼 → 逼近最優(yōu)」,全交給 Agent 自動(dòng)完成?

Einsia AI 旗下 Navers Lab 的最新論文 Frontier-Eng 盯上的就是這件事。



  • 論文題目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
  • 項(xiàng)目主頁(yè):https://lab.einsia.ai/frontier-eng/
  • Arxiv: https://arxiv.org/abs/2604.12290
  • Github repo: https://github.com/EinsiaLab/Frontier-Engineering

這不是又一個(gè)「模型會(huì)不會(huì)做題」的 benchmark。恰恰相反,它在問一個(gè)更接近真實(shí) Auto Research 的問題:AI 到底能把一個(gè)可行方案優(yōu)化到多好?

當(dāng) Agent 不再只「答題」,而是真正開始做優(yōu)化

過去兩年,大家見過太多 Agent benchmark:有的考檢索,有的考代碼,有的看任務(wù)能不能完成。但這些測(cè)試,大多還是「對(duì)就是對(duì),錯(cuò)就是錯(cuò)」的二元評(píng)估邏輯。

可真實(shí)世界里的 Research 從來不是這樣的。

很多時(shí)候,一個(gè)方法已經(jīng)能跑,結(jié)果也說得過去,但真正決定它有沒有競(jìng)爭(zhēng)力的,是后面那一點(diǎn)點(diǎn)持續(xù)「拱」出來的提升。

  • 實(shí)驗(yàn)快一點(diǎn),意味著 researcher 少等幾輪結(jié)果;
  • 顯存省一點(diǎn),意味著更大的模型、更長(zhǎng)的上下文、更復(fù)雜的設(shè)置終于能跑起來;
  • 指標(biāo)漲一點(diǎn),意味著離 SOTA 更近一步,離榜單前排更近一步,甚至可能就是 paper 能不能站得住的差別。

在 Auto Research 里,最重要的不是 Agent 能不能一次性給出一個(gè)看起來合理的答案,而是它能不能接過這段漫長(zhǎng)的迭代過程:持續(xù)讀反饋、改方案、跑實(shí)驗(yàn)、壓指標(biāo),把研究員們從最重復(fù)、最煩人的調(diào)優(yōu)里解放出來。

而 Frontier-Eng Bench 想測(cè)的,正是 AI 能不能接過這一段過程。



Frontier-Eng 總覽

論文把這類問題定義為一種新的評(píng)測(cè)范式:Generative Optimization(生成式優(yōu)化)。它本質(zhì)上是在讓 Agent 不再只「交一次答案」,而是真正進(jìn)入一個(gè)工程閉環(huán):

  1. 提出方案
  2. 運(yùn)行程序或仿真器
  3. 獲取詳細(xì)反饋
  4. 繼續(xù)修改方案
  5. 在固定預(yù)算內(nèi)不斷逼近更優(yōu)解

這其實(shí)就是科研人員和工程師們每天都在做的事情。不是拍腦袋給出一個(gè)最終答案,而是不斷試、不斷調(diào)、不斷被現(xiàn)實(shí)打臉,再反過來修。

把 Agent 扔進(jìn)大量真實(shí)工程問題里

為了把這件事做成一個(gè)靠譜的 benchmark,Navers Lab 搭了一個(gè)相當(dāng)硬核的評(píng)測(cè)系統(tǒng)。

研究團(tuán)隊(duì)邀請(qǐng)了各個(gè)工程領(lǐng)域的 PhD 、Master student,提供他們?cè)诟髯灶I(lǐng)域經(jīng)常遇到的真實(shí)問題,并將其轉(zhuǎn)化成安全、可靠、可驗(yàn)證的代碼庫(kù)。換句話說,F(xiàn)rontier-Eng 背后的每一個(gè)任務(wù),都來自領(lǐng)域?qū)<业囊皇纸?jīng)驗(yàn)。

Frontier-Eng v1 一共覆蓋 47 個(gè)任務(wù),橫跨 5 大工程方向,包括:

  • 計(jì)算與量子信息
  • 運(yùn)籌與決策科學(xué)
  • 機(jī)器人 / 控制 / 能源系統(tǒng)
  • 光學(xué)與通信系統(tǒng)
  • 物理科學(xué)與工程設(shè)計(jì)

任務(wù)類型也不是紙上談兵,而是直接把 Agent 扔進(jìn)了大量真實(shí)工程問題里,包括:

  • GPU kernel 優(yōu)化
  • 電池快充策略
  • 機(jī)械臂運(yùn)動(dòng)時(shí)間壓縮
  • 量子線路優(yōu)化
  • 數(shù)據(jù)中心控制
  • 結(jié)構(gòu)拓?fù)湓O(shè)計(jì)
  • 作業(yè)車間調(diào)度
  • 光學(xué)相位設(shè)計(jì)
  • 單細(xì)胞分析
  • 化學(xué)反應(yīng)優(yōu)化



Frontier-Eng Bench 與已有評(píng)測(cè)基準(zhǔn)的對(duì)比

這意味著 Frontier-Eng Bench 測(cè)的不是某一個(gè)窄領(lǐng)域里的「技巧題」,而是在問:

當(dāng) Agent 面對(duì)不同學(xué)科、不同目標(biāo)函數(shù)、不同仿真器、不同硬約束時(shí),它持續(xù)優(yōu)化的能力到底怎么樣

一個(gè)專門防止 Agent「鉆空子」,只拼「硬實(shí)力」的 Benchmark

Frontier-Eng Bench 明顯吸取了過去很多評(píng)測(cè)容易 “被鉆空子” 的教訓(xùn)。在這里:

  • 評(píng)測(cè)器和參考數(shù)據(jù)是只讀的,Agent 改不了;
  • 候選方案在隔離環(huán)境里跑,沒法直接碰評(píng)分器;
  • 最終分?jǐn)?shù)來自 verifier 自己吐出來的日志,而不是 Agent 自己報(bào)喜不報(bào)憂。

也就是說,想拿高分,只有一條路:真的把方案做得更好

這件事為什么難?因?yàn)樗蟮囊呀?jīng)不是單點(diǎn)能力,而是能力的組合。

模型既要懂領(lǐng)域知識(shí),知道電池為什么會(huì)析鋰、機(jī)械臂為什么會(huì)撞、庫(kù)存策略為什么會(huì)失效;又要會(huì)寫和改代碼,把這些想法變成可執(zhí)行方案;還要會(huì)讀反饋,理解 simulator 給出的結(jié)果到底意味著什么;最后還得在有限預(yù)算里做搜索決策:是大改一版,還是小修一刀?

論文里舉了一個(gè)很典型的例子:電池快充任務(wù)。目標(biāo)很簡(jiǎn)單,大家都能聽懂 —— 充得越快越好。

但現(xiàn)實(shí)一點(diǎn)都不簡(jiǎn)單:電壓、溫度、析鋰、老化全是硬約束。Agent 不能只為了快一路猛沖,它必須在充電速度、熱安全和壽命損耗之間找平衡。

這就不是「會(huì)不會(huì)寫一個(gè)函數(shù)」的問題了,而是能不能在真實(shí)物理反饋里做優(yōu)化決策

這也是 Frontier-Eng 最有意思的地方:

它不再問「答案對(duì)不對(duì)」,而是問「你能不能在現(xiàn)實(shí)約束里持續(xù)變好」。



不同模型的詳細(xì)評(píng)測(cè)結(jié)果

結(jié)果揭示:gpt 5.4 最穩(wěn)健,但前路尚遠(yuǎn)

從結(jié)果看,這套 benchmark 也確實(shí)夠難。

論文系統(tǒng)評(píng)測(cè)了多種前沿模型和代表性搜索框架,結(jié)論很直接:gpt 5.4整體表現(xiàn)最穩(wěn)健,但對(duì)所有模型來說,F(xiàn)rontier-Eng 都遠(yuǎn)沒被做穿

換句話說,今天最強(qiáng)的一批模型,已經(jīng)能在一些工程任務(wù)上展現(xiàn)出明顯的優(yōu)化能力,但距離「像資深工程師一樣穩(wěn)定地跨領(lǐng)域做復(fù)雜優(yōu)化」,還差得很遠(yuǎn)。

比排名更有意思的,是這篇論文順手揭示出的兩個(gè)規(guī)律。



工程優(yōu)化的雙重冪律衰減

第一個(gè)規(guī)律是:越往后,提升越難

論文發(fā)現(xiàn),Agent 的改進(jìn)頻率和幅度都呈現(xiàn)冪律衰減:改進(jìn)頻率 ∝ 1 / 迭代輪數(shù),改進(jìn)幅度 ∝ 1 / 改進(jìn)次數(shù)。簡(jiǎn)單說就是:前面幾輪漲得最快,后面越來越難、越來越小。

這很像真實(shí)研發(fā):第一版能干掉大量低垂果實(shí),但越往后越接近瓶頸,想再摳一點(diǎn)性能都得下狠功夫。

那是不是多開幾條路并行試會(huì)更劃算?答案在第二個(gè)規(guī)律。



深度 vs 寬度

第二個(gè)規(guī)律:寬度有用,但深度不可或缺

并行多跑幾條線能避免卡殼,但預(yù)算固定時(shí),每多開一條鏈就會(huì)壓淺深度。很多工程突破不是靠「多試幾次」,而是靠持續(xù)積累、不斷修正,才出現(xiàn)結(jié)構(gòu)性躍遷。

這提示了下一代 Agent 的方向:不是「一次出答案」的模型,而是能在長(zhǎng)程反饋里持續(xù)迭代、自我進(jìn)化的系統(tǒng)。

Frontier-Eng Bench:意義不止于榜單

Frontier-Eng Bench 把行業(yè)注意力從「能不能答對(duì)」拽到了更現(xiàn)實(shí)的問題上:AI 能不能替人扛下科研里那些最惡心、最瑣碎、又繞不開的活兒

評(píng)測(cè)尺度變了 —— 不再是「對(duì)或錯(cuò)」,而是「你能優(yōu)化到什么程度」。

從這個(gè)角度看,F(xiàn)rontier-Eng Bench 測(cè)的是:AI 距離成為幫人類干臟活累活的工程優(yōu)化執(zhí)行者,還有多遠(yuǎn)?

迭代優(yōu)化是 Research 中永遠(yuǎn)無法規(guī)避的一環(huán)。繞開它,方案永遠(yuǎn)停在「差不多」。如果 AI 能扛下這一環(huán)呢?

對(duì)科研人員來說,意味著從磨人的調(diào)優(yōu)中解放出來

對(duì) Auto Research,則意味著能把方案落地到極致,才能真正地開啟飛輪。

這比又一組刷榜數(shù)字,更值得行業(yè)認(rèn)真對(duì)待。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
35歲惠若琪近況曝光!嫁給醫(yī)學(xué)博士生下一女,婚姻幸福被寵成公主

35歲惠若琪近況曝光!嫁給醫(yī)學(xué)博士生下一女,婚姻幸福被寵成公主

代軍哥哥談娛樂
2026-05-13 10:26:06
美國(guó)車?yán)?,也就特斯拉還能在特朗普隨行團(tuán)中充個(gè)數(shù)

美國(guó)車?yán)?,也就特斯拉還能在特朗普隨行團(tuán)中充個(gè)數(shù)

虎嗅APP
2026-05-14 05:51:04
公然拒掛國(guó)旗,訂單全給日韓,長(zhǎng)榮如今的結(jié)局早已注定

公然拒掛國(guó)旗,訂單全給日韓,長(zhǎng)榮如今的結(jié)局早已注定

瀲滟晴方DAY
2026-05-11 06:31:37
北京銀行:沉淀2025,贏戰(zhàn)2026

北京銀行:沉淀2025,贏戰(zhàn)2026

BT財(cái)經(jīng)
2026-05-06 06:00:03
坐標(biāo)上海!被裁失業(yè)后的生活,引炸評(píng)論區(qū),大家同為天涯淪落人…

坐標(biāo)上海!被裁失業(yè)后的生活,引炸評(píng)論區(qū),大家同為天涯淪落人…

慧翔百科
2026-05-13 11:30:11
45萬“買”煙草局編制?詐騙人員伙同物業(yè)員工,帶人進(jìn)成都市煙草局會(huì)議室“面試”,兩年多時(shí)間里詐騙36人獲利874萬,主犯獲刑13年6個(gè)月

45萬“買”煙草局編制?詐騙人員伙同物業(yè)員工,帶人進(jìn)成都市煙草局會(huì)議室“面試”,兩年多時(shí)間里詐騙36人獲利874萬,主犯獲刑13年6個(gè)月

揚(yáng)子晚報(bào)
2026-05-14 07:28:52
黃仁勛:這會(huì)是一次非常成功的會(huì)晤

黃仁勛:這會(huì)是一次非常成功的會(huì)晤

財(cái)聞
2026-05-14 11:52:57
日本球迷集體破防!要求取消林詩(shī)棟金牌,國(guó)際乒聯(lián)的回應(yīng)太解氣了

日本球迷集體破防!要求取消林詩(shī)棟金牌,國(guó)際乒聯(lián)的回應(yīng)太解氣了

趣文說娛
2026-05-13 22:07:14
武漢大學(xué)理工科學(xué)生怒了!再次要求與文科生劃清界限:不想再為你們的錯(cuò)誤買單

武漢大學(xué)理工科學(xué)生怒了!再次要求與文科生劃清界限:不想再為你們的錯(cuò)誤買單

可達(dá)鴨面面觀
2026-05-14 09:24:56
美職聯(lián)射手榜:梅西“帽子”被吹,11球居次席;屈佩爾12球領(lǐng)跑

美職聯(lián)射手榜:梅西“帽子”被吹,11球居次席;屈佩爾12球領(lǐng)跑

懂球帝
2026-05-14 11:37:07
“那家伙在空軍1號(hào)前居然一動(dòng)不動(dòng)”!美媒注意到一名中國(guó)儀仗兵

“那家伙在空軍1號(hào)前居然一動(dòng)不動(dòng)”!美媒注意到一名中國(guó)儀仗兵

阿龍聊軍事
2026-05-14 11:02:15
山東招遠(yuǎn)一礦業(yè)公司基建礦區(qū)發(fā)生事故,造成3人死亡、2人受傷

山東招遠(yuǎn)一礦業(yè)公司基建礦區(qū)發(fā)生事故,造成3人死亡、2人受傷

界面新聞
2026-05-14 09:48:55
84秒!000711,從漲停到跌停

84秒!000711,從漲停到跌停

大眾證券報(bào)
2026-05-14 10:44:04
廣東宏遠(yuǎn)今日早報(bào)!老板全額發(fā)放獎(jiǎng)金,外援全部離隊(duì),杜峰去向曝光,多名球隊(duì)合同到期

廣東宏遠(yuǎn)今日早報(bào)!老板全額發(fā)放獎(jiǎng)金,外援全部離隊(duì),杜峰去向曝光,多名球隊(duì)合同到期

凱豐侃球
2026-05-14 09:40:15
瞬間成為百萬富翁!有網(wǎng)友用AI某找回含有5枚比特幣的錢包密碼,激動(dòng)的瘋狂爆粗

瞬間成為百萬富翁!有網(wǎng)友用AI某找回含有5枚比特幣的錢包密碼,激動(dòng)的瘋狂爆粗

西游日記
2026-05-14 10:46:28
花旗將獲中國(guó)第七張外商獨(dú)資券商牌照

花旗將獲中國(guó)第七張外商獨(dú)資券商牌照

風(fēng)向觀察
2026-05-14 08:46:29
盧比奧來了,那些所謂的專家又被狠狠打臉

盧比奧來了,那些所謂的專家又被狠狠打臉

壹家言
2026-05-14 10:51:40
特朗普訪華,美國(guó)駐華大使館的評(píng)論區(qū)亮了

特朗普訪華,美國(guó)駐華大使館的評(píng)論區(qū)亮了

歷史總在押韻
2026-05-13 18:29:26
女子穿禮服退款后續(xù):身份被扒已社死,工作被停職,商家準(zhǔn)備起訴

女子穿禮服退款后續(xù):身份被扒已社死,工作被停職,商家準(zhǔn)備起訴

千言?shī)蕵酚?/span>
2026-05-13 12:18:49
摩洛哥幸福新娘事件升級(jí)!河南一男子刷到該視頻,斷然與對(duì)象退婚

摩洛哥幸福新娘事件升級(jí)!河南一男子刷到該視頻,斷然與對(duì)象退婚

火山詩(shī)話
2026-05-14 07:04:08
2026-05-14 13:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12990文章數(shù) 142648關(guān)注度
往期回顧 全部

科技要聞

馬斯克:只有我和黃仁勛坐上了"空軍一號(hào)"

頭條要聞

兄妹救4名落水者后遭拉黑 被告知獲救者身份不便公開

頭條要聞

兄妹救4名落水者后遭拉黑 被告知獲救者身份不便公開

體育要聞

登海報(bào)!哈登30+8+6創(chuàng)多項(xiàng)紀(jì)錄 第8次贏天王山

娛樂要聞

肖戰(zhàn)提名金海燕獎(jiǎng),這一步走得太穩(wěn)

財(cái)經(jīng)要聞

片仔癀依舊困在“片仔癀”

汽車要聞

C級(jí)純電轎跑 吉利銀河"TT"申報(bào)圖來了

態(tài)度原創(chuàng)

本地
藝術(shù)
手機(jī)
公開課
軍事航空

本地新聞

用蘇繡的方式,打開江西婺源

藝術(shù)要聞

充滿光感的花卉油畫 | 亞歷山大·沙巴德伊

手機(jī)要聞

商務(wù)人士與白領(lǐng)必看!OPPO Find N6、三星Z Fold7誰更值得買?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美以伊戰(zhàn)爭(zhēng)期間以總理密訪阿聯(lián)酋

無障礙瀏覽 進(jìn)入關(guān)懷版