網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

告別「單科專家」：首個Agent全面進化框架EEVEE發(fā)布

2026-06-22 13:12:53　來源: 機器之心Pro

天津舉報

分享至

過去兩年，AI Agent 的能力邊界被不斷刷新：會寫代碼、會調(diào)用工具、會反思失敗，也開始能在任務執(zhí)行中積累經(jīng)驗。

但一個更現(xiàn)實的問題正在浮現(xiàn)：

如果一個 Agent 真的被部署到真實世界，它還能繼續(xù)變強嗎？

不是在一個固定 benchmark 上反復刷分，也不是只針對某一種任務改 prompt，而是在真實使用中同時面對代碼、數(shù)學、知識問答、公式計算、復雜推理等不斷變化的任務輸入，還能不能持續(xù)適應、穩(wěn)定提升？

這正是 EEVEE 想解決的問題。

來自上海交通大學與普林斯頓大學的研究團隊發(fā)布了 EEVEE，一個面向 LLM Agent 的測試時提示學習框架。它試圖把 prompt learning 從 “單一任務優(yōu)化” 推向更接近真實部署的場景：讓智能體在多類型任務不斷涌入時，仍然能夠繼續(xù)學習，而不是顧此失彼。

論文鏈接：https://arxiv.org/abs/2606.11182
項目主頁：https://princeton-ai2-lab.github.io/EEVEE/
開源代碼：https://github.com/Princeton-AI2-Lab/EEVEE

單一任務上的進步，還不夠

今天已經(jīng)有很多 prompt optimization 方法可以讓模型在一個任務上變得更好。

例如，在一個數(shù)學題集上學會更嚴謹?shù)慕忸}步驟；在一個代碼任務上學會輸出更規(guī)范的函數(shù)體；在一個問答任務上學會更符合評測格式的回答。

這很有價值，但它離真實 Agent 還差一步。

真實部署中的 Agent 不會只遇到一種任務。它可能上一秒在寫代碼，下一秒在做金融公式計算，再下一步又要回答科學問題。不同任務需要的行為完全不同：有的要求嚴格輸出格式，有的要求符號推理，有的要求知識判斷，有的要求可執(zhí)行代碼。

如果所有反饋都被塞進同一個 prompt，問題就會出現(xiàn)：

一個任務上學到的經(jīng)驗，可能會傷害另一個任務。

比如，為了公式題學到 “只輸出數(shù)字”，可能會影響需要解釋推理過程的題；為了代碼題學到 “只輸出函數(shù)體”，也可能不適合知識問答。任務越多，單一 prompt 越容易變成一個互相沖突的雜糅體。

這就是 EEVEE 要面對的核心挑戰(zhàn)：智能體不能只在單科變強，而要在多種任務中一起進化。

任務越多，差距越明顯

EEVEE 最有說服力的結果，不是單個任務上的分數(shù)，而是任務不斷增加時的表現(xiàn)。

研究團隊把多個不同類型的任務依次加入同一個學習過程，觀察 prompt learning 方法能不能持續(xù)累積收益。

結果非常直接：

當任務越來越多時，一些強基線方法的收益開始停止疊加，甚至跌到負數(shù)；而 EEVEE 仍然保持正向提升，最終在任務全部加入后達到約+42 的累計提升

換句話說，EEVEE 的優(yōu)勢不是 “單點提分”，而是任務變復雜之后還能繼續(xù)往上走。

這非常關鍵。因為真實世界里的 Agent，面對的永遠不是一個干凈、封閉、單一的任務環(huán)境，而是不斷變化的任務組合。

全方位提升：不同模型上都有效

在主實驗中，研究團隊使用了四類代表性任務：知識問答、公式計算、數(shù)學 / 符號推理、代碼生成。這些任務放在一起，構成了一個更接近真實 Agent 工作負載的混合環(huán)境。

在這個設置下，EEVEE 在不同 backbone 上都帶來了明顯提升：

在 Qwen3-4B-Instruct 上，平均分從 41.37 提升到 51.75，相對提升約25%
在 DeepSeek-V3.2 上，平均分從 39.75 提升到 64.07，相對提升約61%
相比現(xiàn)有 SOTA prompt-learning 方法，最高相對提升達到48.2%

這說明 EEVEE 并不是只對某個模型、某個任務有效，而是在更廣泛的混合任務設置中，都能讓智能體獲得更穩(wěn)定的整體提升。

不只是 “多開幾個 prompt”：EEVEE 如何讓智能體分工進化？

EEVEE 的思路可以用一句話概括：

先分流，再用專門 prompt 推理。

它不再讓所有任務共享一個 prompt，而是維護多個 specialized prompts。每當輸入到來，EEVEE 會先判斷它更適合哪一類 prompt，再讓模型帶著對應 prompt 去回答。

但這不是簡單的人工分類。

EEVEE 不會事先規(guī)定 “數(shù)學題走數(shù)學 prompt，代碼題走代碼 prompt”。因為真實任務的差異往往不在表面任務名稱上，而在不同 prompt 的實際表現(xiàn)上。

同樣是數(shù)學題，有的需要公式計算，有的需要定理推理，有的需要嚴格輸出格式。真正有用的劃分，是在學習過程中逐漸形成的。

這也帶來了關鍵難點：router 和 prompt 不能分開學。

router 決定每個 prompt 會看到哪些樣本；prompt 的能力又決定了怎樣的路由是有意義的。

因此，EEVEE 采用 router–prompt co-evolution：先優(yōu)化 router，重新劃分任務；再優(yōu)化每個 prompt；隨后把更新后的 prompt 反饋給下一輪 router。這個過程不斷循環(huán)，讓路由更清晰，prompt 更專門化。

最終，智能體不是靠一個越來越長、越來越混亂的 prompt 適應所有任務，而是把經(jīng)驗組織起來，讓不同任務模式進入更合適的學習路徑。

單一任務上依舊優(yōu)秀

一個自然的問題是：如果 EEVEE 是為多任務設計的，它會不會犧牲單任務能力？

實驗顯示并沒有。

當每個 benchmark 單獨進行 prompt learning 時，EEVEE 仍然保持很強的競爭力。例如：

Formula 任務達到
HumanEval 任務達到
TheoremQA 從 14.73 提升到

這說明 EEVEE 不是靠 “路由” 掩蓋 prompt learning 本身的不足。相反，它的 prompt 學習機制在單任務上同樣有效；當任務變多時，router 才進一步發(fā)揮組織經(jīng)驗、避免互相干擾的作用。

不靠堆砌上下文

很多讓 Agent 變強的方法，都有一個共同副作用：上下文越來越長。

系統(tǒng)不斷把經(jīng)驗、規(guī)則、案例、playbook 追加進 prompt，短期看可能有效，但任務一多，成本就會迅速上升，prompt 也會變得冗長混亂。

EEVEE 沒有走這條路。

雖然它增加了一個路由步驟，但整體 token 成本仍然保持在較低水平。實驗顯示，EEVEE 平均每個測試樣本使用4.32K tokens，接近高效 prompt-learning 基線 GEPA 的3.47K，遠低于 ACE 的21.30K

也就是說，EEVEE 的提升并不是靠無限擴展上下文堆出來的，而是來自更有效的任務組織和 prompt specialization。

Prompt learning 真正學到的是什么？

論文中的案例分析也揭示了一個很重要的現(xiàn)象：

Prompt learning 最擅長學習的，不是憑空補充知識，而是把反饋轉(zhuǎn)化成可復用的做事方式。

在代碼任務中，它能學會保持函數(shù)接口、輸出可執(zhí)行代碼、處理邊界條件；在公式任務中，它能學會正確套公式、保持單位尺度、輸出符合評測要求的答案格式。

但對于知識密集型問答，情況會更復雜。Prompt learning 可以讓模型推理更系統(tǒng)，卻不一定能補上缺失的領域知識。如果模型本身缺少關鍵事實，單靠 prompt 不一定能解決。

這說明 EEVEE 并不是在宣稱 prompt learning 可以解決一切。它真正展示的是：當反饋能夠變成可復用的過程、格式和策略時，智能體可以在測試時持續(xù)吸收這些經(jīng)驗，并把它們組織到更合適的 prompt 中。

這比單純 “改一個 prompt” 更接近真實 Agent 的學習方式。

讓 Agent 從單科進步走向全方位進化

過去的 prompt optimization，更像是在訓練一個 Agent 做好某一門課。

它可以在一個固定任務上反復練習，逐漸摸清規(guī)律，拿到更高分數(shù)。

但真實世界要求的不是 “單科提分”，而是更接近 “全科成長”：任務不斷變化，反饋不斷變化，能力需求也不斷變化。一個真正有用的 self-improving Agent，必須能在部署后繼續(xù)適應這些變化，而不是只在單一 benchmark 上越來越熟練。

EEVEE 的意義就在于此。

它把 test-time prompt learning 從單一任務推向多類型任務共同到來的場景，讓智能體開始學習如何組織經(jīng)驗、區(qū)分任務模式、保留不同能力，并在復雜任務流中繼續(xù)提升整體表現(xiàn)。

這還不是最終形態(tài)。論文也指出，EEVEE 仍然依賴 ground-truth 或 rule-based feedback，還不是完全在線、完全自監(jiān)督的自我提升系統(tǒng)。

但它邁出了關鍵一步：當智能體真正面對真實世界中復雜、多樣、不斷變化的任務時，prompt learning 仍然可以成為一種有效的持續(xù)適應機制。

從單一任務到全方位進化，這正是 EEVEE 想打開的一扇門。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

強化學習之父Sutton聯(lián)手Carmack：讓機器人進入真實世界打游戲

機器之心Pro 2026-06-21 17:32:46
0 跟貼 0
入選ECCV2026！清華開源空間模型打敗Gemini：世界變化中持續(xù)學習

量子位 2026-06-22 11:44:13
0 跟貼 0

微信Agent“小微”亮相：能力是明牌，邊界才是真正的懸念

鈦媒體APP 2026-06-22 12:10:23
0 跟貼 0

在清華，我拍到了物理AGI第一幕！

新智元 2026-06-22 13:35:48
0 跟貼 0
恩和發(fā)布BPL協(xié)議語言，定位生物制造的“工業(yè)級編譯器”

鈦媒體APP 2026-06-22 10:00:22
0 跟貼 0

代碼放權與算法收權：數(shù)智時代領導者如何用“智能合約”激活組織自驅(qū)引擎

經(jīng)濟觀察報 2026-06-22 09:08:04
0 跟貼 0

從眼控到腦控，蔡磊化身“賽博軀體”稱將把意識傳送到具身機器人

第一財經(jīng)資訊 2026-06-21 15:40:24
824 跟貼 824
朱旻琦：具身智能用一天進化一天、聰明一天機器人普及核心痛點是需要二次開發(fā)和適配

財聯(lián)社 2026-04-17 16:59:02
0 跟貼 0

靈巧手的第一份高難度考卷，中科院自動化所發(fā)布DexJoCo

機器之心Pro 2026-06-08 12:44:34
0 跟貼 0
中科院工業(yè)人工智能研究所世界模型PAIWorld登頂WorldArena榜單！

機器之心Pro 2026-06-22 13:16:43
0 跟貼 0
AI for Computing迎來破局者，國產(chǎn)黑馬智子芯元兩個月融了兩輪！

機器之心Pro 2026-06-22 14:10:51
0 跟貼 0
微信終于要給 AI 手機開門了｜AI 器物志

愛范兒 2026-06-22 12:10:51
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
王曉野：Working Agent將是下一個爆發(fā)點

量子位 2026-05-21 08:05:51
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉(zhuǎn)移

量子位 2026-04-03 22:52:35
0 跟貼 0
AI“黑船”來襲？日本企業(yè)界憂心重重軟銀提網(wǎng)絡安全倡議

財聯(lián)社 2026-06-22 14:25:05
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉(zhuǎn)發(fā)：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
教培“例子”下沉，AI時代最后的人肉銷售

芥末堆看教育 2026-06-22 14:27:24
0 跟貼 0
后端JD沒寫AI，面試卻考Agent和RAG？

摸魚算法 2026-06-22 04:06:28
0 跟貼 0
一個程序員的自白:10年搭起的三根職業(yè)支柱,全倒了,不如去做木匠

機器之心Pro 2026-06-22 11:43:16
0 跟貼 0
簡單的幾個公式，不簡單的人際交往

樹妹說職場 2026-06-18 21:19:29
5 跟貼 5
兩大核武國家，“水仗”升級

中國新聞周刊 2026-06-21 19:23:56
5593 跟貼 5593
大學生實習日薪180元弄丟客戶6.5萬元勞力士表

極目新聞 2026-06-21 14:57:13
5500 跟貼 5500
DeepSeek缺Agent人才缺瘋了！負責人各種貼廣告

量子位 2026-06-22 13:10:10
0 跟貼 0
一句代碼嘲諷：Valve知道你在挖《半衰期3》

像素與芯片 2026-06-22 02:28:56
0 跟貼 0
哪家公司代碼是771

楊村章若男 2026-06-19 09:34:06
0 跟貼 0
2比2戰(zhàn)平烏拉圭！佛得角再造冷門，手握出線主動權

澎湃新聞 2026-06-22 08:06:28
5325 跟貼 5325
沒人想要700億參數(shù)的大模型了？

固件更新中 2026-06-22 02:53:00
0 跟貼 0
為什么賭球你贏不了？根本不需要做局，一個財富公式讓你十賭九輸

溫義飛 2026-06-21 10:31:59
0 跟貼 0
不會寫代碼的普通人，也能靠手搓應用賺錢了？

壹號塔臺 2026-06-18 11:10:26
0 跟貼 0
AI自己寫代碼，訓出1B端側「小鋼炮」-1

機器之心Pro 2026-05-26 14:32:09
0 跟貼 0
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
為什么你對什么都提不起興趣？

小播讀書 2026-06-22 09:43:44
0 跟貼 0
《我看見兩朵一樣的云》關于愛情但更多探討的是真實與虛幻的邊界

楷威放映室 2026-06-21 18:38:01
0 跟貼 0
單Agent時代正式結束：一個干不過，就上300個-3

機器之心Pro 2026-04-22 00:08:00
0 跟貼 0
吉林 2026 最新招生計劃公布！5 大分數(shù)段報考策略一次性講透！#志愿填報##吉林高考#

仲老師講高考 2026-06-21 15:20:28
0 跟貼 0
舊社會女性處境太窒息：她們不是弱，是被規(guī)則勒死

小六一影視 2026-06-21 10:48:43
1 跟貼 1
秦昊：這套公式在國外怎么不好使了呢

娛小白ou 2026-06-19 08:04:56
0 跟貼 0

機器之心Pro

專業(yè)的人工智能媒體

13327文章數(shù) 142677關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數(shù)碼

藝術

教育

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

告別「單科專家」：首個Agent全面進化框架EEVEE發(fā)布

智譜盤中狂飆超40%，市值破萬億港元

中紀委打兩"虎" 另有一人從副省級降為副處級再被查

中紀委打兩"虎" 另有一人從副省級降為副處級再被查

法國球星祝中國隊下屆世界杯取得好成績

陪睡陪玩是皮毛，向佐揭內(nèi)娛暗規(guī)則

為AI芯片續(xù)命 中國人造鉆石等來了大機會

電動MINIJCW緞光特別版藏鋒上市盡顯低調(diào)賽道本色

態(tài)度原創(chuàng)

方正推出10.1英寸二合一Win11平板BSI16E0A，1499元

冷軍 人物油畫寫生8幅

中考幾何壓軸題，將軍飲馬

東風-17發(fā)射狀態(tài)首次公開 多車齊射場面硬核

為AI芯片續(xù)命中國人造鉆石等來了大機會

冷軍人物油畫寫生8幅

東風-17發(fā)射狀態(tài)首次公開多車齊射場面硬核