![]()
過去兩年,AI Agent 的能力邊界被不斷刷新:會寫代碼、會調(diào)用工具、會反思失敗,也開始能在任務執(zhí)行中積累經(jīng)驗。
但一個更現(xiàn)實的問題正在浮現(xiàn):
如果一個 Agent 真的被部署到真實世界,它還能繼續(xù)變強嗎?
不是在一個固定 benchmark 上反復刷分,也不是只針對某一種任務改 prompt,而是在真實使用中同時面對代碼、數(shù)學、知識問答、公式計算、復雜推理等不斷變化的任務輸入,還能不能持續(xù)適應、穩(wěn)定提升?
這正是 EEVEE 想解決的問題。
來自上海交通大學與普林斯頓大學的研究團隊發(fā)布了 EEVEE,一個面向 LLM Agent 的測試時提示學習框架。它試圖把 prompt learning 從 “單一任務優(yōu)化” 推向更接近真實部署的場景:讓智能體在多類型任務不斷涌入時,仍然能夠繼續(xù)學習,而不是顧此失彼。
![]()
- 論文鏈接:https://arxiv.org/abs/2606.11182
- 項目主頁:https://princeton-ai2-lab.github.io/EEVEE/
- 開源代碼:https://github.com/Princeton-AI2-Lab/EEVEE
單一任務上的進步,還不夠
今天已經(jīng)有很多 prompt optimization 方法可以讓模型在一個任務上變得更好。
例如,在一個數(shù)學題集上學會更嚴謹?shù)慕忸}步驟;在一個代碼任務上學會輸出更規(guī)范的函數(shù)體;在一個問答任務上學會更符合評測格式的回答。
這很有價值,但它離真實 Agent 還差一步。
真實部署中的 Agent 不會只遇到一種任務。它可能上一秒在寫代碼,下一秒在做金融公式計算,再下一步又要回答科學問題。不同任務需要的行為完全不同:有的要求嚴格輸出格式,有的要求符號推理,有的要求知識判斷,有的要求可執(zhí)行代碼。
如果所有反饋都被塞進同一個 prompt,問題就會出現(xiàn):
一個任務上學到的經(jīng)驗,可能會傷害另一個任務。
比如,為了公式題學到 “只輸出數(shù)字”,可能會影響需要解釋推理過程的題;為了代碼題學到 “只輸出函數(shù)體”,也可能不適合知識問答。任務越多,單一 prompt 越容易變成一個互相沖突的雜糅體。
這就是 EEVEE 要面對的核心挑戰(zhàn):智能體不能只在單科變強,而要在多種任務中一起進化。
任務越多,差距越明顯
EEVEE 最有說服力的結果,不是單個任務上的分數(shù),而是任務不斷增加時的表現(xiàn)。
研究團隊把多個不同類型的任務依次加入同一個學習過程,觀察 prompt learning 方法能不能持續(xù)累積收益。
結果非常直接:
當任務越來越多時,一些強基線方法的收益開始停止疊加,甚至跌到負數(shù);而 EEVEE 仍然保持正向提升,最終在任務全部加入后達到約+42 的累計提升
換句話說,EEVEE 的優(yōu)勢不是 “單點提分”,而是任務變復雜之后還能繼續(xù)往上走。
這非常關鍵。因為真實世界里的 Agent,面對的永遠不是一個干凈、封閉、單一的任務環(huán)境,而是不斷變化的任務組合。
![]()
全方位提升:不同模型上都有效
在主實驗中,研究團隊使用了四類代表性任務:知識問答、公式計算、數(shù)學 / 符號推理、代碼生成。這些任務放在一起,構成了一個更接近真實 Agent 工作負載的混合環(huán)境。
在這個設置下,EEVEE 在不同 backbone 上都帶來了明顯提升:
- 在 Qwen3-4B-Instruct 上,平均分從 41.37 提升到 51.75,相對提升約25%
- 在 DeepSeek-V3.2 上,平均分從 39.75 提升到 64.07,相對提升約61%
- 相比現(xiàn)有 SOTA prompt-learning 方法,最高相對提升達到48.2%
這說明 EEVEE 并不是只對某個模型、某個任務有效,而是在更廣泛的混合任務設置中,都能讓智能體獲得更穩(wěn)定的整體提升。
![]()
不只是 “多開幾個 prompt”:EEVEE 如何讓智能體分工進化?
EEVEE 的思路可以用一句話概括:
先分流,再用專門 prompt 推理。
它不再讓所有任務共享一個 prompt,而是維護多個 specialized prompts。每當輸入到來,EEVEE 會先判斷它更適合哪一類 prompt,再讓模型帶著對應 prompt 去回答。
但這不是簡單的人工分類。
EEVEE 不會事先規(guī)定 “數(shù)學題走數(shù)學 prompt,代碼題走代碼 prompt”。因為真實任務的差異往往不在表面任務名稱上,而在不同 prompt 的實際表現(xiàn)上。
同樣是數(shù)學題,有的需要公式計算,有的需要定理推理,有的需要嚴格輸出格式。真正有用的劃分,是在學習過程中逐漸形成的。
這也帶來了關鍵難點:router 和 prompt 不能分開學。
router 決定每個 prompt 會看到哪些樣本;prompt 的能力又決定了怎樣的路由是有意義的。
因此,EEVEE 采用 router–prompt co-evolution:先優(yōu)化 router,重新劃分任務;再優(yōu)化每個 prompt;隨后把更新后的 prompt 反饋給下一輪 router。這個過程不斷循環(huán),讓路由更清晰,prompt 更專門化。
最終,智能體不是靠一個越來越長、越來越混亂的 prompt 適應所有任務,而是把經(jīng)驗組織起來,讓不同任務模式進入更合適的學習路徑。
![]()
單一任務上依舊優(yōu)秀
一個自然的問題是:如果 EEVEE 是為多任務設計的,它會不會犧牲單任務能力?
實驗顯示并沒有。
當每個 benchmark 單獨進行 prompt learning 時,EEVEE 仍然保持很強的競爭力。例如:
- Formula 任務達到
- HumanEval 任務達到
- TheoremQA 從 14.73 提升到
這說明 EEVEE 不是靠 “路由” 掩蓋 prompt learning 本身的不足。相反,它的 prompt 學習機制在單任務上同樣有效;當任務變多時,router 才進一步發(fā)揮組織經(jīng)驗、避免互相干擾的作用。
![]()
不靠堆砌上下文
很多讓 Agent 變強的方法,都有一個共同副作用:上下文越來越長。
系統(tǒng)不斷把經(jīng)驗、規(guī)則、案例、playbook 追加進 prompt,短期看可能有效,但任務一多,成本就會迅速上升,prompt 也會變得冗長混亂。
EEVEE 沒有走這條路。
雖然它增加了一個路由步驟,但整體 token 成本仍然保持在較低水平。實驗顯示,EEVEE 平均每個測試樣本使用4.32K tokens,接近高效 prompt-learning 基線 GEPA 的3.47K,遠低于 ACE 的21.30K
也就是說,EEVEE 的提升并不是靠無限擴展上下文堆出來的,而是來自更有效的任務組織和 prompt specialization。
![]()
Prompt learning 真正學到的是什么?
論文中的案例分析也揭示了一個很重要的現(xiàn)象:
Prompt learning 最擅長學習的,不是憑空補充知識,而是把反饋轉(zhuǎn)化成可復用的做事方式。
在代碼任務中,它能學會保持函數(shù)接口、輸出可執(zhí)行代碼、處理邊界條件;在公式任務中,它能學會正確套公式、保持單位尺度、輸出符合評測要求的答案格式。
但對于知識密集型問答,情況會更復雜。Prompt learning 可以讓模型推理更系統(tǒng),卻不一定能補上缺失的領域知識。如果模型本身缺少關鍵事實,單靠 prompt 不一定能解決。
這說明 EEVEE 并不是在宣稱 prompt learning 可以解決一切。它真正展示的是:當反饋能夠變成可復用的過程、格式和策略時,智能體可以在測試時持續(xù)吸收這些經(jīng)驗,并把它們組織到更合適的 prompt 中。
這比單純 “改一個 prompt” 更接近真實 Agent 的學習方式。
![]()
讓 Agent 從單科進步走向全方位進化
過去的 prompt optimization,更像是在訓練一個 Agent 做好某一門課。
它可以在一個固定任務上反復練習,逐漸摸清規(guī)律,拿到更高分數(shù)。
但真實世界要求的不是 “單科提分”,而是更接近 “全科成長”:任務不斷變化,反饋不斷變化,能力需求也不斷變化。一個真正有用的 self-improving Agent,必須能在部署后繼續(xù)適應這些變化,而不是只在單一 benchmark 上越來越熟練。
EEVEE 的意義就在于此。
它把 test-time prompt learning 從單一任務推向多類型任務共同到來的場景,讓智能體開始學習如何組織經(jīng)驗、區(qū)分任務模式、保留不同能力,并在復雜任務流中繼續(xù)提升整體表現(xiàn)。
這還不是最終形態(tài)。論文也指出,EEVEE 仍然依賴 ground-truth 或 rule-based feedback,還不是完全在線、完全自監(jiān)督的自我提升系統(tǒng)。
但它邁出了關鍵一步:當智能體真正面對真實世界中復雜、多樣、不斷變化的任務時,prompt learning 仍然可以成為一種有效的持續(xù)適應機制。
從單一任務到全方位進化,這正是 EEVEE 想打開的一扇門。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.