網易首頁 > 網易號 > 正文申請入駐

一句話生圖要過時了？開源圖像生成Agent進化出「工具編排」

2026-07-01 14:04:29　來源: 機器之心Pro

天津舉報

分享至

圖像生成正在從「一句話生成一張圖」，走向更接近真實創作流程的開放任務。

在實際使用中，用戶常常不只是給出一個 prompt：他可能要求畫面對齊某個地標、人物、商品或事件，也可能要求參考圖身份一致、材質特殊、或者要求模糊的描述也能表達清楚。面對這些需求，單靠生成模型一次前向推理很難穩定完成。

近期，來自香港科技大學（廣州）、美團、香港科技大學、新加坡國立大學等機構的研究團隊提出GenEvolve，一個面向開放圖像生成的自我進化智能體框架。它將一次生成建模為一「工具編排軌跡」：智能體先理解請求，再調用搜索、圖像檢索和生成知識工具，最后把外部證據、視覺參考和硬約束整理成 prompt-reference program，交給不同底層生成器渲染。

論文標題：GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation
論文鏈接：https://arxiv.org/abs/2605.21605
項目頁面：https://ephemeral182.github.io/GenEvolve/
代碼鏈接：https://github.com/MeiGen-AI/GenEvolve
模型權重：https://huggingface.co/MeiGen-AI/GenEvolve
數據與評測：https://huggingface.co/datasets/MeiGen-AI/GenEvolve-Data-Bench

GenEvolve 使用同一套智能體策略，分別搭配開源 Qwen-Image-Edit 與強生成器 Nano Banana Pro。

從 prompt 到工具軌跡

GenEvolve 關注兩類開放生成需求。第一類是Knowledge-Anchored：生成結果依賴外部世界知識，例如真實建筑、公眾人物、商品結構或事件線索。第二類是Quality-Anchored：結果依賴可校驗的視覺質量約束，例如文字、計數、布局、屬性綁定、解剖、材質和美學。

為此，GenEvolve 給智能體配置三類工具：文本搜索 search (q) 用于補充事實證據；圖像搜索 image_search (q) 用于獲取視覺參考；生成知識查詢 query_knowledge (skill) 用于激活內部對于文字渲染、空間布局、材質一致性等復雜需求所需要的技能。

因此，一次生成不再只是「寫一個更長的 prompt」，而是多輪決策：搜什么、看哪張參考圖、調用哪類生成知識、最終程序里必須寫入哪些約束。

數據與評測

為了訓練這樣的智能體，研究團隊構建了 GenEvolve-Data 和 GenEvolve-Bench。作者團隊沒有直接收集普通 prompt-image 對，而是從約 2 萬條結構化 recipe 出發，覆蓋實體、地標、產品、事件、文字、布局、計數、屬性、解剖、材質、美學和創意轉化等場景。

每個請求都會先交給 Teacher Agent 走一遍完整工具流程：查事實、找參考、調用生成知識、寫出最終 prompt-reference program。之后，數據還要經過程序檢查、VLM 審計、GT 圖像渲染和視覺過濾，最后切分成 SFT 軌跡、自我進化樣本和對應的 benchmark。

GenEvolve-Data 數據閉環：從結構化 recipe 到工具軌跡、VLM 審計、GT 圖像過濾，再切分為訓練和評測視圖。

自我進化：先篩出更好的軌跡

訓練過程分為兩步。

首先，GenEvolve 使用高質量 Teacher 軌跡對 Qwen3-VL-8B-Instruct 做 SFT 冷啟動，讓模型學會基本工具調用和程序寫法。

隨后進入自我進化的 Rollout 階段：對同一請求采樣多條 rollout，渲染成圖像后由視覺判分器和文本判分器共同打分，并使用 GRPO 優化軌跡級獎勵。

視覺經驗自蒸餾：把「好在哪里」教給模型

僅有軌跡級獎勵仍然不夠。它能告訴模型「哪條軌跡更好」，卻很難說明「好在哪里」。因此，GenEvolve 引入視覺經驗自蒸餾：系統比較同一請求下的最優與最差軌跡，把差異總結成結構化 Decision Guide，例如該搜索什么、該選擇哪類參考、該避免哪些失敗寫法。

接下來，這些經驗只提供給訓練階段的 privileged teacher。Student 在同一批樣本上仍然只看到普通輸入，不直接讀取經驗庫；teacher 則在 Decision Guide 的幫助下給出更好的 token 分布。我們再通過 token 級反向 KL，把 teacher 在關鍵決策 token 上的偏好蒸餾給 student。這樣，模型學到的不是一條離線記憶，而是「看到類似請求時應該如何搜索、選參考、組織約束」的決策習慣。

這也是 GenEvolve 和只做 RL 打分優化的主要區別。GRPO 提供的是「哪條軌跡更值得強化」的方向，視覺經驗自蒸餾提供的則是更細的 credit assignment：好軌跡到底好在工具計劃、參考選擇，還是最終 prompt-reference program 的某個約束寫法。部署時，student 不需要再查 Decision Guide 或經驗 buffer，經驗已經被壓進模型參數里。

GenEvolve 方法總覽：智能體采樣多條工具軌跡，比較最優與最差結果，將視覺經驗蒸餾回部署模型。

實驗結果

在自建的 GenEvolve-Bench 上，研究團隊比較了主流直接生成模型和 agentic 工作流。當底層生成器固定為開源 Qwen-Image-Edit-2511 時，GenEvolve 的整體 KScore 達到0.3663，超過 Gen-Searcher 的0.3493；在更依賴事實和視覺細節的 Knowledge-Anchored 任務上，提升尤其明顯。

當搭配更強的 Nano Banana Pro 渲染器時，GenEvolve 的 KScore 進一步提升到0.5739，高于 Nano Banana Pro 裸生成的0.5298。這說明 GenEvolve 學到的不是某個生成器上的 prompt trick，而是一套可以遷移到不同渲染器上的工具編排策略。

GenEvolve-Bench 主結果。GenEvolve 在開源生成器設置和強生成器設置下均取得穩定提升。

消融實驗顯示，未調優的 Qwen3-VL 工作流已經能利用工具入口，但結果不夠穩定；SFT 提升工具調用和最終程序質量；GRPO 提供軌跡級優化信號；加入視覺經驗自蒸餾后，模型在 Visual correctness、Knowledge-Anchored 和 Quality-Anchored 等關鍵維度上繼續提升。

研究團隊還在公開的 WISE 知識密集型圖像生成基準上進行了外推評估。在不做 in-domain 微調的情況下，GenEvolve 使用 8B 開源策略與開源 Qwen-Image-Edit 渲染器，整體 WiScore 達到0.82，超過 GPT-4o 的0.80。

WISE 結果。GenEvolve 在開源生成器設置和強生成器設置下超過了之前的開源和閉源模型。

定性對比：橙色示例更依賴外部知識，藍色示例更依賴內部生成技能。

小結

GenEvolve 的意義在于，它把開放圖像生成從單次 prompt 優化，推進到可學習的工具編排過程。對于需要外部知識、參考圖一致性和多重硬約束的任務，智能體不只是「調用工具」，而是在訓練中學會如何把工具結果轉化為有效的生成程序。

目前，GenEvolve 已開源模型、代碼、數據與評測集。對于圖像生成智能體、工具使用、視覺反饋強化學習和開放生成評測等方向，這套框架提供了一個可復現的起點。

作者與單位

論文作者包括 Sixiang Chen、Zhaohu Xing、Tian Ye、Xinyu Geng、Yunlong Lin、Jianyu Lai、Xuanhua He、Fuxiang Zhai、Jialin Gao、Lei Zhu，來自港科廣、美團、港科大和新加坡國立大學。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.