![]()
圖像生成正在從「一句話生成一張圖」,走向更接近真實創作流程的開放任務。
在實際使用中,用戶常常不只是給出一個 prompt:他可能要求畫面對齊某個地標、人物、商品或事件,也可能要求參考圖身份一致、材質特殊、或者要求模糊的描述也能表達清楚。面對這些需求,單靠生成模型一次前向推理很難穩定完成。
近期,來自香港科技大學(廣州)、美團、香港科技大學、新加坡國立大學等機構的研究團隊提出GenEvolve,一個面向開放圖像生成的自我進化智能體框架。它將一次生成建模為一「工具編排軌跡」:智能體先理解請求,再調用搜索、圖像檢索和生成知識工具,最后把外部證據、視覺參考和硬約束整理成 prompt-reference program,交給不同底層生成器渲染。
![]()
- 論文標題:GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation
- 論文鏈接:https://arxiv.org/abs/2605.21605
- 項目頁面:https://ephemeral182.github.io/GenEvolve/
- 代碼鏈接:https://github.com/MeiGen-AI/GenEvolve
- 模型權重:https://huggingface.co/MeiGen-AI/GenEvolve
- 數據與評測:https://huggingface.co/datasets/MeiGen-AI/GenEvolve-Data-Bench
![]()
GenEvolve 使用同一套智能體策略,分別搭配開源 Qwen-Image-Edit 與強生成器 Nano Banana Pro。
從 prompt 到工具軌跡
GenEvolve 關注兩類開放生成需求。第一類是Knowledge-Anchored:生成結果依賴外部世界知識,例如真實建筑、公眾人物、商品結構或事件線索。第二類是Quality-Anchored:結果依賴可校驗的視覺質量約束,例如文字、計數、布局、屬性綁定、解剖、材質和美學。
為此,GenEvolve 給智能體配置三類工具:文本搜索 search (q) 用于補充事實證據;圖像搜索 image_search (q) 用于獲取視覺參考;生成知識查詢 query_knowledge (skill) 用于激活內部對于文字渲染、空間布局、材質一致性等復雜需求所需要的技能。
因此,一次生成不再只是「寫一個更長的 prompt」,而是多輪決策:搜什么、看哪張參考圖、調用哪類生成知識、最終程序里必須寫入哪些約束。
數據與評測
為了訓練這樣的智能體,研究團隊構建了 GenEvolve-Data 和 GenEvolve-Bench。作者團隊沒有直接收集普通 prompt-image 對,而是從約 2 萬條結構化 recipe 出發,覆蓋實體、地標、產品、事件、文字、布局、計數、屬性、解剖、材質、美學和創意轉化等場景。
每個請求都會先交給 Teacher Agent 走一遍完整工具流程:查事實、找參考、調用生成知識、寫出最終 prompt-reference program。之后,數據還要經過程序檢查、VLM 審計、GT 圖像渲染和視覺過濾,最后切分成 SFT 軌跡、自我進化樣本和 對應的 benchmark。
![]()
GenEvolve-Data 數據閉環:從結構化 recipe 到工具軌跡、VLM 審計、GT 圖像過濾,再切分為訓練和評測視圖。
自我進化:先篩出更好的軌跡
訓練過程分為兩步。
首先,GenEvolve 使用高質量 Teacher 軌跡對 Qwen3-VL-8B-Instruct 做 SFT 冷啟動,讓模型學會基本工具調用和程序寫法。
隨后進入自我進化的 Rollout 階段:對同一請求采樣多條 rollout,渲染成圖像后由視覺判分器和文本判分器共同打分,并使用 GRPO 優化軌跡級獎勵。
視覺經驗自蒸餾:把「好在哪里」教給模型
僅有軌跡級獎勵仍然不夠。它能告訴模型「哪條軌跡更好」,卻很難說明「好在哪里」。因此,GenEvolve 引入視覺經驗自蒸餾:系統比較同一請求下的最優與最差軌跡,把差異總結成結構化 Decision Guide,例如該搜索什么、該選擇哪類參考、該避免哪些失敗寫法。
接下來,這些經驗只提供給訓練階段的 privileged teacher。Student 在同一批樣本上仍然只看到普通輸入,不直接讀取經驗庫;teacher 則在 Decision Guide 的幫助下給出更好的 token 分布。我們再通過 token 級反向 KL,把 teacher 在關鍵決策 token 上的偏好蒸餾給 student。這樣,模型學到的不是一條離線記憶,而是「看到類似請求時應該如何搜索、選參考、組織約束」的決策習慣。
這也是 GenEvolve 和只做 RL 打分優化的主要區別。GRPO 提供的是「哪條軌跡更值得強化」的方向,視覺經驗自蒸餾提供的則是更細的 credit assignment:好軌跡到底好在工具計劃、參考選擇,還是最終 prompt-reference program 的某個約束寫法。部署時,student 不需要再查 Decision Guide 或經驗 buffer,經驗已經被壓進模型參數里。
![]()
GenEvolve 方法總覽:智能體采樣多條工具軌跡,比較最優與最差結果,將視覺經驗蒸餾回部署模型。
實驗結果
在自建的 GenEvolve-Bench 上,研究團隊比較了主流直接生成模型和 agentic 工作流。當底層生成器固定為開源 Qwen-Image-Edit-2511 時,GenEvolve 的整體 KScore 達到0.3663,超過 Gen-Searcher 的0.3493;在更依賴事實和視覺細節的 Knowledge-Anchored 任務上,提升尤其明顯。
當搭配更強的 Nano Banana Pro 渲染器時,GenEvolve 的 KScore 進一步提升到0.5739,高于 Nano Banana Pro 裸生成的0.5298。這說明 GenEvolve 學到的不是某個生成器上的 prompt trick,而是一套可以遷移到不同渲染器上的工具編排策略。
![]()
GenEvolve-Bench 主結果。GenEvolve 在開源生成器設置和強生成器設置下均取得穩定提升。
消融實驗顯示,未調優的 Qwen3-VL 工作流已經能利用工具入口,但結果不夠穩定;SFT 提升工具調用和最終程序質量;GRPO 提供軌跡級優化信號;加入視覺經驗自蒸餾后,模型在 Visual correctness、Knowledge-Anchored 和 Quality-Anchored 等關鍵維度上繼續提升。
研究團隊還在公開的 WISE 知識密集型圖像生成基準上進行了外推評估。在不做 in-domain 微調的情況下,GenEvolve 使用 8B 開源策略與開源 Qwen-Image-Edit 渲染器,整體 WiScore 達到0.82,超過 GPT-4o 的0.80。
![]()
WISE 結果。GenEvolve 在開源生成器設置和強生成器設置下超過了之前的開源和閉源模型。
![]()
定性對比:橙色示例更依賴外部知識,藍色示例更依賴內部生成技能。
小結
GenEvolve 的意義在于,它把開放圖像生成從單次 prompt 優化,推進到可學習的工具編排過程。對于需要外部知識、參考圖一致性和多重硬約束的任務,智能體不只是「調用工具」,而是在訓練中學會如何把工具結果轉化為有效的生成程序。
目前,GenEvolve 已開源模型、代碼、數據與評測集。對于圖像生成智能體、工具使用、視覺反饋強化學習和開放生成評測等方向,這套框架提供了一個可復現的起點。
作者與單位
論文作者包括 Sixiang Chen、Zhaohu Xing、Tian Ye、Xinyu Geng、Yunlong Lin、Jianyu Lai、Xuanhua He、Fuxiang Zhai、Jialin Gao、Lei Zhu,來自港科廣、美團、港科大和新加坡國立大學。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.