无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

一句話生圖要過時了?開源圖像生成Agent進化出「工具編排」

0
分享至



圖像生成正在從「一句話生成一張圖」,走向更接近真實創作流程的開放任務。

在實際使用中,用戶常常不只是給出一個 prompt:他可能要求畫面對齊某個地標、人物、商品或事件,也可能要求參考圖身份一致、材質特殊、或者要求模糊的描述也能表達清楚。面對這些需求,單靠生成模型一次前向推理很難穩定完成。

近期,來自香港科技大學(廣州)、美團、香港科技大學、新加坡國立大學等機構的研究團隊提出GenEvolve,一個面向開放圖像生成的自我進化智能體框架。它將一次生成建模為一「工具編排軌跡」:智能體先理解請求,再調用搜索、圖像檢索和生成知識工具,最后把外部證據、視覺參考和硬約束整理成 prompt-reference program,交給不同底層生成器渲染。



  • 論文標題:GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation
  • 論文鏈接:https://arxiv.org/abs/2605.21605
  • 項目頁面:https://ephemeral182.github.io/GenEvolve/
  • 代碼鏈接:https://github.com/MeiGen-AI/GenEvolve
  • 模型權重:https://huggingface.co/MeiGen-AI/GenEvolve
  • 數據與評測:https://huggingface.co/datasets/MeiGen-AI/GenEvolve-Data-Bench



GenEvolve 使用同一套智能體策略,分別搭配開源 Qwen-Image-Edit 與強生成器 Nano Banana Pro。

從 prompt 到工具軌跡

GenEvolve 關注兩類開放生成需求。第一類是Knowledge-Anchored:生成結果依賴外部世界知識,例如真實建筑、公眾人物、商品結構或事件線索。第二類是Quality-Anchored:結果依賴可校驗的視覺質量約束,例如文字、計數、布局、屬性綁定、解剖、材質和美學。

為此,GenEvolve 給智能體配置三類工具:文本搜索 search (q) 用于補充事實證據;圖像搜索 image_search (q) 用于獲取視覺參考;生成知識查詢 query_knowledge (skill) 用于激活內部對于文字渲染、空間布局、材質一致性等復雜需求所需要的技能。

因此,一次生成不再只是「寫一個更長的 prompt」,而是多輪決策:搜什么、看哪張參考圖、調用哪類生成知識、最終程序里必須寫入哪些約束。

數據與評測

為了訓練這樣的智能體,研究團隊構建了 GenEvolve-Data 和 GenEvolve-Bench。作者團隊沒有直接收集普通 prompt-image 對,而是從約 2 萬條結構化 recipe 出發,覆蓋實體、地標、產品、事件、文字、布局、計數、屬性、解剖、材質、美學和創意轉化等場景。

每個請求都會先交給 Teacher Agent 走一遍完整工具流程:查事實、找參考、調用生成知識、寫出最終 prompt-reference program。之后,數據還要經過程序檢查、VLM 審計、GT 圖像渲染和視覺過濾,最后切分成 SFT 軌跡、自我進化樣本和 對應的 benchmark。



GenEvolve-Data 數據閉環:從結構化 recipe 到工具軌跡、VLM 審計、GT 圖像過濾,再切分為訓練和評測視圖。

自我進化:先篩出更好的軌跡

訓練過程分為兩步。

首先,GenEvolve 使用高質量 Teacher 軌跡對 Qwen3-VL-8B-Instruct 做 SFT 冷啟動,讓模型學會基本工具調用和程序寫法。

隨后進入自我進化的 Rollout 階段:對同一請求采樣多條 rollout,渲染成圖像后由視覺判分器和文本判分器共同打分,并使用 GRPO 優化軌跡級獎勵。

視覺經驗自蒸餾:把「好在哪里」教給模型

僅有軌跡級獎勵仍然不夠。它能告訴模型「哪條軌跡更好」,卻很難說明「好在哪里」。因此,GenEvolve 引入視覺經驗自蒸餾:系統比較同一請求下的最優與最差軌跡,把差異總結成結構化 Decision Guide,例如該搜索什么、該選擇哪類參考、該避免哪些失敗寫法。

接下來,這些經驗只提供給訓練階段的 privileged teacher。Student 在同一批樣本上仍然只看到普通輸入,不直接讀取經驗庫;teacher 則在 Decision Guide 的幫助下給出更好的 token 分布。我們再通過 token 級反向 KL,把 teacher 在關鍵決策 token 上的偏好蒸餾給 student。這樣,模型學到的不是一條離線記憶,而是「看到類似請求時應該如何搜索、選參考、組織約束」的決策習慣。

這也是 GenEvolve 和只做 RL 打分優化的主要區別。GRPO 提供的是「哪條軌跡更值得強化」的方向,視覺經驗自蒸餾提供的則是更細的 credit assignment:好軌跡到底好在工具計劃、參考選擇,還是最終 prompt-reference program 的某個約束寫法。部署時,student 不需要再查 Decision Guide 或經驗 buffer,經驗已經被壓進模型參數里。



GenEvolve 方法總覽:智能體采樣多條工具軌跡,比較最優與最差結果,將視覺經驗蒸餾回部署模型。

實驗結果

在自建的 GenEvolve-Bench 上,研究團隊比較了主流直接生成模型和 agentic 工作流。當底層生成器固定為開源 Qwen-Image-Edit-2511 時,GenEvolve 的整體 KScore 達到0.3663,超過 Gen-Searcher 的0.3493;在更依賴事實和視覺細節的 Knowledge-Anchored 任務上,提升尤其明顯。

當搭配更強的 Nano Banana Pro 渲染器時,GenEvolve 的 KScore 進一步提升到0.5739,高于 Nano Banana Pro 裸生成的0.5298。這說明 GenEvolve 學到的不是某個生成器上的 prompt trick,而是一套可以遷移到不同渲染器上的工具編排策略。



GenEvolve-Bench 主結果。GenEvolve 在開源生成器設置和強生成器設置下均取得穩定提升。

消融實驗顯示,未調優的 Qwen3-VL 工作流已經能利用工具入口,但結果不夠穩定;SFT 提升工具調用和最終程序質量;GRPO 提供軌跡級優化信號;加入視覺經驗自蒸餾后,模型在 Visual correctness、Knowledge-Anchored 和 Quality-Anchored 等關鍵維度上繼續提升。

研究團隊還在公開的 WISE 知識密集型圖像生成基準上進行了外推評估。在不做 in-domain 微調的情況下,GenEvolve 使用 8B 開源策略與開源 Qwen-Image-Edit 渲染器,整體 WiScore 達到0.82,超過 GPT-4o 的0.80。



WISE 結果。GenEvolve 在開源生成器設置和強生成器設置下超過了之前的開源和閉源模型。



定性對比:橙色示例更依賴外部知識,藍色示例更依賴內部生成技能。

小結

GenEvolve 的意義在于,它把開放圖像生成從單次 prompt 優化,推進到可學習的工具編排過程。對于需要外部知識、參考圖一致性和多重硬約束的任務,智能體不只是「調用工具」,而是在訓練中學會如何把工具結果轉化為有效的生成程序。

目前,GenEvolve 已開源模型、代碼、數據與評測集。對于圖像生成智能體、工具使用、視覺反饋強化學習和開放生成評測等方向,這套框架提供了一個可復現的起點。

作者與單位

論文作者包括 Sixiang Chen、Zhaohu Xing、Tian Ye、Xinyu Geng、Yunlong Lin、Jianyu Lai、Xuanhua He、Fuxiang Zhai、Jialin Gao、Lei Zhu,來自港科廣、美團、港科大和新加坡國立大學。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
五星巴西,經濟搞不好,足球憑什么永遠是第一?

五星巴西,經濟搞不好,足球憑什么永遠是第一?

余豐慧
2026-06-30 20:14:16
公交集團,一天查到20多人冒用老年卡,罰款加補票收了2200多塊

公交集團,一天查到20多人冒用老年卡,罰款加補票收了2200多塊

天氣觀察站
2026-07-01 12:53:42
毛主席后人第四代的孩子,一個比一個優秀,毛甜懿填志愿備受關注

毛主席后人第四代的孩子,一個比一個優秀,毛甜懿填志愿備受關注

大江
2026-06-29 13:32:09
“光儲市值一哥”市值跌破3000億元,早盤蒸發600億元

“光儲市值一哥”市值跌破3000億元,早盤蒸發600億元

第一財經資訊
2026-07-01 10:57:57
上海人注意!快遞紙箱千萬不要囤!也不要在家里拆!害處你根本想不到

上海人注意!快遞紙箱千萬不要囤!也不要在家里拆!害處你根本想不到

上海女性
2026-06-30 17:30:43
CBA大變天,總冠軍球隊開始拆家,媒體透露面臨解散危機

CBA大變天,總冠軍球隊開始拆家,媒體透露面臨解散危機

宗介說體育
2026-07-01 11:10:59
墨西哥美女主持見證球隊世界杯4連勝且0失球!淘汰賽贏球創歷史

墨西哥美女主持見證球隊世界杯4連勝且0失球!淘汰賽贏球創歷史

Emily說個球
2026-07-01 12:52:31
Shams:騎士后衛基恩-埃利斯2年1800萬美元加盟籃網

Shams:騎士后衛基恩-埃利斯2年1800萬美元加盟籃網

懂球帝
2026-07-01 09:09:12
高市突然強硬!日本宣布攻克稀土磁鐵,外媒:稀土牌恐將失效?

高市突然強硬!日本宣布攻克稀土磁鐵,外媒:稀土牌恐將失效?

瘋狂小菠蘿
2026-06-30 14:04:50
李鐵的罪,不光在于利益輸送,還在于他封死了中國男足世界杯之路

李鐵的罪,不光在于利益輸送,還在于他封死了中國男足世界杯之路

丁懰驚悚影視解說
2026-06-08 11:03:59
蔡英文親自下場,民進黨臨陣換將?賴清德按捺不住,最大對手浮現

蔡英文親自下場,民進黨臨陣換將?賴清德按捺不住,最大對手浮現

世界更加寬廣
2026-07-01 11:40:04
夏天喝酒遠離工業水啤,這4款國產啤酒零添加,好喝不貴麥芽精釀

夏天喝酒遠離工業水啤,這4款國產啤酒零添加,好喝不貴麥芽精釀

濤哥美食匯
2026-07-01 08:58:21
一女子出差3月,她養了8年的狗每晚對衣柜狂叫,丈夫忍無可忍砸開柜門,誰料,里面的東西卻讓他渾身發抖…

一女子出差3月,她養了8年的狗每晚對衣柜狂叫,丈夫忍無可忍砸開柜門,誰料,里面的東西卻讓他渾身發抖…

二胡的歲月如歌
2026-06-30 20:58:22
騎士為吸引詹姆斯回歸拼了?拋售內線基石,莫布利+添頭換布朗

騎士為吸引詹姆斯回歸拼了?拋售內線基石,莫布利+添頭換布朗

夜白侃球
2026-07-01 13:02:49
55票比44票,島內封殺成功!賴清德開始哭窮

55票比44票,島內封殺成功!賴清德開始哭窮

白日追夢人
2026-07-01 15:24:41
美媒集體震驚:這次訪華,才真正見識到中國溫度!

美媒集體震驚:這次訪華,才真正見識到中國溫度!

福建睿平
2026-05-18 11:56:20
羅永浩為韓紅發聲:雖然我也捐過很多錢,但和她卻完全比不了

羅永浩為韓紅發聲:雖然我也捐過很多錢,但和她卻完全比不了

映射生活的身影
2026-06-30 16:37:05
日本黃鱔泛濫,到處鉆洞毀農田,農民頭疼不已,為何當地人不吃?

日本黃鱔泛濫,到處鉆洞毀農田,農民頭疼不已,為何當地人不吃?

農夫也瘋狂
2026-06-26 11:22:17
無緣世界杯16強,荷蘭隊主教練科曼宣布辭職

無緣世界杯16強,荷蘭隊主教練科曼宣布辭職

界面新聞
2026-07-01 07:03:24
拜拜了!詹姆斯回應湖人!正式結束8年生涯

拜拜了!詹姆斯回應湖人!正式結束8年生涯

籃球實戰寶典
2026-07-01 07:06:01
2026-07-01 16:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13408文章數 142685關注度
往期回顧 全部

科技要聞

AI寫了90%代碼,大廠程序員的煎熬時刻

頭條要聞

嘉峪關一景區NPC被游客掰斷手臂:互程中對方突然發力

頭條要聞

嘉峪關一景區NPC被游客掰斷手臂:互程中對方突然發力

體育要聞

賣球衣救子的門將,把德國撲出了世界杯

娛樂要聞

羅晉大孤山素顏照,禿頂白發引熱議

財經要聞

新氧貸款:宣傳年化15%,實際頂格24%

汽車要聞

交付持續攀升再破紀錄 零跑6月全球交付93376臺

態度原創

教育
房產
親子
時尚
軍事航空

教育要聞

中考作文罕見事 四省同考應該的 個人責任、社會責任怎么寫?

房產要聞

洋房盛大交付,中海丨南海·叁號院獻映世界海岸的人居答案

親子要聞

人人皆可烹飪,廚師不分出身

Meiinpsn的穿衣風格,清新又叛逆

軍事要聞

美伊代表前往多哈 談判方式出現"重大倒退"

無障礙瀏覽 進入關懷版