亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

文生圖進(jìn)入Agent時代:港中文聯(lián)合伯克利開源Gen-Searcher

0
分享至



過去兩年,圖像生成模型在質(zhì)感和審美上一路狂飆,但大多仍是 “直接出圖” 的范式。

一旦 prompt 涉及真實世界知識、最新信息、冷門事實,或者需要跨多個來源核對細(xì)節(jié),傳統(tǒng)文生圖模型就很容易翻車。

因為生成模型缺乏面向真實世界的 Agent 能力,仍然依賴固化的參數(shù)知識,缺少主動搜索、驗證和整合外部信息的能力。

最近,來自香港中文大學(xué) MMLab、UC Berkeley 和 UCLA 的研究團(tuán)隊提出了 Gen-Searcher,首次嘗試為圖像生成任務(wù)訓(xùn)練一個 “深度搜索” 智能體。它讓圖像生成模型能夠像 Agent 一樣進(jìn)行搜索、推理、找圖和瀏覽網(wǎng)頁,從而輸出真正可靠的生成結(jié)果。所有數(shù)據(jù),模型,和代碼,均已開源。



  • 論文標(biāo)題:Gen-Searcher: Reinforcing Agentic Search for Image Generation
  • 論文地址:https://arxiv.org/pdf/2603.28767
  • 項目主頁:https://gen-searcher.vercel.app/

現(xiàn)實需求:從 “直接生成” 到 Agentic 生成

現(xiàn)實世界中的圖像生成任務(wù),往往不只是 “按 prompt 作畫”。很多場景會涉及真實世界知識、最新信息、冷門事實,甚至需要跨多個來源核對細(xì)節(jié)。模型不僅要會生成,還要先判斷哪些信息需要確認(rèn)、哪些視覺細(xì)節(jié)需要參考、哪些內(nèi)容必須依賴外部知識支撐。

在這種背景下,傳統(tǒng)文生圖模型有兩個核心問題:一是主要依賴預(yù)訓(xùn)練學(xué)到的參數(shù)知識,缺乏主動搜索、驗證和整合外部信息的能力;二是整體流程仍是 “輸入 prompt,直接出圖”,缺少像 Agent 那樣先搜索、推理、整理證據(jù)的過程,因此在真實場景里很容易 “畫得像,卻畫不對”

為了解決這個問題,研究團(tuán)隊提出了 Gen-Searcher,希望把文生圖從 “直接生成” 推進(jìn)到 Agentic 生成

數(shù)據(jù)構(gòu)建與 KnowGen 基準(zhǔn)

為了訓(xùn)練這種能力,作者先構(gòu)造了一批真實世界需要搜索才能完成的生成數(shù)據(jù),覆蓋名人、動漫、物理、化學(xué)、藝術(shù)、建筑、新聞等約 20 個類別。



隨后,作者讓強(qiáng)模型配合搜索工具生成多輪軌跡,收集文本知識和視覺證據(jù),再用 Nano Banana Pro 合成目標(biāo)圖像,得到約 30k 條原始樣本。經(jīng)過 Seed1.8 篩選后,最終保留約 17k 條高質(zhì)量數(shù)據(jù),并整理成 Gen-Searcher-SFT-10k 和 Gen-Searcher-RL-6k。



在此基礎(chǔ)上,作者還提出了新的 benchmark —— KnowGen。它包含 630 條人工驗證樣本,用于圖像生成 Agent 評測。

模型訓(xùn)練

Gen-Searcher 的核心,是把生成前的信息獲取過程做成一個可訓(xùn)練的 Agent。模型不再拿到 prompt 就直接生成,而是先在多輪交互中決定何時搜索、搜什么、是否瀏覽網(wǎng)頁、是否補(bǔ)充視覺參考,最后輸出準(zhǔn)確的 prompt 和參考圖。

它配備了三類工具:文本搜索、圖像搜索和網(wǎng)頁瀏覽。訓(xùn)練上則分兩階段進(jìn)行:先通過 SFT 訓(xùn)練學(xué)會工具使用,再通過 agentic RL 優(yōu)化搜索策略和長程決策。

論文還提出了雙獎勵反饋。因為只看最終圖像效果并不穩(wěn)定,作者額外加入了一個文本獎勵,用來評估輸出的 prompt 是否已經(jīng)包含足夠、正確、與生成相關(guān)的信息,再與圖像獎勵結(jié)合起來共同訓(xùn)練。這樣,模型不僅要 “畫得好”,也要 “搜得對”



實驗結(jié)果

在 KnowGen 上,原始 Qwen-Image 的 K-Score 為 14.98,接入 Gen-Searcher-8B 后提升到 31.52,提高 16.54 分。而且這種能力還能遷移到其他圖像生成器上:Seedream 4.5 從 31.01 提升到 47.29,Nano Banana Pro 也從 50.38 提升到 53.30。



在 WISE 測試基準(zhǔn)上,模型同樣帶來了巨大的提升。



可視化分析表明,Gen-Searcher 能夠真正提高模型生圖的準(zhǔn)確性和質(zhì)量。



Gen-Searcher 的推出,不僅展示了 Agentic 生成在知識密集型圖像生成任務(wù)上的潛力,也為構(gòu)建真正能夠連接搜索、推理與生成的一體化系統(tǒng)提供了清晰路徑。

它不僅能 “畫”,還能 “查”;不僅能完成傳統(tǒng)的文本到圖像生成,更能在生成之前主動搜索信息、核對事實、整合證據(jù),展現(xiàn)出面向真實世界復(fù)雜任務(wù)的生成能力。

在大模型不斷走向多模態(tài)、強(qiáng)推理與 Agent 化的趨勢下,Gen-Searcher 的工作或許只是一個起點(diǎn),但它所驗證的方向,正在成為生成系統(tǒng)邁向 Agentic 時代的重要一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

岐黃傳人孫大夫
2026-03-17 23:25:03
別再傳“蒙古國防中國”了!南邊連草都不長,讓人怎么住?

起喜電影
2026-04-15 18:57:22

2.4萬億元,一個人怎么能闖出這么大的禍…

2.4萬億元,一個人怎么能闖出這么大的禍…

蔥哥說
2026-04-14 22:04:16
孫楊官宣有娃僅1天,妻子私生活被扒底朝天,令人擔(dān)心的事出現(xiàn)了

孫楊官宣有娃僅1天,妻子私生活被扒底朝天,令人擔(dān)心的事出現(xiàn)了

圓夢的小老頭
2026-04-15 15:00:48
丹麥把旅居臺灣民眾居留證國籍、出生地登記改為中國,國臺辦回應(yīng)

丹麥把旅居臺灣民眾居留證國籍、出生地登記改為中國,國臺辦回應(yīng)

新京報
2026-04-15 11:21:58
國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
豪斯+兩內(nèi)救了張慶鵬!北控戰(zhàn)績壓廣州1勝場,再贏2場鎖季后賽!

豪斯+兩內(nèi)救了張慶鵬!北控戰(zhàn)績壓廣州1勝場,再贏2場鎖季后賽!

籃球資訊達(dá)人
2026-04-15 22:35:17
張本主動讓核心!松島輝空淡定發(fā)言逗笑全場,日乒男團(tuán)沖冠有新招

張本主動讓核心!松島輝空淡定發(fā)言逗笑全場,日乒男團(tuán)沖冠有新招

峰云峰雨
2026-04-14 18:52:15
NFC、FC、HPP……哪種才是100%真果汁?

NFC、FC、HPP……哪種才是100%真果汁?

混知
2026-03-24 17:07:26
李國慶張丹紅吃剩菜還不忘開會,互相指責(zé)太真實,生活習(xí)慣差異大

李國慶張丹紅吃剩菜還不忘開會,互相指責(zé)太真實,生活習(xí)慣差異大

嫹筆牂牂
2026-04-15 08:01:48
妻子偷偷給情夫轉(zhuǎn)六百萬,丈夫直接裝傻報警:錢丟了,妻子當(dāng)場崩潰

妻子偷偷給情夫轉(zhuǎn)六百萬,丈夫直接裝傻報警:錢丟了,妻子當(dāng)場崩潰

奶茶麥子
2026-04-15 15:46:05
許家印認(rèn)罪!南京恒大爛尾項目,何去何從?

許家印認(rèn)罪!南京恒大爛尾項目,何去何從?

地產(chǎn)銳評
2026-04-15 16:45:53
青澀的愛:那時候的我們,連牽手都要鼓起勇氣

青澀的愛:那時候的我們,連牽手都要鼓起勇氣

疾跑的小蝸牛
2026-04-15 20:43:41
日本全面叫停種植牙?種牙潛藏的風(fēng)險與后遺癥,一次為你講明白

日本全面叫停種植牙?種牙潛藏的風(fēng)險與后遺癥,一次為你講明白

垚垚分享健康
2026-04-11 08:51:57
范志毅任上海足協(xié)副主席,和上綜藝賺錢兩不誤,3婚與嬌妻很幸福

范志毅任上海足協(xié)副主席,和上綜藝賺錢兩不誤,3婚與嬌妻很幸福

君笙的拂兮
2026-04-14 22:57:41
13歲男孩被老人私拴繩索割喉,已脫離生命危險,但仍有一段氣管未能找到……他成績?nèi)G叭赣H白血病加乳腺癌,網(wǎng)友已籌款超60萬

13歲男孩被老人私拴繩索割喉,已脫離生命危險,但仍有一段氣管未能找到……他成績?nèi)G叭赣H白血病加乳腺癌,網(wǎng)友已籌款超60萬

極目新聞
2026-04-14 22:38:03
劉雨鑫吃了6000家餐廳、走遍幾十個國家,他的錢其實就3個來源

劉雨鑫吃了6000家餐廳、走遍幾十個國家,他的錢其實就3個來源

老吳教育課堂
2026-04-14 07:44:56
順峰餐廳北京門店全部關(guān)閉:司法糾紛不斷,消費(fèi)者上萬儲值打水漂?

順峰餐廳北京門店全部關(guān)閉:司法糾紛不斷,消費(fèi)者上萬儲值打水漂?

北京商報
2026-04-15 20:03:10
臺海觀察:十項涉臺新政充滿誠意善意,島內(nèi)期盼惠及各行各業(yè)

臺海觀察:十項涉臺新政充滿誠意善意,島內(nèi)期盼惠及各行各業(yè)

上觀新聞
2026-04-15 06:55:05
太陽慘遭大逆轉(zhuǎn)!布克反思屢遭翻盤:領(lǐng)先就浪,怨我罰球太爛

太陽慘遭大逆轉(zhuǎn)!布克反思屢遭翻盤:領(lǐng)先就浪,怨我罰球太爛

仰臥撐FTUer
2026-04-15 22:24:02
2026-04-15 23:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12772文章數(shù) 142628關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

豫劇團(tuán)下鄉(xiāng)演出臺下觀眾痛哭流涕:觀眾超千人一半落淚

頭條要聞

豫劇團(tuán)下鄉(xiāng)演出臺下觀眾痛哭流涕:觀眾超千人一半落淚

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

本地
時尚
數(shù)碼
教育
公開課

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

赫本愛穿的傘裙,好優(yōu)雅!

數(shù)碼要聞

補(bǔ)足有線,羅技推出Alto Keys琥珀K98M / K98S Plus機(jī)械鍵盤

教育要聞

千城百縣看中國|山東定陶:創(chuàng)意滿格大課間

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版