无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

CVPR 2026 圖像編輯趨勢梳理:從參考一張圖,到融合整個視覺世界

0
分享至


復雜視覺關系成為生成模型的新考題。

作者丨鄭佳美

編輯丨馬曉寧

圖像生成行業正在從“生成能力競爭”進入“可控能力競爭”。

過去,模型的核心價值主要體現在能否生成高質量、高清晰度、風格豐富的單張圖像;而隨著文生圖、圖生圖和指令式編輯能力逐漸成熟,新的瓶頸開始顯現:模型能否理解多張圖片之間的關系,能否在不同視角和場景中保持同一對象的一致性,能否把多個參考來源自然融合到同一畫面中,能否在數據缺失或退化時恢復可信細節,以及能否讓用戶精確控制每一次編輯的幅度。

這種變化也反映在 CVPR 2026 的相關研究中。越來越多工作開始從單張圖像生成,轉向多圖關系建模、跨圖像一致性保持、復雜場景組合、連續可控編輯和高質量視覺數據恢復。這說明圖像生成和編輯的重點已經不只是“能不能生成”,而是模型能否在復雜約束下穩定理解對象、結構、關系和用戶意圖。

更深層來看,視覺生成模型正在從單次輸出工具走向復雜視覺系統。它需要同時處理身份保持、結構對齊、語義融合、細節恢復和人機交互等問題。

也正因為如此,當前研究的重點正在從單張圖像質量,轉向多圖一致性、組合泛化能力、底層數據表示以及精細化控制能力。誰能更好地把這些能力統一起來,誰就更接近下一階段真正可用、可信、可控的視覺生成模型。

01


當圖像模型不再只會「生成一張圖」

《GroupEditing: Edit Multiple Images in One Go》關注的是“多圖一致編輯”問題,相關研究來自香港科技大學、清華大學、上海交通大學和悉尼科技大學。論文主要研究如何對一組相關圖片進行統一修改,并保證編輯后的結果在外觀、身份、結構和語義上保持一致。

以往的圖像編輯方法大多針對單張圖片,如果把同一個指令分別應用到多張相關圖片上,很容易出現編輯效果不統一的問題。比如同一個物體在不同視角或姿態下,顏色、形狀或身份特征可能會被改得不一致。

針對這一問題,論文提出了 GroupEditing 框架,把一組靜態圖片看作“偽視頻幀”,借助視頻生成模型本身擅長保持連續幀一致性的特點,來提升多張圖片之間的編輯一致性。


論文地址:https://arxiv.org/pdf/2603.22883v3

同時,論文還引入 VGGT 來提取圖片之間的幾何對應關系,并設計了 Ge-RoPE 和 Identity-RoPE 兩個模塊。前者幫助不同圖片中的對應區域更好對齊,后者幫助同一對象在不同圖片中保持身份和外觀一致。也就是說,模型不僅知道“要改什么”,還能夠更好地判斷“不同圖片中哪里是同一個對象或區域”。

這篇論文的亮點在于,它將圖像編輯從單張圖片擴展到一組相關圖片,適用于商品多角度圖、角色形象保持、同一物體不同視角編輯等場景。

方法上,它巧妙地結合了視頻模型的一致性能力和顯式幾何對齊信息,使多圖編輯結果更加穩定、統一。實驗結果也表明,GroupEditing 在編輯質量、語義一致性和跨圖像一致性方面都優于已有方法。


在多圖一致編輯的基礎上,《MICo-150K: A Comprehensive Dataset Advancing Multi-Image Composition》進一步關注多圖組合生成問題,相關研究來自香港理工大學、清華大學、中山大學和 OPPO 研究院。

論文主要研究的是多圖組合生成,也就是給模型多張參考圖片,讓它根據文本指令把這些圖片中的人物、物體、服裝或場景自然地組合到一張新圖中,同時保持身份一致、語義合理和畫面協調。

這項任務的難點在于,模型不僅要理解每張參考圖中的關鍵內容,還要把多個來源的信息融合到同一場景里。例如,把一個人物、一件衣服、幾個物體和一個背景組合成一張完整圖片時,既不能丟失參考圖中的身份特征,也不能讓畫面看起來像簡單拼貼。

為了解決訓練數據不足的問題,論文提出了 MICo-150K 數據集,系統覆蓋 3 大類、7 個子任務和 27 種細粒度組合類型,并加入 De&Re 任務,即先把真實復雜圖像拆解成組件,再重新組合。

在數據構建上,作者先收集并清洗人物、物體、服裝和場景等高質量源圖,再用 GPT-4o 生成多圖組合指令,并通過 Nano-Banana 合成目標圖像。

之后,論文使用 QwenVL2.5-72B、ArcFace 和人工篩選來檢查生成結果,確保參考圖片中的關鍵內容被正確保留,最終形成面向多圖組合生成的大規模高質量數據集。


論文地址:https://arxiv.org/pdf/2512.07348v1

論文還提出了 MICo-Bench 評測基準和 Weighted-Ref-VIEScore 指標,用來更全面地評估多圖組合生成的效果。實驗中,作者用 MICo-150K 微調了多個開源模型,結果顯示這些模型的多圖組合能力都有明顯提升。

其中基于 Qwen-Image-Edit 微調得到的 Qwen-MICo,在三圖組合任務上接近甚至優于 Qwen-Image-2509,同時還能支持任意數量的多圖輸入。

這篇論文的亮點在于,它不是單純提出一個新模型,而是系統補齊了多圖組合生成領域的數據、任務分類、評測基準和基礎模型。MICo-150K 為模型學習多圖融合、身份保持和復雜場景組合提供了大規模訓練資源;

MICo-Bench 和 Weighted-Ref-VIEScore 則讓這類任務有了更專門的評測方式。總體來看,這篇論文的核心貢獻是推動多圖生成從“能參考一張圖”走向“能理解并融合多張圖”。


前兩篇論文主要圍繞多圖編輯和多圖生成展開,而《Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery》則從多維數據表示與恢復的角度切入,相關研究來自湖南師范大學數學與統計學院、計算與隨機數學教育部重點實驗室,以及南方科技大學統計與數據科學系。

論文主要研究的是多維數據恢復問題,例如圖像修復、去噪、超分辨率和點云恢復。它關注的核心是:如何用更緊湊、更連續的方式表示高維數據,并從缺失、稀疏或退化的觀測中恢復出高質量結果。

傳統的張量環分解 TR 適合表示高階張量,但通常依賴固定網格上的離散數據,難以處理連續信號或非規則采樣數據。

為了解決這個問題,論文提出了 TRFD,也就是張量環函數分解,用隱式神經表示 INR 來參數化張量因子,使模型可以從連續坐標中生成張量表示。這樣一來,方法不僅能處理常規網格數據,也能處理點云這類非網格數據。

不過,直接用 INR 學習張量因子會遇到一個問題:模型容易先學習低頻內容,而對細節紋理、邊緣結構等高頻信息建模不足。


論文地址:https://arxiv.org/pdf/2603.01034v2

論文通過頻域分析指出,張量環因子的頻率特性會直接影響最終恢復結果的頻率表現,因此如果因子本身缺少高頻成分,恢復出的圖像或點云也會缺少細節。

針對這一問題,論文提出了 RepTRFD,也就是重參數化張量環函數分解。它把每個張量環因子表示成“可學習的潛在張量”和“固定基”的結構化組合,從而改善訓練動態,讓模型更容易學習高頻細節。同時,論文還給出了固定基的初始化方法,并證明了模型的 Lipschitz 連續性,以保證訓練過程更加穩定。

這篇論文的亮點在于,它不是單純提高一個視覺任務的效果,而是從張量表示和頻率學習的角度改進多維數據恢復框架。

方法既保留了張量環分解緊湊、高效的優勢,又通過 INR 獲得了連續建模能力,再通過重參數化增強了高頻細節恢復能力。實驗表明,RepTRFD 在圖像修復、去噪、超分辨率和點云恢復等任務上整體優于已有方法,并且在相近計算量下取得了更好的恢復質量。


在多維數據恢復之外,《SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control》又回到圖像編輯場景,但它關注的重點是編輯過程中的精細控制能力,相關研究來自馬里蘭大學和 Adobe 研究院。

論文主要研究的是指令式圖像編輯中的“連續可控”問題,也就是讓用戶不僅能用文字告訴模型要改什么,還能像調節滑桿一樣精確控制每個編輯指令的強弱。

現有的圖像編輯模型通常會把指令一次性完整執行,例如“把頭發變卷”“讓人物微笑”“把背景換成夜晚”。但用戶很難控制這些變化到底要多強,是輕微微笑還是大笑,是稍微變卷還是非常卷。尤其當一個提示詞里包含多個編輯要求時,模型往往缺少對單個指令的獨立控制能力。


論文地址:https://arxiv.org/pdf/2511.09715v1

為了解決這個問題,論文提出了 SliderEdit 框架。它會把一個復雜編輯指令拆成多個子指令,并為每個子指令提供一個可調節的滑桿。

用戶可以通過滑桿連續控制某個編輯效果的強度,甚至可以讓某個效果被削弱、正常執行或進一步放大。這樣一來,圖像編輯就不再是“改或不改”的離散操作,而變成了更細膩、可交互的連續控制過程。

方法上,SliderEdit 的核心是利用現代多模態擴散 Transformer 中的指令相關 token 表示。作者發現,某些文本 token 會集中控制對應的視覺編輯效果,因此可以通過對這些 token 進行調節來控制編輯強度。

論文進一步提出 Partial Prompt Suppression 損失,讓模型學習如何只抑制某一個子指令的視覺影響,同時保留其他編輯效果。它還使用輕量級的低秩適配器 LoRA,不需要為每個屬性或概念單獨訓練一個新模型。

這篇論文的亮點在于,它把圖像編輯從“固定強度的文字指令”推進到了“可連續調節的交互式編輯”。它不僅支持單個屬性的強弱控制,也支持多指令場景下對不同編輯方向分別調節。

論文還將方法應用到 FLUX-Kontext 和 Qwen-Image-Edit 等先進圖像編輯模型上,實驗顯示 SliderEdit 在編輯連續性、語義解耦、身份保持和用戶可控性方面都有明顯優勢。




未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1958年,八一廠同時選中兩個帥小伙當主角,后來兩個人結局卻不同

1958年,八一廠同時選中兩個帥小伙當主角,后來兩個人結局卻不同

銅臭的歷史味
2026-06-14 00:09:21
普京再次回應戰爭起源:不是俄開戰,是基輔先向頓巴斯開火

普京再次回應戰爭起源:不是俄開戰,是基輔先向頓巴斯開火

桂系007
2026-06-12 23:57:08
兄弟籃球,布倫森、哈特和大喬是首個NCAA+NBA奪冠的三人組

兄弟籃球,布倫森、哈特和大喬是首個NCAA+NBA奪冠的三人組

懂球帝
2026-06-14 12:18:07
為什么說閑魚是中國最大的黑市?網友:我直接給跪了!

為什么說閑魚是中國最大的黑市?網友:我直接給跪了!

另子維愛讀史
2026-06-02 10:51:07
紐約之王加冕!杰倫-布倫森榮膺本賽季FMVP

紐約之王加冕!杰倫-布倫森榮膺本賽季FMVP

懂球帝
2026-06-14 11:57:07
臟到極致卻從不爆發瘟疫!恒河逆天自凈之謎,敗給了印度風俗

臟到極致卻從不爆發瘟疫!恒河逆天自凈之謎,敗給了印度風俗

娛樂圈的筆娛君
2026-06-13 17:01:32
上了60歲后,惜命最好的方式不是鍛煉,而是做好這三件事

上了60歲后,惜命最好的方式不是鍛煉,而是做好這三件事

青青會講故事
2025-10-03 10:35:03
“SpaceX沒說,但所有線索都指向中國”

“SpaceX沒說,但所有線索都指向中國”

觀察者網
2026-06-12 09:23:04
打虎!俞小平被查

打虎!俞小平被查

新京報
2026-06-13 18:18:05
特斯拉車主:充一度電全是 0.21 元!

特斯拉車主:充一度電全是 0.21 元!

新浪財經
2026-06-13 23:29:33
太離譜了!臺州一小伙突發奇想,竟用汽車充電樁給電動摩托車充電,監控畫面曝光→

太離譜了!臺州一小伙突發奇想,竟用汽車充電樁給電動摩托車充電,監控畫面曝光→

浙江消防
2026-06-14 10:37:23
全家被拉黑!還有更慘的馬上來,特奧多羅或將讓一億人丟掉飯碗?

全家被拉黑!還有更慘的馬上來,特奧多羅或將讓一億人丟掉飯碗?

李云飛Afey
2026-06-14 03:01:04
寧愿降級也要換賽道!中山大學轉專業名單火了,三大專業成重災區

寧愿降級也要換賽道!中山大學轉專業名單火了,三大專業成重災區

林林先生
2026-06-11 13:09:52
不演了!主辦方被曝猛料后 業內人嘲觀眾“異食癖” 難怪謝娜不回

不演了!主辦方被曝猛料后 業內人嘲觀眾“異食癖” 難怪謝娜不回

小蘭聊歷史
2026-06-14 04:10:36
這樣一來就更合理了!大陸東巡臺島,其實是為航母“找家”

這樣一來就更合理了!大陸東巡臺島,其實是為航母“找家”

阿龍聊軍事
2026-06-14 13:07:45
45歲滿頭銀絲,卻帥得一塌糊涂

45歲滿頭銀絲,卻帥得一塌糊涂

下水道男孩
2026-06-13 23:51:52
金價跌至900元關口,大媽又來抄底了!實探北京菜百:小克重投資金條幾乎賣光

金價跌至900元關口,大媽又來抄底了!實探北京菜百:小克重投資金條幾乎賣光

時代周報
2026-06-14 08:00:20
顛覆認知!山大最新研究:初次性行為每早一年,壽命縮短0.33年

顛覆認知!山大最新研究:初次性行為每早一年,壽命縮短0.33年

思思夜話
2026-06-13 11:30:01
湖南農村學霸高考只考239,班主任不相信查監控,看到真相他哭了

湖南農村學霸高考只考239,班主任不相信查監控,看到真相他哭了

二十一號故事鋪
2024-09-28 06:30:02
排名斷崖式下跌,資本涼薄下鄭欽文的商業代言困局

排名斷崖式下跌,資本涼薄下鄭欽文的商業代言困局

東方不敗然多多
2026-06-14 11:57:12
2026-06-14 13:35:00
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7372文章數 20758關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

媒體:美伊突然"握手"協議將敲定 但真正的炸彈在后頭

頭條要聞

媒體:美伊突然"握手"協議將敲定 但真正的炸彈在后頭

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

具俊曄曝大S離世前虛弱照,難怪小s退讓

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

手機
親子
房產
公開課
軍事航空

手機要聞

iPhone Ultra取消Face ID:改用側邊指紋 博主感嘆像是在做夢

親子要聞

本想套路閨女吃藥,沒想到被女兒套路,現場畫面太尷尬!

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版