![]()
還在用 DragGAN、DragDiffusion 拖拽修圖?點選拖拽容易變形、邊界割裂、細節丟失的時代落幕了!ECCV 2026 ICRDrag 首創上下文區域拖拽模型,用掩碼精準定位局部區域,移動、縮放、變形全都絲滑自然,兼顧精準度與畫面真實感。
![]()
- Paper: https://arxiv.org/pdf/2606.25907
- GitHub: https://github.com/bcmi/ICRDrag-Region-Drag-Editing
- Demo: https://drag.ustcnewly.com/
效果展示
先看編輯效果,每一組圖像左邊藍色掩碼是源區域,右邊紅色掩碼是目標區域。拖拽編輯旨在把源區域拖拽到目標區域,其他區域除了必要的跟隨性改動 (比如嘴巴動了,下巴也要跟著動) 之外,細節盡量保持不變。可以看出 ICRDrag 對于各種類型圖片的姿態和形狀調整都能輕松拿捏。
![]()
下面視頻是 demo 展示,用戶可以用不同顏色畫出多對源區域和目標區域 (目前最多支持 5 對),把多個源區域拖拽到對應的目標區域。如果其他區域出現了不想要的改動,可以在其他區域增加類似錨點的源區域和目標區域,鎖定其他區域。
體驗鏈接:
https://drag.ustcnewly.com/
直擊痛點
傳統拖拽修圖,到底有多難用?玩過 AI 拖拽編輯的朋友一定踩過這些坑:
- 基于單點拖拽:主流點拖拽模型比如 DragGAN, DragDiffusion 僅靠少量點對控制畫面。點對信息模糊,AI 經常猜不透你的想法。點越少歧義越大,想要精準調整物體形態基本靠碰運氣,很難嚴格對齊目標位置。
- 現有區域拖拽:后來出現的 RegionDrag, DragFlow 等模型改用掩碼控制區域,但缺陷依舊明顯:物體拖拽后邊緣斷層,和背景融合生硬;復雜的形狀姿態調整完全 hold 不住。
![]()
上下文區域拖拽
本次 ECCV2026 提出的 ICRDrag(In-Context Region-based Drag)全新解法:上下文區域拖拽,真正實現「選啥改啥」。
- 上下文學習框架:基于 DiT 上下文學習框架,一次性輸入原圖、源區域掩碼、目標區域掩碼,直接輸出編輯完成的圖片,從底層解決拖拽編輯的控制難題。
- 圖像 - 掩碼注意力一致性約束:目標圖像在借鑒原圖信息時,注意力分布必須和目標掩碼匹配源掩碼的分布保持一致。AI 不再割裂看圖片和選區,生成畫面嚴格貼合掩碼劃定的空間輪廓。
- 源 - 目標雙向注意力對應約束:目標物體看向原圖對應區域,原圖區域也反向關注目標物體,建立編輯前后物體的對應關系。
- 圖片 / 掩碼專屬模態 LoRA:圖像富含紋理細節,掩碼僅存儲空間輪廓,二者的性質差別很大。ICRDrag 為圖像、掩碼分支使用獨立 LoRA。
- 分階段課程式訓練:現實使用中,用戶勾勒的掩碼往往比較粗糙。模型采用兩階段漸進式訓練:第一階段用完整語義掩碼訓練,讓模型學會區域變換邏輯;第二階段用稀疏不完整掩碼訓練,隨機膨脹模擬手繪粗糙選區,大幅提升模型容錯率。哪怕掩碼畫得潦草,AI 依舊能精準理解你的編輯意圖。
![]()
區域拖拽大規模數據集
為了訓練 ICRDrag 模型,該工作基于百萬級視頻數據集 OpenVid,打造了首個大規模區域拖拽數據集 PRD (Paired Region Dataset),補齊領域空白:
- 訓練集:28.7 萬組「原圖 + 源掩碼 + 目標圖 + 目標掩碼」配對樣本,如下圖所示。下圖中,左欄是原圖、源掩碼、從源掩碼采樣的部分區域,右欄是目標圖、目標掩碼、從目標掩碼采樣的部分區域。
- 評測基準 PRDBench:1000 組人工校驗高質量樣本,同時標注掩碼 + 關鍵點,可公平對比點拖拽、區域拖拽兩類模型。
![]()
應用場景
圖像拖拽編輯覆蓋多個落地場景,是廣大設計師和攝影愛好者的福音。
- 人像修圖:框選人臉、四肢,隨意調整身材比例、姿態、五官位置,不變形不失真;
- 靜物 / 產品設計:拖拽商品調整擺放位置、縮放大小,無需重繪光影;
- 場景構圖優化:移動畫面中人物、花草、建筑,自動填充背景,畫面無縫融合;
- 創意設計:自由扭曲物體輪廓,實現復雜創意形變,告別生硬拼接。
實驗室簡介
ICRDrag 出自上海交通大學牛力實驗室。該實驗室近幾年主要工作集中在圖像生成和編輯領域,代表性子領域是圖像合成 / 物體插入 (image composition/object insertion) 和少樣本圖像生成 (few-shot image generation),也涉獵過圖像填充、圖像分層、風格遷移、拖拽編輯等其他子領域。近兩年在關注生成模型的后訓練和理解生成一體化模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.