![]()
本研究由中山大學、美團聯合完成,第一作者王豪為中山大學博士研究生,主要研究方向為圖像和視頻分割、開放場景視覺感知、多模態大模型等。論文共同通訊作者為梁小丹教授和藍湘源副研究員。
如今,多模態大模型已經能夠看圖、看視頻,并回答復雜問題。但如果進一步要求模型「把畫面中的某個目標精準分割出來」,問題就變得沒有那么簡單。例如,用戶提出這樣一個需求:
![]()
這不僅要求模型理解自然語言描述,還需要它在視頻的每一幀中持續定位同一個人,并輸出準確的像素級輪廓。傳統分割模型擅長生成高質量掩碼,但通常依賴點、框等明確提示,難以理解復雜自然語言。另一方面,現有多模態分割模型往往只面向圖像或視頻中的某一類任務,難以用一個統一模型同時處理圖像、視頻、文本提示和視覺提示。
為了解決這一問題,來自中山大學和美團的研究團隊提出了 X2SAM,一個統一的圖像與視頻分割多模態大模型框架。它希望讓模型不僅能「看懂」圖像和視頻,還能進一步「指出」目標在每個像素上的準確位置。
![]()
- 論文標題:X2SAM: Any Segmentation in Images and Videos
- 論文鏈接:https://arxiv.org/abs/2605.00891
- 項目主頁:https://wanghao9610.github.io/X2SAM
- 項目代碼:https://github.com/wanghao9610/X2SAM
一個模型,處理多種分割需求
![]()
圖 1 X2SAM 模型架構圖
X2SAM 的核心目標,是將圖像和視頻中的多種分割任務納入同一個框架。X2SAM 由多模態大模型、區域采樣模塊、Mask Encoder、Mask Decoder 和 Mask Memory 等部分組成。輸入圖像或視頻后,視覺編碼器首先提取視覺特征;多模態大模型負責理解用戶的文本指令、視覺提示以及上下文信息,并將這些語義信息轉化為可用于分割的目標表示。隨后,Mask Encoder 提取用于分割的視覺特征,Mask Decoder 根據目標表示和視覺特征生成像素級掩碼。對于視頻輸入,Mask Memory 會進一步保存歷史幀中的目標信息,并在處理當前幀時提供時序參考,使模型能夠在目標運動、遮擋或形變的情況下保持更穩定的分割結果。
用戶既可以用文字描述目標,例如「正在滑下來的運動員」「可以倒進杯子里的物體」;也可以通過點、框或區域提示,直接告訴模型想要分割哪個對象。模型隨后根據這些提示,輸出對應的分割結果。
在統一框架下,X2SAM 支持多類任務,包括:通用分割,開放詞匯分割,指代表達分割,推理分割,對話生成分割,視覺定位分割,以及對象級分割(包含圖像交互分割和視頻目標分割)。
![]()
圖 2 X2SAM 支持的任務展示
簡單來說,X2SAM 既能理解「把左邊正在喝奶的小狗分割出來」這樣的語言指令,也能根據用戶點選或框選區域的視覺指令,在圖像或視頻中找到對應目標。
讓視頻分割更穩定:模型需要記住過去
![]()
圖 3 Mask Memory 模塊結構圖
視頻分割比圖像分割更難,目標會移動、被遮擋、發生形變,甚至短暫消失。如果模型只逐幀處理,很容易出現前后不一致的問題:這一幀分對了,下一幀可能就跟丟了。為此,X2SAM 引入了 Mask Memory 模塊。可以把它理解為模型的「短期記憶」:它會記錄前面若干幀中與目標相關的信息,并在處理當前幀時參考這些歷史信息。這樣一來,模型不僅能在單幀中找到目標,也能在視頻中保持對同一目標的連續追蹤,從而輸出更穩定的分割結果。
新任務 V-VGD:點一下,模型分割整段視頻
![]()
圖 4 視頻視覺定位分割任務展示
論文還提出了一個新的視頻視覺定位分割任務:Video Visual Grounded Segmentation,簡稱 V-VGD。這個任務關注一個很實際的問題:如果用戶只在視頻開頭點一下或框一下某個目標,模型能不能在整段視頻中持續分割出這類目標?
研究團隊基于 YT-VIS19 和 VIPSeg 構建了相關數據集。每個目標在首個可見幀中會獲得一個視覺提示,例如點、框或區域標注;模型需要根據這個提示,在后續視頻幀中持續找到并分割相應類別的對象。這類能力對于視頻編輯、自動標注、智能檢索等場景非常重要。例如,用戶只需要框選一次人物、車輛或商品,系統就可以自動完成后續視頻中相關目標的跟蹤與分割。
實驗結果:圖像任務保持穩定,視頻任務表現突出
![]()
實驗顯示,X2SAM 在圖像任務上保持了較強競爭力,同時在視頻任務上展現出明顯優勢。
在圖像開放詞匯分割任務中,X2SAM 在 ADE20K 相關評測上取得了優于此前 SoTA 方法的結果;同時,它在其他圖像分割任務上也取得了不錯的性能表現。這說明,將模型擴展到視頻場景后,并沒有明顯削弱其處理靜態圖像的能力。
在視頻任務上,X2SAM 的提升更加明顯:在視頻開放詞匯分割任務中,X2SAM 取得了 60.3 AP;在視頻推理分割任務中,X2SAM 達到 69.9 J&F,相比此前 SoTA 方法提升 14.2 點;在視頻對話生成分割任務中,X2SAM 取得了 75.8 mIoU,表現明顯優于此前方法;在新提出的 V-VGD 任務中,X2SAM 在多個設置下都顯著超過此前強基線方法。
這些結果說明,X2SAM 不僅能處理單張圖片中的分割任務,也能更好地理解視頻中的目標變化、語言指令和視覺提示。
更高效的統一訓練方式
為了同時學習圖像和視頻中的多種任務,X2SAM 采用了統一訓練策略。相比直接將不同數據簡單混合訓練,X2SAM 的訓練方式在保持性能的同時顯著降低了計算成本。該策略將訓練成本從約 5.2K GPU hours 降至約 3.3K GPU hours,減少約 36.5%。
這意味著,統一圖像和視頻分割并不一定需要線性增加訓練成本。通過合理設計訓練流程,模型可以更高效地學習跨模態、跨任務能力。
統一分割模型還有哪些挑戰?
當然,統一圖像和視頻分割仍然面臨一些挑戰。首先,聯合訓練圖像和視頻數據仍需要較高計算成本,尤其是視頻數據本身更占顯存和訓練資源。其次,當前的記憶機制仍然是固定長度的。對于很長的視頻,或者目標長時間被遮擋、外觀變化劇烈的情況,模型仍可能面臨挑戰。此外,X2SAM 是一個面向多任務的通用模型。在某些高度專門化的任務上,它可能仍不如針對單一任務深度優化的專家模型。
未來,研究團隊計劃進一步探索更高效的訓練方法、更輕量的模型結構,以及更適合長視頻的記憶機制,讓模型在復雜視頻場景中更加穩定、可擴展。
總結
X2SAM 的意義在于,它將圖像分割、視頻分割、語言理解、視覺提示和時序記憶放進了同一個多模態框架中。它讓多模態大模型不只是「看懂畫面」和「回答問題」,而是進一步具備了像素級定位與分割能力。對于視頻編輯、自動標注、具身智能、機器人感知和多模態交互等場景,X2SAM 提供了一個統一而強大的分割多模態大模型方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.