網易首頁 > 網易號 > 正文申請入駐

從圖像到視頻的任意分割：X2SAM讓MLLM 真正看懂像素級時空世界

2026-05-15 10:59:37　來源: 機器之心Pro

河北舉報

分享至

本研究由中山大學、美團聯合完成，第一作者王豪為中山大學博士研究生，主要研究方向為圖像和視頻分割、開放場景視覺感知、多模態大模型等。論文共同通訊作者為梁小丹教授和藍湘源副研究員。

如今，多模態大模型已經能夠看圖、看視頻，并回答復雜問題。但如果進一步要求模型「把畫面中的某個目標精準分割出來」，問題就變得沒有那么簡單。例如，用戶提出這樣一個需求：

這不僅要求模型理解自然語言描述，還需要它在視頻的每一幀中持續定位同一個人，并輸出準確的像素級輪廓。傳統分割模型擅長生成高質量掩碼，但通常依賴點、框等明確提示，難以理解復雜自然語言。另一方面，現有多模態分割模型往往只面向圖像或視頻中的某一類任務，難以用一個統一模型同時處理圖像、視頻、文本提示和視覺提示。

為了解決這一問題，來自中山大學和美團的研究團隊提出了 X2SAM，一個統一的圖像與視頻分割多模態大模型框架。它希望讓模型不僅能「看懂」圖像和視頻，還能進一步「指出」目標在每個像素上的準確位置。

論文標題：X2SAM: Any Segmentation in Images and Videos
論文鏈接：https://arxiv.org/abs/2605.00891
項目主頁：https://wanghao9610.github.io/X2SAM
項目代碼：https://github.com/wanghao9610/X2SAM

一個模型，處理多種分割需求

圖 1 X2SAM 模型架構圖

X2SAM 的核心目標，是將圖像和視頻中的多種分割任務納入同一個框架。X2SAM 由多模態大模型、區域采樣模塊、Mask Encoder、Mask Decoder 和 Mask Memory 等部分組成。輸入圖像或視頻后，視覺編碼器首先提取視覺特征；多模態大模型負責理解用戶的文本指令、視覺提示以及上下文信息，并將這些語義信息轉化為可用于分割的目標表示。隨后，Mask Encoder 提取用于分割的視覺特征，Mask Decoder 根據目標表示和視覺特征生成像素級掩碼。對于視頻輸入，Mask Memory 會進一步保存歷史幀中的目標信息，并在處理當前幀時提供時序參考，使模型能夠在目標運動、遮擋或形變的情況下保持更穩定的分割結果。

用戶既可以用文字描述目標，例如「正在滑下來的運動員」「可以倒進杯子里的物體」；也可以通過點、框或區域提示，直接告訴模型想要分割哪個對象。模型隨后根據這些提示，輸出對應的分割結果。

在統一框架下，X2SAM 支持多類任務，包括：通用分割，開放詞匯分割，指代表達分割，推理分割，對話生成分割，視覺定位分割，以及對象級分割（包含圖像交互分割和視頻目標分割）。

圖 2 X2SAM 支持的任務展示

簡單來說，X2SAM 既能理解「把左邊正在喝奶的小狗分割出來」這樣的語言指令，也能根據用戶點選或框選區域的視覺指令，在圖像或視頻中找到對應目標。

讓視頻分割更穩定：模型需要記住過去

圖 3 Mask Memory 模塊結構圖

視頻分割比圖像分割更難，目標會移動、被遮擋、發生形變，甚至短暫消失。如果模型只逐幀處理，很容易出現前后不一致的問題：這一幀分對了，下一幀可能就跟丟了。為此，X2SAM 引入了 Mask Memory 模塊。可以把它理解為模型的「短期記憶」：它會記錄前面若干幀中與目標相關的信息，并在處理當前幀時參考這些歷史信息。這樣一來，模型不僅能在單幀中找到目標，也能在視頻中保持對同一目標的連續追蹤，從而輸出更穩定的分割結果。

新任務 V-VGD：點一下，模型分割整段視頻

圖 4 視頻視覺定位分割任務展示

論文還提出了一個新的視頻視覺定位分割任務：Video Visual Grounded Segmentation，簡稱 V-VGD。這個任務關注一個很實際的問題：如果用戶只在視頻開頭點一下或框一下某個目標，模型能不能在整段視頻中持續分割出這類目標？

研究團隊基于 YT-VIS19 和 VIPSeg 構建了相關數據集。每個目標在首個可見幀中會獲得一個視覺提示，例如點、框或區域標注；模型需要根據這個提示，在后續視頻幀中持續找到并分割相應類別的對象。這類能力對于視頻編輯、自動標注、智能檢索等場景非常重要。例如，用戶只需要框選一次人物、車輛或商品，系統就可以自動完成后續視頻中相關目標的跟蹤與分割。

實驗結果：圖像任務保持穩定，視頻任務表現突出

實驗顯示，X2SAM 在圖像任務上保持了較強競爭力，同時在視頻任務上展現出明顯優勢。

在圖像開放詞匯分割任務中，X2SAM 在 ADE20K 相關評測上取得了優于此前 SoTA 方法的結果；同時，它在其他圖像分割任務上也取得了不錯的性能表現。這說明，將模型擴展到視頻場景后，并沒有明顯削弱其處理靜態圖像的能力。

在視頻任務上，X2SAM 的提升更加明顯：在視頻開放詞匯分割任務中，X2SAM 取得了 60.3 AP；在視頻推理分割任務中，X2SAM 達到 69.9 J&F，相比此前 SoTA 方法提升 14.2 點；在視頻對話生成分割任務中，X2SAM 取得了 75.8 mIoU，表現明顯優于此前方法；在新提出的 V-VGD 任務中，X2SAM 在多個設置下都顯著超過此前強基線方法。

這些結果說明，X2SAM 不僅能處理單張圖片中的分割任務，也能更好地理解視頻中的目標變化、語言指令和視覺提示。

更高效的統一訓練方式

為了同時學習圖像和視頻中的多種任務，X2SAM 采用了統一訓練策略。相比直接將不同數據簡單混合訓練，X2SAM 的訓練方式在保持性能的同時顯著降低了計算成本。該策略將訓練成本從約 5.2K GPU hours 降至約 3.3K GPU hours，減少約 36.5%。

這意味著，統一圖像和視頻分割并不一定需要線性增加訓練成本。通過合理設計訓練流程，模型可以更高效地學習跨模態、跨任務能力。

統一分割模型還有哪些挑戰？

當然，統一圖像和視頻分割仍然面臨一些挑戰。首先，聯合訓練圖像和視頻數據仍需要較高計算成本，尤其是視頻數據本身更占顯存和訓練資源。其次，當前的記憶機制仍然是固定長度的。對于很長的視頻，或者目標長時間被遮擋、外觀變化劇烈的情況，模型仍可能面臨挑戰。此外，X2SAM 是一個面向多任務的通用模型。在某些高度專門化的任務上，它可能仍不如針對單一任務深度優化的專家模型。

未來，研究團隊計劃進一步探索更高效的訓練方法、更輕量的模型結構，以及更適合長視頻的記憶機制，讓模型在復雜視頻場景中更加穩定、可擴展。

總結

X2SAM 的意義在于，它將圖像分割、視頻分割、語言理解、視覺提示和時序記憶放進了同一個多模態框架中。它讓多模態大模型不只是「看懂畫面」和「回答問題」，而是進一步具備了像素級定位與分割能力。對于視頻編輯、自動標注、具身智能、機器人感知和多模態交互等場景，X2SAM 提供了一個統一而強大的分割多模態大模型方案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.