无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

從圖像到視頻的任意分割:X2SAM讓MLLM 真正看懂像素級時空世界

0
分享至




本研究由中山大學、美團聯合完成,第一作者王豪為中山大學博士研究生,主要研究方向為圖像和視頻分割、開放場景視覺感知、多模態大模型等。論文共同通訊作者為梁小丹教授和藍湘源副研究員。

如今,多模態大模型已經能夠看圖、看視頻,并回答復雜問題。但如果進一步要求模型「把畫面中的某個目標精準分割出來」,問題就變得沒有那么簡單。例如,用戶提出這樣一個需求:



這不僅要求模型理解自然語言描述,還需要它在視頻的每一幀中持續定位同一個人,并輸出準確的像素級輪廓。傳統分割模型擅長生成高質量掩碼,但通常依賴點、框等明確提示,難以理解復雜自然語言。另一方面,現有多模態分割模型往往只面向圖像或視頻中的某一類任務,難以用一個統一模型同時處理圖像、視頻、文本提示和視覺提示。

為了解決這一問題,來自中山大學和美團的研究團隊提出了 X2SAM,一個統一的圖像與視頻分割多模態大模型框架。它希望讓模型不僅能「看懂」圖像和視頻,還能進一步「指出」目標在每個像素上的準確位置。



  • 論文標題:X2SAM: Any Segmentation in Images and Videos
  • 論文鏈接:https://arxiv.org/abs/2605.00891
  • 項目主頁:https://wanghao9610.github.io/X2SAM
  • 項目代碼:https://github.com/wanghao9610/X2SAM

一個模型,處理多種分割需求



圖 1 X2SAM 模型架構圖

X2SAM 的核心目標,是將圖像和視頻中的多種分割任務納入同一個框架。X2SAM 由多模態大模型、區域采樣模塊、Mask Encoder、Mask Decoder 和 Mask Memory 等部分組成。輸入圖像或視頻后,視覺編碼器首先提取視覺特征;多模態大模型負責理解用戶的文本指令、視覺提示以及上下文信息,并將這些語義信息轉化為可用于分割的目標表示。隨后,Mask Encoder 提取用于分割的視覺特征,Mask Decoder 根據目標表示和視覺特征生成像素級掩碼。對于視頻輸入,Mask Memory 會進一步保存歷史幀中的目標信息,并在處理當前幀時提供時序參考,使模型能夠在目標運動、遮擋或形變的情況下保持更穩定的分割結果。

用戶既可以用文字描述目標,例如「正在滑下來的運動員」「可以倒進杯子里的物體」;也可以通過點、框或區域提示,直接告訴模型想要分割哪個對象。模型隨后根據這些提示,輸出對應的分割結果。

在統一框架下,X2SAM 支持多類任務,包括:通用分割,開放詞匯分割,指代表達分割,推理分割,對話生成分割,視覺定位分割,以及對象級分割(包含圖像交互分割和視頻目標分割)。



圖 2 X2SAM 支持的任務展示

簡單來說,X2SAM 既能理解「把左邊正在喝奶的小狗分割出來」這樣的語言指令,也能根據用戶點選或框選區域的視覺指令,在圖像或視頻中找到對應目標。

讓視頻分割更穩定:模型需要記住過去



圖 3 Mask Memory 模塊結構圖

視頻分割比圖像分割更難,目標會移動、被遮擋、發生形變,甚至短暫消失。如果模型只逐幀處理,很容易出現前后不一致的問題:這一幀分對了,下一幀可能就跟丟了。為此,X2SAM 引入了 Mask Memory 模塊。可以把它理解為模型的「短期記憶」:它會記錄前面若干幀中與目標相關的信息,并在處理當前幀時參考這些歷史信息。這樣一來,模型不僅能在單幀中找到目標,也能在視頻中保持對同一目標的連續追蹤,從而輸出更穩定的分割結果。

新任務 V-VGD:點一下,模型分割整段視頻



圖 4 視頻視覺定位分割任務展示

論文還提出了一個新的視頻視覺定位分割任務:Video Visual Grounded Segmentation,簡稱 V-VGD。這個任務關注一個很實際的問題:如果用戶只在視頻開頭點一下或框一下某個目標,模型能不能在整段視頻中持續分割出這類目標?

研究團隊基于 YT-VIS19 和 VIPSeg 構建了相關數據集。每個目標在首個可見幀中會獲得一個視覺提示,例如點、框或區域標注;模型需要根據這個提示,在后續視頻幀中持續找到并分割相應類別的對象。這類能力對于視頻編輯、自動標注、智能檢索等場景非常重要。例如,用戶只需要框選一次人物、車輛或商品,系統就可以自動完成后續視頻中相關目標的跟蹤與分割。

實驗結果:圖像任務保持穩定,視頻任務表現突出



實驗顯示,X2SAM 在圖像任務上保持了較強競爭力,同時在視頻任務上展現出明顯優勢。

在圖像開放詞匯分割任務中,X2SAM 在 ADE20K 相關評測上取得了優于此前 SoTA 方法的結果;同時,它在其他圖像分割任務上也取得了不錯的性能表現。這說明,將模型擴展到視頻場景后,并沒有明顯削弱其處理靜態圖像的能力。

在視頻任務上,X2SAM 的提升更加明顯:在視頻開放詞匯分割任務中,X2SAM 取得了 60.3 AP;在視頻推理分割任務中,X2SAM 達到 69.9 J&F,相比此前 SoTA 方法提升 14.2 點;在視頻對話生成分割任務中,X2SAM 取得了 75.8 mIoU,表現明顯優于此前方法;在新提出的 V-VGD 任務中,X2SAM 在多個設置下都顯著超過此前強基線方法。

這些結果說明,X2SAM 不僅能處理單張圖片中的分割任務,也能更好地理解視頻中的目標變化、語言指令和視覺提示。

更高效的統一訓練方式

為了同時學習圖像和視頻中的多種任務,X2SAM 采用了統一訓練策略。相比直接將不同數據簡單混合訓練,X2SAM 的訓練方式在保持性能的同時顯著降低了計算成本。該策略將訓練成本從約 5.2K GPU hours 降至約 3.3K GPU hours,減少約 36.5%。

這意味著,統一圖像和視頻分割并不一定需要線性增加訓練成本。通過合理設計訓練流程,模型可以更高效地學習跨模態、跨任務能力。

統一分割模型還有哪些挑戰?

當然,統一圖像和視頻分割仍然面臨一些挑戰。首先,聯合訓練圖像和視頻數據仍需要較高計算成本,尤其是視頻數據本身更占顯存和訓練資源。其次,當前的記憶機制仍然是固定長度的。對于很長的視頻,或者目標長時間被遮擋、外觀變化劇烈的情況,模型仍可能面臨挑戰。此外,X2SAM 是一個面向多任務的通用模型。在某些高度專門化的任務上,它可能仍不如針對單一任務深度優化的專家模型。

未來,研究團隊計劃進一步探索更高效的訓練方法、更輕量的模型結構,以及更適合長視頻的記憶機制,讓模型在復雜視頻場景中更加穩定、可擴展。

總結

X2SAM 的意義在于,它將圖像分割、視頻分割、語言理解、視覺提示和時序記憶放進了同一個多模態框架中。它讓多模態大模型不只是「看懂畫面」和「回答問題」,而是進一步具備了像素級定位與分割能力。對于視頻編輯、自動標注、具身智能、機器人感知和多模態交互等場景,X2SAM 提供了一個統一而強大的分割多模態大模型方案。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
劉曉慶19套房百億翡翠全捐!養大外甥分文不給,真相來了

劉曉慶19套房百億翡翠全捐!養大外甥分文不給,真相來了

一盅情懷
2026-05-13 13:58:32
金價、銀價,都跌了

金價、銀價,都跌了

環球網資訊
2026-05-15 10:55:45
上海房東心態崩了?朋友賣房后租房坐看房價跌掉350萬,這就是不被割韭菜的真相

上海房東心態崩了?朋友賣房后租房坐看房價跌掉350萬,這就是不被割韭菜的真相

石辰搞笑日常
2026-05-15 10:57:32
世界杯轉播談妥了?網傳央視邀客戶周日參加媒介資源推介會

世界杯轉播談妥了?網傳央視邀客戶周日參加媒介資源推介會

懂球帝
2026-05-15 11:37:05
馬斯克兒子虎頭包走紅!銷量翻十幾倍。網友:不用上學么?

馬斯克兒子虎頭包走紅!銷量翻十幾倍。網友:不用上學么?

LOGO研究所
2026-05-15 10:57:22
爽快!中美會晤提出的第一個要求,中方直接開場定調,太高明了

爽快!中美會晤提出的第一個要求,中方直接開場定調,太高明了

溫讀史
2026-05-15 02:08:57
滴酒不沾數十年,特朗普主動舉杯抿酒,這場會面的分量藏在細節里

滴酒不沾數十年,特朗普主動舉杯抿酒,這場會面的分量藏在細節里

銜春信
2026-05-15 12:34:46
這跟不穿有啥區別?趙露思演唱會內衣外穿:被眾嘲一套比一套辣眼

這跟不穿有啥區別?趙露思演唱會內衣外穿:被眾嘲一套比一套辣眼

胡一舸南游y
2026-05-13 15:23:56
武統、和統都沒希望了?臺軍事專家曾言:中國已經走上了第3條路

武統、和統都沒希望了?臺軍事專家曾言:中國已經走上了第3條路

別吵吵
2026-05-15 08:35:17
修到中國邊境就停?塔利班急修瓦罕走廊,妄圖用基建倒逼北京松口

修到中國邊境就停?塔利班急修瓦罕走廊,妄圖用基建倒逼北京松口

期望帶來失望
2026-05-14 10:55:36
從故宮到天壇,特朗普這趟“補課”,補的是中國智慧

從故宮到天壇,特朗普這趟“補課”,補的是中國智慧

浪子的煙火人間
2026-05-15 12:38:13
消息人士:火箭預計給伊森開出一份均薪2200萬美元的續約合同

消息人士:火箭預計給伊森開出一份均薪2200萬美元的續約合同

懂球帝
2026-05-15 11:17:06
2年2400-3000萬!這就是湖人能給斯馬特的全部,能否留隊已有答案

2年2400-3000萬!這就是湖人能給斯馬特的全部,能否留隊已有答案

奕辰說球
2026-05-15 11:45:17
馬斯克幼子帶火新中式,虎頭包一夜售罄

馬斯克幼子帶火新中式,虎頭包一夜售罄

品牌頭版
2026-05-15 10:36:37
博士肄業生把985院長拉下馬:同濟剛免職,又有三所高校被爆造假

博士肄業生把985院長拉下馬:同濟剛免職,又有三所高校被爆造假

妍妍教育日記
2026-05-13 09:55:04
大陸通告全球:不準臺灣做一件事!話音剛落,鄭麗文派人赴京交底

大陸通告全球:不準臺灣做一件事!話音剛落,鄭麗文派人赴京交底

標體
2026-05-15 09:35:56
吃中國飯砸中國鍋,改島國國籍拿高薪,這3位下場一個比一個慘

吃中國飯砸中國鍋,改島國國籍拿高薪,這3位下場一個比一個慘

黑翼天使
2026-05-14 12:27:06
復仇之戰!U17亞洲杯1/4決賽:中國戰沙特 萬項領銜何思凡誓言爭冠

復仇之戰!U17亞洲杯1/4決賽:中國戰沙特 萬項領銜何思凡誓言爭冠

新英體育
2026-05-15 10:40:31
一語成讖!西安36歲騎手遇車禍身亡,出事前視頻文案讓人細思極恐

一語成讖!西安36歲騎手遇車禍身亡,出事前視頻文案讓人細思極恐

火山詩話
2026-05-15 05:56:36
特朗普愛吃的兩道中國菜,好多老外都猜不到

特朗普愛吃的兩道中國菜,好多老外都猜不到

阿萊美食匯
2026-05-15 00:03:02
2026-05-15 13:04:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13001文章數 142648關注度
往期回顧 全部

科技要聞

兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

頭條要聞

歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

頭條要聞

歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

體育要聞

德約科維奇買的球隊,從第6級聯賽升入法甲

娛樂要聞

方媛回應住男生單人間:女孩的配得感

財經要聞

特朗普的北京時刻

汽車要聞

雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

態度原創

家居
教育
手機
數碼
公開課

家居要聞

110㎡淡而有致的生活表達

教育要聞

在地球另一端,我成了這所小眾留學院校法學院的首位中國學生

手機要聞

紅魔11S Pro系列手機搭載8000mAh電池,自帶80W氮化鎵充電器

數碼要聞

佰維M560靈梭SSD評測:單面顆粒+5.2W低功耗,筆記本擴容實力之選

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版