亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

PixelRefer :讓AI從“看大圖”走向“看懂每個對象”

0
分享至



多模態(tài)大模型(MLLMs)雖然在圖像理解、視頻分析上表現(xiàn)出色,但多停留在整體場景級理解。

而場景級理解 ≠ 視覺理解的終點,現(xiàn)實任務(wù)(如自動駕駛、機器人、醫(yī)療影像、視頻分析)需要的是細粒度、對象級(object-level)詳細理解。

然而,當(dāng)下的研究工作,如英偉達的Describe Anything Model (DAM)局限于單個物體的描述,難以深入理解多對象屬性、交互關(guān)系及其時序演變,且犧牲了模型本身的通用理解能力。

針對這一問題,浙江大學(xué)、達摩院、香港理工大學(xué)聯(lián)合提出了一種創(chuàng)新的解決方案PixelRefer:一個統(tǒng)一的時空像素級區(qū)域級理解框架,可實現(xiàn)任意粒度下的精細視覺指代與推理,在多項像素級細粒度理解任務(wù)取得領(lǐng)先性能表現(xiàn)。和DAM-3B相比,輕量版的2B模型推理時間加快了4倍,顯存占用減半,且訓(xùn)練數(shù)據(jù)量大大少于已有方法。



PixelRefer能夠?qū)θ我饽繕?biāo)實現(xiàn)準(zhǔn)確語義理解以及時空物體區(qū)域理解。









  • 論文標(biāo)題:
  • PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
  • 論文鏈接:
  • https://arxiv.org/abs/2510.23603
  • 項目網(wǎng)站鏈接:
  • https://circleradon.github.io/PixelRefer/
  • 代碼鏈接:
  • https://github.com/DAMO-NLP-SG/PixelRefer

先驗分析:大模型“如何看懂區(qū)域”?

為了探索解決以上問題,作者基于通用視覺基礎(chǔ)模型采用最直接的設(shè)計:將全局視覺token+像素級區(qū)域token+文本token一起喂給 LLM。當(dāng)無物體指代區(qū)域時,模型則退化成通用視覺理解任務(wù),從而實現(xiàn)區(qū)域理解的同時,保留通用模型本身的通用理解能力。

作者對LLM內(nèi)從淺層到深層中分析視覺token、區(qū)域token以及其他類型token進行可視化分析。本文可以發(fā)現(xiàn)從淺層到深層,答案(Ans)優(yōu)先關(guān)注像素級區(qū)域token,其attention分?jǐn)?shù)一直很高,說明物體token表征對于模型的回答起到重要的作用。此外,全局圖像token(vision)則僅在淺層中(第一層)表現(xiàn)出較高的attention分布(Answer-to-image token attention),LLM的深層則表現(xiàn)較弱,甚至沒有影響,這個在通用視覺基礎(chǔ)模型研究中也被討論到。



淺層到深層的attention可視化

基于此分析,作者得出兩種設(shè)計方案:

  1. 高質(zhì)量像素級物體表征很重要:對于像素級區(qū)域的表達,語義豐富的區(qū)域表征直接決定像素級語義理解的質(zhì)量;
  2. 全局信息的冗余可以通過“預(yù)融合”優(yōu)化:在 LLM 深層階段,全局視覺標(biāo)記的作用顯著減弱,在深層階段反而變得冗余,說明其信息可提前注入對象標(biāo)記中,以大幅減少計算開銷。

方法設(shè)計

為此,作者針對像素級細粒度理解定義了兩種框架,Vision-Object Framework (a)與Object-Only Framework (b):



PixelRefer(Vision-Object Framework)

對于PixelRefer,作者把全局視覺token+像素級區(qū)域token+文本token一起送入 LLM,既保留場景語境,又在對象級上精細推理。關(guān)鍵在于像素級區(qū)域表征token質(zhì)量足夠高。為此,作者提出尺度自適應(yīng)對象分詞器(Scale-Adaptive Object Tokenizer, SAOT) 來生成精確、緊湊、語義豐富的對象表示。

SAOT 圍繞兩個設(shè)計:(i)小目標(biāo)容易在patch化后丟失細節(jié);(ii)大目標(biāo)的特征冗余嚴(yán)重

核心做法分三步:

  1. 動態(tài)尺度處理(Dynamic Object Processing)。按像素級區(qū)域大小自適應(yīng)地放大小物體、縮小大物體,并進行上下文擴展(在目標(biāo)周圍留出一定背景),保證既不丟細節(jié)也不過度冗余。隨后通過共享視覺編碼器取到區(qū)域級特征。
  2. 位置感知的掩碼特征抽?。∕ask Feature + Relative Positional Encoding)。對區(qū)域內(nèi)的有效特征做掩碼并疊加相對坐標(biāo)投影,形成位置感知的對象token,為后續(xù)推理提供“這片語義在圖像哪里”的線索。作者還為被裁剪/擴展后的區(qū)域加入相對位置編碼來緩解對齊歧義,使對象token具備空間感知。
  3. 冗余聚合(Abundant Feature Aggregation)。對大/同質(zhì)區(qū)域里高度相似的token,采用k-means 聚類合并,只保留n 個代表性token,既壓縮冗余又保留多視角細節(jié)。這一步實證上顯著降低了對象內(nèi)部token的相似度,提高了表示“緊致度”。




PixelRefer-Lite (Object-Only Framework)

該變體僅使用對象標(biāo)記進行 LLM 推理,借助對象中心信息融合模塊(Object-Centric Infusion Module, OCI)將全局特征在前處理階段融合入對象表示中。通過 Local-to-Object 和 Global-to-Object Attention,使目標(biāo)的表征同時具備細節(jié)感知與全局語義,從而實現(xiàn)更完整的上下文融合。這樣一來,推理階段無需再使用全局視覺標(biāo)記,顯著降低顯存與時間消耗,同時保持語義一致性與理解精度。



PixelRefer-Lite 實現(xiàn)了一個高效的推理框架,在保持高性能的同時將推理速度提升約 2–3 倍。

數(shù)據(jù)集

作者收集并開源了用于訓(xùn)練的兩類數(shù)據(jù)集,分別是Foundational Object Perception(140萬樣本):涵蓋物體、部件、時序關(guān)系的識別與描述以及Visual Instruction Tuning(80萬樣本):覆蓋區(qū)域QA、視頻QA、多對象關(guān)系與未來事件預(yù)測QA。



性能結(jié)果

  • 對于圖像像素級細粒度理解benchmark



PixelRefer在多個圖像理解benchmark上已達到SOTA水平,不論是簡單的區(qū)域識別還是詳細理解,已成為最先進的模型,特別是在reasoning場景下,更是展現(xiàn)出了突出優(yōu)勢。

  • 對于視頻像素級細粒度理解benchmark



在經(jīng)典的VideoRefer-Bench上,不論是視頻區(qū)域的caption還是QA,均取得了領(lǐng)先性能,展現(xiàn)了通用而又全面的能力。

  • 對于推理時間與效率的計算



在基于圖片的benchmark DLC-Bench和基于視頻的benchmark上HC-STVG上均進行了測評,輕量版的PixelRefer-Lite-2B模型有較大的領(lǐng)先優(yōu)勢,特別是在視頻上,相較于DAM-3B,推理時間縮短了約4倍,顯存占用減少了2倍。

  • 消融實驗:Scale-adaptive Object TokenizervsMaskPooling



  • 相較于之前簡單maskpooling的做法,作者提出的Scale-adaptive Object Tokenizer模塊有明顯的提升,特別是在小目標(biāo)理解上,在LVIS和DLC-Bench上均提升了十幾個點。

  • 消融實驗:對于區(qū)域token的表征個數(shù)



研究意義與總結(jié)

PixelRefer的出現(xiàn),標(biāo)志著AI視覺理解從“看懂一張圖”邁向“理解世界的細節(jié)動態(tài)”,為多模態(tài)大模型的精細化視覺理解提供了新的方向。應(yīng)用前景包括:

  • 自動駕駛的時序場景識別
  • 醫(yī)療影像的病灶級理解
  • 智能視頻剪輯與監(jiān)控
  • 多模態(tài)對話與人機交互

未來的多模態(tài)AI,不僅會“看見世界”,更會理解世界的關(guān)系。PixelRefer的提出,正是通向通用視覺智能的一塊關(guān)鍵拼圖。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
福州一河流現(xiàn)大量巴西龜,岸邊留塑料筐,疑似有人傾倒,管理方:將調(diào)取監(jiān)控找人;律師:丟棄外來入侵物種可處一萬元以上五萬元以下罰款

福州一河流現(xiàn)大量巴西龜,岸邊留塑料筐,疑似有人傾倒,管理方:將調(diào)取監(jiān)控找人;律師:丟棄外來入侵物種可處一萬元以上五萬元以下罰款

大風(fēng)新聞
2026-04-15 11:47:05
上海90-89險勝廣州豪取20連勝,王哲林20+16,張鎮(zhèn)麟14分

上海90-89險勝廣州豪取20連勝,王哲林20+16,張鎮(zhèn)麟14分

懂球帝
2026-04-15 21:27:07
孫儷分享兒女名字由來,太暖心了!二胎家庭一碗水千萬別端平!

孫儷分享兒女名字由來,太暖心了!二胎家庭一碗水千萬別端平!

菁媽育兒
2026-04-15 09:39:57
個人PC已死!AI讓普通人徹底買不起電腦

個人PC已死!AI讓普通人徹底買不起電腦

快科技
2026-04-13 18:35:05
李在明高規(guī)格接待石破茂!務(wù)實派能否“下架”高市,救日韓關(guān)系?

李在明高規(guī)格接待石破茂!務(wù)實派能否“下架”高市,救日韓關(guān)系?

空間展示知識
2026-04-14 20:38:31
一個農(nóng)民去上??床〖o(jì)實:住院九天半,花費53000元,超心疼!

一個農(nóng)民去上??床〖o(jì)實:住院九天半,花費53000元,超心疼!

奶茶麥子
2026-04-14 12:20:09
你焦慮了一生,其實沒有意義。

你焦慮了一生,其實沒有意義。

老陸不老
2026-04-13 20:05:02
河南一景區(qū)推“虎景房”,隔著雙層防彈玻璃與老虎“同眠”,一晚168元;揭秘走紅背后:從“黑色煤?!弊兩沓蓜游飯@砸了3.8億

河南一景區(qū)推“虎景房”,隔著雙層防彈玻璃與老虎“同眠”,一晚168元;揭秘走紅背后:從“黑色煤?!弊兩沓蓜游飯@砸了3.8億

極目新聞
2026-04-15 17:05:43
被AI砸掉飯碗的,反倒是踏實肯干的?

被AI砸掉飯碗的,反倒是踏實肯干的?

槽邏輯
2026-04-08 12:13:00
果然越不體面小生意往往悶聲發(fā)大財!網(wǎng)友:一年不低于50萬

果然越不體面小生意往往悶聲發(fā)大財!網(wǎng)友:一年不低于50萬

科學(xué)發(fā)掘
2026-04-15 07:34:42
戴口罩!戴口罩!流行毒株變了!

戴口罩!戴口罩!流行毒株變了!

江南晚報
2026-04-15 21:34:06
如果被調(diào)劑到這些專業(yè),哪怕復(fù)讀也別去!分享20個避雷專業(yè)

如果被調(diào)劑到這些專業(yè),哪怕復(fù)讀也別去!分享20個避雷專業(yè)

狐貍先森講升學(xué)規(guī)劃
2026-04-13 07:15:03
“姐,我買房還差30萬,快讓姐夫給錢”姐姐:你姐夫和我離婚了

“姐,我買房還差30萬,快讓姐夫給錢”姐姐:你姐夫和我離婚了

烙任情感
2026-04-14 21:55:07
看完第一季度的銷量數(shù)據(jù),為小米汽車全年55萬目標(biāo)捏把汗

看完第一季度的銷量數(shù)據(jù),為小米汽車全年55萬目標(biāo)捏把汗

車快評
2026-04-13 23:40:45
1960年李仙洲被特赦后,問周總理:我有個心結(jié),這13年都沒弄明白

1960年李仙洲被特赦后,問周總理:我有個心結(jié),這13年都沒弄明白

鶴羽說個事
2026-04-14 22:25:22
全程眼突鼓腮,看了觀眾對孫儷的評價,才知張藝謀這句話的含金量

全程眼突鼓腮,看了觀眾對孫儷的評價,才知張藝謀這句話的含金量

陳述影視
2026-04-04 17:53:34
奔馳E級價格大跳水!E300L豪華落地45萬,30天熱銷14545

奔馳E級價格大跳水!E300L豪華落地45萬,30天熱銷14545

芭比衣櫥
2026-04-15 13:20:03
大灣區(qū)攬勝來了!小鵬旗艦SUV GX預(yù)售:旗艦版39.98萬

大灣區(qū)攬勝來了!小鵬旗艦SUV GX預(yù)售:旗艦版39.98萬

快科技
2026-04-15 21:38:10
沉默2天后,中方通告全球,藏南是中國領(lǐng)土,并送給印度一個忠告

沉默2天后,中方通告全球,藏南是中國領(lǐng)土,并送給印度一個忠告

軍機Talk
2026-04-15 11:29:39
iPhone Fold外觀曝光:橫向闊折疊設(shè)計,看齊華為Pura X Max

iPhone Fold外觀曝光:橫向闊折疊設(shè)計,看齊華為Pura X Max

PChome電腦之家
2026-04-15 16:10:27
2026-04-15 23:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12772文章數(shù) 142628關(guān)注度
往期回顧 全部

科技要聞

ChatGPT十億用戶又怎樣?Anthropic直接貼臉

頭條要聞

美航母及1萬多士兵將抵中東 特朗普:戰(zhàn)爭或持續(xù)至11月

頭條要聞

美航母及1萬多士兵將抵中東 特朗普:戰(zhàn)爭或持續(xù)至11月

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現(xiàn)身環(huán)球影城,牽手女兒溫馨有愛

財經(jīng)要聞

業(yè)績失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評測

態(tài)度原創(chuàng)

本地
健康
教育
公開課
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

干細胞抗衰4大誤區(qū),90%的人都中招

教育要聞

精準(zhǔn)破題藝術(shù)人才就業(yè)領(lǐng)域!上音舉辦上海高校藝術(shù)專場招聘會

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

萬斯:對當(dāng)前美伊局勢進展“感到樂觀”

無障礙瀏覽 進入關(guān)懷版