无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

證據攤開看,場景圖畫清:讓流式視頻大模型拿捏「何時開口」

0
分享至



隨著多模態技術和大語言模型的發展,人類與 AI 的交互關系正在從「命令 - 執行」走向真正的共生。AI 將不再只是等待人類指令再執行的工具,而是與人類共處同一時空的主動智能體。

它們像人類一樣持續地感知動態環境,基于環境理解和內部目標,主動向他人發起交互(例如主動提醒「杯子要掉了」或在關鍵時刻主動詢問「需要幫助嗎」)。

同時,視覺作為現實世界最豐富、最自然的感知媒介,是主動智能體理解外部環境的核心窗口。在這種持續的外部感知和響應判斷下,視頻的輸入特征從「離線轉為在線」。

換言之,智能體所承載的視頻大模型(Video-LLM),不再是整段看完再作答的離線推理系統,而應像人類一樣邊看邊判斷:在響應條件不足時保持克制,在關鍵證據出現時果斷響應交互。

因此,在這種流式主動交互場景下,視頻大模型真正棘手的,不只是「能不能看懂某一幀」,還有「該不該在這一秒開口」。然而,要把「證據是否足夠」做成穩定、可泛化的決策,現有方法往往仍把視覺證據與問題語義中的響應條件藏在隱式表征里,難以做到精細對齊和對「響應時機」的深刻理解。

為了解決這一痛點,來自西北工業大學、香港科技大學、清華大學等的研究團隊在 ACL 2026 上提出了一種基于證據 - 條件結構化對齊的流式視頻理解主動交互框架。該方法以顯式場景圖(Scene Graph)為統一表示,把流式觀測到的「視覺證據」與用戶查詢所蘊含的「響應條件」進行顯式建模,并結合記憶檢索與觸發式提示,在無需微調的方式下完成流式「靜默 / 響應」決策。



  • 論文標題:Response-G1: Explicit Scene Graph Modeling for Proactive Streaming Video Understanding
  • 論文鏈接:https://arxiv.org/abs/2605.07575
  • 代碼倉庫:https://github.com/kadmkbl/Response-G1

主動流式交互的裂縫:當證據與條件被「藏」在隱式表征里

流式主動交互的關鍵難點并不只在于內容生成,還在于每一時間步都要思考一個底層的問題:當前累積的視覺證據,是否已經滿足用戶問題所隱含的響應條件?

一旦這個判斷依賴隱式的證據 - 條件理解,模型就很容易在「相似幀」之間搖擺:視覺上幾乎一樣,但「該不該說」的標簽卻可能相反。這也是許多需要幀級標注的訓練路線的方法難以泛化的根源之一。

而在無需微調的路線中,幀間差異閾值等基于規則的方法實現簡單,卻容易把「畫面變化」誤當成「語義條件滿足」,從而忽略用戶響應需求。另一方面,基于觸發提示的方法(直接詢問大模型是否在當前時刻響應)雖能更加理解響應需求,但現有工作仍未顯式地構建證據與條件,對響應時機的理解缺少可核對的中間結構。

Response-G1 的切入點因此非常直接:用戶問題中的響應條件往往對應一個由物體、屬性與關系構成的結構化期望場景,場景圖為此提供了顯式的證據對齊方式,讓「證據是否足夠」不再依賴隱式表征,而轉由可解釋的中間結構進行逐項核對。



圖 1. 流式視頻理解中的主動機制對比

Response-G1 總覽:把「時機判斷」變成可解釋的圖對齊問題

Response-G1 將流程組織為三個彼此銜接、且都可視為「推理增強」的模塊:在線查詢引導的場景圖生成(流式證據建模)、基于動態記憶庫的場景圖檢索(證據 - 條件對齊),以及檢索增強的流式觸發決策(主動交互決策)。

框架不改變骨干視頻大模型的訓練目標與參數更新方式,主要通過結構化中間表示與檢索上下文,把模型的「響應判斷」從黑箱里往外拽半步。

  • 在線查詢引導的場景圖生成:對以當前時刻為中心的流式視頻片段,模型輸出場景圖節點(物體及其屬性)與邊(關系謂詞),并以三元組集合形式表示。為抑制與問題無關的細節,生成提示中注入用戶查詢,使視頻大模型優先抽取與問題相關的子結構,從而得到查詢敏感、證據聚焦的圖表示。



  • 基于記憶的場景圖檢索:為實現細粒度的「證據 - 條件」匹配對齊,框架維護隨時間增長的記憶庫,存儲歷史時刻生成的場景圖。檢索時,將各圖的三元組線性化為自然語言短語并拼接,同時對用戶查詢解析得到響應條件圖及其文本表示;二者經同一文本編碼器嵌入后做均值池化,以余弦相似度衡量語義相關性,并取 Top-K 子圖作為對齊證據上下文。



  • 檢索增強的流式觸發與回答:在每一需要決策的時間步,模型輸入由視頻幀嵌入、帶時間戳前綴的檢索場景圖編碼以及觸發指令(例如「現在是否應該回答?僅回答 Yes/No」)共同構成。若判定為靜默,則繼續累積觀測;若判定為響應,則在與交互決策一致的上下文中拼接原始問題,生成最終自然語言響應。





圖 2. Response-G1 框架概覽

實驗結果:主動式大幅領先,被動式同步受益

研究團隊在主流流式視頻理解基準 OVO-Bench 與 StreamingBench 上開展評估,并區分主動式(模型自主決定響應時刻)與被動式(響應時刻與提問時刻一致)子任務。實現上采用 Qwen3-VL-8B 作為模型骨干,并遵循既有工作對輸入分辨率與幀采樣策略的設置。

實驗結果顯示,在主動式子任務方面,Response-G1 在開源流式視頻大模型上提升顯著:在 OVO-Bench 上,Response-G1 提升了12.8%;在 StreamingBench 的 PO 子任務上,提升達15.1%。在被動式子任務方面,Response-G1 也形成穩定增益。

這表明,顯式場景圖不僅改善「何時說」,而且在有時空推理需求的用戶問題上,也有助于「說得準」。



表 1. OVO-Bench 上的性能對比(主動式子任務為 Forward Active Responding;其余子任務為被動式設定)



表 2. StreamingBench 上的性能對比(主動式子任務為 PO;其余子任務為被動式設定)

消融與流式主動交互案例

消融實驗表明:(1)引入基于場景圖的檢索增強可同步提升主動式與被動式流式視頻理解的表現,而引入時間戳的場景圖編碼一定程度地提升了模型的證據理解。(2)在流式視頻的場景圖證據在線生成階段,「查詢引導」優于「目標引導」策略,后者可能誘發模型生成不存在的場景圖三元組證據并導致過早響應問題。



表 3. 消融實驗(左:不同檢索增強策略的有效性;右:不同證據生成引導策略的有效性)

可視化案例展示了一個需要等待證據線索逐步顯露的流式視頻主動交互場景(用戶提問:「一個穿著紅色 T 恤的男孩在離開后做了什么事情?」)。

結果表明,在時間「18:51」處,Response-G1 準確檢索到與查詢相關的場景圖(即證據)并觸發響應,而基線方法在整個視頻流中均始終未能作出響應。



圖 3. 流式視頻主動式交互可視化案例

結語

該研究的意義在于:它把主動交互流式視頻理解里難以捉摸的「時機」問題,通過顯式的統一的圖表示,轉寫為更可解釋、可調試的「證據 - 條件對齊」問題。

在視頻大模型逐步走向真實在線、主動交互的當下,這種結構化中間表示或許能為后續的多模態全能助手、長流式記憶與更復雜的人機協同,提供一個更可組合的底座。

作者介紹

本文作者馬可(https://kadmkbl.github.io)、唐家祺(https://jqt.me),分別來自西北工業大學和香港科技大學的博士研究生,研究方向為多模態大模型與智能體。

通訊作者是西北工業大學的郭斌教授(http://guob.org),長期從事普適計算、群智感知、具身智能及智能物聯網等領域的研究。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
每瓶僅含0.01克,喝幾千瓶才抵一個桃!“飲料一哥”也翻車了?杭州多家超市在售,你可能也喝過

每瓶僅含0.01克,喝幾千瓶才抵一個桃!“飲料一哥”也翻車了?杭州多家超市在售,你可能也喝過

都市快報橙柿互動
2026-05-24 20:48:16
金價、銀價急跌!現貨黃金下跌至每盎司4527.39美元 現貨白銀下跌至每盎司75.69美元

金價、銀價急跌!現貨黃金下跌至每盎司4527.39美元 現貨白銀下跌至每盎司75.69美元

閃電新聞
2026-05-26 16:02:41
馬斯克說中了!當今世界搶的不是芯片,而是中國20萬一臺的變壓器

馬斯克說中了!當今世界搶的不是芯片,而是中國20萬一臺的變壓器

潮鹿逐夢
2026-05-20 00:22:42
宣布認臺島為國!歐洲在野黨一把手將竄訪臺島,與賴清德見面!

宣布認臺島為國!歐洲在野黨一把手將竄訪臺島,與賴清德見面!

阿龍聊軍事
2026-05-26 11:54:13
董文華:我這輩子最正確的決定,就是嫁給了一個平凡普通的丈夫

董文華:我這輩子最正確的決定,就是嫁給了一個平凡普通的丈夫

飄飄然的娛樂匯
2026-05-25 19:10:08
蕁麻,不要讀xún má,丟不起那個人!

蕁麻,不要讀xún má,丟不起那個人!

未央看點
2026-05-19 08:54:23
伊朗使用新武器

伊朗使用新武器

魯中晨報
2026-05-26 09:06:47
連云港遭遇強暴雨致嚴重內澇:多車被淹 屋內積水70厘米 有市民街頭游泳

連云港遭遇強暴雨致嚴重內澇:多車被淹 屋內積水70厘米 有市民街頭游泳

閃電新聞
2026-05-26 11:01:42
五一新規后,倒查5年、3萬入刑:一位醫生的真心話(不吐不快)

五一新規后,倒查5年、3萬入刑:一位醫生的真心話(不吐不快)

醫客
2026-05-26 12:12:04
半導體大佬集體減持后,杭州豪宅被搶瘋了!

半導體大佬集體減持后,杭州豪宅被搶瘋了!

櫻桃大房子
2026-05-25 21:52:46
身家幾十億的“煤礦幕后老板”任鐵柱,因82條人命可能徹底崩塌

身家幾十億的“煤礦幕后老板”任鐵柱,因82條人命可能徹底崩塌

我想把最好的一面展現給你
2026-05-26 09:43:06
露笑科技:公司已攻克6/8/12英寸碳化硅晶體生長、襯底精密加工等關鍵核心技術

露笑科技:公司已攻克6/8/12英寸碳化硅晶體生長、襯底精密加工等關鍵核心技術

澎湃新聞
2026-05-25 16:44:08
美軍空襲“暫時結束”!交戰過程曝光:美戰機襲擊伊朗海軍致多人死亡,伊方向美軍艦開火,美軍則對阿巴斯港東邊進行空襲!特朗普最新表態

美軍空襲“暫時結束”!交戰過程曝光:美戰機襲擊伊朗海軍致多人死亡,伊方向美軍艦開火,美軍則對阿巴斯港東邊進行空襲!特朗普最新表態

每日經濟新聞
2026-05-26 09:03:57
河南一女子超市購物抽獎中世界杯門票欲轉讓,網友稱愿50萬收票,超市方回應

河南一女子超市購物抽獎中世界杯門票欲轉讓,網友稱愿50萬收票,超市方回應

瀟湘晨報
2026-05-26 15:11:42
老公不讓我和男閨蜜單獨去大理,我拉黑斷聯五天,回家后我傻眼了

老公不讓我和男閨蜜單獨去大理,我拉黑斷聯五天,回家后我傻眼了

蕭竹輕語
2026-04-11 08:40:12
廣州官宣:試點收購300萬元以內、70㎡以下二手住宅,樓齡不限

廣州官宣:試點收購300萬元以內、70㎡以下二手住宅,樓齡不限

南方都市報
2026-05-26 12:17:57
重磅!馬家人對金溥聰最后通牒:再傷害馬英九就申請“輔助宣告”

重磅!馬家人對金溥聰最后通牒:再傷害馬英九就申請“輔助宣告”

明天后天大后天
2026-05-26 11:00:15
慘遭屠殺!奪冠概率出爐!NBA三國殺!誰被低估了?

慘遭屠殺!奪冠概率出爐!NBA三國殺!誰被低估了?

籃球盛世
2026-05-26 15:29:43
向太曝許氏家族每年收租上億,自己就300多萬

向太曝許氏家族每年收租上億,自己就300多萬

韓小娛
2026-05-26 07:36:51
職業生涯法網首勝!吳易昺三盤橫掃過關,下輪將戰10號種子

職業生涯法網首勝!吳易昺三盤橫掃過關,下輪將戰10號種子

全景體育V
2026-05-26 05:16:53
2026-05-26 16:35:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13085文章數 142653關注度
往期回顧 全部

科技要聞

今年秋季,麒麟芯片將首次落地"邏輯折疊"

頭條要聞

外媒:中美身處兩個"陷阱"之間 兩國力求全都規避

頭條要聞

外媒:中美身處兩個"陷阱"之間 兩國力求全都規避

體育要聞

上賽季差點降入英甲,下賽季要踢英超了

娛樂要聞

臺媒貼臉!S媽被問大S嗑藥當場沉默

財經要聞

中國鋁行業爆單 下一個“煤炭”大周期?

汽車要聞

涉水加強 福特烈馬亞馬遜限量版上市 售價39.98萬

態度原創

親子
藝術
家居
數碼
游戲

親子要聞

備孕肌醇產品哪款值得買?2026熱門肌醇品牌實測排行,協同滋養卵巢助力備孕

藝術要聞

畫美,文字也美 | 日本著名畫家內田正泰

家居要聞

生與命相依 舊公寓改造

數碼要聞

微星預告STRIKE ALLOY TMR & STRIKE NEXUS:智控中心鍵盤套裝

《黑旗RE》確認亮相騰訊發布會!系列首次中文配音

無障礙瀏覽 進入關懷版