无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

證據攤開看,場景圖畫清:讓流式視頻大模型拿捏「何時開口」

0
分享至



隨著多模態技術和大語言模型的發展,人類與 AI 的交互關系正在從「命令 - 執行」走向真正的共生。AI 將不再只是等待人類指令再執行的工具,而是與人類共處同一時空的主動智能體。

它們像人類一樣持續地感知動態環境,基于環境理解和內部目標,主動向他人發起交互(例如主動提醒「杯子要掉了」或在關鍵時刻主動詢問「需要幫助嗎」)。

同時,視覺作為現實世界最豐富、最自然的感知媒介,是主動智能體理解外部環境的核心窗口。在這種持續的外部感知和響應判斷下,視頻的輸入特征從「離線轉為在線」。

換言之,智能體所承載的視頻大模型(Video-LLM),不再是整段看完再作答的離線推理系統,而應像人類一樣邊看邊判斷:在響應條件不足時保持克制,在關鍵證據出現時果斷響應交互。

因此,在這種流式主動交互場景下,視頻大模型真正棘手的,不只是「能不能看懂某一幀」,還有「該不該在這一秒開口」。然而,要把「證據是否足夠」做成穩定、可泛化的決策,現有方法往往仍把視覺證據與問題語義中的響應條件藏在隱式表征里,難以做到精細對齊和對「響應時機」的深刻理解。

為了解決這一痛點,來自西北工業大學、香港科技大學、清華大學等的研究團隊在 ACL 2026 上提出了一種基于證據 - 條件結構化對齊的流式視頻理解主動交互框架。該方法以顯式場景圖(Scene Graph)為統一表示,把流式觀測到的「視覺證據」與用戶查詢所蘊含的「響應條件」進行顯式建模,并結合記憶檢索與觸發式提示,在無需微調的方式下完成流式「靜默 / 響應」決策。



  • 論文標題:Response-G1: Explicit Scene Graph Modeling for Proactive Streaming Video Understanding
  • 論文鏈接:https://arxiv.org/abs/2605.07575
  • 代碼倉庫:https://github.com/kadmkbl/Response-G1

主動流式交互的裂縫:當證據與條件被「藏」在隱式表征里

流式主動交互的關鍵難點并不只在于內容生成,還在于每一時間步都要思考一個底層的問題:當前累積的視覺證據,是否已經滿足用戶問題所隱含的響應條件?

一旦這個判斷依賴隱式的證據 - 條件理解,模型就很容易在「相似幀」之間搖擺:視覺上幾乎一樣,但「該不該說」的標簽卻可能相反。這也是許多需要幀級標注的訓練路線的方法難以泛化的根源之一。

而在無需微調的路線中,幀間差異閾值等基于規則的方法實現簡單,卻容易把「畫面變化」誤當成「語義條件滿足」,從而忽略用戶響應需求。另一方面,基于觸發提示的方法(直接詢問大模型是否在當前時刻響應)雖能更加理解響應需求,但現有工作仍未顯式地構建證據與條件,對響應時機的理解缺少可核對的中間結構。

Response-G1 的切入點因此非常直接:用戶問題中的響應條件往往對應一個由物體、屬性與關系構成的結構化期望場景,場景圖為此提供了顯式的證據對齊方式,讓「證據是否足夠」不再依賴隱式表征,而轉由可解釋的中間結構進行逐項核對。



圖 1. 流式視頻理解中的主動機制對比

Response-G1 總覽:把「時機判斷」變成可解釋的圖對齊問題

Response-G1 將流程組織為三個彼此銜接、且都可視為「推理增強」的模塊:在線查詢引導的場景圖生成(流式證據建模)、基于動態記憶庫的場景圖檢索(證據 - 條件對齊),以及檢索增強的流式觸發決策(主動交互決策)。

框架不改變骨干視頻大模型的訓練目標與參數更新方式,主要通過結構化中間表示與檢索上下文,把模型的「響應判斷」從黑箱里往外拽半步。

  • 在線查詢引導的場景圖生成:對以當前時刻為中心的流式視頻片段,模型輸出場景圖節點(物體及其屬性)與邊(關系謂詞),并以三元組集合形式表示。為抑制與問題無關的細節,生成提示中注入用戶查詢,使視頻大模型優先抽取與問題相關的子結構,從而得到查詢敏感、證據聚焦的圖表示。



  • 基于記憶的場景圖檢索:為實現細粒度的「證據 - 條件」匹配對齊,框架維護隨時間增長的記憶庫,存儲歷史時刻生成的場景圖。檢索時,將各圖的三元組線性化為自然語言短語并拼接,同時對用戶查詢解析得到響應條件圖及其文本表示;二者經同一文本編碼器嵌入后做均值池化,以余弦相似度衡量語義相關性,并取 Top-K 子圖作為對齊證據上下文。



  • 檢索增強的流式觸發與回答:在每一需要決策的時間步,模型輸入由視頻幀嵌入、帶時間戳前綴的檢索場景圖編碼以及觸發指令(例如「現在是否應該回答?僅回答 Yes/No」)共同構成。若判定為靜默,則繼續累積觀測;若判定為響應,則在與交互決策一致的上下文中拼接原始問題,生成最終自然語言響應。





圖 2. Response-G1 框架概覽

實驗結果:主動式大幅領先,被動式同步受益

研究團隊在主流流式視頻理解基準 OVO-Bench 與 StreamingBench 上開展評估,并區分主動式(模型自主決定響應時刻)與被動式(響應時刻與提問時刻一致)子任務。實現上采用 Qwen3-VL-8B 作為模型骨干,并遵循既有工作對輸入分辨率與幀采樣策略的設置。

實驗結果顯示,在主動式子任務方面,Response-G1 在開源流式視頻大模型上提升顯著:在 OVO-Bench 上,Response-G1 提升了12.8%;在 StreamingBench 的 PO 子任務上,提升達15.1%。在被動式子任務方面,Response-G1 也形成穩定增益。

這表明,顯式場景圖不僅改善「何時說」,而且在有時空推理需求的用戶問題上,也有助于「說得準」。



表 1. OVO-Bench 上的性能對比(主動式子任務為 Forward Active Responding;其余子任務為被動式設定)



表 2. StreamingBench 上的性能對比(主動式子任務為 PO;其余子任務為被動式設定)

消融與流式主動交互案例

消融實驗表明:(1)引入基于場景圖的檢索增強可同步提升主動式與被動式流式視頻理解的表現,而引入時間戳的場景圖編碼一定程度地提升了模型的證據理解。(2)在流式視頻的場景圖證據在線生成階段,「查詢引導」優于「目標引導」策略,后者可能誘發模型生成不存在的場景圖三元組證據并導致過早響應問題。



表 3. 消融實驗(左:不同檢索增強策略的有效性;右:不同證據生成引導策略的有效性)

可視化案例展示了一個需要等待證據線索逐步顯露的流式視頻主動交互場景(用戶提問:「一個穿著紅色 T 恤的男孩在離開后做了什么事情?」)。

結果表明,在時間「18:51」處,Response-G1 準確檢索到與查詢相關的場景圖(即證據)并觸發響應,而基線方法在整個視頻流中均始終未能作出響應。



圖 3. 流式視頻主動式交互可視化案例

結語

該研究的意義在于:它把主動交互流式視頻理解里難以捉摸的「時機」問題,通過顯式的統一的圖表示,轉寫為更可解釋、可調試的「證據 - 條件對齊」問題。

在視頻大模型逐步走向真實在線、主動交互的當下,這種結構化中間表示或許能為后續的多模態全能助手、長流式記憶與更復雜的人機協同,提供一個更可組合的底座。

作者介紹

本文作者馬可(https://kadmkbl.github.io)、唐家祺(https://jqt.me),分別來自西北工業大學和香港科技大學的博士研究生,研究方向為多模態大模型與智能體。

通訊作者是西北工業大學的郭斌教授(http://guob.org),長期從事普適計算、群智感知、具身智能及智能物聯網等領域的研究。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

親子
數碼
健康
教育
本地

親子要聞

今天我們吃公主糖果玩公主裝扮游戲

數碼要聞

消息稱微軟下周發布英偉達處理器Windows PC,戴爾也會跟進

嘗試干細胞療法如何避免踩坑?

教育要聞

別再丟分了!中考物理焦耳定律實驗,一道題搞定4 個高頻易錯點

本地新聞

用剪紙的方式,打開江蘇揚州

無障礙瀏覽 進入關懷版