无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓多模態(tài)大模型學(xué)會帶著時間思考:北大與華為團(tuán)隊開源TaRO框架

0
分享至



本文的第一作者為北京大學(xué)王選計算機(jī)研究所博士生鄭明航,通訊作者為助理教授劉洋。團(tuán)隊近年來在 TPAMI、CVPR、ICCV、ICML 等頂會上有多項(xiàng)代表性成果發(fā)表,并和國內(nèi)外知名高校、科研機(jī)構(gòu)廣泛開展合作。

本文主要介紹該團(tuán)隊和華為中央媒體技術(shù)院在多模態(tài)視頻理解與時序定位領(lǐng)域的最新研究成果。

該工作針對現(xiàn)有基于強(qiáng)化學(xué)習(xí)的視頻大模型在推理過程中往往產(chǎn)生膚淺推理,且無法為精確的時序定位提供有效指導(dǎo)的問題,提出了全新的時序感知推理優(yōu)化(Temporal-Aware Reasoning Optimization,TaRO)訓(xùn)練框架。該方法顯式地增強(qiáng)了模型帶著時間思考的能力,在多個公開基準(zhǔn)上取得了最先進(jìn)的零樣本性能。目前相關(guān)代碼已開源。



  • 論文標(biāo)題:Temporal-Aware Reasoning Optimization for Video Temporal Grounding
  • 論文鏈接:https://arxiv.org/abs/2606.09248v1
  • 開源代碼:https://github.com/oceanflowlab/TaRO
  • 項(xiàng)目主頁:https://minghangz.github.io/publication/taro
  • 視頻介紹:https://www.youtube.com/watch?v=GJaodMUG9Vc

背景與動機(jī)

視頻時序定位(Video Temporal Grounding, VTG)旨在根據(jù)自然語言查詢,在未剪輯的視頻中精準(zhǔn)定位對應(yīng)事件的起止時間段。近期,多模態(tài)大語言模型(MLLMs)結(jié)合強(qiáng)化學(xué)習(xí)(RL)在生成引導(dǎo)時序定位的推理路徑方面展現(xiàn)出了巨大潛力。然而,現(xiàn)有的強(qiáng)化學(xué)習(xí)方法生成的推理往往是膚淺的描述,未能識別出回答所需的特定視頻證據(jù)。

如圖 1(a)所示,本文對現(xiàn)有分別在帶推理路徑和直接輸出答案(無推理)兩種設(shè)置下進(jìn)行訓(xùn)練和推理,發(fā)現(xiàn)兩者的性能幾乎沒有差異。這一現(xiàn)象證明了盡管現(xiàn)有模型被訓(xùn)練進(jìn)行推理,但這些生成的膚淺推理對最終的定位預(yù)測幾乎沒有實(shí)質(zhì)性貢獻(xiàn)。本文分析了其背后的兩大原因:

  • 低效的隨機(jī)探索機(jī)制?,F(xiàn)有的強(qiáng)化學(xué)習(xí)范式在探索龐大的視頻推理空間時缺乏有效指導(dǎo),盲目的隨機(jī)展開(random rollout)導(dǎo)致模型主要探索低質(zhì)量的軌跡,進(jìn)而產(chǎn)生次優(yōu)且膚淺的推理。
  • 忽視推理質(zhì)量的獎勵設(shè)計。當(dāng)前的獎勵函數(shù)主要關(guān)注最終答案的正確性(如計算 IoU),而完全忽略了推理過程本身的質(zhì)量。這使得那些并不真正依賴視覺時序證據(jù)的推理路徑也可能被強(qiáng)化,導(dǎo)致模型依賴虛假相關(guān)性。



圖 1:背景與動機(jī)

技術(shù)方案

為了克服上述挑戰(zhàn),本文提出了時序感知推理優(yōu)化(TaRO)框架,旨在訓(xùn)練多模態(tài)大模型顯式帶著時間進(jìn)行思考。如圖 2 所示,TaRO 框架包含三個組件:

  • 模板化推理探索(Constructive Reasoning Exploration):為了提供高質(zhì)量的初始指導(dǎo),打破低效的隨機(jī)探索,本文利用預(yù)先生成的帶有明確時間戳的密集視頻字幕來構(gòu)建推理軌跡。通過按時間順序拼接采樣后的字幕,模型可以學(xué)習(xí)到哪些視覺線索對定位至關(guān)重要,哪些是干擾項(xiàng),從而避免了盲目摸索。
  • 時序敏感度獎勵(Temporal-Sensitivity Reward):為了評估推理質(zhì)量并確保其嚴(yán)格錨定在正確的視覺片段上,本文設(shè)計了一種實(shí)例級的推理路徑獎勵機(jī)制。核心思想是:高質(zhì)量的推理應(yīng)該錨定在特定的事件和時間戳上,如果擾亂了真實(shí)事件邊界附近的幀,這種推理應(yīng)當(dāng)失效,導(dǎo)致推理路徑的概率(logit)下降 。TaRO 利用這種概率下降作為獎勵信號,強(qiáng)制模型生成與關(guān)鍵時間戳緊密耦合的推理。
  • 漸進(jìn)式課程學(xué)習(xí)(Progressive Curriculum):TaRO 框架遵循漸進(jìn)式的學(xué)習(xí)策略。在預(yù)熱階段,模型利用模板化探索數(shù)據(jù)進(jìn)行學(xué)習(xí),掌握如何關(guān)注視覺線索并建立帶著時間思考的范式。隨后,模型過渡到自由探索階段,在時序敏感度獎勵的引導(dǎo)下,自主生成并完善其推理策略。



圖 2:時序感知推理優(yōu)化(TaRO)框架

實(shí)驗(yàn)結(jié)果

零樣本視頻時序定位性能:如表 1 所示,采用 TaRO 框架訓(xùn)練的視頻大模型在 Charades-STA、ActivityNet Captions、QVHighlights 和 TVGBench 四個公開基準(zhǔn)測試上,全面超越了現(xiàn)有的最先進(jìn)方法。例如,使用 Qwen2.5-VL-7B-Instruct 作為基座模型時,TaRO 在 TVGBench 上的 R1@0.5 指標(biāo)領(lǐng)先基線模型達(dá) 8.4%。

此外,TaRO 在較小的 Qwen2.5-VL-3B 模型和更新的 Qwen3-VL-8B 架構(gòu)上也展現(xiàn)出了一致的性能提升,證明了該方法的通用性。



表 1:零樣本視頻時序定位性能比較

長視頻場景下的擴(kuò)展能力:為了進(jìn)一步驗(yàn)證 TaRO 在長視頻上的表現(xiàn),本文在兩大長視頻數(shù)據(jù)集上進(jìn)行了零樣本評測,包括 TACOS(平均長度 367 秒)和 Ego4D NLQ(平均長度 499 秒)數(shù)據(jù)集。如表 2 所示,在使用相同底座模型的情況下,采用 TaRO 框架訓(xùn)練的視頻大模型依然保持了優(yōu)秀的性能,大幅領(lǐng)先現(xiàn)有基線方法。特別是在 Qwen3-VL-8B 架構(gòu)上,TaRO 帶來了更明顯的提升,例如在 TACOS 上 R1@0.3 提升了 13.7%,在 Ego4D NLQ 上 R1@0.3 提升了 8.7%。這證明了基于時序感知的強(qiáng)化學(xué)習(xí)優(yōu)化在面對長視頻時的有效性和魯棒性。



表 2:長視頻時序定位性能比較

消融實(shí)驗(yàn):表 3 驗(yàn)證 TaRO 各核心設(shè)計的有效性。首先在純隨機(jī)探索的基線模型上,單獨(dú)加入時序敏感度獎勵(TR)使得 R1@0.5 從 61.1% 提升至 63.1%(第 1,2 行),證明了時序敏感獎勵的有效性。而如果僅在訓(xùn)練中讓模型完全模仿外部構(gòu)造的推理路徑(CRE)而不進(jìn)行后續(xù)的自由探索階段(PC),模型的定位性能會出現(xiàn)嚴(yán)重下滑(第 3,4 行)。這是因?yàn)闇y試階段無法依賴外部字幕輸入,模型必須內(nèi)化自己的推理策略。而引入漸進(jìn)式課程學(xué)習(xí)(PC)則彌補(bǔ)了這一鴻溝,并實(shí)現(xiàn)了最優(yōu)性能(第 5,6 行)。



表 3:消融實(shí)驗(yàn)

可視化結(jié)果:圖 3 的可視化展示了 TaRO 在應(yīng)對復(fù)雜多模態(tài)場景時的表現(xiàn)。 視頻開頭出現(xiàn)了一個強(qiáng)干擾項(xiàng)(女子用手擦臉),其視覺動態(tài)與文本查詢(用刷子擦臉)高度相似。TaRO 通過生成細(xì)粒度的中間時序推理,精準(zhǔn)錨定了 19.0s 至 37.0s 的關(guān)鍵動作,并剔除了后續(xù)的無關(guān)片段,最終給出了正確的時序預(yù)測。



圖 3:可視化對比

總結(jié)

針對視頻時序定位中多模態(tài)大模型推理流于表面、缺乏真正時間感知的問題,本文推出了 TaRO 框架。通過引入模板化推理探索機(jī)制來高效引導(dǎo)模型帶著時間思考,并利用時序敏感度獎勵來量化推理質(zhì)量 ,TaRO 成功提升了多模態(tài)大模型的時序推理能力。大量實(shí)驗(yàn)證明,該框架不僅顯著提升了模型推理的魯棒性與可解釋性 ,更在多個公開基準(zhǔn)上取得了最佳的視頻時序定位性能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
從銀行辭職,嫁百億富豪,丈夫破產(chǎn)后,她在上海開艾灸館維持體面

從銀行辭職,嫁百億富豪,丈夫破產(chǎn)后,她在上海開艾灸館維持體面

枯蝶
2026-07-03 06:11:18
抓了那么多貪官,查到的贓款呢?跟我們有關(guān)系嗎?

抓了那么多貪官,查到的贓款呢?跟我們有關(guān)系嗎?

細(xì)說職場
2026-06-19 14:41:30
中國空調(diào)熱銷歐洲,印度制造商越看越眼紅:中國行我憑什么不行?

中國空調(diào)熱銷歐洲,印度制造商越看越眼紅:中國行我憑什么不行?

小柱解說游戲
2026-07-02 19:42:22
湖記:東契奇對湖人操作感到興奮,球隊滿足其兩大陣容訴求

湖記:東契奇對湖人操作感到興奮,球隊滿足其兩大陣容訴求

晚霧空青
2026-07-03 12:25:52
梅德韋杰夫心里清楚,無論俄羅斯打輸打贏,都將是他的上位機(jī)會

梅德韋杰夫心里清楚,無論俄羅斯打輸打贏,都將是他的上位機(jī)會

兵鑒史
2026-07-02 11:49:28
郭德綱直播座次盡顯等級地位,揚(yáng)言上海開五家劇場,是吹牛嗎?

郭德綱直播座次盡顯等級地位,揚(yáng)言上海開五家劇場,是吹牛嗎?

蜜桔娛樂
2026-07-02 22:01:16
2換1報價廣廈?廣東隊有望截胡北京男籃,朱芳雨強(qiáng)挖小巴里布朗!

2換1報價廣廈?廣東隊有望截胡北京男籃,朱芳雨強(qiáng)挖小巴里布朗!

緋雨兒
2026-07-02 11:58:48
7月3日人民幣對美元中間價調(diào)升41個基點(diǎn)

7月3日人民幣對美元中間價調(diào)升41個基點(diǎn)

證券時報
2026-07-03 09:49:05
黃仁勛的萬億算盤:寧可把芯片倒進(jìn)太平洋,也不讓美國企業(yè)撿漏?

黃仁勛的萬億算盤:寧可把芯片倒進(jìn)太平洋,也不讓美國企業(yè)撿漏?

風(fēng)干迷茫人
2026-07-02 06:33:53
聯(lián)合國曾經(jīng)預(yù)測:中國人口迅速萎縮,將成為全球面對的最大挑戰(zhàn)!

聯(lián)合國曾經(jīng)預(yù)測:中國人口迅速萎縮,將成為全球面對的最大挑戰(zhàn)!

花漾夜雨飄雪
2026-07-02 23:36:07
國臺辦:民進(jìn)黨當(dāng)局應(yīng)盡早解除對大陸居民赴臺游限制

國臺辦:民進(jìn)黨當(dāng)局應(yīng)盡早解除對大陸居民赴臺游限制

澎湃新聞
2026-07-02 11:04:20
警惕:上了年紀(jì)再過性生活,最怕這2點(diǎn)!保護(hù)男性精氣,做好4點(diǎn)

警惕:上了年紀(jì)再過性生活,最怕這2點(diǎn)!保護(hù)男性精氣,做好4點(diǎn)

健康之光
2026-07-02 19:40:04
萊奧:我們希望奪冠把獎杯送給C羅,我認(rèn)為我們可以走得很遠(yuǎn)

萊奧:我們希望奪冠把獎杯送給C羅,我認(rèn)為我們可以走得很遠(yuǎn)

懂球帝
2026-07-03 10:28:21
Papi醬把公司全關(guān)了,只留七個人

Papi醬把公司全關(guān)了,只留七個人

盧松松
2026-06-30 15:54:25
西安賽格購物中心墜樓發(fā)酵!離職10年的員工發(fā)聲:嚴(yán)總做人特別好

西安賽格購物中心墜樓發(fā)酵!離職10年的員工發(fā)聲:嚴(yán)總做人特別好

火山詩話
2026-07-02 04:50:43
NBA瘋狂一夜!13筆簽約達(dá)成,湖人史詩級4換1,新三巨頭誕生了

NBA瘋狂一夜!13筆簽約達(dá)成,湖人史詩級4換1,新三巨頭誕生了

籃球掃地僧
2026-07-02 09:05:41
WTT大滿貫:4強(qiáng)對陣出爐!國乒世界第一3:1晉級,有望包攬冠亞軍

WTT大滿貫:4強(qiáng)對陣出爐!國乒世界第一3:1晉級,有望包攬冠亞軍

國乒二三事
2026-07-03 05:51:45
41歲C羅戰(zhàn)斧怒吼!苦等20年 世界杯淘汰賽第1球 刷爆3大紀(jì)錄

41歲C羅戰(zhàn)斧怒吼!苦等20年 世界杯淘汰賽第1球 刷爆3大紀(jì)錄

葉青足球世界
2026-07-03 08:33:10
C羅堅持多年的飲食火了?頂刊證實(shí):遵循這一吃法,肝脂直降38.9%

C羅堅持多年的飲食火了?頂刊證實(shí):遵循這一吃法,肝脂直降38.9%

念洲
2026-07-02 17:30:48
別罵C羅了!外媒說出真相:葡萄牙中場創(chuàng)造力太差梅西來了也白搭

別罵C羅了!外媒說出真相:葡萄牙中場創(chuàng)造力太差梅西來了也白搭

楊華評論
2026-07-03 11:25:34
2026-07-03 13:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13421文章數(shù) 142686關(guān)注度
往期回顧 全部

科技要聞

特斯拉交付超預(yù)期7.4萬輛,股價卻大跌7.5%

頭條要聞

圍繞霍爾木茲海峽等問題 美伊在安理會激烈交鋒

頭條要聞

圍繞霍爾木茲海峽等問題 美伊在安理會激烈交鋒

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

黃曉明深夜約會美女,分手原因曝光

財經(jīng)要聞

AI“鬼故事”不斷,市場開始重估?

汽車要聞

極氪9X五座版官宣,如圖!

態(tài)度原創(chuàng)

本地
健康
家居
公開課
軍事航空

本地新聞

這場穿越酉陽的光影之旅,張張都是壁紙!

這4類消化病患者 吃粘食管住嘴

家居要聞

傳奇筑 日常詩

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍“航母殺手”首次公開 此前從未展示

無障礙瀏覽 進(jìn)入關(guān)懷版