網易首頁 > 網易號 > 正文 申請入駐

AI「看不懂」、「做不好」視頻的問題,混元用「MTSS」解決了

0
分享至



導讀:騰訊混元團隊提出了 Multi-Stream Scene Script(MTSS),一種全新的視頻描述范式 —— 將傳統的 "一段話描述整個視頻" 升級為 "多流結構化劇本",通過 Stream Factorization 和 Relational Grounding 兩大核心原則,讓視頻描述既忠實又可擴展,在視頻理解和生成任務中均取得顯著提升。



  • 論文標題:Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding
  • 論文鏈接:https://arxiv.org/abs/2604.11244

多分鏡、ID 保持、音畫同出…… 當視頻生成模型開始具備這些核心能力時,一個容易被忽略的瓶頸開始浮出水面:你拿什么來描述一段視頻,才能獲得更好的效果?

當前主流的做法,是把視覺、聽覺、人物、場景、鏡頭運動等所有信息,全部揉進一段密密麻麻的自然語言段落里 —— 這就是所謂的 Monolithic Caption,我們姑且叫它「流水賬」式描述。

這種寫法的問題,其實和寫劇本一樣直觀:把演員表、分鏡表、音效表全寫在一篇散文里,導演沒法用,演員看不懂,后期更沒法改。

那有沒有可能,給視頻寫一份真正的、更高效的「結構化劇本」?

騰訊混元團隊給出的答案是:MTSS——Multi-Stream Scene Script。



「流水賬」到底差在哪?

三個繞不開的問題

要理解 MTSS 為什么值得關注,得先看看傳統 Monolithic Caption 在實際應用中到底碰到了什么墻。

  • 語義冗余與歧義。 同一角色在不同鏡頭中被反復描述,容易產生不一致的身份引用。一段話里出現三次 "穿西裝的男人",到底是不是同一個人?模型不確定,生成出來也就容易串。
  • 可擴展性差。 想改一個局部細節 —— 比如換個鏡頭運動、加一段音效 —— 可能需要重寫整段描述才能保持敘事連貫性。牽一發動全身,效率極低。
  • 對小模型不友好。 密集交織的信息增加了認知負擔,小參數模型很難從中有效學習。大模型或許還能湊合理解,換成 7B 級別的開源模型,表現就斷崖式下跌。

這些不是理論上的困難 —— 當你想要實現多分鏡生成、跨鏡頭身份保持、音畫同出時,「流水賬」就成了最大的瓶頸。

不寫流水賬,改寫分鏡劇本:

「MTSS」怎么設計的?

MTSS 的核心思想非常直觀:不寫流水賬,改寫 JSON 格式的分鏡頭劇本。它的兩大核心設計原則:Stream Factorization 與 Relational Grounding。



Stream Factorization:把一段視頻拆成四條并行的信息流

MTSS 將復雜的音視頻動態剝離開來,變成四個專門的、并行的信息流,并互相引用,實現了對視頻信息更本質的表達方式:Reference Stream(資產信息)—— 特征錨點核心;Event Stream(事件信息)—— 發生了什么;Shot Stream(鏡頭信息)—— 如何呈現;Global Stream(全局信息)—— 全局信息。

Relational Grounding:讓四條流 "活" 起來

僅僅分解是不夠的 —— 孤立的信息流無法形成連貫的腳本。MTSS 通過 Relational Grounding 在兩個維度上重新建立聯系:身份錨定實現實體全局引用,時間錨定實現多軌道并行對齊。

這樣一來,修改任何一條流中的局部信息(如改變一個角色的臺詞),不會影響其他流的內容,真正實現了「局部編輯,全局一致」。

與 Monolithic Caption 的效果對比

與傳統 Monolithic Caption 相比,MTSS 具備以下核心優勢:

  • 符合視頻數據本質形式:解耦 身份(Who)、事件(What)、呈現(How)等,并彼此精準關聯。
  • 全局一致性:全局身份信息統一管理與引用,避免反復的冗余描述帶來誤差。
  • 易擴展、易理解:從時間和空間對視頻進行結構化拆解,降低理解難度,實現局部編輯。
  • 專業剪輯技巧表達:支持 ReactionShot("說話人 - 聽眾" 模式)、L-Cut(聲音延續)、J-Cut(聲音先行)等專業剪輯技巧。



理解與生成兩手抓:

MTSS 到底有多能打?

說一千道一萬,不如數據說話。針對 MTSS 范式設計的有效性驗證,團隊在視頻理解和視頻生成兩個賽道上都進行了詳盡的實驗和評估。

視頻理解:格式一換,效果就來

在實驗設計上,團隊同時評估了 Zero-shot Prompting(直接讓模型輸出 MTSS 格式)和 Supervised Fine-tuning(在 MTSS 數據上微調)兩種使用方式,從而將「格式本身的優勢」和「訓練帶來的優勢」進行了有效分離。

  • 遵循 MTSS 范式,Zero-shot Prompting 即可帶來普遍提升
  • MTSS 范式設計顯著降低認知負擔,使得小模型效果提升更加顯著
  • 適當的 SFT 能夠釋放 MTSS 范式設計的最大潛力
  • MTSS 對推理的提升幅度遠超對描述任務本身的提升
  • One More Thing:MTSS 作為 "認知腳手架" 縮小模型差距





視頻生成:從「理解端的描述格式」到「生成端的控制接口」

隨著視頻生成模型發展至具備多分鏡、ID 注入保持、音畫同出等核心能力,如何高效地讓視頻生成模型具備這些能力,數據表達是最關鍵變量之一。

為了驗證 MTSS 范式對視頻生成模型的有效性和高效性,團隊以音畫同出的開源模型 LTX-2 為基礎,進行了適配訓練驗證。主要改動包括:Shot-Aware Structured Attention(鏡頭感知結構化注意力)Identity Customization(身份定制模塊)。



效果分析:

  • 多分鏡:MTSS 的 Shot 時間戳提供了有效的分鏡信號,輕量級的 Attention 模塊即可帶來強有力的約束。
  • ID 注入保持:MTSS 的分流設計與跨鏡頭 Reference Grounding 機制對 ID 注入保持 提升顯著。
  • 音畫同出:MTSS Event Stream 中顯式的 “line” 字段和 “description” 字段為音頻生成提供了清晰的 "說什么" 和 "怎么說" 的指令,從根本上改變了音頻輸出的性質,從近乎隨機的環境噪聲轉變為語義正確的對話。

結語:從「流水賬」到「劇本時代」

長期以來,視頻理解、視頻生成領域一直試圖讓模型通過海量的 "糙數據" 自己去領悟視頻規律。然而,MTSS 工作證明了:更接近數據本質的表達范式能釋放出遠超架構微調的紅利。

MTSS 不僅是一種 Caption 數據格式,它更像是一個友好的 "認知腳手架",幫助人類和模型更輕易地理解視頻、生成視頻。

雖然我們仍然面臨視角劇烈變化時仍有角色身份維持的挑戰,但 MTSS 無疑為下一代可控、超長、多鏡頭聯合音視頻生成大模型指明了一條極具潛力的數據工程道路。告別 "流水賬",迎接 "劇本時代",視頻大模型正在進入更加專業化的工業級工作流。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
每天超65艘超級油輪去美國裝油!大佬呼吁特朗普:恢復攻擊伊朗

每天超65艘超級油輪去美國裝油!大佬呼吁特朗普:恢復攻擊伊朗

鷹眼Defence
2026-04-27 17:49:07
南方五省區這一電價上漲

南方五省區這一電價上漲

第一財經資訊
2026-04-28 14:06:37
2015年,廣東老板舍棄百萬年薪,在終南山出家,妻子:愿再無來世

2015年,廣東老板舍棄百萬年薪,在終南山出家,妻子:愿再無來世

鍋鍋愛歷史
2026-04-28 04:00:10
3-1!貝恩22+5魔術滅活塞奪賽點,瓦格納19+5坎寧安25+9+6

3-1!貝恩22+5魔術滅活塞奪賽點,瓦格納19+5坎寧安25+9+6

湖人崛起
2026-04-28 10:57:21
鏡報:英超拒絕曼城調整賽程要求,他們要在7天內踢3場比賽

鏡報:英超拒絕曼城調整賽程要求,他們要在7天內踢3場比賽

懂球帝
2026-04-28 16:46:07
上海地鐵32歲女子與66歲老太互毆后續:央媒發聲,拘留只是開始!

上海地鐵32歲女子與66歲老太互毆后續:央媒發聲,拘留只是開始!

青梅侃史啊
2026-04-27 11:38:30
買面包糕點時,懂行的人很少買這5種,店員:我們自己都很少吃

買面包糕點時,懂行的人很少買這5種,店員:我們自己都很少吃

阿龍美食記
2026-04-17 14:04:17
白宮晚宴提前結束,沒上桌的2600份龍蝦去哪了?特朗普希望重辦,預計還需2600份

白宮晚宴提前結束,沒上桌的2600份龍蝦去哪了?特朗普希望重辦,預計還需2600份

紅星新聞
2026-04-28 17:18:36
又一省份推動帶薪休假落地

又一省份推動帶薪休假落地

澎湃新聞
2026-04-28 11:11:03
廣東一男子臆想同學要害自己,持刀致同學及其弟弟1死1傷,經鑒定男子患精神分裂癥;被害人:兇手行兇前曾問有什么話要跟他說

廣東一男子臆想同學要害自己,持刀致同學及其弟弟1死1傷,經鑒定男子患精神分裂癥;被害人:兇手行兇前曾問有什么話要跟他說

臺州交通廣播
2026-04-28 02:15:19
“二女兒長大得多恨你們!”家長否認重男輕女,名字卻暴露了私心

“二女兒長大得多恨你們!”家長否認重男輕女,名字卻暴露了私心

妍妍教育日記
2026-04-28 16:14:08
網紅白冰,抖音、微博、小紅書等賬號已被禁止關注!本人出鏡道歉,曾說探店不收一分錢,全網粉絲超4000萬

網紅白冰,抖音、微博、小紅書等賬號已被禁止關注!本人出鏡道歉,曾說探店不收一分錢,全網粉絲超4000萬

每日經濟新聞
2026-04-28 14:19:14
千萬粉絲網紅白冰偷稅超900萬元被查,用公司購買個人使用的奢侈品,白冰多平臺賬號仍可正常關注

千萬粉絲網紅白冰偷稅超900萬元被查,用公司購買個人使用的奢侈品,白冰多平臺賬號仍可正常關注

極目新聞
2026-04-28 11:20:23
上海試點三明醫改,年薪30-50萬被指畫餅,評論區幾乎都是不看好

上海試點三明醫改,年薪30-50萬被指畫餅,評論區幾乎都是不看好

譚談社會
2026-04-28 14:36:09
上海地鐵搶座互毆反轉!原視頻曝光,難怪女子不肯讓座

上海地鐵搶座互毆反轉!原視頻曝光,難怪女子不肯讓座

行者聊官
2026-04-28 08:42:52
山西突發重大命案!33歲未婚男殺害離婚女后潛逃,逃跑畫面流出

山西突發重大命案!33歲未婚男殺害離婚女后潛逃,逃跑畫面流出

老貓觀點
2026-04-28 07:34:27
網信部門依法查處“剪映”App等生成合成內容標識違法問題網站平臺

網信部門依法查處“剪映”App等生成合成內容標識違法問題網站平臺

每日經濟新聞
2026-04-28 17:02:59
“我跑路了,準備去東南亞闖一闖”,男子騙取熟人350萬后朋友圈宣布跑路,還喊話12位債主可以報案,后被警方抓獲

“我跑路了,準備去東南亞闖一闖”,男子騙取熟人350萬后朋友圈宣布跑路,還喊話12位債主可以報案,后被警方抓獲

大風新聞
2026-04-28 17:50:06
斯諾克世錦賽:趙心童打瘋了!單桿57分反敗為勝,墨菲連輸3局!

斯諾克世錦賽:趙心童打瘋了!單桿57分反敗為勝,墨菲連輸3局!

劉姚堯的文字城堡
2026-04-28 18:10:09
4月28日,人社部召開發布會,退休人員養老金調整通知公布了嗎?

4月28日,人社部召開發布會,退休人員養老金調整通知公布了嗎?

閱微札記
2026-04-28 16:51:09
2026-04-28 19:27:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12881文章數 142638關注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發內部分歧

頭條要聞

《奇葩說》辯手稱淘寶上賣毒品前體 有人留言"能吃嗎"

頭條要聞

《奇葩說》辯手稱淘寶上賣毒品前體 有人留言"能吃嗎"

體育要聞

季后賽最新局勢:雷霆4-0晉級首隊 4隊3-1

娛樂要聞

蔡卓妍官宣結婚,老公比她小10歲

財經要聞

政治局會議:加強算力網等規劃建設

汽車要聞

拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

態度原創

健康
教育
游戲
數碼
公開課

干細胞治療燒燙傷三大優勢!

教育要聞

湖北城市建設職業技術學院人工智能學院“崗課賽證創”打通就業路

想在開放都市二游里爭當五星好市民,需要一套怎樣的配置?

數碼要聞

2026大學生全能游戲本怎么選?HyperX暗影精靈PRO 16配置解析必看

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版