網易首頁 > 網易號 > 正文申請入駐

南洋理工大學研究團隊打破視頻AI創作天花板

2026-04-21 21:54:14　來源: 科技行者

天津舉報

分享至

這項由新加坡南洋理工大學S-Lab實驗室完成的研究，以預印本形式于2026年4月11日發布，論文編號為arXiv:2604.10030，題為《Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation》。對視頻生成AI感興趣的讀者可通過該編號查閱完整論文。

**一個導演的煩惱**

假設你是一位導演，手邊有一臺神奇的攝影機——只要你口頭描述一段場景，它就能自動拍出你要的畫面。聽起來很美，對吧？但當你興致勃勃地告訴它："先拍一個穿越賽博朋克城市的飛鷹特寫，然后鏡頭拉遠，揭示其實這一切都在一臺老式電視機的屏幕上播放"——攝影機拍出來的東西，很可能是鷹的眼睛里飛著一臺電視機，或者整個畫面里城市、鷹、電視機同時出現，亂作一團。

這不是假設，而是今天絕大多數頂尖視頻生成AI的真實困境。南洋理工大學的研究團隊把這個問題稱作"語義糾纏"——就像把一首曲子的所有音符同時按下，你得到的不是旋律，而是噪音。他們提出的解決方案叫做**Prompt Relay（提示接力）**，目標是讓AI真正學會按照時間順序、一件事一件事地"講故事"，而無需對模型進行任何結構改造，也不增加任何額外的計算負擔。

**一、視頻AI為什么總是"時間盲"？**

要理解這個問題的根源，可以把現有的視頻AI想象成一位同時聽到所有指令的廚師。你告訴他："先做涼拌黃瓜，再做紅燒肉，最后上一道清湯。"但他的耳朵沒有"先后"的概念，所以他會把黃瓜、豬肉和湯料全部扔進同一口鍋里一起炒。結果端上來的，是一道你完全認不出來的奇怪混合物。

視頻擴散模型（一種通過逐步"去噪"來生成畫面的AI技術）內部有一套叫做"交叉注意力"的機制，負責把文字描述和視頻畫面聯系起來。用更直白的話說，這套機制的作用是讓AI知道"這段文字描述的是畫面里的哪個部分"。然而問題在于，這套機制是"全局性"的——它會讓視頻的每一幀，同時參考你提供的所有文字描述。當你的描述包含多個按順序發生的事件時，AI沒有任何內置的辦法知道哪句話該在哪段時間生效，于是所有描述的內容就會相互"滲透"，擠進本不屬于它們的時間段里。

這種現象在業界已經有所關注，也出現過一些嘗試解決的方法。一類做法是對AI模型進行重新訓練，給它喂大量帶有時間標注的視頻數據，讓它學會"事件A在第0到3秒，事件B在第3到6秒"這樣的對應關系。代表性的工作是MinT，它在模型內部專門加了一個負責處理時間的模塊。這種方法效果不錯，但代價是你需要海量的標注數據、大量的訓練時間，而且改造完的模型已經和原來不一樣了，原有的生成能力可能受到影響。

另一類做法完全不訓練模型，直接在生成過程中做手腳，比如DiTCtrl這類工作，通過給注意力機制加上"遮罩"（你可以理解為給不同段的文字各套一個不透明的信封，讓它們互不干擾）來實現控制。但這種硬切換的方式會在場景交接處產生明顯的"跳接"感——就像電影里突然出現一道割裂的剪輯，讓人一下子出戲。還有SwitchCraft和TS-Attn這類方法，思路是找到每個事件中最核心的"主角詞"，讓這個詞負責鎖定該時間段的畫面。這種做法在主角明確的場景下還算可以，但如果你描述的是一個整體氛圍的轉變——比如"從白天的街道漸漸變成夜晚的霓虹"——根本就找不出一個單一的"主角詞"，方法就會失靈。

**二、"接力棒"的比喻：Prompt Relay的核心思路**

南洋理工的團隊提出的思路，本質上是一場接力賽的設計。在接力賽里，每位選手只在屬于自己的那段跑道上全速奔跑，在交接區域放慢速度、平穩傳棒，然后退場，把賽道交給下一位。沒有人會整場比賽都在跑道上亂串。

Prompt Relay做的事情，就是給AI的注意力機制引入這樣一套"接力"規則。具體來說，當AI在生成某個時間段的畫面時，研究團隊會向注意力機制施加一個"懲罰信號"，讓屬于這段時間的畫面幀對其他時間段的文字描述"視而不見"。懲罰的力度不是一刀切的硬開關，而是隨著距離當前時間段越遠，懲罰越強；靠近當前時間段的中心區域，則完全沒有懲罰，AI可以自由地參考對應的文字描述。

在數學上，這個懲罰被設計成一個經典的"高斯衰減"形式——也就是說，懲罰強度從時間段中心向兩側呈現一條對稱的鐘形曲線，平滑下降。這意味著在時間段的中心區域，注意力完全不受干擾；隨著幀離中心越來越遠，注意力對該時間段文字描述的"感知"逐漸減弱，直到接近另一個時間段時幾乎降為零。

這里有一個關鍵參數叫做"自由窗口"（用字母w表示）。這個窗口決定了在時間段內有多大的"免懲罰區域"。研究團隊通過實驗發現，當自由窗口設置為整個時間段長度減去2幀時（w = L - 2），效果最好——這意味著每個時間段內部幾乎可以完全自由地參考對應描述，只在最邊緣的一兩幀才開始向下一段平滑過渡。還有一個參數ε，控制懲罰在邊界處衰減到多低。研究團隊測試了0.001、0.01、0.1和1.0（無懲罰）幾個值，發現只要ε足夠小，具體數值的差別對最終畫面影響不大，最終采用ε = 0.1作為默認值。

除了針對每段時間的"局部提示"，研究團隊還保留了一個"全局提示"——一段覆蓋整個視頻的文字描述，提供貫穿始終的背景信息和視覺風格。這就像接力賽的場地本身：無論哪位選手在跑，場地的規則、氛圍和背景始終不變。

**三、為什么"軟過渡"比"硬切換"更好？**

這套方案與此前硬遮罩方法之間最關鍵的區別，在于邊界處的處理方式，研究團隊把它稱為"邊界注意力衰減"機制。

硬切換的問題可以用一個日常場景來理解：假設你正在看一場話劇，舞臺上的燈光突然從暖黃色瞬間切換到冷藍色，而演員的動作、道具和服裝卻沒有任何變化。這種燈光和內容的"不同步"會讓觀眾感到突兀，因為視覺信號之間產生了矛盾。

在視頻AI里，同樣的矛盾存在于兩套機制之間：一套是我們在討論的"交叉注意力"，負責把文字指令翻譯成畫面內容；另一套是"自注意力"，負責讓畫面在時間上保持連貫——比如一個人從第1幀走到第5幀，他的臉、衣服、位置應該是前后一致的。硬切換讓交叉注意力在某一幀突然換了一套新指令，但自注意力還記得上一段的視覺結構，兩者產生沖突，AI只好"硬湊"——往往導致奇怪的形變或錯誤的主體替換，比如原本應該"一個男人在吃意面"切換到"一個穿紅裙子的女人走過"，結果變成了一個穿紅裙子的女人在吃意面。

Prompt Relay的軟衰減方案則不同。在兩個時間段交接的區域，兩段的提示描述會同時保留一定比例的注意力——就像接力賽中的"傳棒區"，兩位選手并肩跑了一小段。交叉注意力在這段時間里"知道"即將發生什么變化，可以提前做好準備；自注意力也有足夠的緩沖時間來適應視覺結構的轉變。這樣生成出來的視頻，在場景切換處就會顯得自然流暢，而不是突兀割裂。

**四、對比實驗：和頂尖AI系統的正面較量**

為了驗證Prompt Relay的實際效果，研究團隊用它增強了當前最先進的視頻生成模型之一Wan2.2-T2V-A14B（一個擁有140億參數的大型視頻生成模型），并將結果與業界幾款代表性系統進行了對比，包括Sora Storyboard、Veo 3.1、原版Wan 2.2，以及Kling 2.6。

測試場景由ChatGPT隨機生成了20個多事件視頻場景，每個場景包含3到6個按時間順序發生的事件，涵蓋了明確的場景轉換、多角色互動、復雜的鏡頭運動等多種類型。評估采用了人類偏好打分的方式，邀請了30位參與者，在不知道視頻來源的情況下對每段視頻的三個維度打分（1到5分），打分越低代表排名越靠前。

三個評估維度分別是：時間提示對齊度（視頻內容是否按照文字描述的順序在正確的時間段發生）、過渡自然度（相鄰事件之間的切換是否流暢、沒有跳接或奇怪的形變）、以及視覺質量（整體畫面是否清晰、時間上是否穩定、有沒有明顯的視覺瑕疵）。

結果相當明顯。在時間提示對齊度上，加入Prompt Relay的Wan 2.2以1.10分排名第一，原版Wan 2.2得了4.00分，Sora Storyboard得了4.67分——這意味著原版模型和Sora在這方面的表現接近墊底，而增強版則遙遙領先。在過渡自然度上，Prompt Relay同樣以1.17分名列前茅，遠超Kling 2.6的4.43分和Wan 2.2的3.50分，而Veo 3.1在這個維度上得到1.30分，是唯一在這一項上與Prompt Relay接近的競爭對手。在視覺質量上，Veo 3.1以2.0分拿下最佳，Kling 2.6以2.50分緊隨其后，Prompt Relay增強版得到2.83分，雖然不是第一，但顯著好于原版Wan 2.2的4.00分。

研究團隊對視覺質量的改善給出了合理的解釋：Prompt Relay通過壓制跨時間段的注意力干擾，實際上減少了注意力機制在處理當前段內容時面臨的"競爭噪音"。當AI不再需要同時應付來自其他時間段的干擾信號，它能把更多的"注意力資源"集中在當前應該描繪的內容上，生成結果自然更清晰、更穩定。至于Kling和Veo在視覺質量上仍然領先，研究團隊認為這主要是因為這兩款產品使用了本身能力更強的底層模型——Prompt Relay是一套方法，不是模型本身，它的視覺質量上限受限于它所增強的那個底層模型。

一個具體的對比案例能很好地說明這種差距：測試提示描述的是"一個男人用自拍視角在香港的霓虹街道上拍攝自己，然后他將手掌慢慢推向鏡頭直到遮住畫面，再拉開，此時他背后已經變成了大峽谷"。Sora的輸出停留在香港場景，沒有完成轉換；Kling的輸出雖然兩個場景都出現了，但中間過渡充滿了奇怪的形變；Veo在內容上基本實現了，但香港和大峽谷的人物細節一致性不足；原版Wan 2.2則出現了明顯的時間混亂；而加了Prompt Relay的版本，從香港到大峽谷的整個過渡流暢自然，手掌遮擋鏡頭的橋段也作為兩段場景之間的視覺過渡被完整保留。

**五、這套方法的邊界與局限**

研究團隊在論文中坦誠地指出了Prompt Relay的一個固有局限。由于每個時間段主要只"聽"自己對應的局部描述，如果不同時間段的描述對同一個角色或場景元素的描述不一致——比如第一段說"穿藍色外套的男人"，第二段只說"男人"——那么這個角色的外貌可能會在不同段之間出現漂移，藍色外套可能憑空消失。

好在研究團隊已經找到了一個有效的應對辦法：在局部提示之外，額外提供一段覆蓋全視頻的"全局提示"，用來錨定貫穿始終的視覺元素。就像一位總導演在拍每一個分鏡之前，先給全體演員念一遍整部電影的人物設定，確保無論拍到哪一場，角色的基本形象都不會走樣。加入全局提示之后，這個問題在實驗中被完全消除。

**從接力賽到電影工業**

說到底，Prompt Relay解決的是一個看起來簡單、但困擾了這個領域很久的問題：怎么讓AI知道"什么時候該干什么"。答案不是重新訓練一個新模型，而是在現有模型生成視頻的過程中，輕輕地調整它的"注意力分配規則"——用一套隨時間平滑變化的獎懲機制，讓不同時段的畫面只認領各自對應的文字指令，同時在交接處留下足夠的緩沖空間，讓過渡變得自然。

這種方法的優雅之處在于它的"零成本"性質：不需要收集新數據，不需要重新訓練，不需要修改模型結構，甚至不增加額外的計算時間。任何人只要手頭有一個支持交叉注意力機制的視頻擴散模型，都可以直接把Prompt Relay"插上"就用。

對于那些希望用AI生成具有完整故事弧度的短視頻、廣告片段或創意內容的創作者來說，這套方法意味著你終于可以用更清晰的方式告訴AI"先做這個，再做那個"——不再是一鍋亂燉，而是一道有起承轉合的菜。這距離真正的"AI導演"還有很長的路要走，但Prompt Relay至少讓AI第一次開始真正理解"時間順序"這件事的重要性。有興趣深入了解技術細節的讀者，可以通過論文編號arXiv:2604.10030查閱完整原文。

**Q&A**

Q1：Prompt Relay需要重新訓練視頻AI模型嗎？

A：不需要。Prompt Relay是一種"即插即用"的推理時方法，意思是它只在AI生成視頻的過程中介入，對模型內部的注意力分配規則做輕微調整，完全不需要收集新數據或重新訓練模型，也不增加任何額外的計算時間。任何使用交叉注意力機制的視頻擴散模型都可以直接搭配使用。

Q2：Prompt Relay的"邊界注意力衰減"和硬遮罩方法有什么具體區別？

A：硬遮罩會在兩段視頻交接處讓文字描述突然切換，導致畫面內容信號和視覺連貫性信號產生沖突，常常出現奇怪的形變或錯誤的人物替換。Prompt Relay的邊界注意力衰減則在交接區域讓相鄰兩段的描述都保留一定比例的注意力，平滑過渡，讓AI有時間"預判"即將發生的變化，從而生成更自然的場景切換效果。

Q3：Prompt Relay如何保證同一個角色在多個時間段中外觀保持一致？

A：Prompt Relay默認每段時間只參考對應的局部文字描述，如果不同段描述不一致，角色外觀可能會發生漂移。研究團隊的解決方案是在局部提示之外額外提供一段覆蓋整個視頻的全局提示，用來錨定貫穿所有時間段的角色外貌、場景風格等持久性元素，實驗中這一方法被證明可以完全消除這個問題。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.