網易首頁 > 網易號 > 正文 申請入駐

ZPedia丨別等老宕機的 Sora 2 了,深度實測 Vidu Q3:全球首個16s 聲畫同出的模型,為劇而生的AI

0
分享至

作為一名每天被 DDL 追著跑的創作者,我最近最大的情緒波動,不是因為 AI 又學會了什么驚世駭俗的新技能,而是被那幾個循環往復的 Loading 圖標搞破防了。

這兩天,Sora 的集體宕機讓創作者圈子陷入了一場集體的數字焦慮。大家在生成隊列里無限刷新、重試、排隊,那種無力感,像極了在暴雨天打車,屏幕顯示前面還有 99+ 位。

使用海外模型曾是一種“信仰式”的默認選項。但當宕機、限流、無法訪問成為高頻障礙時,創作者不得不面對一個極其骨感的問題:再驚艷的效果,如果無法穩定交付,它就不是生產力,而是干擾項。

與此同時,國產視頻模型的進化邏輯正在發生質變。它們不再只是那種“效果差一截、價格打骨折”的平替,而是開始在真實場景里找手感。

Vidu Q3 恰恰卡在了這個技術邏輯轉換的臨界點。在國際權威AI基準測試機構Artificial Analysis 最新公布的榜單中,Q3 排名中國第一,全球第二,硬剛馬斯克xAI Grok,超越 Runway Gen-4.5 ,Google Veo3.1和 OpenAI Sora 2。


Vidu Q3 現已正式上線,歡迎登陸Vidu.cn或ViduAPIplatform.vidu.cn,搶先體驗!

Vidu Q3 到底是個什么物種?

簡單粗暴地給它打個標簽:Vidu Q3 是一款主打“為劇而生”的多模態模型。

但更準確的定義是,它是全球首個敢把視頻時長拉到16秒音視頻直出的選手。它的目標挺明確,不再是甩給你一段“啞巴”素材讓你回去自己加工,而是試圖在按下生成鍵的那一刻,就交付一段有配樂、有音效、甚至有臺詞的完整視聽片段。

為了搞定這種“一站式”的體驗,Vidu Q3 在設計邏輯上玩了三個挺有意思的跨界:

16s 音視頻直出。4 秒的鏡頭通常只能展示一個動作或一個空鏡,往往停留在“Demo 級”的視覺展示,而 16 秒足以容納一段有起承轉合的劇情。從一個眼神的交匯到一段完整的對話,AI 視頻終于從動圖邁向了真正的完整敘事,同時支持1080高清直出,專門為做「劇」而生。

多鏡頭自動切換。這是 Vidu Q3 嘗試跨界“導演”和“剪輯”角色的信號。它不再死磕一個固定視角的長鏡頭,而是會根據畫面邏輯,在生成過程中自動完成遠景、特寫、側拍等鏡頭的切換。這種自帶“剪輯思維”的生成方式,讓畫面告別了單調的平移,具備了電影感的視覺節奏。

精準的中英日文字渲染。在商業交付場景中,文字是繞不開的門檻。過去 AI 生成的文字往往像是一團無法辨認的亂碼,而 Vidu Q3 強化了對這三種主流語言的嵌入能力。無論是街頭的招牌、書頁的內容,還是科幻感十足的 UI 界面,文字都能清晰地融入環境的光影與透視中,達到了直接可用的商業水準。

深度測評:Vidu Q3 的四大“王炸”表現16s 超長視聽直出:終結“縫補”生涯

以前玩 AI 視頻,大家都是“縫紉工”,4 秒 4 秒地攢,還得祈禱人物別在下一秒“基因突變”。Vidu Q3 挑戰的是 AI 的長效記憶。


提示詞:五條悟電影級暗黑動畫。從容自信,絕對掌控感。高對比藍白色調,空間扭曲特效。

0–4s |
城市廢墟中心,白發隨風微動。黑色眼罩,周圍空間細微扭曲。雙手緩慢優雅結印,藍色咒力聚集。

4–7s |
嘴角微揚,五條悟摘下眼罩,六眼完全顯現,釋放「蒼」。鏡頭前推,強引力場造成空間強行拉扯、塌陷,殘骸吸向中心。

7–12s|
畫面拉遠,「領域展開·無量空處」。純白與深藍交織,信息洪流與抽象符號層層展開,展現思維被徹底支配的壓倒性效果。

12–16s |
強切特寫。結界的藍色光芒如宇宙般旋轉。

真正看生成效果好不好,其實就兩點:人有沒有鎖住,畫面有沒有糊。這條 16 秒里,五條悟的白發、眼神和臉型從結印到開領域始終一致,沒有出現常見的“上一秒最強、下一秒路人”的崩壞問題。

最容易翻車的「無量空處」展開瞬間,背景復雜度直接拉滿,但畫面沒有馬賽克級閃爍,空間層次清楚、光影穩定,角色始終站在視覺中心,沒有被特效吞掉。

簡單說就是:復雜場景扛住了,角色顏值和氣場也穩住了,這就已經很強了。

聲畫同步:AI 終于不演“啞巴戲”了

做 AI 短劇,最痛苦的就是后期配音對口型,對到眼花。Q3 試圖直接把旁白、口型甚至背景音樂在底層給焊死。

僅用一張圖片,Q3 就能對Maleficent的角色氣質進行高度還原。


無論是冷峻而帶有壓迫感的神情,還是眉眼之間流露出的傲慢與克制的怒意,都精準抓住了這一角色的核心性格特征。

在多人對話的案例中,Q3 也展現出了相當成熟的理解與生成能力。不僅能夠準確區分不同說話者的身份,還能在語音、文本乃至畫面線索的綜合判斷下,把每個人的臺詞內容、語氣強弱與情緒走向都還原得非常到位。


提示詞:
A cinematic night street scene outside a small café, neon signs reflected on wet pavement.

Two close friends stand with takeaway coffee cups.

Shot 1 (Wide shot, 3s): Street lights, passing cars, soft city noise.

Shot 2 (Medium shot, 5s): One friend sighs slightly.

Dialogue:

Friend A:
Do you ever feel like you’re stuck?

Shot 3 (Close-up, 4s): Friend B takes a sip, then smiles.

Friend B:
Yeah… but maybe being stuck means we’re about to move.

Shot 4 (Slow push-in, 3s): They walk forward together.

Moody lighting, realistic urban atmosphere, subtle emotional tone.

電商帶貨也能完美駕馭。Q3生成的男主播不只是能說清楚。他在講解過程中,語速、重音和停頓與內容重點高度匹配,手部動作與功能介紹自然銜接,面部表情也能隨著講解節奏做出細微變化,看起來更像一段真實拍攝的視頻,而非拼接出來的演示素材。


提示詞:
年輕男性科技主播在干凈室內聲中介紹智能手表功能,他說:“This smartwatch tracks your sleep, heart rate, and even stress levels.”

導演級運鏡,故事更吸引眼球

如果你還在為了一個推拉搖移寫復雜的 Prompt 而抓耳撓腮,那 Q3 的自動切鏡功能可能會讓你失業。它不再只是單鏡頭平鋪,而是有了剪輯思維。

提示詞:
生成一段《銀魂》風格的高緊張度戰斗場景視頻,整體基調嚴肅中帶克制,配以緊張但不過度渲染的背景音樂。

場景位于廢棄倉庫外,明亮自然光照在灰色碎石地面上,風聲低鳴。主角為
銀魂風格的銀發武士(坂田銀時氣質)
,身穿深色和風外套,手持日式長刀,站在畫面右側;畫面左側是一名光頭壯漢,赤膊,肌肉緊繃。兩人正面對峙,空氣壓迫感強烈。光頭男低聲道:「……やっと來たか!广y發武士冷靜回應:「逃げ場はない!

短暫沉默后,情緒驟然繃緊。銀發武士眼神銳利,低沉心跳聲回蕩;下一瞬他突然突進,揮刀斬下,腳踏碎石爆響,刀鋒破空,低喝:「はあっ!」光頭男被斬,悶哼:「ぐっ……!」

鮮血飛濺,血滴落地發出「ポタ……ポタ……」的聲響,背景音樂在此刻驟停。光頭男踉蹌半跪,呼吸急促,難以置信地低語:「馬鹿な……」血霧彌漫,畫面定格,聲音逐漸歸于死寂。

我本來以為它只是按指令堆畫面,結果它直接秀了一段教科書級別的導演分鏡。在沒有任何要求的情況下,它自己就悟出了“全景鋪墊、特寫對峙、動作爆發、余韻收束”的多段式結構,這節奏感,簡直是日漫熱血番的導演親臨現場。

Q3 不再執著于一鏡到底,而是通過全景、特寫與中景等多景別的鏡頭的切換,主動建立空間關系、情緒張力與動作節奏;聲音也被納入剪輯結構之中,環境音、動作音效與配樂的進入和抽離,都會配合鏡頭發生畫面的變化。

精準文字渲染:告別“鬼畫符”

文字渲染一直是 AI 的重災區,以前想在視頻里加個招牌,出來的全是無法直視的亂碼。


提示詞:生成一段 約 6 秒 的國風動畫視頻,整體主體人物為 李白,表現其酒酣之際、詩意奔涌,創作《將進酒》的關鍵瞬間。 敘事目標: 這是一個詩即將誕生的剎那——豪放、失意、狂喜與時間感同時存在。

0–2 秒|鋪墊(情緒醞釀) 畫面:黃昏時分,長安城外的高處酒肆或江畔。遠山層疊,晚霞翻涌。 李白背對鏡頭而坐,衣袍隨風輕動,手中酒壺微微傾斜,酒液未落。 鏡頭緩慢推進,氣氛沉靜而壓抑,仿佛在等待爆發。

2–4 秒|爆發(詩意涌現) 畫面:李白猛然仰頭飲酒,酒液飛濺在空中。 鏡頭順勢抬升,天地仿佛被拉開——江水奔流、明月驟亮。

4–6 秒|定格(詩成一瞬) 畫面:鏡頭定格在李白側臉近景,目光狂放而清明。 天地歸于短暫靜止,酒壺垂下。 另一句詩意自然顯現于云氣與月光之間: 「人生得意須盡歡」 文字隨云氣流動、隨月光明暗變化,最終與畫面一同淡出。

從效果來看,文字不再是懸浮的貼紙,而是真正融入了光影與透視。隨著李白酒酣之際的鏡頭推移,七個大字隨云氣律動,光影隨月色明暗變幻。文字清晰、字體優雅、且完全符合環境的物理邏輯。對于品牌廣告、短劇等商業交付場景來說,這才是真正直接可用的水準。

為什么說這是一次「視聽生成」的轉向

當前的 AI 漫劇市場正處于一個微妙的轉折點。

截至 2025 年底,短劇市場已經走到了504 億的龐大體量,而作為其衍生與進化的漫劇賽道,正用一年時間跑完短劇五年的路。

大廠的豪賭進一步坐實了這種風向,抖音、快手乃至紅果等平臺紛紛重金加注,甚至不惜上線獨立APP,這本質上是在向市場宣告:漫劇不再是短劇的邊角料,而是一個即將自立門戶的一級品類。在快手單部最高50萬現金以及紅果極具誘惑力的分成系數激勵下,第一批“吃螃蟹”的人已經交出了單月分賬200萬的造富劇本。

然而,這種繁榮背后的去泡沫化來得比所有人預期的都要快。當投機者試圖用低成本工具鏈瘋狂堆砌“拼接感”濃重的低質內容時,用戶與平臺的容忍度迅速見頂。

國家廣電總局在 2025 年 11 月啟動“不良動畫微短劇和動畫短視頻專項治理”,并將 AIGC 等動畫形態納入分類分層審核體系,強調“先審后播”“編號標注”等要求,直接抬高了低質內容的上線門檻。隨著監管重拳的落下,行業經歷了一場近乎窒息的“剎車”。

質量門檻的上移,直接促進出品方向精品漫劇轉型。過去,許多 AI 漫劇可以依靠低一致性、弱表演、強投流勉強跑通;但在審核趨嚴之后,角色設定是否穩定、對白是否自然、鏡頭與情緒是否匹配,都會變成必須達標的硬指標。對出品方而言,這需要在制作環節整體升級,從劇本、分鏡到表演完整度全面加碼。

更重要的是,這部分成本并不會無限地停留在人工與后期層面。隨著制作規模擴大,單純依賴人工修補與返工的方式會迅速失效,最終被迫向上游技術層傳導:模型本身是否具備更高的一致性、更強的聲畫同步能力,開始直接決定單位內容的生產成本。在這個意義上,監管并不是簡單地“壓縮行業空間”,而是在倒逼技術能力成為內容合規與商業化的基礎設施。

也正因如此,模型側開始主動承接原本屬于后期與人工的工作量。從“聲畫同步”到“更長時長的直出音視頻”,這些看似技術參數的變化,實則是在回應一個現實問題:如何在質量門檻抬升的情況下,還能降低成本。

AI 視頻的終局在哪里?

回看 AI 視頻的進化軌跡,其實就是一部“門檻坍縮史”。曾經,想要拍出一段有分鏡、有配樂、口型還能對上的動態漫,你可能需要一個由原畫師、后期剪輯和配音演員組成的專業團隊;而現在,這些復雜的工業流程正在被壓縮進一個個提示詞中。

當聲、畫、文、鏡的壁壘被徹底鏟平,技術將不再是阻擋表達的圍墻,轉而化作生產力基石。當 AI 徹底接管了所有的“搬磚”雜活,人類創作者才終于能從工具中抽身。到那時,貧瘠的靈魂將無處遁形,而想象力,將成為區分平庸與偉大的唯一護城河。

歡迎掃碼加群參與討論

我們相信認知能夠跨越階層,

致力于為年輕人提供高質量的科技和財經內容。

稿件經采用可獲邀進入Z Finance內部社群,優秀者將成為簽約作者,00后更有機會成為Z Finance的早期共創成員。

我們正在招募新一期的實習生

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
鐘楚紅、林青霞,我感覺最左邊的這位長相也不差,她到底是誰

鐘楚紅、林青霞,我感覺最左邊的這位長相也不差,她到底是誰

草莓解說體育
2026-05-09 05:34:27
外交部:堅決反對任何對中方的無端指責和惡意抹黑,相信挪威方面將切實保障中國公民合法權益

外交部:堅決反對任何對中方的無端指責和惡意抹黑,相信挪威方面將切實保障中國公民合法權益

環球網資訊
2026-05-08 15:50:22
斯諾克單賽季獎金榜:趙心童破百萬,世界第1歷史第3,吳宜澤第2

斯諾克單賽季獎金榜:趙心童破百萬,世界第1歷史第3,吳宜澤第2

劉姚堯的文字城堡
2026-05-08 09:00:42
網友偶然碰到佟麗婭吃早餐啦。她都43歲了,素顏的狀態卻特別好。

網友偶然碰到佟麗婭吃早餐啦。她都43歲了,素顏的狀態卻特別好。

東方不敗然多多
2026-05-08 16:46:11
47歲高圓圓沈陽菜市場賣辣白菜!顏值封神,網友:狠狠羨慕趙又廷

47歲高圓圓沈陽菜市場賣辣白菜!顏值封神,網友:狠狠羨慕趙又廷

可樂談情感
2026-05-08 14:09:54
發現了1個殘酷真相:被美軍抓走的馬杜羅,如今已經被徹底遺忘

發現了1個殘酷真相:被美軍抓走的馬杜羅,如今已經被徹底遺忘

共工之錨
2026-05-07 23:58:12
軍售放行后,日烏開始共制武器

軍售放行后,日烏開始共制武器

鳳凰WEEKLY
2026-05-06 19:44:21
一個北方縣城公務員的一生:一眼望到頭,卻是普通人最好的歸宿

一個北方縣城公務員的一生:一眼望到頭,卻是普通人最好的歸宿

王姐懶人家常菜
2026-05-08 03:48:09
這下輪到銀行發愁了!越來越多的儲戶,要把存款分散到多家銀行

這下輪到銀行發愁了!越來越多的儲戶,要把存款分散到多家銀行

夢史
2026-05-09 00:53:33
現役球員季后賽總得分TOP6,只有哈登沒有總冠軍

現役球員季后賽總得分TOP6,只有哈登沒有總冠軍

懂球帝
2026-05-08 11:07:06
機關下設的事業單位,比如各種“中心”,名義上是獨立機構,實際上早成了機關的內設處室?

機關下設的事業單位,比如各種“中心”,名義上是獨立機構,實際上早成了機關的內設處室?

碧翰烽
2026-05-08 07:33:09
不出 5 年,中國貶值最快的不是房子和現金,而是這 3 樣東西

不出 5 年,中國貶值最快的不是房子和現金,而是這 3 樣東西

細說職場
2026-04-26 21:04:20
王健林,被逼到崩潰邊緣...

王健林,被逼到崩潰邊緣...

鳴金網
2026-04-16 19:42:33
亞馬遜爆款衛衣:買家稱"實物比照片貴十倍"

亞馬遜爆款衛衣:買家稱"實物比照片貴十倍"

影視情報室
2026-05-08 00:14:58
34歲肖戰高調官宣喜訊,官方發文全網恭喜,終于等到

34歲肖戰高調官宣喜訊,官方發文全網恭喜,終于等到

豬小艷吖
2026-05-07 11:21:34
4.7萬億!馬斯克打破人類財富紀錄:他一個人的錢抵得過160個國家

4.7萬億!馬斯克打破人類財富紀錄:他一個人的錢抵得過160個國家

通鑒史智
2026-03-15 11:45:00
世乒賽最新戰報!四強全部落位,雨果爆冷,法國3-0橫掃巴西,半決賽對陣出爐,國乒迎生死考驗

世乒賽最新戰報!四強全部落位,雨果爆冷,法國3-0橫掃巴西,半決賽對陣出爐,國乒迎生死考驗

體壇最前線66
2026-05-09 05:39:01
1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

哄動一時啊
2026-02-17 22:21:25
中央定調,延遲退休后,1970年出生的,60歲能領到養老金了嗎?

中央定調,延遲退休后,1970年出生的,60歲能領到養老金了嗎?

阿腩講娛樂
2026-05-09 06:10:06
2026-05-09 08:40:49
ZFinance
ZFinance
Z世代的一站式AI、科技和財經資訊
177文章數 16關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

頭條要聞

媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

體育要聞

他把首勝讓給隊友,然后用一年時間還清賬單

娛樂要聞

古天樂被曝隱婚生子,新娘竟是她

財經要聞

白宮:特朗普計劃5月14日至15日訪問中國

汽車要聞

MG 4X實車亮相 將于5月11日開啟盲訂

態度原創

教育
本地
游戲
親子
數碼

教育要聞

你收到過最爛的禮物是什么?

本地新聞

用蘇繡的方式,打開江西婺源

《生化危機9》為何不做極致恐怖 卡普空道出了原因

親子要聞

小銳銳會走路后笑得很開心

數碼要聞

極摩客推出NucBox M3 Pro迷你主機:13500H,DDR4,2280+2242

無障礙瀏覽 進入關懷版