網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

“參考生”之王回歸：Vidu Q3持續(xù)進(jìn)化，劇張力拉滿｜甲子光年

2026-04-14 17:29:03　來源: 甲子光年

北京舉報

分享至

告別“抽卡式”生成，如何讓AI學(xué)會講故事？

作者｜Iris

編輯｜栗子

短劇圈的 “抽象整活” 含量還在持續(xù)升高，近期風(fēng)靡短劇圈的“性轉(zhuǎn)版”二創(chuàng)，將曾經(jīng)觀眾熟悉的角色轉(zhuǎn)換性別，進(jìn)而迸發(fā)出了不一樣的火花。

這也讓觀眾常看常新的宮斗劇教科書《甄嬛傳》，再次成為網(wǎng)友的新晉 “電子榨菜”。一部由網(wǎng)友用AI視頻技術(shù)二創(chuàng)的性轉(zhuǎn)版《甄嬛傳》短劇——《男嬛傳》刷爆網(wǎng)絡(luò)。

在《男嬛傳》中，全員角色集體性轉(zhuǎn)——皇帝四郎變身為坐擁后宮富婆四娘，寵冠六宮的華妃化身建模完美的霸道華君，甄嬛成為溫潤有才、心思通透的甄郎，隱忍柔弱的安陵容變成多才多藝的體育生，而皇后則一改之前的深沉謀斷……

果然，之前人類對《甄嬛傳》的開發(fā)還不足百分之十。

從質(zhì)疑胖橘、理解胖橘到成為胖橘，原來被美男包圍的后宮爽劇竟如此令人上頭，《男嬛傳》也讓女性觀眾體會到了胖橘的快樂。性別反轉(zhuǎn)帶來的人設(shè)反差與敘事新鮮感，迅速成為短劇與二創(chuàng)熱門流量密碼。

圖源：《男嬛傳》

這類高熱度人設(shè)與角色范式的快速傳播，印證了當(dāng)下視頻內(nèi)容創(chuàng)作的核心需求：角色穩(wěn)定、風(fēng)格統(tǒng)一、敘事可復(fù)用。

而這正是AI視頻的“參考生”能力所解決的關(guān)鍵痛點——通過對人物、場景、服化道的精準(zhǔn)參考與一致性生成，讓爆款人設(shè)、經(jīng)典角色、熱門風(fēng)格能夠快速落地、穩(wěn)定復(fù)現(xiàn)，真正支撐起短劇、漫劇工業(yè)化生產(chǎn)的效率與品質(zhì)。

國產(chǎn)AI視頻公司生數(shù)科技是“參考生”的首創(chuàng)者。

早在2024年7月，專注多模態(tài)大模型及應(yīng)用自主研發(fā)的生數(shù)科技，就推出了中國首個視頻大模型Vidu，并首創(chuàng)“參考生”圖片/視頻概念。

近期，Vidu Q3正式上線了參考生視頻，并圍繞特效、音效、場景進(jìn)行了全面升級。Vidu Q3依托自然語言即可實現(xiàn)粒子、流體、動力學(xué)、運鏡、轉(zhuǎn)場、光影六大特效的靈活調(diào)控，并構(gòu)建起包含環(huán)境、動態(tài)、氛圍、擬音、情緒等五大音效在內(nèi)的全景音效體系，讓聽覺表達(dá)具備完整敘事連貫性。同時針對短劇、漫劇、影視劇、廣告四大核心場景完成能力深化，可直接作為商用內(nèi)容單元融入真實制作流程。

在全球首個參考生視頻榜單SuperClue上，生數(shù)科技的Vidu Q3同時登頂多圖參考總榜和單圖參考榜。此前，剛發(fā)布的Vidu Q3，就登頂了國際權(quán)威 AI 基準(zhǔn)測試機構(gòu) Artificial Analysis榜單。

在一眾AI視頻玩家中，生數(shù)科技憑借先發(fā)優(yōu)勢，牢牢站穩(wěn)行業(yè)核心位置——“為劇而生”的Vidu Q3不再只提升單一內(nèi)容生成能力，而是圍繞一個核心方向發(fā)力：讓AI內(nèi)容，真正擁有支撐劇集呈現(xiàn)的表達(dá)能力。

“劇”的表達(dá)能力，在于關(guān)鍵劇情的起承轉(zhuǎn)合、音效特效的精確運用和視聽語言的自然調(diào)度。模型能力的溢出，讓AI內(nèi)容能夠進(jìn)入行業(yè)工作流，在降本增效的同時，為不同場景視頻內(nèi)容帶來更多可能性變量，改變內(nèi)容生產(chǎn)范式。

經(jīng)測試，Vidu Q3在漫劇、短劇、廣告等場景中表現(xiàn)穩(wěn)定出色，能夠在保持高質(zhì)量內(nèi)容輸入的同時降本增效。

作為“參考生”首創(chuàng)者，Vidu Q3通過業(yè)界領(lǐng)先的“參考生”能力和沉浸式的視聽效果，完成了從生成畫面到講好故事的突破，節(jié)奏、情緒、敘事一氣呵成，全面提升視頻片段的“劇張力”。

這也暗合了行業(yè)的精品化升級趨勢：在生產(chǎn)端內(nèi)容極度供大于求的今天，行業(yè)亟需的不再是量的堆疊，而是制作更加優(yōu)良、敘事更加清晰完整、劇情推進(jìn)與鏡頭節(jié)奏更加自然的精品內(nèi)容。

注：Vidu Q3的“參考生”功能演示

1.為劇而生，劇張力拉滿

前一秒還是寒窗苦讀的窮苦書生，下一秒就穿越為權(quán)傾朝野的高官權(quán)貴；從食物鏈最底端的贅婿，運籌帷幄完成令人意想不到的完美逆襲……

從贅婿爽文、玄幻修仙到穿越重生題材，市面上不同題材爆款短劇，都有一個共同的取勝之道，憑借緊湊的劇情節(jié)奏、意外反轉(zhuǎn)的戲劇性情節(jié)，緊緊抓住用戶的眼球。

換句話說，敘事能力是短劇質(zhì)量的重要分水嶺，也對AI內(nèi)容的表達(dá)能力提出了更高要求：如何讓AI內(nèi)容適配戲劇張力極強的行業(yè)場景，從而使生成內(nèi)容更富有張力，更接近成片級表達(dá)？

為了解決這一行業(yè)痛點，生數(shù)科技首創(chuàng)了“參考生”能力，并實現(xiàn)高效快速的升級迭代。

在2025年9月，生數(shù)科技就推出了Vidu Q1參考生圖功能，以支持7張參考圖輸入打破國內(nèi)生成上限，并在一致性、還原度等關(guān)鍵指標(biāo)上正面對標(biāo)Nano Banana；2025年10月，生數(shù)科技完成Vidu Q2的迅速迭代，Vidu Q2的“參考生”，不僅持續(xù)保持高一致性，還在生成速度、價格方面進(jìn)行全面優(yōu)化。

近期，Vidu Q3跨越式升級“參考生”能力，并將參考范圍擴展至主圖、場景、服化道。

這一“萬物可參考”的能力，賦予普通創(chuàng)作者專業(yè)表達(dá)能力，讓“參考生”不再只是提升一致性的工具能力，而是升級為一種內(nèi)容生產(chǎn)范式。

同時，Vidu Q3也將特效、音效拉升至專業(yè)級電影質(zhì)感，敘事能力與劇情表現(xiàn)力拉滿，完美適配不同場景的多元化表達(dá)需求，直接讓Vidu Q3逐步深入漫劇、短劇、影視劇行業(yè)的工作流，并承載更強敘事需求，內(nèi)容的故事性和細(xì)節(jié)接近院線級效果，在講好故事的同時，讓創(chuàng)作真正實現(xiàn)一鏡到底。

萬物可參考，成片更能打

這項能力的可玩性極強，用戶既可以讓不同時空的人物同臺飆戲，生成搞笑片段，也可以選定特定的背景和服化道，生成以假亂真的電影質(zhì)感大片。

例如，用戶可以選擇特定的女團服裝和舞臺場景參考，生成一段唱跳C位舞臺片段。

以圖1女生和圖2服裝為參考圖，輸入提示詞：“舞臺燈光亮起，圖1女生穿著圖2中的服裝，手中握著圖2里的吉他站在舞臺中央。她猛地抬頭，音樂瞬間爆發(fā)，身體前傾，開始激情演唱”，就可以得到極具感染力和觀賞性的女團舞臺現(xiàn)場，聚光燈下，女生的發(fā)絲清晰可見、隨風(fēng)舞動，臉部表情和彈吉他的動作都自然流暢，讓普通用戶也能實現(xiàn)自己的女團唱跳夢想。

值得一提的是，“參考生”能力支持角色、場景與視覺元素的可復(fù)用建模，使得創(chuàng)作不再依賴一次性生成，而是可以像搭建素材庫一樣進(jìn)行組合與復(fù)用。

再看一組典型的參考生案例。現(xiàn)在我們給Vidu Q3三張參考圖，分別是少女、駿馬和森林。它會迅速生成少女騎馬穿梭于森林中的素材。

再加入背景音樂及人物對白的提示詞，即可輸出電影級片段——少女騎著駿馬在林間小徑緩步前行，溫暖且空靈的音樂與森林的寧靜氛圍完美相融。

特效音效全面升級，完美適配應(yīng)用場景

另外，為了豐富成片的敘事形式、強化視覺沖擊力，Vidu Q3升級了包括粒子、流體、動力學(xué)、運鏡、轉(zhuǎn)場、光影在內(nèi)的六大特效能力。

通過粒子、光影、鏡頭、轉(zhuǎn)場及合成等多類型特效的組合應(yīng)用，能夠更自然地表達(dá)情緒變化、劇情推進(jìn)與鏡頭節(jié)奏，使生成內(nèi)容更接近“成片級表達(dá)”。這讓生成內(nèi)容有了更多細(xì)節(jié)質(zhì)感和現(xiàn)場感，有助于烘托劇情變化和環(huán)境氛圍，最大化提升觀眾臨場感。

現(xiàn)在我們給Vidu Q3另一組提示詞，來測試其特效能力：“基座上的外星神器釋放出一個環(huán)狀能量波。波環(huán)迅速擴大，半透明青色，內(nèi)部有電弧，在地板和墻壁上產(chǎn)生強烈輝光。沖擊波漣漪效果，高對比度泛光。”

這看起來是一個較為簡單的場景，但它同時挑戰(zhàn)了目前視頻生成模型最弱的4項能力：規(guī)則集幾何結(jié)構(gòu)的時序穩(wěn)定（圓環(huán)）、多層動態(tài)特效同步（環(huán)+電弧+輝光）、全局光照/反射的物理聯(lián)動，以及高對比發(fā)光體不穿模的能力。

一起看看實際完成的效果：

這里尤為值得注意的是，在這個視頻中，電弧是典型的高頻隨機細(xì)節(jié)，而環(huán)狀能量波則是低頻規(guī)則運動，電弧+能量環(huán)的動態(tài)耦合極難同步，但從Vidu Q3生成的視頻來看，它完美地約束了多層動態(tài)特效疊加的時序。

另外，音效作為敘事的另一種重要形式，也是Vidu Q3本次重點升級的能力。更加真實的音效，才能為觀眾帶來身臨其境的沉浸式體驗，全身心投入地享受戲劇沖突。Q3 強化了環(huán)境音、氛圍音與整體音效平衡能力，能夠支撐對話、情緒變化及場景轉(zhuǎn)換。這使生成視頻不僅有聲音輸出，更具備空間感與情緒承載能力。

注：Vidu Q3的環(huán)境音效演示

例如，風(fēng)聲、雨聲、城市噪音、森林聲等環(huán)境音效可以用于營造空間感和沉浸感。流水潺潺、枝葉簌簌，間或傳來幾聲鳥叫，這樣的森林聲讓人仿佛置身于廣袤無際的原始森林，耳畔大自然的聲音和眼前的畫面融為一體，全身心的沉浸式體驗讓觀眾在不知不覺中進(jìn)入創(chuàng)作者預(yù)設(shè)的敘事環(huán)境，更有助于敘事的連續(xù)性。

除此之外，這次的音效升級還包括衣物摩擦、開門、拿取物品等細(xì)節(jié)動作音；激光、能量波、未來設(shè)備聲音等科幻音效；腳步聲、打斗聲、物體碰撞、爆炸等動作音效。這也為短劇、漫劇、影視劇及廣告等不同類型場景的內(nèi)容制作提供更多選擇。

Q3的多維度能力升級，不止停留在抽象場景，而是圍繞短劇、漫劇、影視劇及廣告等核心場景進(jìn)行優(yōu)化，能夠滿足不同場景的具體內(nèi)容需求。視頻模型能力不再是無法商業(yè)驗證的空中樓閣，它逐漸進(jìn)入多元化內(nèi)容生產(chǎn)場景的工作流，產(chǎn)出可用性與可交付性較強的專業(yè)級內(nèi)容，用電影級的鏡頭語言，講好每一個動人故事。

值得一提的是，這一升級，是從底座模型，到產(chǎn)品全家桶的全面提升。

隨著Q3參考生這一能力升級，Vidu Q3 已完整覆蓋文生、圖生與參考生三大能力，打造了「Q3全家桶」。在模型能力持續(xù)完善的同時，Vidu Agent、Vidu Claw 等產(chǎn)品也已全面接入模型的核心能力，并進(jìn)一步簡化了用戶的操作流程，零基礎(chǔ)創(chuàng)作者也能快速上手，不用鉆研復(fù)雜指令、不用搭建繁瑣工作流，就能實現(xiàn)專業(yè)級視頻生成，真正做到易用、好用、實用。

2.萬物可參，聲畫同出，釋放AI內(nèi)容生產(chǎn)力

在持續(xù)提升模型和產(chǎn)品能力的同時，生數(shù)科技也在積極探索與漫劇、短劇、影視劇、廣告等行業(yè)的落地合作，釋放AI在現(xiàn)實場景的內(nèi)容生產(chǎn)力。

在AI極大釋放內(nèi)容產(chǎn)能的當(dāng)下，這些行業(yè)也逐漸形成了鮮明共識：當(dāng)AI工具日趨普及，生產(chǎn)效率的天花板已被普遍推高，單純比拼產(chǎn)出速度與數(shù)量的時代已經(jīng)過去。當(dāng)前行業(yè)的競爭已經(jīng)從“誰能做”進(jìn)入“誰能做得更好、更穩(wěn)、更快”的新階段。

真正的效率革命，應(yīng)體現(xiàn)在精品內(nèi)容的規(guī)模化輸出能力上，這需要從底層技術(shù)邏輯上，解決傳統(tǒng)工作流中的不確定性問題——這正是生數(shù)科技持續(xù)與行業(yè)伙伴共同探索解決的痛點問題。

能夠進(jìn)入工業(yè)生產(chǎn)流程，為內(nèi)容生產(chǎn)降本增效的，是通過結(jié)構(gòu)化生成取代黑盒式抽卡的高度不確定。這要求模型不僅能理解單次指令，更需建立對角色、場景、風(fēng)格等核心元素的持續(xù)記憶與控制能力，使制作過程從隨機生成轉(zhuǎn)向可控創(chuàng)作。

生數(shù)科技的解法，是讓多模態(tài)AI技術(shù)真正落地產(chǎn)業(yè)側(cè)——通過與頭部企業(yè)深度共創(chuàng)合作，推出標(biāo)桿性的行業(yè)解決方案，為工業(yè)化生產(chǎn)提供堅實技術(shù)底座。

例如，在AI漫劇行業(yè)，生數(shù)科技與萬興科技合作推出“萬興劇廠”，破解漫劇行業(yè)難題，實現(xiàn)跨集一致性突破，抽卡精確度翻倍、分鏡可用率達(dá)80%。這樣的深度共創(chuàng)，大幅降低制作成本與周期，實現(xiàn)AI驅(qū)動內(nèi)容工業(yè)化生產(chǎn) 。

院線級生成能力，領(lǐng)跑短劇、漫劇、影視劇場景

這里我們用一組過肩鏡頭看下Vidu Q3在漫劇中的能力：

我們可以看到這是一個典型的“強構(gòu)圖、強空間關(guān)系”鏡頭，視頻中的要素以“近景肩”、“中景人物”、“背景”三者組成，在鏡頭移動的過程中，三者的相對位置、透視、遮擋關(guān)系必須全程保持恒定，這對模型空間錨定能力要求極高。

另外，雖然這是一組過肩鏡頭，但視頻中的近景人物并不是全程保持“絕對姿態(tài)鎖定”——而是伴隨鏡頭平移，頭部姿態(tài)略微上下移動，更加貼近物理世界中的實際情況，值得一提的是，在給到Vidu Q3的提示詞中，并沒有包含這點，但它在生成視頻時卻考慮到了這個因素。

再來看下Vidu Q3在真人短劇生成上的表現(xiàn)。

首先，需要說明的是，在給到Vidu Q3的參考圖片以及提示詞中，都沒有體現(xiàn)庭院場景中的空間透視與元素構(gòu)圖關(guān)系，但它很好地補齊了這一部分。

注:上面真人短劇的參考圖

其次，雪花這種半透明高頻粒子，是視頻生成模型中最容易閃爍、斷裂、穿幫的元素，而從生成的視頻來看，雪花與人物、地面的交互邏輯完成的非常自然。當(dāng)雪花落到人物的頭發(fā)、肩膀時，既沒有無緣無故地消失，也沒有被人物的走動帶飛。

值得一提的是，在這組鏡頭中可以看到，無論是小姐的豁達(dá)，還是丫鬟在提醒時的小心翼翼，其自然情緒、語音和口型的同步，都表現(xiàn)出了極高的水準(zhǔn)。

深耕電商、廣告行業(yè)場景，一鍵解鎖商業(yè)大片質(zhì)感

在漫劇、真人短劇和影視劇場景之外，憑借在參考生賽道的持續(xù)沉淀，生數(shù)科技也突破了電商、廣告等對一致性要求極高的行業(yè)場景。他們調(diào)研發(fā)現(xiàn)客戶對商品視頻細(xì)節(jié)零容忍，因此將“參考生”功能進(jìn)行了針對性的升級，可實現(xiàn)鏡頭切換下商品、主角細(xì)節(jié)一致，360°精準(zhǔn)展示且效果逼真。

比如在這一組廣告視頻中，一名模特在使用唇釉產(chǎn)品，由于需要展示唇釉質(zhì)感，我們給到Vidu Q3的提示詞中包含”唇部特寫鏡頭“，可以看到Vidu Q3完美平滑地完成了鏡頭的切換，而當(dāng)模特念出“This touch is more than just color”的廣告詞時，鏡頭以唇部為中心，同步拉回到全景，在整個過程中，唇部的細(xì)節(jié)沒有發(fā)生任何變化，這足以看出Vidu Q3在廣告場景中的高度一致性。

針對漫劇、短劇、影視劇、廣告等行業(yè)用戶，Vidu MaaS提供一站式商用級 AI 視頻服務(wù)，支持零門檻快速接入，成本僅為行業(yè)平均水平的三分之一。在切鏡銜接、運鏡流暢度方面高度自然，內(nèi)容生成速度優(yōu)勢顯著。平臺可根據(jù)客戶需求提供提示詞優(yōu)化、定制化工作流適配與專項技術(shù)培訓(xùn)，即便在業(yè)務(wù)高峰期也能維持穩(wěn)定流暢的使用體驗。從創(chuàng)意構(gòu)思、視頻制作到實際場景落地，用戶均可依托統(tǒng)一的能力底座，實現(xiàn)全流程更完整、更高效的內(nèi)容生產(chǎn)體驗。

從膠片感光成像到數(shù)字智能渲染，從光影實景拍攝到AI 虛擬造像，隨著視頻技術(shù)的不斷發(fā)展，視頻制作門檻也不斷降低，每一次技術(shù)的突破都會帶來內(nèi)容生產(chǎn)的爆發(fā)與生產(chǎn)模式的重構(gòu)。AI視頻在進(jìn)入漫劇、短劇、影視劇、廣告行業(yè)的工作流，實現(xiàn)降本增效的同時，也在探索一種面向未來的、可規(guī)模化的新型內(nèi)容生產(chǎn)模式。生數(shù)科技等AI視頻廠商所提供的，是一套正在成型的新影視工業(yè)的基礎(chǔ)設(shè)施，它也讓藝術(shù)創(chuàng)作更加回歸本質(zhì)：當(dāng)技術(shù)能夠穩(wěn)定地理解執(zhí)行，將創(chuàng)作者從繁瑣的執(zhí)行中解放，創(chuàng)作的核心價值將重新聚焦于創(chuàng)意本身。

(封面圖來源：生數(shù)科技)

關(guān)注公眾號「甲子光年」

后臺回復(fù)“Vidu”

即可獲得專屬邀請碼

體驗Vidu Q3

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.