![]()
![]()
告別“抽卡式”生成,如何讓AI學(xué)會講故事?
作者|Iris
編輯|栗子
短劇圈的 “抽象整活” 含量還在持續(xù)升高,近期風(fēng)靡短劇圈的“性轉(zhuǎn)版”二創(chuàng),將曾經(jīng)觀眾熟悉的角色轉(zhuǎn)換性別,進(jìn)而迸發(fā)出了不一樣的火花。
這也讓觀眾常看常新的宮斗劇教科書《甄嬛傳》,再次成為網(wǎng)友的新晉 “電子榨菜”。一部由網(wǎng)友用AI視頻技術(shù)二創(chuàng)的性轉(zhuǎn)版《甄嬛傳》短劇——《男嬛傳》刷爆網(wǎng)絡(luò)。
在《男嬛傳》中,全員角色集體性轉(zhuǎn)——皇帝四郎變身為坐擁后宮富婆四娘,寵冠六宮的華妃化身建模完美的霸道華君,甄嬛成為溫潤有才、心思通透的甄郎,隱忍柔弱的安陵容變成多才多藝的體育生,而皇后則一改之前的深沉謀斷……
果然,之前人類對《甄嬛傳》的開發(fā)還不足百分之十。
從質(zhì)疑胖橘、理解胖橘到成為胖橘,原來被美男包圍的后宮爽劇竟如此令人上頭,《男嬛傳》也讓女性觀眾體會到了胖橘的快樂。性別反轉(zhuǎn)帶來的人設(shè)反差與敘事新鮮感,迅速成為短劇與二創(chuàng)熱門流量密碼。
![]()
圖源:《男嬛傳》
這類高熱度人設(shè)與角色范式的快速傳播,印證了當(dāng)下視頻內(nèi)容創(chuàng)作的核心需求:角色穩(wěn)定、風(fēng)格統(tǒng)一、敘事可復(fù)用。
而這正是AI視頻的“參考生”能力所解決的關(guān)鍵痛點——通過對人物、場景、服化道的精準(zhǔn)參考與一致性生成,讓爆款人設(shè)、經(jīng)典角色、熱門風(fēng)格能夠快速落地、穩(wěn)定復(fù)現(xiàn),真正支撐起短劇、漫劇工業(yè)化生產(chǎn)的效率與品質(zhì)。
國產(chǎn)AI視頻公司生數(shù)科技是“參考生”的首創(chuàng)者。
早在2024年7月,專注多模態(tài)大模型及應(yīng)用自主研發(fā)的生數(shù)科技,就推出了中國首個視頻大模型Vidu,并首創(chuàng)“參考生”圖片/視頻概念。
近期,Vidu Q3正式上線了參考生視頻,并圍繞特效、音效、場景進(jìn)行了全面升級。Vidu Q3依托自然語言即可實現(xiàn)粒子、流體、動力學(xué)、運鏡、轉(zhuǎn)場、光影六大特效的靈活調(diào)控,并構(gòu)建起包含環(huán)境、動態(tài)、氛圍、擬音、情緒等五大音效在內(nèi)的全景音效體系,讓聽覺表達(dá)具備完整敘事連貫性。同時針對短劇、漫劇、影視劇、廣告四大核心場景完成能力深化,可直接作為商用內(nèi)容單元融入真實制作流程。
在全球首個參考生視頻榜單SuperClue上,生數(shù)科技的Vidu Q3同時登頂多圖參考總榜和單圖參考榜。此前,剛發(fā)布的Vidu Q3,就登頂了國際權(quán)威 AI 基準(zhǔn)測試機構(gòu) Artificial Analysis榜單。
![]()
![]()
在一眾AI視頻玩家中,生數(shù)科技憑借先發(fā)優(yōu)勢,牢牢站穩(wěn)行業(yè)核心位置——“為劇而生”的Vidu Q3不再只提升單一內(nèi)容生成能力,而是圍繞一個核心方向發(fā)力:讓AI內(nèi)容,真正擁有支撐劇集呈現(xiàn)的表達(dá)能力。
“劇”的表達(dá)能力,在于關(guān)鍵劇情的起承轉(zhuǎn)合、音效特效的精確運用和視聽語言的自然調(diào)度。模型能力的溢出,讓AI內(nèi)容能夠進(jìn)入行業(yè)工作流,在降本增效的同時,為不同場景視頻內(nèi)容帶來更多可能性變量,改變內(nèi)容生產(chǎn)范式。
經(jīng)測試,Vidu Q3在漫劇、短劇、廣告等場景中表現(xiàn)穩(wěn)定出色,能夠在保持高質(zhì)量內(nèi)容輸入的同時降本增效。
作為“參考生”首創(chuàng)者,Vidu Q3通過業(yè)界領(lǐng)先的“參考生”能力和沉浸式的視聽效果,完成了從生成畫面到講好故事的突破,節(jié)奏、情緒、敘事一氣呵成,全面提升視頻片段的“劇張力”。
這也暗合了行業(yè)的精品化升級趨勢:在生產(chǎn)端內(nèi)容極度供大于求的今天,行業(yè)亟需的不再是量的堆疊,而是制作更加優(yōu)良、敘事更加清晰完整、劇情推進(jìn)與鏡頭節(jié)奏更加自然的精品內(nèi)容。
注:Vidu Q3的“參考生”功能演示
1.為劇而生,劇張力拉滿
前一秒還是寒窗苦讀的窮苦書生,下一秒就穿越為權(quán)傾朝野的高官權(quán)貴;從食物鏈最底端的贅婿,運籌帷幄完成令人意想不到的完美逆襲……
從贅婿爽文、玄幻修仙到穿越重生題材,市面上不同題材爆款短劇,都有一個共同的取勝之道,憑借緊湊的劇情節(jié)奏、意外反轉(zhuǎn)的戲劇性情節(jié),緊緊抓住用戶的眼球。
換句話說,敘事能力是短劇質(zhì)量的重要分水嶺,也對AI內(nèi)容的表達(dá)能力提出了更高要求:如何讓AI內(nèi)容適配戲劇張力極強的行業(yè)場景,從而使生成內(nèi)容更富有張力,更接近成片級表達(dá)?
為了解決這一行業(yè)痛點,生數(shù)科技首創(chuàng)了“參考生”能力,并實現(xiàn)高效快速的升級迭代。
在2025年9月,生數(shù)科技就推出了Vidu Q1參考生圖功能,以支持7張參考圖輸入打破國內(nèi)生成上限,并在一致性、還原度等關(guān)鍵指標(biāo)上正面對標(biāo)Nano Banana;2025年10月,生數(shù)科技完成Vidu Q2的迅速迭代,Vidu Q2的“參考生”,不僅持續(xù)保持高一致性,還在生成速度、價格方面進(jìn)行全面優(yōu)化。
近期,Vidu Q3跨越式升級“參考生”能力,并將參考范圍擴展至主圖、場景、服化道。
這一“萬物可參考”的能力,賦予普通創(chuàng)作者專業(yè)表達(dá)能力,讓“參考生”不再只是提升一致性的工具能力,而是升級為一種內(nèi)容生產(chǎn)范式。
同時,Vidu Q3也將特效、音效拉升至專業(yè)級電影質(zhì)感, 敘事能力與劇情表現(xiàn)力拉滿,完美適配不同場景的多元化表達(dá)需求,直接讓Vidu Q3逐步深入漫劇、短劇、影視劇行業(yè)的工作流,并承載更強敘事需求,內(nèi)容的故事性和細(xì)節(jié)接近院線級效果,在講好故事的同時,讓創(chuàng)作真正實現(xiàn)一鏡到底。
萬物可參考,成片更能打
這項能力的可玩性極強,用戶既可以讓不同時空的人物同臺飆戲,生成搞笑片段,也可以選定特定的背景和服化道,生成以假亂真的電影質(zhì)感大片。
例如,用戶可以選擇特定的女團服裝和舞臺場景參考,生成一段唱跳C位舞臺片段。
以圖1女生和圖2服裝為參考圖,輸入提示詞:“舞臺燈光亮起,圖1女生穿著圖2中的服裝,手中握著圖2里的吉他站在舞臺中央。她猛地抬頭,音樂瞬間爆發(fā),身體前傾,開始激情演唱”,就可以得到極具感染力和觀賞性的女團舞臺現(xiàn)場,聚光燈下,女生的發(fā)絲清晰可見、隨風(fēng)舞動,臉部表情和彈吉他的動作都自然流暢,讓普通用戶也能實現(xiàn)自己的女團唱跳夢想。
值得一提的是,“參考生”能力支持角色、場景與視覺元素的可復(fù)用建模,使得創(chuàng)作不再依賴一次性生成,而是可以像搭建素材庫一樣進(jìn)行組合與復(fù)用。
再看一組典型的參考生案例。現(xiàn)在我們給Vidu Q3三張參考圖,分別是少女、駿馬和森林。它會迅速生成少女騎馬穿梭于森林中的素材。
![]()
![]()
![]()
再加入背景音樂及人物對白的提示詞,即可輸出電影級片段——少女騎著駿馬在林間小徑緩步前行,溫暖且空靈的音樂與森林的寧靜氛圍完美相融。
特效音效全面升級,完美適配應(yīng)用場景
另外,為了豐富成片的敘事形式、強化視覺沖擊力,Vidu Q3升級了包括粒子、流體、動力學(xué)、運鏡、轉(zhuǎn)場、光影在內(nèi)的六大特效能力。
通過粒子、光影、鏡頭、轉(zhuǎn)場及合成等多類型特效的組合應(yīng)用,能夠更自然地表達(dá)情緒變化、劇情推進(jìn)與鏡頭節(jié)奏,使生成內(nèi)容更接近“成片級表達(dá)”。這讓生成內(nèi)容有了更多細(xì)節(jié)質(zhì)感和現(xiàn)場感,有助于烘托劇情變化和環(huán)境氛圍,最大化提升觀眾臨場感。
現(xiàn)在我們給Vidu Q3另一組提示詞,來測試其特效能力:“基座上的外星神器釋放出一個環(huán)狀能量波。波環(huán)迅速擴大,半透明青色,內(nèi)部有電弧,在地板和墻壁上產(chǎn)生強烈輝光。沖擊波漣漪效果,高對比度泛光。”
這看起來是一個較為簡單的場景,但它同時挑戰(zhàn)了目前視頻生成模型最弱的4項能力:規(guī)則集幾何結(jié)構(gòu)的時序穩(wěn)定(圓環(huán))、多層動態(tài)特效同步(環(huán)+電弧+輝光)、全局光照/反射的物理聯(lián)動,以及高對比發(fā)光體不穿模的能力。
一起看看實際完成的效果:
這里尤為值得注意的是,在這個視頻中,電弧是典型的高頻隨機細(xì)節(jié),而環(huán)狀能量波則是低頻規(guī)則運動,電弧+能量環(huán)的動態(tài)耦合極難同步,但從Vidu Q3生成的視頻來看,它完美地約束了多層動態(tài)特效疊加的時序。
另外,音效作為敘事的另一種重要形式,也是Vidu Q3本次重點升級的能力。更加真實的音效,才能為觀眾帶來身臨其境的沉浸式體驗,全身心投入地享受戲劇沖突。Q3 強化了環(huán)境音、氛圍音與整體音效平衡能力,能夠支撐對話、情緒變化及場景轉(zhuǎn)換。這使生成視頻不僅有聲音輸出,更具備空間感與情緒承載能力。
注:Vidu Q3的環(huán)境音效演示
例如,風(fēng)聲、雨聲、城市噪音、森林聲等環(huán)境音效可以用于營造空間感和沉浸感。流水潺潺、枝葉簌簌,間或傳來幾聲鳥叫,這樣的森林聲讓人仿佛置身于廣袤無際的原始森林,耳畔大自然的聲音和眼前的畫面融為一體,全身心的沉浸式體驗讓觀眾在不知不覺中進(jìn)入創(chuàng)作者預(yù)設(shè)的敘事環(huán)境,更有助于敘事的連續(xù)性。
除此之外,這次的音效升級還包括衣物摩擦、開門、拿取物品等細(xì)節(jié)動作音;激光、能量波、未來設(shè)備聲音等科幻音效; 腳步聲、打斗聲、物體碰撞、爆炸等動作音效。這也為短劇、漫劇、影視劇及廣告等不同類型場景的內(nèi)容制作提供更多選擇。
Q3的多維度能力升級,不止停留在抽象場景,而是圍繞短劇、漫劇、影視劇及廣告等核心場景進(jìn)行優(yōu)化,能夠滿足不同場景的具體內(nèi)容需求。視頻模型能力不再是無法商業(yè)驗證的空中樓閣,它逐漸進(jìn)入多元化內(nèi)容生產(chǎn)場景的工作流,產(chǎn)出可用性與可交付性較強的專業(yè)級內(nèi)容,用電影級的鏡頭語言,講好每一個動人故事。
值得一提的是,這一升級,是從底座模型,到產(chǎn)品全家桶的全面提升。
隨著Q3參考生這一能力升級,Vidu Q3 已完整覆蓋文生、圖生與參考生三大能力,打造了「Q3全家桶」。在模型能力持續(xù)完善的同時,Vidu Agent、Vidu Claw 等產(chǎn)品也已全面接入模型的核心能力,并進(jìn)一步簡化了用戶的操作流程,零基礎(chǔ)創(chuàng)作者也能快速上手,不用鉆研復(fù)雜指令、不用搭建繁瑣工作流,就能實現(xiàn)專業(yè)級視頻生成,真正做到易用、好用、實用。
2.萬物可參,聲畫同出,釋放AI內(nèi)容生產(chǎn)力
在持續(xù)提升模型和產(chǎn)品能力的同時,生數(shù)科技也在積極探索與漫劇、短劇、影視劇、廣告等行業(yè)的落地合作,釋放AI在現(xiàn)實場景的內(nèi)容生產(chǎn)力。
在AI極大釋放內(nèi)容產(chǎn)能的當(dāng)下,這些行業(yè)也逐漸形成了鮮明共識:當(dāng)AI工具日趨普及,生產(chǎn)效率的天花板已被普遍推高,單純比拼產(chǎn)出速度與數(shù)量的時代已經(jīng)過去。當(dāng)前行業(yè)的競爭已經(jīng)從“誰能做”進(jìn)入“誰能做得更好、更穩(wěn)、更快”的新階段。
真正的效率革命,應(yīng)體現(xiàn)在精品內(nèi)容的規(guī)模化輸出能力上,這需要從底層技術(shù)邏輯上,解決傳統(tǒng)工作流中的不確定性問題——這正是生數(shù)科技持續(xù)與行業(yè)伙伴共同探索解決的痛點問題。
能夠進(jìn)入工業(yè)生產(chǎn)流程,為內(nèi)容生產(chǎn)降本增效的,是通過結(jié)構(gòu)化生成取代黑盒式抽卡的高度不確定。這要求模型不僅能理解單次指令,更需建立對角色、場景、風(fēng)格等核心元素的持續(xù)記憶與控制能力,使制作過程從隨機生成轉(zhuǎn)向可控創(chuàng)作。
生數(shù)科技的解法,是讓多模態(tài)AI技術(shù)真正落地產(chǎn)業(yè)側(cè)——通過與頭部企業(yè)深度共創(chuàng)合作,推出標(biāo)桿性的行業(yè)解決方案,為工業(yè)化生產(chǎn)提供堅實技術(shù)底座。
例如,在AI漫劇行業(yè),生數(shù)科技與萬興科技合作推出“萬興劇廠”,破解漫劇行業(yè)難題,實現(xiàn)跨集一致性突破,抽卡精確度翻倍、分鏡可用率達(dá)80%。這樣的深度共創(chuàng),大幅降低制作成本與周期 ,實現(xiàn)AI驅(qū)動內(nèi)容工業(yè)化生產(chǎn) 。
院線級生成能力,領(lǐng)跑短劇、漫劇、影視劇場景
這里我們用一組過肩鏡頭看下Vidu Q3在漫劇中的能力:
我們可以看到這是一個典型的“強構(gòu)圖、強空間關(guān)系”鏡頭,視頻中的要素以“近景肩”、“中景人物”、“背景”三者組成,在鏡頭移動的過程中,三者的相對位置、透視、遮擋關(guān)系必須全程保持恒定,這對模型空間錨定能力要求極高。
另外,雖然這是一組過肩鏡頭,但視頻中的近景人物并不是全程保持“絕對姿態(tài)鎖定”——而是伴隨鏡頭平移,頭部姿態(tài)略微上下移動,更加貼近物理世界中的實際情況,值得一提的是,在給到Vidu Q3的提示詞中,并沒有包含這點,但它在生成視頻時卻考慮到了這個因素。
再來看下Vidu Q3在真人短劇生成上的表現(xiàn)。
首先,需要說明的是,在給到Vidu Q3的參考圖片以及提示詞中,都沒有體現(xiàn)庭院場景中的空間透視與元素構(gòu)圖關(guān)系,但它很好地補齊了這一部分。
![]()
注:上面真人短劇的參考圖
其次,雪花這種半透明高頻粒子,是視頻生成模型中最容易閃爍、斷裂、穿幫的元素,而從生成的視頻來看,雪花與人物、地面的交互邏輯完成的非常自然。當(dāng)雪花落到人物的頭發(fā)、肩膀時,既沒有無緣無故地消失,也沒有被人物的走動帶飛。
值得一提的是,在這組鏡頭中可以看到,無論是小姐的豁達(dá),還是丫鬟在提醒時的小心翼翼,其自然情緒、語音和口型的同步,都表現(xiàn)出了極高的水準(zhǔn)。
深耕電商、廣告行業(yè)場景,一鍵解鎖商業(yè)大片質(zhì)感
在漫劇、真人短劇和影視劇場景之外,憑借在參考生賽道的持續(xù)沉淀,生數(shù)科技也突破了電商、廣告等對一致性要求極高的行業(yè)場景。他們調(diào)研發(fā)現(xiàn)客戶對商品視頻細(xì)節(jié)零容忍,因此將“參考生”功能進(jìn)行了針對性的升級,可實現(xiàn)鏡頭切換下商品、主角細(xì)節(jié)一致,360°精準(zhǔn)展示且效果逼真。
比如在這一組廣告視頻中,一名模特在使用唇釉產(chǎn)品,由于需要展示唇釉質(zhì)感,我們給到Vidu Q3的提示詞中包含”唇部特寫鏡頭“,可以看到Vidu Q3完美平滑地完成了鏡頭的切換,而當(dāng)模特念出“This touch is more than just color”的廣告詞時,鏡頭以唇部為中心,同步拉回到全景,在整個過程中,唇部的細(xì)節(jié)沒有發(fā)生任何變化,這足以看出Vidu Q3在廣告場景中的高度一致性。
針對漫劇、短劇、影視劇、廣告等行業(yè)用戶,Vidu MaaS提供一站式商用級 AI 視頻服務(wù),支持零門檻快速接入,成本僅為行業(yè)平均水平的三分之一。在切鏡銜接、運鏡流暢度方面高度自然,內(nèi)容生成速度優(yōu)勢顯著。平臺可根據(jù)客戶需求提供提示詞優(yōu)化、定制化工作流適配與專項技術(shù)培訓(xùn),即便在業(yè)務(wù)高峰期也能維持穩(wěn)定流暢的使用體驗。從創(chuàng)意構(gòu)思、視頻制作到實際場景落地,用戶均可依托統(tǒng)一的能力底座,實現(xiàn)全流程更完整、更高效的內(nèi)容生產(chǎn)體驗。
從膠片感光成像到數(shù)字智能渲染,從光影實景拍攝到AI 虛擬造像,隨著視頻技術(shù)的不斷發(fā)展,視頻制作門檻也不斷降低,每一次技術(shù)的突破都會帶來內(nèi)容生產(chǎn)的爆發(fā)與生產(chǎn)模式的重構(gòu)。AI視頻在進(jìn)入漫劇、短劇、影視劇、廣告行業(yè)的工作流,實現(xiàn)降本增效的同時,也在探索一種面向未來的、可規(guī)模化的新型內(nèi)容生產(chǎn)模式。生數(shù)科技等AI視頻廠商所提供的,是一套正在成型的新影視工業(yè)的基礎(chǔ)設(shè)施,它也讓藝術(shù)創(chuàng)作更加回歸本質(zhì):當(dāng)技術(shù)能夠穩(wěn)定地理解執(zhí)行,將創(chuàng)作者從繁瑣的執(zhí)行中解放,創(chuàng)作的核心價值將重新聚焦于創(chuàng)意本身。
(封面圖來源:生數(shù)科技)
關(guān)注公眾號「甲子光年」
后臺回復(fù)“Vidu”
即可獲得專屬邀請碼
體驗Vidu Q3
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.