網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI 視頻生成的未來(lái)在中國(guó)

2026-03-25 20:03:01　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

棄子Sora，倒在生態(tài)壁壘前。

作者丨梁丙鑒

編輯丨董子博

當(dāng)?shù)貢r(shí)間3月24日，OpenAI宣布關(guān)閉視頻生成應(yīng)用Sora。這一決定被視為OpenAI在沖刺IPO前的戰(zhàn)略調(diào)整，旨在將重心聚焦于企業(yè)級(jí)產(chǎn)品。

OpenAI CEO Sam Altman 在內(nèi)部信中宣布：“Sora 視頻平臺(tái)將全面停運(yùn)。不只是那個(gè)消費(fèi)端 app，開(kāi)發(fā)者 API、ChatGPT 里的視頻生成功能，統(tǒng)統(tǒng)砍掉。干凈利落，不留余地。”此時(shí)距離OpenAI高調(diào)推出Sora獨(dú)立App僅僅過(guò)去了6個(gè)月。

應(yīng)用層越發(fā)激化的競(jìng)爭(zhēng)，正催促著曾經(jīng)的明星產(chǎn)品們向前或墜落。紅極一時(shí)的Sora迎來(lái)落幕，只是開(kāi)始。

Sora的光榮和野心

Sora從來(lái)不是一款失敗的產(chǎn)品。作為OpenAI首個(gè)視頻生成模型，它在2024年2月發(fā)布后所引起的轟動(dòng)，讓人們將其稱為AI視頻生成的“GPT時(shí)刻”。

Sora的多模態(tài)能力支持用戶通過(guò)文本、圖像、視頻的多樣化輸入生成高保真、電影質(zhì)感的視頻。不僅在生成時(shí)長(zhǎng)上達(dá)到60秒，遠(yuǎn)超當(dāng)時(shí)競(jìng)品普遍的5秒水平，而且Sora還具備初步的物理世界常識(shí)和時(shí)間邏輯。此前AI視頻常因畫面失真、邏輯混亂、低保持度等問(wèn)題導(dǎo)致“一眼假”，但Sora卻能通過(guò)光線的時(shí)間變化、動(dòng)作穩(wěn)定的因果鏈條，表現(xiàn)出它對(duì)場(chǎng)景和角色關(guān)系的理解。震動(dòng)從學(xué)界傳播到影視行業(yè)。

不僅如此，卓越的性能已經(jīng)讓學(xué)界無(wú)法將Sora單純地視為視頻生成模型，而是開(kāi)始探討這一品類作為“世界模擬器”的潛在意義。一位AI視頻行業(yè)的觀察者告訴AI科技評(píng)論：“Sora現(xiàn)在一騎絕塵，整個(gè)畫面的真實(shí)度、清晰度它一定是最高的，整個(gè)畫面的想象力以及物理表達(dá)也是最好的。有一個(gè)概念是世界模擬器，如果你能夠跟真實(shí)世界達(dá)到同樣的水準(zhǔn)，大家就會(huì)覺(jué)得你的東西是更強(qiáng)的，這就是區(qū)別。”

Sora最核心的技術(shù)突破在于采用了DiT架構(gòu)，將擴(kuò)散模型與Transformer結(jié)合。這一創(chuàng)新使其能夠同時(shí)處理視頻的空間維度和時(shí)間維度，生成具有高度時(shí)許連貫性的長(zhǎng)視頻。同時(shí)Sora采用Patch化的數(shù)據(jù)表示，即仿照Token的思路，將視頻和圖像數(shù)據(jù)分解至被稱為Patch的較小數(shù)據(jù)單元。由此Sora在不同時(shí)長(zhǎng)、分辨率的視覺(jué)數(shù)據(jù)上實(shí)現(xiàn)了統(tǒng)一訓(xùn)練，極大提高了訓(xùn)練效率。

可以說(shuō)，這是視頻生成模型最重要的范式創(chuàng)新之一。Sora之后，DiT架構(gòu)逐漸成為行業(yè)主流路線，被Runway Gen-3、Luma Dream Machine、快手可靈、阿里萬(wàn)相等國(guó)內(nèi)外廠商采用。

作為自家第二款開(kāi)啟“GPT時(shí)刻”的產(chǎn)品，OpenAI對(duì)Sora寄予厚望。過(guò)去兩年Sora的戰(zhàn)略定位幾經(jīng)改變，但不變的是重要性逐步提升，愿景越來(lái)越宏大。

24年12月，Sora完成初步的產(chǎn)品化探索，向ChatGPT的Plus/Pro訂閱用戶開(kāi)放，此時(shí)的Sora還只是ChatGPT里的一項(xiàng)集成功能。次年9月，OpenAI以獨(dú)立產(chǎn)品的形態(tài)發(fā)布了Sora 2 App，值得注意的是其Cameo（真人出鏡）功能。用戶只需上傳一段自拍視頻，再加上諸如“我在沙發(fā)上擼狗”的提示詞，就能生成本人出鏡的AI視頻。加之Sora 2內(nèi)置TikTok式的視頻流，技術(shù)迭代、社交裂變的多重屬性疊加，Sora顯然承載了OpenAI對(duì)做一款A(yù)I時(shí)代的TikTok的野心。25年10月，Sora又開(kāi)放了官方API，支持商業(yè)集成，劍指新一代視頻開(kāi)發(fā)者平臺(tái)生態(tài)。

25年12月，OpenAI和迪士尼更是公布了一項(xiàng)震動(dòng)好萊塢的合作。后者將以10億美元入股OpenAI，并授權(quán)超過(guò) 200個(gè)旗下角色用于Sora視頻生成平臺(tái)，包括米老鼠、白雪公主、鋼鐵俠、達(dá)斯·維達(dá)等。至此，Sora已經(jīng)從一款工具型產(chǎn)品，在短短兩年內(nèi)成長(zhǎng)為包含IP生態(tài)、社交分發(fā)和開(kāi)發(fā)者平臺(tái)的基礎(chǔ)設(shè)施。

然而彼時(shí)很難想到，Sora的隕落就發(fā)生在短短四個(gè)月后。

視頻模型之爭(zhēng)進(jìn)入深水區(qū)

Sora在發(fā)布后立刻引起了全球科技巨頭和初創(chuàng)公司的激烈追趕，中國(guó)的AI視頻生成賽道也迅速崛起，到今天已經(jīng)成為一片互聯(lián)網(wǎng)大廠、初創(chuàng)公司等多方混戰(zhàn)的紅海。

動(dòng)作最快的字節(jié)于2024年3月開(kāi)啟了視頻生成模型的內(nèi)測(cè)，兩個(gè)月后即夢(mèng)全量上線。同年8月獨(dú)立APP"即夢(mèng)AI"正式上線，其定位為"一站式AIGC內(nèi)容專業(yè)創(chuàng)作平臺(tái)"，支持AI圖片創(chuàng)作、視頻創(chuàng)作等功能。依托抖音和剪映的流量加持，截至2025年3月數(shù)據(jù)，其月活用戶數(shù)已達(dá)893萬(wàn)。

快手在24年6月發(fā)布了對(duì)標(biāo)Sora的可靈大模型，根據(jù)大模型整合應(yīng)用平臺(tái)Poe的統(tǒng)計(jì)，截至2025年5月，可靈系列大模型在視頻生成模型賽道已經(jīng)占據(jù)了30％以上份額。該系列側(cè)重工作室、廣告公司等ToB場(chǎng)景，優(yōu)先追求滲透專業(yè)用戶，雖然在用戶規(guī)模上落后于即夢(mèng)，但商業(yè)化進(jìn)展喜人，據(jù)悉截至2025年3月，其ARR已突破1億美元。

阿里和騰訊也緊隨其后。前者的首款視頻生成模型通義萬(wàn)象發(fā)布于24年9月，25年底已迭代至2.6版本，是國(guó)內(nèi)首個(gè)上線了參考生視頻功能的視頻模型。后者則在24年12月開(kāi)源了HunyuanVideo，該模型擁有130億參數(shù)，可直接輸出1080P、24fps的5秒短片，是當(dāng)時(shí)最大的視頻開(kāi)源模型。

大廠之外，創(chuàng)業(yè)公司也紛紛下場(chǎng)，其中不乏視頻賽道原生的AI獨(dú)角獸。

其中有代表性的如MiniMax，基于自研的視頻生成模型Abab-video-1，該公司于2024年8月發(fā)布了海螺AI。其差異化在于二次元?jiǎng)勇曨l生成能力，MiniMax同年12月發(fā)布的圖生視頻模型I2V-01-Live專門針對(duì)二次元效果進(jìn)行了優(yōu)化，去年3月還收購(gòu)了AI視頻創(chuàng)業(yè)公司鹿影科技，后者的二次元?jiǎng)勇嗀I視頻生成平臺(tái)YoYo支持用戶通過(guò)文字或圖片輸入快速生辰高質(zhì)量動(dòng)漫內(nèi)容，此次收購(gòu)?fù)瑯邮荕iniMax針對(duì)自身在這一細(xì)分賽道的強(qiáng)化。

生數(shù)科技的Vidu發(fā)布于24年4月，是中國(guó)首個(gè)全面對(duì)標(biāo)Sora的視頻模型。Vidu的原創(chuàng)U-ViT架構(gòu)同樣采用了將Diffusion與Transformer架構(gòu)融合的思路，但其在2022年9月提出，比OpenAI的DiT早三個(gè)月。“參考生視頻”技術(shù)也是由生數(shù)科技全球首創(chuàng)，其在25年1月發(fā)布的Vidu Q1率先實(shí)現(xiàn)了這一功能，以解決多主體連續(xù)一致性難題。

此外，智譜在24年7月發(fā)布了基于自研模型CogVideoX的清影，可生成2K分辨率6秒流暢視頻，商湯科技旗下則有面向C端的人物視頻生成模型Vimi。

這些還只是24年視頻模型和視頻生成產(chǎn)品密集發(fā)布的一角，這一賽道在一年內(nèi)有超過(guò)10余家公司推出了自研產(chǎn)品，并快速迭代。然而這番熱鬧景象背后，殘酷的事實(shí)是模型同質(zhì)化的問(wèn)題正日益凸顯。

技術(shù)指標(biāo)上的接近讓各家在1080P分辨率、多鏡頭切換、物理一致性等基礎(chǔ)能力上難以拉開(kāi)差距，倒逼模型廠商在技術(shù)和產(chǎn)品路線上加速分化。商業(yè)化的考驗(yàn)同樣緊迫，開(kāi)源模型不斷沖擊著模型廠商的定價(jià)權(quán)，視頻模型之爭(zhēng)進(jìn)入了深水區(qū)，如何在應(yīng)用端釋放出模型能力更大的價(jià)值，成為了這一階段競(jìng)爭(zhēng)的核心議題。

模型參數(shù)打不穿的生態(tài)壁壘

視頻生成任務(wù)的背后，有著龐大的內(nèi)容生態(tài)。當(dāng)競(jìng)爭(zhēng)從模型層轉(zhuǎn)向應(yīng)用落地，生態(tài)壁壘的作用也隨即開(kāi)始顯現(xiàn)。

這一點(diǎn)在國(guó)內(nèi)的視頻模型競(jìng)爭(zhēng)中已經(jīng)顯露跡象。模型性能無(wú)法取得代差時(shí)，掌握了場(chǎng)景的大廠們可以用流量和生態(tài)反哺自家模型。字節(jié)旗下有抖音、剪影和紅果短劇，快手依托主站，也在試圖構(gòu)建從生成到分發(fā)的閉環(huán)。對(duì)于阿里而言，這份驅(qū)動(dòng)力則來(lái)自電商和營(yíng)銷的需求。

回到全球的視頻模型之爭(zhēng)，中國(guó)對(duì)AI視頻應(yīng)用的諸多實(shí)踐，已經(jīng)構(gòu)建了難以突破的生態(tài)壁壘。

典型的例子是游戲行業(yè)。在開(kāi)發(fā)側(cè)，騰訊發(fā)布了混元游戲視覺(jué)生成平臺(tái)，號(hào)稱首個(gè)工業(yè)級(jí)AIGC游戲內(nèi)容生產(chǎn)引擎，能精準(zhǔn)還原"厚涂"、"賽璐璐"、"賽博朋克"等專業(yè)術(shù)語(yǔ)，此外還有名為"VISVISE"的游戲創(chuàng)作AI全鏈路解決方案，包括Auto LUV和裙擺AI等開(kāi)發(fā)工具。

在玩法側(cè)，視頻模型的高自由度也提供了更多UGC玩法。網(wǎng)易的《逆水寒》上線了AI劇組模式，通過(guò)文字指令或真人視頻，可生成以玩家角色為主角的二創(chuàng)視頻。《倩女幽魂》《永劫無(wú)間》的捏臉功能，也得益于伏羲實(shí)驗(yàn)室的虛擬人、智能捏臉等技術(shù)。

漫劇也是視頻模型落地的熱門場(chǎng)景。AI漫劇的市場(chǎng)規(guī)模已近千億，而受益于算力成本，它也有了相較短劇而言更可控的成本結(jié)構(gòu)。前沿技術(shù)變得更可負(fù)擔(dān)，讓漫劇行業(yè)走上了一條短、平、快的量大管飽路線。一位AI漫劇創(chuàng)業(yè)者表示：“AI漫劇這個(gè)行業(yè)非常卷，一家公司如果直接和紅果簽約，可能得按一個(gè)月提供100部漫劇的條件簽，其實(shí)就是量產(chǎn)。”對(duì)于視頻模型而言，這是海量的應(yīng)用空間。

出海市場(chǎng)同樣廣闊。據(jù)華爾街日?qǐng)?bào)報(bào)道，截至2026年1月，昆侖萬(wàn)維旗下的DramaWave短劇平臺(tái)月活已破8000萬(wàn)，年化收入近5億元。該平臺(tái)主要面向海外用戶，提供1-5分鐘的短劇內(nèi)容，和同屬昆侖萬(wàn)維旗下的AI短劇創(chuàng)作平臺(tái)SkyReels形成了AI創(chuàng)作結(jié)合智能分發(fā)的生態(tài)閉環(huán)。值得一提的是，視頻生成模型SkyReels-V4首創(chuàng)了九宮格參考技術(shù)，專門用于解決AI短劇角色一致性的難題。

此外還有影視工業(yè)和文旅提供的大量需求，每一個(gè)場(chǎng)景都為AI視頻生成提供了全新的落地空間和商業(yè)模式上的更多可能。在新的技術(shù)范式出現(xiàn)之前，任務(wù)調(diào)用會(huì)成為模型迭代和商業(yè)上可持續(xù)的源動(dòng)力，而成熟的產(chǎn)業(yè)鏈和廣闊的市場(chǎng)無(wú)疑會(huì)為此創(chuàng)造源源不斷的需求。

反觀Sora，內(nèi)容生態(tài)的缺失讓模型能力獨(dú)木難支。Sora 2的發(fā)布讓其網(wǎng)站訪問(wèn)量在25年10月達(dá)到6619萬(wàn)峰值，但今年2月就已經(jīng)回落至2117萬(wàn)，跌幅68%。

訪問(wèn)量少帶來(lái)的最直接問(wèn)題是商業(yè)變現(xiàn)難，2025年Sora月收入36.7萬(wàn)美元，而Kling AI的同期數(shù)據(jù)是2000萬(wàn)美元。這背后真正承壓的是算力成本。一位AI視頻創(chuàng)業(yè)者表示：“以前搞互聯(lián)網(wǎng)，服務(wù)器花不了太多錢，但AI創(chuàng)業(yè)最大的區(qū)別是視頻生成要一直花錢。”

算力的邊際成本不會(huì)趨于零，Sora的任務(wù)一直都是找到那些付費(fèi)意愿高的場(chǎng)景。但是內(nèi)容生態(tài)的欠賬讓Sora的預(yù)期收入難以打正，技術(shù)范式的突破也遲遲無(wú)望，對(duì)于有意沖擊IPO的OpenAI來(lái)說(shuō)，Sora已經(jīng)成為了一個(gè)持續(xù)燒錢的負(fù)擔(dān)，食之無(wú)味，棄之沒(méi)那么可惜。今天的關(guān)停，并不令人意外。

中國(guó)的產(chǎn)業(yè)鏈優(yōu)勢(shì)讓國(guó)產(chǎn)模型在AI視頻生成賽道占據(jù)一席之地，這不僅是一場(chǎng)勝利，而是整個(gè)AI行業(yè)范式轉(zhuǎn)變的開(kāi)端。今天一款更強(qiáng)的模型已經(jīng)無(wú)法成為廠商之間的勝負(fù)手，能夠?qū)崿F(xiàn)智能向生產(chǎn)力的流暢轉(zhuǎn)化，才是留在牌桌上的條件。Sora因此關(guān)停，未來(lái)也會(huì)有更多明星產(chǎn)品因此墜落。

然而關(guān)停并不是結(jié)束，原Sora團(tuán)隊(duì)后續(xù)將轉(zhuǎn)向機(jī)器人技術(shù)的長(zhǎng)期世界模型，Sora的技術(shù)會(huì)成為具身模型的一部分。Sam Altman曾透露，相關(guān)研究進(jìn)展將快于多數(shù)人預(yù)期。在落地已經(jīng)成為機(jī)器人核心命題的今天，競(jìng)爭(zhēng)的烈度不會(huì)消失，只是轉(zhuǎn)移。

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.