![]()
2025年9月30日的時候,Sora再次更新,迎來了升級版Sora2,當(dāng)時憑借著生成視頻的流暢、連貫,一度讓人產(chǎn)生了一種錯覺,AI似乎已經(jīng)不僅僅只是會畫圖、寫字,而是開始理解現(xiàn)實世界。
但戲劇性的是,Sora2的故事并沒有沿著實現(xiàn)AGI的方向一路狂飆。在2026年4月26日,在毫無征兆的情況下,OpenAI宣布關(guān)閉Sora的APP以及網(wǎng)頁版本,這短短的幾個月,經(jīng)歷了巨大的變化。這一幕仿佛是給AI熱潮按下了暫停鍵。
![]()
Sora剛發(fā)布出來的時候,OpenAI還特意撰寫一篇雄心勃勃的技術(shù)文章《Video generation models as world simulators》。將視頻生成模型視作世界模擬器,也把這種模型視為通往AGI的關(guān)鍵步驟。因為Sora不僅僅是把文字變成視頻,更像是在學(xué)習(xí)一個世界如何運轉(zhuǎn),物體是如何移動,鏡頭如何變化,人物如何與環(huán)境互動。也正是如此,Sora被很多人視為從文生視頻工具走向世界模型的一個標(biāo)志性節(jié)點。
當(dāng)時的Sora幾乎就是處于文生視頻領(lǐng)域的統(tǒng)治地位。
![]()
在Sora推出之前的早期文生視頻模型最大的問題,并不是“不能生成視頻”,而是它們只是學(xué)會了讓畫面動起來,卻還沒有真正理解世界如何運轉(zhuǎn),人物會變形,手指會亂長,物體會憑空出現(xiàn)又消失,前一秒還是同一個人,后一秒就變成另一張臉。更復(fù)雜的動作,比如吃東西、走路、拿東西、轉(zhuǎn)身,常常會因為缺乏物理和空間理解而顯得非常怪異。
![]()
ModelScope Text-to-Video 工具生成
![]()
來自于Meta AI 2022
![]()
Sora宣傳視頻
也正因如此,“人物吃東西”這類場景一度成了觀察文生視頻能力的直觀標(biāo)準(zhǔn)。它考驗的不只是畫面是否清晰,而是模型是否真的能維持物體、動作、因果關(guān)系和時間連續(xù)性。而 Sora 誕生的意義就在這里。它讓人們第一次如此明顯地感覺到,AI 視頻不再只是把一幀幀漂亮畫面拼接起來,而像是在嘗試學(xué)習(xí)一個世界如何連續(xù)地運行。人物如何移動,物體如何受力,鏡頭如何推進,場景如何保持一致——這些原本屬于“現(xiàn)實世界規(guī)則”的東西,開始在生成視頻中顯現(xiàn)出來。
這也是為什么Sora會被許多人視為世界模型的雛形。它真正令人震撼的地方,并不只是視頻更清晰、更逼真,而是它似乎展現(xiàn)出了一種更深層的能力,在時間中維持物體、動作、空間和因果關(guān)系的連續(xù)性,仿佛正在學(xué)習(xí)現(xiàn)實世界如何運行。
那什么是世界模型?為什么其又被稱為世界模擬器?
世界模型(World Model)是一種讓人工智能在內(nèi)部建立“虛擬世界”的能力。通俗地說,它讓 AI 像人類一樣去預(yù)測環(huán)境的下一步變化,不僅知道物體是什么,還能理解物體如何運動、如何與周圍環(huán)境互動。
傳統(tǒng)的大模型(如語言模型或圖像生成模型)主要關(guān)注“內(nèi)容生成”,預(yù)測下一個詞,生成一張圖片。而世界模型關(guān)注的是動態(tài)變化和因果關(guān)系,如果一個人把杯子推向桌邊,杯子可能會掉落;如果一個小球從斜坡滾下,它會沿著物理規(guī)律移動。AI 在內(nèi)部模擬這些變化,就形成了它的“認識”。
![]()
世界模型概念圖
由于世界模型本質(zhì)上是在AI 內(nèi)部建立一個可預(yù)測環(huán)境的模擬器,它也被稱為“世界模擬器(World Simulator)”。在這個模擬器中,AI 可以先“試驗”不同操作的結(jié)果,然后選擇最優(yōu)行動策略。這種能力在機器人控制、自動駕駛、游戲智能和文生視頻等領(lǐng)域都有潛在應(yīng)用。
Sora 和類似的文生視頻模型是世界模型概念的直觀體現(xiàn),通過生成連續(xù)的視頻,模型不僅學(xué)習(xí)了畫面特征,還在某種程度上學(xué)習(xí)了物體運動規(guī)律和場景連貫性。
但想要得到一個真正的“世界模擬器”,并非易事。它不僅需要生成視覺上逼真的畫面,更必須理解當(dāng)前世界的狀態(tài)——知道物體在空間中在哪里,它們之間的關(guān)系,以及可能的交互方式。更重要的是,它還要預(yù)測未來可能發(fā)生的變化,并在內(nèi)部模擬不同的行動結(jié)果。換句話說,它像人類在做決策前,在腦海中“預(yù)演”不同場景,然后選擇最合適的行動。這樣的能力,遠超普通的圖像生成或視頻生成,它要求AI具備多維度的世界理解能力。
而在邁向世界模型的過程中,文本生成視頻模型又幾乎是最自然的起點。
原因很簡單,視頻本身就是世界運行的記錄。它不像圖片那樣只定格某一瞬間,而是把物體的運動、人物的交互、場景的變化,以及事件之間的因果關(guān)系,都壓縮在一幀又一幀的連續(xù)畫面里。一個人走路時身體如何擺動,一輛車轉(zhuǎn)彎時軌跡如何變化,一個物體被推動后如何移動——這些現(xiàn)實世界的規(guī)律,都被隱含地寫進了視頻數(shù)據(jù)中。
而文本則像是一種指令,為模型提供生成目標(biāo)和行為方向。它告訴模型,這個場景里有什么,人物在做什么,物體應(yīng)該如何運動,環(huán)境又是什么狀態(tài)。
當(dāng)一個模型經(jīng)過了在海量視頻數(shù)據(jù)上的預(yù)訓(xùn)練時,它學(xué)到的并不只是“如何生成一段好看的視頻”。更重要的是,它開始捕捉世界在時間維度中連續(xù)展開的規(guī)律,物體不能憑空出現(xiàn)或隨意消失,人物動作需要前后銜接,空間結(jié)構(gòu)必須保持穩(wěn)定,光影和視角變化也要符合基本的物理直覺。甚至在更復(fù)雜的場景中,事件之間還需要具有一定的因果邏輯——比如球被推了一下才會滾動,杯子受到碰撞才可能倒下。
不過,要讓AI真正生成一段連續(xù)、穩(wěn)定、符合常識的視頻,并不是簡單地把多張圖片連在一起。模型需要同時處理文字理解、視覺生成、時間一致性、運動建模以及空間結(jié)構(gòu)保持等多個問題。于是,圍繞“如何讓視頻自然地動起來”,不同的技術(shù)路線逐漸發(fā)展出來。對于文本生成視頻模型來說,主要的技術(shù)流派可以分為三種
01
生成對抗網(wǎng)絡(luò)
——讓模型在“真假博弈”中學(xué)會生成視頻
![]()
早期視頻生成模型很大程度上受到 GAN 的影響,它可以理解為一場“生成器”和“判別器”之間的真假博弈,生成器負責(zé)制造視頻,判別器負責(zé)判斷視頻是真實數(shù)據(jù)還是模型生成。生成器不斷嘗試騙過判別器,判別器則不斷提升辨別能力,二者在對抗中共同進步。在視頻生成中,早期 GAN 方法通常會將視頻拆分為內(nèi)容和運動兩部分,內(nèi)容對應(yīng)人物、物體和背景等相對穩(wěn)定的信息,運動則描述它們隨時間發(fā)生的變化。不過,GAN 的訓(xùn)練過程往往不夠穩(wěn)定,也容易出現(xiàn)模式崩潰。再加上視頻比圖像多了時間維度,模型不僅要生成真實畫面,還要保證前后幀連續(xù)一致,因此 GAN 在長視頻生成、復(fù)雜運動建模和精確文本控制方面仍面臨較大挑戰(zhàn)。
02
擴散模型
——噪聲中一步步“還原”視頻
![]()
相比于第一類的GAN一步到位的視頻生成路線,擴散模型采用的是逐步生成的方式。在訓(xùn)練階段,給圖像逐步添加噪聲,讓模型學(xué)會清除噪聲的能力;而在生成階段,則從隨機噪聲開始,一步步去除噪聲,最終生成符合于文本描述的視頻。這種生成視頻的方法是目前的主流路線。擴散模型的優(yōu)勢很明顯,生成質(zhì)量高、細節(jié)豐富、語義控制能力強,也更容易和文本編碼器、圖像生成模型、視頻超分辨模塊結(jié)合。因此,現(xiàn)在很多高質(zhì)量文生視頻系統(tǒng)都與擴散模型有關(guān)。相比于對抗性神經(jīng)網(wǎng)絡(luò),擴散模型生成視頻的時間以及幀率更高,但由于擴散模型需要進行多步迭代,導(dǎo)致其所需要的生成時間較長,計算成本也會更高。
03
自回歸視頻模型
——像寫文章一樣,一步步預(yù)測下一幀
![]()
它的思想和 GPT 寫文字非常相似,GPT 會根據(jù)前面已經(jīng)出現(xiàn)的詞來預(yù)測下一個詞,而自回歸視頻模型則會根據(jù)前面已經(jīng)生成的圖像幀或者是視頻token,繼續(xù)預(yù)測后面的畫面。也就是說,它不是一次性生成完整視頻,而是按照時間順序一步步“續(xù)寫”視頻內(nèi)容。前面的畫面會為后面的生成提供上下文,例如人物的位置、動作方向、場景結(jié)構(gòu)和物體狀態(tài)都需要被延續(xù)下去。因此,自回歸模型天然適合建模視頻中的時間關(guān)系和動作連續(xù)性。不過,這種方法也有明顯局限,由于視頻需要逐步生成,速度通常較慢。如果前面某一步生成出錯,后續(xù)內(nèi)容也可能受到影響,導(dǎo)致誤差不斷累積。總體來說,自回歸模型就像是在寫一篇動態(tài)故事,它擅長根據(jù)已有內(nèi)容推演后續(xù)發(fā)展,但也需要解決效率和長期穩(wěn)定性的問題。
因此,無論是訓(xùn)練還是部署一個文生視頻模型,都意味著巨大的算力成本。據(jù)公開資料,訓(xùn)練一個 11B 參數(shù)規(guī)模的開源視頻模型 Open-Sora 2.0,成本可能達到約 20 萬美元。而對于參數(shù)規(guī)模更大、訓(xùn)練數(shù)據(jù)更多、推理服務(wù)更復(fù)雜的閉源商業(yè)模型而言,實際投入往往只會更高。也正是在這樣的背景下,文生視頻模型的商業(yè)化和持續(xù)運行問題變得格外值得思考。它提醒我們,通向世界模型的道路,并不只是不斷追求更震撼的生成效果。一個真正可用的世界模型,不僅要能夠生成清晰、連續(xù)、符合物理直覺的視頻世界,還必須能夠以可接受的成本被部署和長期運行。
如果一個模型只能在極高算力消耗下生成短暫片段,那么它距離真正可交互大規(guī)模應(yīng)用的世界模擬器,仍然還有很長一段距離。
——End——
參考資料
1.Train and Run Open-Sora 2.0 on HPC-AI.COM: State-of-the-Art Video Generation at a Fraction of the Cost Ha D, Schmidhuber J. World models[J]. arXiv preprint arXiv:1803.10122, 2018, 2(3): 440.
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
2.Brooks T, Peebles B, Holmes C, et al. Video generation models as world simulators[J]. OpenAI Blog, 2024, 1(8): 1. Bruce J, Dennis M D, Edwards A, et al. Genie: Generative interactive environments[C]//Forty-first International Conference on Machine Learning. 2024.
3.Tulyakov S, Liu M Y, Yang X, et al. Mocogan: Decomposing motion and content for video generation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 1526-1535.
4.Li Y, Min M, Shen D, et al. Video generation from text[C]//Proceedings of the AAAI conference on artificial intelligence. 2018, 32(1).
5.Ho J, Salimans T, Gritsenko A, et al. Video diffusion models[J]. Advances in neural information processing systems, 2022, 35: 8633-8646.
部分圖片由AI生成
編輯:未
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.