Sora 都關(guān)停了，AI 還怎么理解真實世界？

2026-05-24 13:18:43　來源: 中科院物理所

北京舉報

分享至

2025年9月30日的時候，Sora再次更新，迎來了升級版Sora2，當(dāng)時憑借著生成視頻的流暢、連貫，一度讓人產(chǎn)生了一種錯覺，AI似乎已經(jīng)不僅僅只是會畫圖、寫字，而是開始理解現(xiàn)實世界。

但戲劇性的是，Sora2的故事并沒有沿著實現(xiàn)AGI的方向一路狂飆。在2026年4月26日，在毫無征兆的情況下，OpenAI宣布關(guān)閉Sora的APP以及網(wǎng)頁版本，這短短的幾個月，經(jīng)歷了巨大的變化。這一幕仿佛是給AI熱潮按下了暫停鍵。

Sora剛發(fā)布出來的時候，OpenAI還特意撰寫一篇雄心勃勃的技術(shù)文章《Video generation models as world simulators》。將視頻生成模型視作世界模擬器，也把這種模型視為通往AGI的關(guān)鍵步驟。因為Sora不僅僅是把文字變成視頻，更像是在學(xué)習(xí)一個世界如何運轉(zhuǎn)，物體是如何移動，鏡頭如何變化，人物如何與環(huán)境互動。也正是如此，Sora被很多人視為從文生視頻工具走向世界模型的一個標(biāo)志性節(jié)點。

當(dāng)時的Sora幾乎就是處于文生視頻領(lǐng)域的統(tǒng)治地位。

在Sora推出之前的早期文生視頻模型最大的問題，并不是“不能生成視頻”，而是它們只是學(xué)會了讓畫面動起來，卻還沒有真正理解世界如何運轉(zhuǎn),人物會變形，手指會亂長，物體會憑空出現(xiàn)又消失，前一秒還是同一個人，后一秒就變成另一張臉。更復(fù)雜的動作，比如吃東西、走路、拿東西、轉(zhuǎn)身，常常會因為缺乏物理和空間理解而顯得非常怪異。

ModelScope Text-to-Video 工具生成

來自于Meta AI 2022

Sora宣傳視頻

也正因如此，“人物吃東西”這類場景一度成了觀察文生視頻能力的直觀標(biāo)準(zhǔn)。它考驗的不只是畫面是否清晰，而是模型是否真的能維持物體、動作、因果關(guān)系和時間連續(xù)性。而 Sora 誕生的意義就在這里。它讓人們第一次如此明顯地感覺到，AI 視頻不再只是把一幀幀漂亮畫面拼接起來，而像是在嘗試學(xué)習(xí)一個世界如何連續(xù)地運行。人物如何移動，物體如何受力，鏡頭如何推進，場景如何保持一致——這些原本屬于“現(xiàn)實世界規(guī)則”的東西，開始在生成視頻中顯現(xiàn)出來。

這也是為什么Sora會被許多人視為世界模型的雛形。它真正令人震撼的地方，并不只是視頻更清晰、更逼真，而是它似乎展現(xiàn)出了一種更深層的能力，在時間中維持物體、動作、空間和因果關(guān)系的連續(xù)性，仿佛正在學(xué)習(xí)現(xiàn)實世界如何運行。

那什么是世界模型？為什么其又被稱為世界模擬器？

世界模型（World Model）是一種讓人工智能在內(nèi)部建立“虛擬世界”的能力。通俗地說，它讓 AI 像人類一樣去預(yù)測環(huán)境的下一步變化，不僅知道物體是什么，還能理解物體如何運動、如何與周圍環(huán)境互動。

傳統(tǒng)的大模型（如語言模型或圖像生成模型）主要關(guān)注“內(nèi)容生成”，預(yù)測下一個詞，生成一張圖片。而世界模型關(guān)注的是動態(tài)變化和因果關(guān)系，如果一個人把杯子推向桌邊，杯子可能會掉落；如果一個小球從斜坡滾下，它會沿著物理規(guī)律移動。AI 在內(nèi)部模擬這些變化，就形成了它的“認識”。

世界模型概念圖

由于世界模型本質(zhì)上是在AI 內(nèi)部建立一個可預(yù)測環(huán)境的模擬器，它也被稱為“世界模擬器（World Simulator）”。在這個模擬器中，AI 可以先“試驗”不同操作的結(jié)果，然后選擇最優(yōu)行動策略。這種能力在機器人控制、自動駕駛、游戲智能和文生視頻等領(lǐng)域都有潛在應(yīng)用。

Sora 和類似的文生視頻模型是世界模型概念的直觀體現(xiàn)，通過生成連續(xù)的視頻，模型不僅學(xué)習(xí)了畫面特征，還在某種程度上學(xué)習(xí)了物體運動規(guī)律和場景連貫性。

但想要得到一個真正的“世界模擬器”，并非易事。它不僅需要生成視覺上逼真的畫面，更必須理解當(dāng)前世界的狀態(tài)——知道物體在空間中在哪里，它們之間的關(guān)系，以及可能的交互方式。更重要的是，它還要預(yù)測未來可能發(fā)生的變化，并在內(nèi)部模擬不同的行動結(jié)果。換句話說，它像人類在做決策前，在腦海中“預(yù)演”不同場景，然后選擇最合適的行動。這樣的能力，遠超普通的圖像生成或視頻生成，它要求AI具備多維度的世界理解能力。

而在邁向世界模型的過程中，文本生成視頻模型又幾乎是最自然的起點。

原因很簡單，視頻本身就是世界運行的記錄。它不像圖片那樣只定格某一瞬間，而是把物體的運動、人物的交互、場景的變化，以及事件之間的因果關(guān)系，都壓縮在一幀又一幀的連續(xù)畫面里。一個人走路時身體如何擺動，一輛車轉(zhuǎn)彎時軌跡如何變化，一個物體被推動后如何移動——這些現(xiàn)實世界的規(guī)律，都被隱含地寫進了視頻數(shù)據(jù)中。

而文本則像是一種指令，為模型提供生成目標(biāo)和行為方向。它告訴模型，這個場景里有什么，人物在做什么，物體應(yīng)該如何運動，環(huán)境又是什么狀態(tài)。

當(dāng)一個模型經(jīng)過了在海量視頻數(shù)據(jù)上的預(yù)訓(xùn)練時，它學(xué)到的并不只是“如何生成一段好看的視頻”。更重要的是，它開始捕捉世界在時間維度中連續(xù)展開的規(guī)律，物體不能憑空出現(xiàn)或隨意消失，人物動作需要前后銜接，空間結(jié)構(gòu)必須保持穩(wěn)定，光影和視角變化也要符合基本的物理直覺。甚至在更復(fù)雜的場景中，事件之間還需要具有一定的因果邏輯——比如球被推了一下才會滾動，杯子受到碰撞才可能倒下。

不過，要讓AI真正生成一段連續(xù)、穩(wěn)定、符合常識的視頻，并不是簡單地把多張圖片連在一起。模型需要同時處理文字理解、視覺生成、時間一致性、運動建模以及空間結(jié)構(gòu)保持等多個問題。于是，圍繞“如何讓視頻自然地動起來”，不同的技術(shù)路線逐漸發(fā)展出來。對于文本生成視頻模型來說，主要的技術(shù)流派可以分為三種

生成對抗網(wǎng)絡(luò)

——讓模型在“真假博弈”中學(xué)會生成視頻

早期視頻生成模型很大程度上受到 GAN 的影響，它可以理解為一場“生成器”和“判別器”之間的真假博弈，生成器負責(zé)制造視頻，判別器負責(zé)判斷視頻是真實數(shù)據(jù)還是模型生成。生成器不斷嘗試騙過判別器，判別器則不斷提升辨別能力，二者在對抗中共同進步。在視頻生成中，早期 GAN 方法通常會將視頻拆分為內(nèi)容和運動兩部分，內(nèi)容對應(yīng)人物、物體和背景等相對穩(wěn)定的信息，運動則描述它們隨時間發(fā)生的變化。不過，GAN 的訓(xùn)練過程往往不夠穩(wěn)定，也容易出現(xiàn)模式崩潰。再加上視頻比圖像多了時間維度，模型不僅要生成真實畫面，還要保證前后幀連續(xù)一致，因此 GAN 在長視頻生成、復(fù)雜運動建模和精確文本控制方面仍面臨較大挑戰(zhàn)。

擴散模型

——噪聲中一步步“還原”視頻

相比于第一類的GAN一步到位的視頻生成路線，擴散模型采用的是逐步生成的方式。在訓(xùn)練階段，給圖像逐步添加噪聲，讓模型學(xué)會清除噪聲的能力；而在生成階段，則從隨機噪聲開始，一步步去除噪聲，最終生成符合于文本描述的視頻。這種生成視頻的方法是目前的主流路線。擴散模型的優(yōu)勢很明顯，生成質(zhì)量高、細節(jié)豐富、語義控制能力強，也更容易和文本編碼器、圖像生成模型、視頻超分辨模塊結(jié)合。因此，現(xiàn)在很多高質(zhì)量文生視頻系統(tǒng)都與擴散模型有關(guān)。相比于對抗性神經(jīng)網(wǎng)絡(luò)，擴散模型生成視頻的時間以及幀率更高，但由于擴散模型需要進行多步迭代，導(dǎo)致其所需要的生成時間較長，計算成本也會更高。

自回歸視頻模型

——像寫文章一樣，一步步預(yù)測下一幀

它的思想和 GPT 寫文字非常相似，GPT 會根據(jù)前面已經(jīng)出現(xiàn)的詞來預(yù)測下一個詞，而自回歸視頻模型則會根據(jù)前面已經(jīng)生成的圖像幀或者是視頻token，繼續(xù)預(yù)測后面的畫面。也就是說，它不是一次性生成完整視頻，而是按照時間順序一步步“續(xù)寫”視頻內(nèi)容。前面的畫面會為后面的生成提供上下文，例如人物的位置、動作方向、場景結(jié)構(gòu)和物體狀態(tài)都需要被延續(xù)下去。因此，自回歸模型天然適合建模視頻中的時間關(guān)系和動作連續(xù)性。不過，這種方法也有明顯局限，由于視頻需要逐步生成，速度通常較慢。如果前面某一步生成出錯，后續(xù)內(nèi)容也可能受到影響，導(dǎo)致誤差不斷累積。總體來說，自回歸模型就像是在寫一篇動態(tài)故事，它擅長根據(jù)已有內(nèi)容推演后續(xù)發(fā)展，但也需要解決效率和長期穩(wěn)定性的問題。

因此，無論是訓(xùn)練還是部署一個文生視頻模型，都意味著巨大的算力成本。據(jù)公開資料，訓(xùn)練一個 11B 參數(shù)規(guī)模的開源視頻模型 Open-Sora 2.0，成本可能達到約 20 萬美元。而對于參數(shù)規(guī)模更大、訓(xùn)練數(shù)據(jù)更多、推理服務(wù)更復(fù)雜的閉源商業(yè)模型而言，實際投入往往只會更高。也正是在這樣的背景下，文生視頻模型的商業(yè)化和持續(xù)運行問題變得格外值得思考。它提醒我們，通向世界模型的道路，并不只是不斷追求更震撼的生成效果。一個真正可用的世界模型，不僅要能夠生成清晰、連續(xù)、符合物理直覺的視頻世界，還必須能夠以可接受的成本被部署和長期運行。

如果一個模型只能在極高算力消耗下生成短暫片段，那么它距離真正可交互大規(guī)模應(yīng)用的世界模擬器，仍然還有很長一段距離。

——End——

參考資料

1.Train and Run Open-Sora 2.0 on HPC-AI.COM: State-of-the-Art Video Generation at a Fraction of the Cost Ha D, Schmidhuber J. World models[J]. arXiv preprint arXiv:1803.10122, 2018, 2(3): 440.

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

2.Brooks T, Peebles B, Holmes C, et al. Video generation models as world simulators[J]. OpenAI Blog, 2024, 1(8): 1. Bruce J, Dennis M D, Edwards A, et al. Genie: Generative interactive environments[C]//Forty-first International Conference on Machine Learning. 2024.

3.Tulyakov S, Liu M Y, Yang X, et al. Mocogan: Decomposing motion and content for video generation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 1526-1535.

4.Li Y, Min M, Shen D, et al. Video generation from text[C]//Proceedings of the AAAI conference on artificial intelligence. 2018, 32(1).

5.Ho J, Salimans T, Gritsenko A, et al. Video diffusion models[J]. Advances in neural information processing systems, 2022, 35: 8633-8646.

部分圖片由AI生成

編輯：未

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.