文 | 世界模型工場(chǎng)
Google可能要放大招了。
就在Google I/O 2026開(kāi)幕前夕,兩條由Google尚未發(fā)布的新視頻模型Gemini Omni生成的視頻悄悄流出。
沒(méi)有任何官方預(yù)告,沒(méi)有任何發(fā)布會(huì)造勢(shì),整個(gè)社交媒體都炸翻了。
一條視頻是一位教授站在黑板前,手持粉筆,一步步推導(dǎo)三角恒等式;
另一條是兩名男士坐在海邊高檔餐廳,安靜地吃意大利面。
Reddit和X的評(píng)論區(qū),鋪天蓋地的都是同一句話:"這不可能是現(xiàn)有的技術(shù)水平。"
兩個(gè)看似普通的日常場(chǎng)景,為什么讓見(jiàn)慣了AI生成內(nèi)容的技術(shù)圈集體側(cè)目?
令人震驚的視頻
先說(shuō)“教授黑板講課”視頻,生成它只用了一條prompt:
"一位教授在傳統(tǒng)黑板上寫出三角恒等式的數(shù)學(xué)證明,同時(shí)用語(yǔ)言解釋他當(dāng)前正在推導(dǎo)的步驟。"
一條指令,沒(méi)有多輪對(duì)話,沒(méi)有分步驟控制。
出來(lái)的結(jié)果是,教授手持粉筆,逐步寫下公式,同時(shí)開(kāi)口講解,畫面流暢,板書工整。
![]()
聽(tīng)起來(lái)好像平平無(wú)奇。
但如果你了解當(dāng)前視頻生成模型的技術(shù)邊界在哪里,就會(huì)明白Gemini Omni同時(shí)做到了三件事,而這三件事,以前從來(lái)不會(huì)同時(shí)出現(xiàn)。
第一,推理對(duì)了。
黑板上的證明過(guò)程在數(shù)學(xué)上是成立的,不是視覺(jué)上長(zhǎng)得像公式的符號(hào)堆砌,而是數(shù)學(xué)意義上真實(shí)有效的推導(dǎo)。
要做到這一點(diǎn),模型至少要在token預(yù)測(cè)之外,具備一定的符號(hào)推理能力(symbolic reasoning)。
即知道下一步應(yīng)該出現(xiàn)什么公式,而不是隨機(jī)采樣一個(gè)看起來(lái)像數(shù)學(xué)的圖案。
語(yǔ)義準(zhǔn)確性疊加在視覺(jué)生成之上,正是大多數(shù)視頻模型會(huì)在這類測(cè)試中失敗的原因。
第二,空間關(guān)系對(duì)了。
評(píng)測(cè)者描述,粉筆書寫時(shí)的手部和手臂動(dòng)作"讀起來(lái)是自然的",黑板上的方程式清晰可辨。
手部,是AI視頻生成里公認(rèn)最容易穿幫的地方。
手指數(shù)量錯(cuò)誤、關(guān)節(jié)扭曲、與物體的空間關(guān)系失真,這是行業(yè)里幾乎每一代視頻模型都栽過(guò)的坑。
一支粉筆被正確握持,在黑板上留下有意義的筆跡,手腕的力道、落筆的角度,都在合理的范圍內(nèi)。
這一關(guān),比畫一只正常的手還要難,因?yàn)槭衷谶@里還要和黑板、粉筆、書寫行為,形成完整的空間邏輯。
第三,時(shí)序?qū)α恕?/p>
這是最被低估的一件事。
教授寫下某個(gè)推導(dǎo)步驟的同時(shí),口頭講解的正是這個(gè)步驟,板書進(jìn)度與語(yǔ)音內(nèi)容保持同步。
這不只是音視頻的幀級(jí)對(duì)齊(frame-level alignment),而是視覺(jué)事件、語(yǔ)義事件、時(shí)間事件三者之間的跨模態(tài)協(xié)調(diào)。
任何一個(gè)維度的理解出現(xiàn)偏差,結(jié)果就會(huì)是"手在寫A,嘴在講C"。
這種錯(cuò)位,人類觀眾一眼就能感知到。
如果這三件事只是分別做到,我們可以認(rèn)為是三個(gè)專項(xiàng)模塊拼在一起的結(jié)果。
但三者同時(shí)成立、彼此協(xié)調(diào),更可能是模型在某個(gè)表征層面上,已經(jīng)對(duì)"教授在黑板上講課"這件事形成了整體性的語(yǔ)義理解。
換句話說(shuō),它知道這件事在現(xiàn)實(shí)世界里是什么樣子,知道其中各個(gè)元素之間的約束關(guān)系。
這也是為什么"世界模型"這個(gè)詞,會(huì)在這條視頻流出后開(kāi)始被頻繁提及。
在黑板視頻流出的同時(shí),還有另一條視頻一起曝光:兩名男士在海邊高檔餐廳吃意大利面。
這個(gè)場(chǎng)景的選擇,不是隨機(jī)的。
2024年,一段AI生成的"Will Smith吃意大利面"視頻在網(wǎng)上瘋傳。
畫面里的手指數(shù)量不對(duì),面條像活物一樣扭動(dòng),叉子和嘴的空間關(guān)系完全失控。
那段視頻成了早期AI視頻生成能力的恥辱柱。
![]()
圖為"Will Smith吃意大利面"視頻截圖
而這一次,Gemini Omni生成的結(jié)果,有用戶評(píng)論是"令人難以置信地真實(shí)"。
這背后考驗(yàn)的,是模型對(duì)剛體與柔性體之間動(dòng)態(tài)交互的建模能力:
叉子是硬的,面條是軟的,兩者在接觸時(shí)會(huì)產(chǎn)生形變,而形變的方式必須符合現(xiàn)實(shí)世界里的物理直覺(jué)。
這正是早期生成模型在隱式物理模擬(implicit physics simulation)上的致命短板。
一個(gè)模型,在兩條視頻里,分別碰到了視頻生成最難的兩類問(wèn)題:
一類是符號(hào)、語(yǔ)音與畫面的同步,另一類是人與物體、剛體與柔性體的交互,并把這些問(wèn)題推進(jìn)到一個(gè)更可用的狀態(tài)。
Gemini Omni展示的,更像是一個(gè)對(duì)世界有著更深理解的基座模型。
Gemini Omni的沖擊
截至目前,Google還沒(méi)有發(fā)布Gemini Omni的任何技術(shù)文檔,也沒(méi)有公開(kāi)任何模型參數(shù)或基準(zhǔn)測(cè)試數(shù)據(jù)。
但關(guān)于Gemini Omni的架構(gòu),目前外界存在三種解讀。
最保守的說(shuō)法是,Omni只是Veo的品牌重命名,底層推理引擎沒(méi)有根本變化;
第二種說(shuō)法是,Omni是在Gemini架構(gòu)下重新訓(xùn)練的全新視頻模型,與Veo并行但獨(dú)立;
第三種說(shuō)法最激進(jìn),認(rèn)為Omni是一個(gè)真正意義上的原生多模態(tài)統(tǒng)一模型,在單一架構(gòu)里原生處理文字、圖像、視頻和音頻。
基于以上兩段視頻的表現(xiàn),第三種解讀反而像是"Omni"這個(gè)命名最合理的指向,畢竟在拉丁語(yǔ)中,"omnis"意味著所有。
如果Omni真正打通了多模態(tài)鏈路,模型競(jìng)爭(zhēng)的焦點(diǎn)就會(huì)發(fā)生根本性的轉(zhuǎn)變。
不再是誰(shuí)能拍出更像電影的畫面,而是誰(shuí)是內(nèi)容創(chuàng)作者的唯一目的地。
雖然現(xiàn)在還不能說(shuō)Gemini Omni已經(jīng)是世界模型,但它至少說(shuō)明,視頻生成正在逼近世界模型要解決的問(wèn)題:
如何在時(shí)間中維持一個(gè)可解釋、可編輯、可連續(xù)推演的場(chǎng)景。
產(chǎn)品層面的沖擊同樣不容忽視。
今天一條AI視頻的生產(chǎn)鏈路,通常需要串聯(lián)語(yǔ)言模型寫腳本、圖像模型做故事板、視頻模型做動(dòng)畫渲染、再加外部剪輯軟件做后期處理。
每一次跨工具切換,都意味著信息損耗和風(fēng)格漂移。
一旦Gemini Omni對(duì)話式視頻編輯成立,這條鏈路就可能被一個(gè)對(duì)話窗口替代了。
更關(guān)鍵的是,如果Omni被放入Gemini入口,并與Gmail、Google Docs、YouTube、Android深度打通,這是字節(jié)Seedance、快手Kling在分發(fā)層面根本無(wú)法復(fù)制的生態(tài)優(yōu)勢(shì)。
技術(shù)能力決定上限,生態(tài)決定規(guī)模。
Gemini Omni真正的威脅,或許不在于它今天生成的視頻有多好,而在于它把視頻生成能力放在了一個(gè)競(jìng)爭(zhēng)對(duì)手根本進(jìn)不去的地方,后者對(duì)前者幾乎構(gòu)成降維打擊。
世界模型時(shí)刻或許來(lái)臨
過(guò)去幾年,生成式AI的進(jìn)化路徑相對(duì)清晰。
語(yǔ)言模型學(xué)會(huì)了讀和寫,圖像模型學(xué)會(huì)了看和畫,視頻模型學(xué)會(huì)了動(dòng)。
每一個(gè)模態(tài)都在自己的賽道上快速迭代,但它們之間始終存在一道隱形的墻。
模型知道文字,也知道圖像,但它不理解文字和圖像之間、聲音和動(dòng)作之間、邏輯和畫面之間的約束關(guān)系。
如果說(shuō)ChatGPT時(shí)刻定義了語(yǔ)言的邊界,Sora時(shí)刻定義了視頻的邊界,那Gemini Omni指向的,很可能是第一個(gè)真正意義上的"世界模型時(shí)刻"。
模型第一次開(kāi)始理解,模態(tài)與模態(tài)之間在現(xiàn)實(shí)世界里的約束關(guān)系,而不只是分別生成它們。
這是一次質(zhì)的飛躍。
當(dāng)然,Gemini Omni是否真正實(shí)現(xiàn)了這一點(diǎn),在5月19日Google I/O 2026大會(huì)之前,沒(méi)有人能給出確定的答案。
但泄露出來(lái)的視頻,給出的信號(hào)已經(jīng)足夠有力。
接下來(lái)Google會(huì)在臺(tái)上說(shuō)什么,我們很快就會(huì)知道。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.