網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

世界模型的門檻，谷歌可能邁過(guò)去了

2026-05-18 15:14:36　來(lái)源: 鈦媒體APP

北京舉報(bào)

分享至

文 | 世界模型工場(chǎng)

Google可能要放大招了。

就在Google I/O 2026開(kāi)幕前夕，兩條由Google尚未發(fā)布的新視頻模型Gemini Omni生成的視頻悄悄流出。

沒(méi)有任何官方預(yù)告，沒(méi)有任何發(fā)布會(huì)造勢(shì)，整個(gè)社交媒體都炸翻了。

一條視頻是一位教授站在黑板前，手持粉筆，一步步推導(dǎo)三角恒等式；

另一條是兩名男士坐在海邊高檔餐廳，安靜地吃意大利面。

Reddit和X的評(píng)論區(qū)，鋪天蓋地的都是同一句話："這不可能是現(xiàn)有的技術(shù)水平。"

兩個(gè)看似普通的日常場(chǎng)景，為什么讓見(jiàn)慣了AI生成內(nèi)容的技術(shù)圈集體側(cè)目？

令人震驚的視頻

先說(shuō)“教授黑板講課”視頻，生成它只用了一條prompt：

"一位教授在傳統(tǒng)黑板上寫出三角恒等式的數(shù)學(xué)證明，同時(shí)用語(yǔ)言解釋他當(dāng)前正在推導(dǎo)的步驟。"

一條指令，沒(méi)有多輪對(duì)話，沒(méi)有分步驟控制。

出來(lái)的結(jié)果是，教授手持粉筆，逐步寫下公式，同時(shí)開(kāi)口講解，畫面流暢，板書工整。

聽(tīng)起來(lái)好像平平無(wú)奇。

但如果你了解當(dāng)前視頻生成模型的技術(shù)邊界在哪里，就會(huì)明白Gemini Omni同時(shí)做到了三件事，而這三件事，以前從來(lái)不會(huì)同時(shí)出現(xiàn)。

第一，推理對(duì)了。

黑板上的證明過(guò)程在數(shù)學(xué)上是成立的，不是視覺(jué)上長(zhǎng)得像公式的符號(hào)堆砌，而是數(shù)學(xué)意義上真實(shí)有效的推導(dǎo)。

要做到這一點(diǎn)，模型至少要在token預(yù)測(cè)之外，具備一定的符號(hào)推理能力（symbolic reasoning）。

即知道下一步應(yīng)該出現(xiàn)什么公式，而不是隨機(jī)采樣一個(gè)看起來(lái)像數(shù)學(xué)的圖案。

語(yǔ)義準(zhǔn)確性疊加在視覺(jué)生成之上，正是大多數(shù)視頻模型會(huì)在這類測(cè)試中失敗的原因。

第二，空間關(guān)系對(duì)了。

評(píng)測(cè)者描述，粉筆書寫時(shí)的手部和手臂動(dòng)作"讀起來(lái)是自然的"，黑板上的方程式清晰可辨。

手部，是AI視頻生成里公認(rèn)最容易穿幫的地方。

手指數(shù)量錯(cuò)誤、關(guān)節(jié)扭曲、與物體的空間關(guān)系失真，這是行業(yè)里幾乎每一代視頻模型都栽過(guò)的坑。

一支粉筆被正確握持，在黑板上留下有意義的筆跡，手腕的力道、落筆的角度，都在合理的范圍內(nèi)。

這一關(guān)，比畫一只正常的手還要難，因?yàn)槭衷谶@里還要和黑板、粉筆、書寫行為，形成完整的空間邏輯。

第三，時(shí)序?qū)α恕?/p>

這是最被低估的一件事。

教授寫下某個(gè)推導(dǎo)步驟的同時(shí)，口頭講解的正是這個(gè)步驟，板書進(jìn)度與語(yǔ)音內(nèi)容保持同步。

這不只是音視頻的幀級(jí)對(duì)齊（frame-level alignment），而是視覺(jué)事件、語(yǔ)義事件、時(shí)間事件三者之間的跨模態(tài)協(xié)調(diào)。

任何一個(gè)維度的理解出現(xiàn)偏差，結(jié)果就會(huì)是"手在寫A，嘴在講C"。

這種錯(cuò)位，人類觀眾一眼就能感知到。

如果這三件事只是分別做到，我們可以認(rèn)為是三個(gè)專項(xiàng)模塊拼在一起的結(jié)果。

但三者同時(shí)成立、彼此協(xié)調(diào)，更可能是模型在某個(gè)表征層面上，已經(jīng)對(duì)"教授在黑板上講課"這件事形成了整體性的語(yǔ)義理解。

換句話說(shuō)，它知道這件事在現(xiàn)實(shí)世界里是什么樣子，知道其中各個(gè)元素之間的約束關(guān)系。

這也是為什么"世界模型"這個(gè)詞，會(huì)在這條視頻流出后開(kāi)始被頻繁提及。

在黑板視頻流出的同時(shí)，還有另一條視頻一起曝光：兩名男士在海邊高檔餐廳吃意大利面。

這個(gè)場(chǎng)景的選擇，不是隨機(jī)的。

2024年，一段AI生成的"Will Smith吃意大利面"視頻在網(wǎng)上瘋傳。

畫面里的手指數(shù)量不對(duì)，面條像活物一樣扭動(dòng)，叉子和嘴的空間關(guān)系完全失控。

那段視頻成了早期AI視頻生成能力的恥辱柱。

圖為"Will Smith吃意大利面"視頻截圖

而這一次，Gemini Omni生成的結(jié)果，有用戶評(píng)論是"令人難以置信地真實(shí)"。

這背后考驗(yàn)的，是模型對(duì)剛體與柔性體之間動(dòng)態(tài)交互的建模能力：

叉子是硬的，面條是軟的，兩者在接觸時(shí)會(huì)產(chǎn)生形變，而形變的方式必須符合現(xiàn)實(shí)世界里的物理直覺(jué)。

這正是早期生成模型在隱式物理模擬（implicit physics simulation）上的致命短板。

一個(gè)模型，在兩條視頻里，分別碰到了視頻生成最難的兩類問(wèn)題：

一類是符號(hào)、語(yǔ)音與畫面的同步，另一類是人與物體、剛體與柔性體的交互，并把這些問(wèn)題推進(jìn)到一個(gè)更可用的狀態(tài)。

Gemini Omni展示的，更像是一個(gè)對(duì)世界有著更深理解的基座模型。

Gemini Omni的沖擊

截至目前，Google還沒(méi)有發(fā)布Gemini Omni的任何技術(shù)文檔，也沒(méi)有公開(kāi)任何模型參數(shù)或基準(zhǔn)測(cè)試數(shù)據(jù)。

但關(guān)于Gemini Omni的架構(gòu)，目前外界存在三種解讀。

最保守的說(shuō)法是，Omni只是Veo的品牌重命名，底層推理引擎沒(méi)有根本變化；

第二種說(shuō)法是，Omni是在Gemini架構(gòu)下重新訓(xùn)練的全新視頻模型，與Veo并行但獨(dú)立；

第三種說(shuō)法最激進(jìn)，認(rèn)為Omni是一個(gè)真正意義上的原生多模態(tài)統(tǒng)一模型，在單一架構(gòu)里原生處理文字、圖像、視頻和音頻。

基于以上兩段視頻的表現(xiàn)，第三種解讀反而像是"Omni"這個(gè)命名最合理的指向，畢竟在拉丁語(yǔ)中，"omnis"意味著所有。

如果Omni真正打通了多模態(tài)鏈路，模型競(jìng)爭(zhēng)的焦點(diǎn)就會(huì)發(fā)生根本性的轉(zhuǎn)變。

不再是誰(shuí)能拍出更像電影的畫面，而是誰(shuí)是內(nèi)容創(chuàng)作者的唯一目的地。

雖然現(xiàn)在還不能說(shuō)Gemini Omni已經(jīng)是世界模型，但它至少說(shuō)明，視頻生成正在逼近世界模型要解決的問(wèn)題：

如何在時(shí)間中維持一個(gè)可解釋、可編輯、可連續(xù)推演的場(chǎng)景。

產(chǎn)品層面的沖擊同樣不容忽視。

今天一條AI視頻的生產(chǎn)鏈路，通常需要串聯(lián)語(yǔ)言模型寫腳本、圖像模型做故事板、視頻模型做動(dòng)畫渲染、再加外部剪輯軟件做后期處理。

每一次跨工具切換，都意味著信息損耗和風(fēng)格漂移。

一旦Gemini Omni對(duì)話式視頻編輯成立，這條鏈路就可能被一個(gè)對(duì)話窗口替代了。

更關(guān)鍵的是，如果Omni被放入Gemini入口，并與Gmail、Google Docs、YouTube、Android深度打通，這是字節(jié)Seedance、快手Kling在分發(fā)層面根本無(wú)法復(fù)制的生態(tài)優(yōu)勢(shì)。

技術(shù)能力決定上限，生態(tài)決定規(guī)模。

Gemini Omni真正的威脅，或許不在于它今天生成的視頻有多好，而在于它把視頻生成能力放在了一個(gè)競(jìng)爭(zhēng)對(duì)手根本進(jìn)不去的地方，后者對(duì)前者幾乎構(gòu)成降維打擊。

世界模型時(shí)刻或許來(lái)臨

過(guò)去幾年，生成式AI的進(jìn)化路徑相對(duì)清晰。

語(yǔ)言模型學(xué)會(huì)了讀和寫，圖像模型學(xué)會(huì)了看和畫，視頻模型學(xué)會(huì)了動(dòng)。

每一個(gè)模態(tài)都在自己的賽道上快速迭代，但它們之間始終存在一道隱形的墻。

模型知道文字，也知道圖像，但它不理解文字和圖像之間、聲音和動(dòng)作之間、邏輯和畫面之間的約束關(guān)系。

如果說(shuō)ChatGPT時(shí)刻定義了語(yǔ)言的邊界，Sora時(shí)刻定義了視頻的邊界，那Gemini Omni指向的，很可能是第一個(gè)真正意義上的"世界模型時(shí)刻"。

模型第一次開(kāi)始理解，模態(tài)與模態(tài)之間在現(xiàn)實(shí)世界里的約束關(guān)系，而不只是分別生成它們。

這是一次質(zhì)的飛躍。

當(dāng)然，Gemini Omni是否真正實(shí)現(xiàn)了這一點(diǎn)，在5月19日Google I/O 2026大會(huì)之前，沒(méi)有人能給出確定的答案。

但泄露出來(lái)的視頻，給出的信號(hào)已經(jīng)足夠有力。

接下來(lái)Google會(huì)在臺(tái)上說(shuō)什么，我們很快就會(huì)知道。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

光輪智能與谷歌、英偉達(dá)共同定義物理AI仿真標(biāo)準(zhǔn)

機(jī)器之心Pro 2026-05-12 20:21:07
0 跟貼 0
如祺出行發(fā)布AI數(shù)據(jù)版圖，以高價(jià)值場(chǎng)景數(shù)據(jù)切入世界模型訓(xùn)練

機(jī)器之心Pro 2026-05-18 14:42:17
0 跟貼 0

機(jī)器人為什么需要世界模型？世界頂尖機(jī)構(gòu)聯(lián)合綜述震撼發(fā)布

機(jī)器之心Pro 2026-05-18 12:18:55
0 跟貼 0

楊立昆發(fā)布史上最“輕”世界模型，單GPU可訓(xùn)，規(guī)劃速度提升48倍

DeepTech深科技 2026-03-24 17:52:42
59 跟貼 59
伯克利神作背刺OpenAI：持續(xù)學(xué)習(xí)才是真神！

新智元 2026-05-19 06:58:08
0 跟貼 0

馬斯克花 100 億想清楚一件事，不做 coding agent 就是等死

愛(ài)范兒 2026-05-18 22:19:15
0 跟貼 0

799元寵語(yǔ)翻譯器被質(zhì)疑是智商稅

極目新聞 2026-05-18 22:47:24
554 跟貼 554
00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

大神程序員蒸餾自己，用16個(gè)skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
黑石與谷歌成立合資企業(yè)，投資50億美元打造TPU算力平臺(tái)

財(cái)聯(lián)社 2026-05-19 09:17:07
0 跟貼 0
谷歌重塑鼠標(biāo)指針？羅永浩：這場(chǎng)景我8年前演過(guò)

機(jī)器之心Pro 2026-05-18 18:19:08
0 跟貼 0
Agent2World來(lái)了，把世界模型做成可運(yùn)行的符號(hào)環(huán)境

機(jī)器之心Pro 2026-02-02 15:24:04
9 跟貼 9
ICML 2026 | 只用少量Thinking Tokens，大模型依然能深度思考

機(jī)器之心Pro 2026-05-18 18:13:02
0 跟貼 0
田淵棟新公司首輪估值46.5億押注遞歸式超級(jí)智能

量子位 2026-05-16 20:00:11
0 跟貼 0
Claude design限速，谷歌開(kāi)源輕松做動(dòng)態(tài)網(wǎng)頁(yè)，實(shí)力打臉？

機(jī)器之心Pro 2026-04-29 17:20:04
0 跟貼 0
英偉達(dá)、谷歌、蘋果，齊創(chuàng)歷史新高

財(cái)聯(lián)社 2026-05-16 19:51:16
0 跟貼 0
天壇竟是古代宇宙模型？建筑里藏著千年哲學(xué)密碼

開(kāi)著車去流浪 2026-05-17 00:36:37
7 跟貼 7
「龍蝦之父」吐槽人類互聯(lián)網(wǎng)后，終于有人把這當(dāng)個(gè)事兒辦了

機(jī)器之心Pro 2026-03-31 11:09:26
0 跟貼 0
武漢一公司推出“包車送學(xué)”服務(wù)，一個(gè)月398元另需承擔(dān)實(shí)時(shí)打車費(fèi)

南陽(yáng)日?qǐng)?bào) 2026-05-18 18:21:29
44 跟貼 44
醫(yī)美機(jī)構(gòu)獲客真相：不是線索太少，是回復(fù)太慢

碳基打工人 2026-05-19 01:53:17
0 跟貼 0
1/10成本、Opus 4.7級(jí)表現(xiàn)，Cursor甩出了性價(jià)比之王Composer 2.5

機(jī)器之心Pro 2026-05-19 09:07:49
0 跟貼 0
“賣一度電，虧一度電” ！廣西146家售電企業(yè)，平均每家虧損442萬(wàn)元

中國(guó)能源網(wǎng) 2026-05-18 11:34:14
2884 跟貼 2884
九宮格三大公式推導(dǎo)過(guò)程，一個(gè)視頻學(xué)會(huì)！

大鵬老師講數(shù)學(xué) 2026-05-17 05:17:00
0 跟貼 0
象棋神少帥：韓信杯王天一神之一手入局耐格勒懷疑用軟件舉報(bào)？

蘇小宇的棋 2026-05-16 05:09:23
0 跟貼 0
5月19日起鐵路部門在京張高鐵試點(diǎn)推出“自行車隨身行”服務(wù)

澎湃新聞 2026-05-18 11:34:30
1605 跟貼 1605
浙大教授章國(guó)鋒帶隊(duì)創(chuàng)業(yè)，打造無(wú)限時(shí)長(zhǎng)實(shí)時(shí)3D世界模型-4

機(jī)器之心Pro 2026-03-07 19:23:00
0 跟貼 0
微軟上線XBOX Player Voice，統(tǒng)一收集玩家反饋并追蹤處理進(jìn)度

IT之家 2026-05-19 09:29:11
0 跟貼 0
從賣流量到賣Token，運(yùn)營(yíng)商算力生意破局

澎湃新聞 2026-05-19 07:28:28
0 跟貼 0
索尼PlayStation曬FlexStrike手臺(tái)實(shí)拍圖，更多信息很快公布

IT之家 2026-05-19 09:29:11
0 跟貼 0
8公里跑+8項(xiàng)力量 75歲王石與搭檔奪冠鎖定世錦賽資格

界面新聞 2026-05-18 13:42:03
1838 跟貼 1838
美債沖破5%“死亡線”！美銀Hartnett： 6月初是逃頂窗口

每日經(jīng)濟(jì)新聞 2026-05-18 12:26:40
1479 跟貼 1479
武功山景區(qū)遭“臭屁蟲(chóng)”圍攻？有游客調(diào)侃“張嘴能吃飽”，景區(qū)提醒：可自備防蟲(chóng)藥物

瀟湘晨報(bào) 2026-05-14 17:33:19
984 跟貼 984
印度大麻煩！軟件外包完蛋？

誠(chéng)閱ChengYue 2026-05-17 07:48:24
0 跟貼 0
如何看“泡水貨”楊梅？水果店老板教辨別技巧：一摸、二聞、三嘗

星視頻 2026-05-18 11:59:21
220 跟貼 220
不止棒子國(guó)搶文化，越南偷文化的邏輯更離譜？聽(tīng)聽(tīng)清華老師的分析

于令 2026-05-17 04:38:05
0 跟貼 0
數(shù)學(xué)公式+必看分?jǐn)?shù)應(yīng)用！換元法巧解分?jǐn)?shù)應(yīng)用！小學(xué)數(shù)學(xué)思維

忘記的太多 2026-05-15 05:18:56
0 跟貼 0
什么是進(jìn)動(dòng)？這樣看才直觀！

中科院物理所 2026-05-15 12:15:51
1 跟貼 1
“楊梅是我們的飯碗，我們比誰(shuí)都珍惜！”浙江果農(nóng)紛紛出示檢測(cè)報(bào)告；首輪巡查未發(fā)現(xiàn)類似違規(guī)添加

上觀新聞 2026-05-19 08:11:26
2 跟貼 2
裝修工人利用虹吸原理巧解排水難題。網(wǎng)友：早學(xué)會(huì)這招，就不一勺一勺舀了！#睡個(gè)好覺(jué)

環(huán)球網(wǎng)資訊 2026-05-18 23:02:40
36 跟貼 36
心理學(xué)上有一個(gè)詞叫煤氣燈效應(yīng)：面對(duì)一個(gè)永遠(yuǎn)不認(rèn)錯(cuò)、出了事就倒打一耙的人，其實(shí)不用翻臉、不用講理，用這兩招就行了

心理觀察局 2026-05-19 06:55:05
0 跟貼 0

你敢信兩性關(guān)系：61歲退休女醫(yī)生自述，生理上的動(dòng)心根本藏不住

鈦媒體APP

獨(dú)立財(cái)經(jīng)科技媒體

133756文章數(shù) 862164關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時(shí)尚

游戲

藝術(shù)

本地

公開(kāi)課

白巖松談人口老齡化：社會(huì)要降低老年人門檻
為什么人類有不同的膚色？
七個(gè)無(wú)法存下錢的壞習(xí)慣
李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

世界模型的門檻，谷歌可能邁過(guò)去了

蘋果WWDC26定檔6月9日凌晨：iOS27將亮相

牛彈琴:馬斯克輸官司氣壞 他孩子的媽出庭講二人私情

牛彈琴:馬斯克輸官司氣壞 他孩子的媽出庭講二人私情

58順位的保羅，最強(qiáng)第三中鋒

票房會(huì)破14億！口碑第一電影出現(xiàn)了

從賣流量到賣Token，運(yùn)營(yíng)商算力生意破局

40.98萬(wàn)起！充電5分鐘純電續(xù)航420km 騰勢(shì)N9閃充版勝算有多少？

態(tài)度原創(chuàng)

今夏超流行這6個(gè)顏色，每一種都是顯白高手

索尼確認(rèn)PS獨(dú)占回歸！單人敘事型游戲不上PC

蔣萬(wàn)安手寫賀卡成焦點(diǎn)！網(wǎng)友：字軟人弱！練書法3年，該如何提高

用蘇繡的方式，打開(kāi)江西婺源

牛彈琴:馬斯克輸官司氣壞他孩子的媽出庭講二人私情

牛彈琴:馬斯克輸官司氣壞他孩子的媽出庭講二人私情