无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

世界模型的門(mén)檻,谷歌可能邁過(guò)去了

0
分享至

文 | 世界模型工場(chǎng)

Google可能要放大招了。

就在Google I/O 2026開(kāi)幕前夕,兩條由Google尚未發(fā)布的新視頻模型Gemini Omni生成的視頻悄悄流出。

沒(méi)有任何官方預(yù)告,沒(méi)有任何發(fā)布會(huì)造勢(shì),整個(gè)社交媒體都炸翻了。

一條視頻是一位教授站在黑板前,手持粉筆,一步步推導(dǎo)三角恒等式;

另一條是兩名男士坐在海邊高檔餐廳,安靜地吃意大利面。

Reddit和X的評(píng)論區(qū),鋪天蓋地的都是同一句話:"這不可能是現(xiàn)有的技術(shù)水平。"

兩個(gè)看似普通的日常場(chǎng)景,為什么讓見(jiàn)慣了AI生成內(nèi)容的技術(shù)圈集體側(cè)目?

令人震驚的視頻

先說(shuō)“教授黑板講課”視頻,生成它只用了一條prompt:

"一位教授在傳統(tǒng)黑板上寫(xiě)出三角恒等式的數(shù)學(xué)證明,同時(shí)用語(yǔ)言解釋他當(dāng)前正在推導(dǎo)的步驟。"

一條指令,沒(méi)有多輪對(duì)話,沒(méi)有分步驟控制。

出來(lái)的結(jié)果是,教授手持粉筆,逐步寫(xiě)下公式,同時(shí)開(kāi)口講解,畫(huà)面流暢,板書(shū)工整。


聽(tīng)起來(lái)好像平平無(wú)奇。

但如果你了解當(dāng)前視頻生成模型的技術(shù)邊界在哪里,就會(huì)明白Gemini Omni同時(shí)做到了三件事,而這三件事,以前從來(lái)不會(huì)同時(shí)出現(xiàn)。

第一,推理對(duì)了。

黑板上的證明過(guò)程在數(shù)學(xué)上是成立的,不是視覺(jué)上長(zhǎng)得像公式的符號(hào)堆砌,而是數(shù)學(xué)意義上真實(shí)有效的推導(dǎo)。

要做到這一點(diǎn),模型至少要在token預(yù)測(cè)之外,具備一定的符號(hào)推理能力(symbolic reasoning)。

即知道下一步應(yīng)該出現(xiàn)什么公式,而不是隨機(jī)采樣一個(gè)看起來(lái)像數(shù)學(xué)的圖案。

語(yǔ)義準(zhǔn)確性疊加在視覺(jué)生成之上,正是大多數(shù)視頻模型會(huì)在這類(lèi)測(cè)試中失敗的原因。

第二,空間關(guān)系對(duì)了。

評(píng)測(cè)者描述,粉筆書(shū)寫(xiě)時(shí)的手部和手臂動(dòng)作"讀起來(lái)是自然的",黑板上的方程式清晰可辨。

手部,是AI視頻生成里公認(rèn)最容易穿幫的地方。

手指數(shù)量錯(cuò)誤、關(guān)節(jié)扭曲、與物體的空間關(guān)系失真,這是行業(yè)里幾乎每一代視頻模型都栽過(guò)的坑。

一支粉筆被正確握持,在黑板上留下有意義的筆跡,手腕的力道、落筆的角度,都在合理的范圍內(nèi)。

這一關(guān),比畫(huà)一只正常的手還要難,因?yàn)槭衷谶@里還要和黑板、粉筆、書(shū)寫(xiě)行為,形成完整的空間邏輯。

第三,時(shí)序?qū)α恕?/p>

這是最被低估的一件事。

教授寫(xiě)下某個(gè)推導(dǎo)步驟的同時(shí),口頭講解的正是這個(gè)步驟,板書(shū)進(jìn)度與語(yǔ)音內(nèi)容保持同步。

這不只是音視頻的幀級(jí)對(duì)齊(frame-level alignment),而是視覺(jué)事件、語(yǔ)義事件、時(shí)間事件三者之間的跨模態(tài)協(xié)調(diào)。

任何一個(gè)維度的理解出現(xiàn)偏差,結(jié)果就會(huì)是"手在寫(xiě)A,嘴在講C"。

這種錯(cuò)位,人類(lèi)觀眾一眼就能感知到。

如果這三件事只是分別做到,我們可以認(rèn)為是三個(gè)專(zhuān)項(xiàng)模塊拼在一起的結(jié)果。

但三者同時(shí)成立、彼此協(xié)調(diào),更可能是模型在某個(gè)表征層面上,已經(jīng)對(duì)"教授在黑板上講課"這件事形成了整體性的語(yǔ)義理解。

換句話說(shuō),它知道這件事在現(xiàn)實(shí)世界里是什么樣子,知道其中各個(gè)元素之間的約束關(guān)系。

這也是為什么"世界模型"這個(gè)詞,會(huì)在這條視頻流出后開(kāi)始被頻繁提及。

在黑板視頻流出的同時(shí),還有另一條視頻一起曝光:兩名男士在海邊高檔餐廳吃意大利面。

這個(gè)場(chǎng)景的選擇,不是隨機(jī)的。

2024年,一段AI生成的"Will Smith吃意大利面"視頻在網(wǎng)上瘋傳。

畫(huà)面里的手指數(shù)量不對(duì),面條像活物一樣扭動(dòng),叉子和嘴的空間關(guān)系完全失控。

那段視頻成了早期AI視頻生成能力的恥辱柱。


圖為"Will Smith吃意大利面"視頻截圖

而這一次,Gemini Omni生成的結(jié)果,有用戶(hù)評(píng)論是"令人難以置信地真實(shí)"。

這背后考驗(yàn)的,是模型對(duì)剛體與柔性體之間動(dòng)態(tài)交互的建模能力:

叉子是硬的,面條是軟的,兩者在接觸時(shí)會(huì)產(chǎn)生形變,而形變的方式必須符合現(xiàn)實(shí)世界里的物理直覺(jué)。

這正是早期生成模型在隱式物理模擬(implicit physics simulation)上的致命短板。

一個(gè)模型,在兩條視頻里,分別碰到了視頻生成最難的兩類(lèi)問(wèn)題:

一類(lèi)是符號(hào)、語(yǔ)音與畫(huà)面的同步,另一類(lèi)是人與物體、剛體與柔性體的交互,并把這些問(wèn)題推進(jìn)到一個(gè)更可用的狀態(tài)。

Gemini Omni展示的,更像是一個(gè)對(duì)世界有著更深理解的基座模型。

Gemini Omni的沖擊

截至目前,Google還沒(méi)有發(fā)布Gemini Omni的任何技術(shù)文檔,也沒(méi)有公開(kāi)任何模型參數(shù)或基準(zhǔn)測(cè)試數(shù)據(jù)。

但關(guān)于Gemini Omni的架構(gòu),目前外界存在三種解讀。

最保守的說(shuō)法是,Omni只是Veo的品牌重命名,底層推理引擎沒(méi)有根本變化;

第二種說(shuō)法是,Omni是在Gemini架構(gòu)下重新訓(xùn)練的全新視頻模型,與Veo并行但獨(dú)立;

第三種說(shuō)法最激進(jìn),認(rèn)為Omni是一個(gè)真正意義上的原生多模態(tài)統(tǒng)一模型,在單一架構(gòu)里原生處理文字、圖像、視頻和音頻。

基于以上兩段視頻的表現(xiàn),第三種解讀反而像是"Omni"這個(gè)命名最合理的指向,畢竟在拉丁語(yǔ)中,"omnis"意味著所有。

如果Omni真正打通了多模態(tài)鏈路,模型競(jìng)爭(zhēng)的焦點(diǎn)就會(huì)發(fā)生根本性的轉(zhuǎn)變。

不再是誰(shuí)能拍出更像電影的畫(huà)面,而是誰(shuí)是內(nèi)容創(chuàng)作者的唯一目的地。

雖然現(xiàn)在還不能說(shuō)Gemini Omni已經(jīng)是世界模型,但它至少說(shuō)明,視頻生成正在逼近世界模型要解決的問(wèn)題:

如何在時(shí)間中維持一個(gè)可解釋、可編輯、可連續(xù)推演的場(chǎng)景。

產(chǎn)品層面的沖擊同樣不容忽視。

今天一條AI視頻的生產(chǎn)鏈路,通常需要串聯(lián)語(yǔ)言模型寫(xiě)腳本、圖像模型做故事板、視頻模型做動(dòng)畫(huà)渲染、再加外部剪輯軟件做后期處理。

每一次跨工具切換,都意味著信息損耗和風(fēng)格漂移。

一旦Gemini Omni對(duì)話式視頻編輯成立,這條鏈路就可能被一個(gè)對(duì)話窗口替代了。

更關(guān)鍵的是,如果Omni被放入Gemini入口,并與Gmail、Google Docs、YouTube、Android深度打通,這是字節(jié)Seedance、快手Kling在分發(fā)層面根本無(wú)法復(fù)制的生態(tài)優(yōu)勢(shì)。

技術(shù)能力決定上限,生態(tài)決定規(guī)模。

Gemini Omni真正的威脅,或許不在于它今天生成的視頻有多好,而在于它把視頻生成能力放在了一個(gè)競(jìng)爭(zhēng)對(duì)手根本進(jìn)不去的地方,后者對(duì)前者幾乎構(gòu)成降維打擊。

世界模型時(shí)刻或許來(lái)臨

過(guò)去幾年,生成式AI的進(jìn)化路徑相對(duì)清晰。

語(yǔ)言模型學(xué)會(huì)了讀和寫(xiě),圖像模型學(xué)會(huì)了看和畫(huà),視頻模型學(xué)會(huì)了動(dòng)。

每一個(gè)模態(tài)都在自己的賽道上快速迭代,但它們之間始終存在一道隱形的墻。

模型知道文字,也知道圖像,但它不理解文字和圖像之間、聲音和動(dòng)作之間、邏輯和畫(huà)面之間的約束關(guān)系。

如果說(shuō)ChatGPT時(shí)刻定義了語(yǔ)言的邊界,Sora時(shí)刻定義了視頻的邊界,那Gemini Omni指向的,很可能是第一個(gè)真正意義上的"世界模型時(shí)刻"。

模型第一次開(kāi)始理解,模態(tài)與模態(tài)之間在現(xiàn)實(shí)世界里的約束關(guān)系,而不只是分別生成它們。

這是一次質(zhì)的飛躍。

當(dāng)然,Gemini Omni是否真正實(shí)現(xiàn)了這一點(diǎn),在5月19日Google I/O 2026大會(huì)之前,沒(méi)有人能給出確定的答案。

但泄露出來(lái)的視頻,給出的信號(hào)已經(jīng)足夠有力。

接下來(lái)Google會(huì)在臺(tái)上說(shuō)什么,我們很快就會(huì)知道。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
金融危機(jī)要來(lái)了?專(zhuān)家預(yù)測(cè):未來(lái)12到18個(gè)月,世界將爆發(fā)金融風(fēng)暴

金融危機(jī)要來(lái)了?專(zhuān)家預(yù)測(cè):未來(lái)12到18個(gè)月,世界將爆發(fā)金融風(fēng)暴

別人都叫我阿腈
2026-05-30 20:32:28
48歲夏奇拉"逆生長(zhǎng)"惹爭(zhēng)議:26年前皮裙少女,如今紫裙凍齡被疑"科技與狠活"?

48歲夏奇拉"逆生長(zhǎng)"惹爭(zhēng)議:26年前皮裙少女,如今紫裙凍齡被疑"科技與狠活"?

生活觀察員啊
2026-05-25 01:14:32
2026款吉利牛仔上市:新增武士黑配色,限時(shí)7.59萬(wàn)-8.49萬(wàn)元

2026款吉利牛仔上市:新增武士黑配色,限時(shí)7.59萬(wàn)-8.49萬(wàn)元

IT之家
2026-05-30 20:40:07
米切爾:沒(méi)哈登我們進(jìn)不了東決 哈登會(huì)降薪續(xù)約騎士嗎?

米切爾:沒(méi)哈登我們進(jìn)不了東決 哈登會(huì)降薪續(xù)約騎士嗎?

仰臥撐FTUer
2026-05-31 09:06:07
30 歲粵劇花旦與 73 歲商界大佬閃婚,男方優(yōu)質(zhì)條件令人無(wú)法抗拒

30 歲粵劇花旦與 73 歲商界大佬閃婚,男方優(yōu)質(zhì)條件令人無(wú)法抗拒

安海客
2026-05-27 16:54:35
5月31日,人社部發(fā)布養(yǎng)老金通知了嗎?企退增幅必然高于事退嗎?

5月31日,人社部發(fā)布養(yǎng)老金通知了嗎?企退增幅必然高于事退嗎?

王五說(shuō)說(shuō)看
2026-05-31 09:18:26
歐冠巴黎點(diǎn)球擊敗阿森納!真相終于公布,更讓人看得頭皮發(fā)麻!

歐冠巴黎點(diǎn)球擊敗阿森納!真相終于公布,更讓人看得頭皮發(fā)麻!

郝小小看體育
2026-05-31 09:18:01
中超爭(zhēng)議判罰!朱辰杰拉人送點(diǎn),西海岸球員暴怒,麥麥提江險(xiǎn)破防

中超爭(zhēng)議判罰!朱辰杰拉人送點(diǎn),西海岸球員暴怒,麥麥提江險(xiǎn)破防

奧拜爾
2026-05-30 19:18:20
蔣介石孫子召開(kāi)發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話讓世人唏噓

蔣介石孫子召開(kāi)發(fā)布會(huì),提出“兩蔣”移靈大陸,2句話讓世人唏噓

老謝談史
2026-03-18 18:33:35
南開(kāi)大學(xué)通報(bào)論文數(shù)據(jù)存疑問(wèn)題

南開(kāi)大學(xué)通報(bào)論文數(shù)據(jù)存疑問(wèn)題

界面新聞
2026-05-30 19:44:53
人形機(jī)器人降價(jià)超40萬(wàn)!宇樹(shù)科技上會(huì)前夕:一季度利潤(rùn)已腰斬

人形機(jī)器人降價(jià)超40萬(wàn)!宇樹(shù)科技上會(huì)前夕:一季度利潤(rùn)已腰斬

子彈財(cái)經(jīng)
2026-05-31 02:51:11
為190元榴蓮千里維權(quán)商家收到人身威脅言論,稱(chēng)已報(bào)警,并起訴“僅退款”買(mǎi)家索賠

為190元榴蓮千里維權(quán)商家收到人身威脅言論,稱(chēng)已報(bào)警,并起訴“僅退款”買(mǎi)家索賠

紅星新聞
2026-05-29 22:21:07
把瑜伽褲穿成日常的松弛感美女

把瑜伽褲穿成日常的松弛感美女

只要高興就好
2026-04-13 14:30:30
湖北省召開(kāi)全省領(lǐng)導(dǎo)干部會(huì)議

湖北省召開(kāi)全省領(lǐng)導(dǎo)干部會(huì)議

新京報(bào)
2026-05-30 13:13:05
2026上半年口碑最好10部國(guó)產(chǎn)劇:《主角》第3,第1實(shí)至名歸

2026上半年口碑最好10部國(guó)產(chǎn)劇:《主角》第3,第1實(shí)至名歸

八斗小先生
2026-05-30 19:06:12
64歲莫少聰放飛自我,一代男神變“金發(fā)大姨”,網(wǎng)友直呼認(rèn)不出

64歲莫少聰放飛自我,一代男神變“金發(fā)大姨”,網(wǎng)友直呼認(rèn)不出

娛樂(lè)E君
2026-05-29 11:45:16
趙祥松|全國(guó)無(wú)一省財(cái)政自給100%:不是問(wèn)題,但可能正在變成問(wèn)題

趙祥松|全國(guó)無(wú)一省財(cái)政自給100%:不是問(wèn)題,但可能正在變成問(wèn)題

祥松談
2026-05-31 06:08:36
強(qiáng)行推開(kāi)中國(guó)記者,從后廚溜走!原來(lái)整個(gè)香會(huì)最心虛是菲律賓防長(zhǎng)

強(qiáng)行推開(kāi)中國(guó)記者,從后廚溜走!原來(lái)整個(gè)香會(huì)最心虛是菲律賓防長(zhǎng)

阿龍聊軍事
2026-05-31 01:08:57
心理學(xué):永遠(yuǎn)不要在兒女面前,隨口說(shuō)出這兩句話,會(huì)毀掉孩子一生

心理學(xué):永遠(yuǎn)不要在兒女面前,隨口說(shuō)出這兩句話,會(huì)毀掉孩子一生

心理觀察局
2026-05-30 07:08:20
搶七不打,離隊(duì)倒計(jì)時(shí)?雷霆又要大交易了

搶七不打,離隊(duì)倒計(jì)時(shí)?雷霆又要大交易了

體育新角度
2026-05-30 14:21:56
2026-05-31 10:35:00
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
134344文章數(shù) 862209關(guān)注度
往期回顧 全部

科技要聞

AI寫(xiě)小說(shuō)的套路被扒光了

頭條要聞

美國(guó)頂流網(wǎng)紅現(xiàn)身中國(guó)陜西鄉(xiāng)村 請(qǐng)求卡車(chē)司機(jī)捎他一段

頭條要聞

美國(guó)頂流網(wǎng)紅現(xiàn)身中國(guó)陜西鄉(xiāng)村 請(qǐng)求卡車(chē)司機(jī)捎他一段

體育要聞

巴黎再度捧起歐冠獎(jiǎng)杯 槍手眾將黯然神傷

娛樂(lè)要聞

張碧晨《歌手》 “活人微死” 自嘲

財(cái)經(jīng)要聞

字節(jié)跳動(dòng)的 "一盤(pán)大棋"

汽車(chē)要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬(wàn)元起

態(tài)度原創(chuàng)

旅游
藝術(shù)
手機(jī)
數(shù)碼
公開(kāi)課

旅游要聞

稻城亞丁們,該放棄“捆綁消費(fèi)”思維了

藝術(shù)要聞

我想有個(gè)小院,從此荒度余生

手機(jī)要聞

田曦薇代言!vivo S60下周首銷(xiāo):行業(yè)最強(qiáng)Live神機(jī) 3099元

數(shù)碼要聞

vivo S60系列發(fā)布:2899元起 推出4K原生感Live

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版