无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

世界模型的門檻,谷歌可能邁過(guò)去了

0
分享至

文 | 世界模型工場(chǎng)

Google可能要放大招了。

就在Google I/O 2026開(kāi)幕前夕,兩條由Google尚未發(fā)布的新視頻模型Gemini Omni生成的視頻悄悄流出。

沒(méi)有任何官方預(yù)告,沒(méi)有任何發(fā)布會(huì)造勢(shì),整個(gè)社交媒體都炸翻了。

一條視頻是一位教授站在黑板前,手持粉筆,一步步推導(dǎo)三角恒等式;

另一條是兩名男士坐在海邊高檔餐廳,安靜地吃意大利面。

Reddit和X的評(píng)論區(qū),鋪天蓋地的都是同一句話:"這不可能是現(xiàn)有的技術(shù)水平。"

兩個(gè)看似普通的日常場(chǎng)景,為什么讓見(jiàn)慣了AI生成內(nèi)容的技術(shù)圈集體側(cè)目?

令人震驚的視頻

先說(shuō)“教授黑板講課”視頻,生成它只用了一條prompt:

"一位教授在傳統(tǒng)黑板上寫出三角恒等式的數(shù)學(xué)證明,同時(shí)用語(yǔ)言解釋他當(dāng)前正在推導(dǎo)的步驟。"

一條指令,沒(méi)有多輪對(duì)話,沒(méi)有分步驟控制。

出來(lái)的結(jié)果是,教授手持粉筆,逐步寫下公式,同時(shí)開(kāi)口講解,畫面流暢,板書工整。


聽(tīng)起來(lái)好像平平無(wú)奇。

但如果你了解當(dāng)前視頻生成模型的技術(shù)邊界在哪里,就會(huì)明白Gemini Omni同時(shí)做到了三件事,而這三件事,以前從來(lái)不會(huì)同時(shí)出現(xiàn)。

第一,推理對(duì)了。

黑板上的證明過(guò)程在數(shù)學(xué)上是成立的,不是視覺(jué)上長(zhǎng)得像公式的符號(hào)堆砌,而是數(shù)學(xué)意義上真實(shí)有效的推導(dǎo)。

要做到這一點(diǎn),模型至少要在token預(yù)測(cè)之外,具備一定的符號(hào)推理能力(symbolic reasoning)。

即知道下一步應(yīng)該出現(xiàn)什么公式,而不是隨機(jī)采樣一個(gè)看起來(lái)像數(shù)學(xué)的圖案。

語(yǔ)義準(zhǔn)確性疊加在視覺(jué)生成之上,正是大多數(shù)視頻模型會(huì)在這類測(cè)試中失敗的原因。

第二,空間關(guān)系對(duì)了。

評(píng)測(cè)者描述,粉筆書寫時(shí)的手部和手臂動(dòng)作"讀起來(lái)是自然的",黑板上的方程式清晰可辨。

手部,是AI視頻生成里公認(rèn)最容易穿幫的地方。

手指數(shù)量錯(cuò)誤、關(guān)節(jié)扭曲、與物體的空間關(guān)系失真,這是行業(yè)里幾乎每一代視頻模型都栽過(guò)的坑。

一支粉筆被正確握持,在黑板上留下有意義的筆跡,手腕的力道、落筆的角度,都在合理的范圍內(nèi)。

這一關(guān),比畫一只正常的手還要難,因?yàn)槭衷谶@里還要和黑板、粉筆、書寫行為,形成完整的空間邏輯。

第三,時(shí)序?qū)α恕?/p>

這是最被低估的一件事。

教授寫下某個(gè)推導(dǎo)步驟的同時(shí),口頭講解的正是這個(gè)步驟,板書進(jìn)度與語(yǔ)音內(nèi)容保持同步。

這不只是音視頻的幀級(jí)對(duì)齊(frame-level alignment),而是視覺(jué)事件、語(yǔ)義事件、時(shí)間事件三者之間的跨模態(tài)協(xié)調(diào)。

任何一個(gè)維度的理解出現(xiàn)偏差,結(jié)果就會(huì)是"手在寫A,嘴在講C"。

這種錯(cuò)位,人類觀眾一眼就能感知到。

如果這三件事只是分別做到,我們可以認(rèn)為是三個(gè)專項(xiàng)模塊拼在一起的結(jié)果。

但三者同時(shí)成立、彼此協(xié)調(diào),更可能是模型在某個(gè)表征層面上,已經(jīng)對(duì)"教授在黑板上講課"這件事形成了整體性的語(yǔ)義理解。

換句話說(shuō),它知道這件事在現(xiàn)實(shí)世界里是什么樣子,知道其中各個(gè)元素之間的約束關(guān)系。

這也是為什么"世界模型"這個(gè)詞,會(huì)在這條視頻流出后開(kāi)始被頻繁提及。

在黑板視頻流出的同時(shí),還有另一條視頻一起曝光:兩名男士在海邊高檔餐廳吃意大利面。

這個(gè)場(chǎng)景的選擇,不是隨機(jī)的。

2024年,一段AI生成的"Will Smith吃意大利面"視頻在網(wǎng)上瘋傳。

畫面里的手指數(shù)量不對(duì),面條像活物一樣扭動(dòng),叉子和嘴的空間關(guān)系完全失控。

那段視頻成了早期AI視頻生成能力的恥辱柱。


圖為"Will Smith吃意大利面"視頻截圖

而這一次,Gemini Omni生成的結(jié)果,有用戶評(píng)論是"令人難以置信地真實(shí)"。

這背后考驗(yàn)的,是模型對(duì)剛體與柔性體之間動(dòng)態(tài)交互的建模能力:

叉子是硬的,面條是軟的,兩者在接觸時(shí)會(huì)產(chǎn)生形變,而形變的方式必須符合現(xiàn)實(shí)世界里的物理直覺(jué)。

這正是早期生成模型在隱式物理模擬(implicit physics simulation)上的致命短板。

一個(gè)模型,在兩條視頻里,分別碰到了視頻生成最難的兩類問(wèn)題:

一類是符號(hào)、語(yǔ)音與畫面的同步,另一類是人與物體、剛體與柔性體的交互,并把這些問(wèn)題推進(jìn)到一個(gè)更可用的狀態(tài)。

Gemini Omni展示的,更像是一個(gè)對(duì)世界有著更深理解的基座模型。

Gemini Omni的沖擊

截至目前,Google還沒(méi)有發(fā)布Gemini Omni的任何技術(shù)文檔,也沒(méi)有公開(kāi)任何模型參數(shù)或基準(zhǔn)測(cè)試數(shù)據(jù)。

但關(guān)于Gemini Omni的架構(gòu),目前外界存在三種解讀。

最保守的說(shuō)法是,Omni只是Veo的品牌重命名,底層推理引擎沒(méi)有根本變化;

第二種說(shuō)法是,Omni是在Gemini架構(gòu)下重新訓(xùn)練的全新視頻模型,與Veo并行但獨(dú)立;

第三種說(shuō)法最激進(jìn),認(rèn)為Omni是一個(gè)真正意義上的原生多模態(tài)統(tǒng)一模型,在單一架構(gòu)里原生處理文字、圖像、視頻和音頻。

基于以上兩段視頻的表現(xiàn),第三種解讀反而像是"Omni"這個(gè)命名最合理的指向,畢竟在拉丁語(yǔ)中,"omnis"意味著所有。

如果Omni真正打通了多模態(tài)鏈路,模型競(jìng)爭(zhēng)的焦點(diǎn)就會(huì)發(fā)生根本性的轉(zhuǎn)變。

不再是誰(shuí)能拍出更像電影的畫面,而是誰(shuí)是內(nèi)容創(chuàng)作者的唯一目的地。

雖然現(xiàn)在還不能說(shuō)Gemini Omni已經(jīng)是世界模型,但它至少說(shuō)明,視頻生成正在逼近世界模型要解決的問(wèn)題:

如何在時(shí)間中維持一個(gè)可解釋、可編輯、可連續(xù)推演的場(chǎng)景。

產(chǎn)品層面的沖擊同樣不容忽視。

今天一條AI視頻的生產(chǎn)鏈路,通常需要串聯(lián)語(yǔ)言模型寫腳本、圖像模型做故事板、視頻模型做動(dòng)畫渲染、再加外部剪輯軟件做后期處理。

每一次跨工具切換,都意味著信息損耗和風(fēng)格漂移。

一旦Gemini Omni對(duì)話式視頻編輯成立,這條鏈路就可能被一個(gè)對(duì)話窗口替代了。

更關(guān)鍵的是,如果Omni被放入Gemini入口,并與Gmail、Google Docs、YouTube、Android深度打通,這是字節(jié)Seedance、快手Kling在分發(fā)層面根本無(wú)法復(fù)制的生態(tài)優(yōu)勢(shì)。

技術(shù)能力決定上限,生態(tài)決定規(guī)模。

Gemini Omni真正的威脅,或許不在于它今天生成的視頻有多好,而在于它把視頻生成能力放在了一個(gè)競(jìng)爭(zhēng)對(duì)手根本進(jìn)不去的地方,后者對(duì)前者幾乎構(gòu)成降維打擊。

世界模型時(shí)刻或許來(lái)臨

過(guò)去幾年,生成式AI的進(jìn)化路徑相對(duì)清晰。

語(yǔ)言模型學(xué)會(huì)了讀和寫,圖像模型學(xué)會(huì)了看和畫,視頻模型學(xué)會(huì)了動(dòng)。

每一個(gè)模態(tài)都在自己的賽道上快速迭代,但它們之間始終存在一道隱形的墻。

模型知道文字,也知道圖像,但它不理解文字和圖像之間、聲音和動(dòng)作之間、邏輯和畫面之間的約束關(guān)系。

如果說(shuō)ChatGPT時(shí)刻定義了語(yǔ)言的邊界,Sora時(shí)刻定義了視頻的邊界,那Gemini Omni指向的,很可能是第一個(gè)真正意義上的"世界模型時(shí)刻"。

模型第一次開(kāi)始理解,模態(tài)與模態(tài)之間在現(xiàn)實(shí)世界里的約束關(guān)系,而不只是分別生成它們。

這是一次質(zhì)的飛躍。

當(dāng)然,Gemini Omni是否真正實(shí)現(xiàn)了這一點(diǎn),在5月19日Google I/O 2026大會(huì)之前,沒(méi)有人能給出確定的答案。

但泄露出來(lái)的視頻,給出的信號(hào)已經(jīng)足夠有力。

接下來(lái)Google會(huì)在臺(tái)上說(shuō)什么,我們很快就會(huì)知道。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
你敢信兩性關(guān)系:61歲退休女醫(yī)生自述,生理上的動(dòng)心根本藏不住

你敢信兩性關(guān)系:61歲退休女醫(yī)生自述,生理上的動(dòng)心根本藏不住

九哥哥車評(píng)
2026-05-19 08:21:48
淞滬會(huì)戰(zhàn)中,全力打造的四個(gè)德械師以接近全軍覆沒(méi)的代價(jià)重創(chuàng)日軍

淞滬會(huì)戰(zhàn)中,全力打造的四個(gè)德械師以接近全軍覆沒(méi)的代價(jià)重創(chuàng)日軍

云霄紀(jì)史觀
2026-05-19 01:18:26
以媒:內(nèi)塔尼亞胡與特朗普通話 討論重啟對(duì)伊戰(zhàn)事可能性

以媒:內(nèi)塔尼亞胡與特朗普通話 討論重啟對(duì)伊戰(zhàn)事可能性

新京報(bào)
2026-05-18 08:45:56
起底長(zhǎng)鑫科技概念股全景圖

起底長(zhǎng)鑫科技概念股全景圖

第一財(cái)經(jīng)資訊
2026-05-18 21:13:14
廣西皮卡墜河后續(xù)!又找到一具遺體,央視曝猛料,工頭才是可憐人

廣西皮卡墜河后續(xù)!又找到一具遺體,央視曝猛料,工頭才是可憐人

奇思妙想草葉君
2026-05-18 15:09:19
中國(guó)第一個(gè)將消失的沙漠:面積比海南島還大,如今80%沙漠成綠洲

中國(guó)第一個(gè)將消失的沙漠:面積比海南島還大,如今80%沙漠成綠洲

抽象派大師
2026-05-16 15:18:26
深圳將新增一座萬(wàn)象城!

深圳將新增一座萬(wàn)象城!

深圳晚報(bào)
2026-05-18 20:35:35
尼得科將撤出在華合資業(yè)務(wù)

尼得科將撤出在華合資業(yè)務(wù)

新浪財(cái)經(jīng)
2026-05-19 05:38:44
57歲高曉松近況曝光!親自澄清網(wǎng)絡(luò)謠言,自己每天就是讀書種菜

57歲高曉松近況曝光!親自澄清網(wǎng)絡(luò)謠言,自己每天就是讀書種菜

小徐講八卦
2026-05-19 09:29:29
官方點(diǎn)贊!上海53歲老板再登場(chǎng),率隊(duì)進(jìn)足協(xié)杯32強(qiáng),期待遇到朱駿

官方點(diǎn)贊!上海53歲老板再登場(chǎng),率隊(duì)進(jìn)足協(xié)杯32強(qiáng),期待遇到朱駿

實(shí)事球是
2026-05-19 08:38:14
看完北京首鋼男籃99-88上海,不得不承認(rèn)6個(gè)事實(shí),本土球員有差距

看完北京首鋼男籃99-88上海,不得不承認(rèn)6個(gè)事實(shí),本土球員有差距

林子說(shuō)事
2026-05-19 01:16:16
混得好的人,都有5個(gè)共性:1、不跟同事走太近;2、不隨意教人做事;3、不背后說(shuō)人閑話;4、不過(guò)于在意別人的眼光…

混得好的人,都有5個(gè)共性:1、不跟同事走太近;2、不隨意教人做事;3、不背后說(shuō)人閑話;4、不過(guò)于在意別人的眼光…

二胡的歲月如歌
2026-05-18 19:22:43
20名中國(guó)教授赴美參會(huì),中國(guó)大腦剛落地就被關(guān),簽證當(dāng)場(chǎng)作廢!

20名中國(guó)教授赴美參會(huì),中國(guó)大腦剛落地就被關(guān),簽證當(dāng)場(chǎng)作廢!

獨(dú)舞獨(dú)舞
2026-05-17 13:41:29
江蘇多地出現(xiàn)大蛇!

江蘇多地出現(xiàn)大蛇!

娛樂(lè)洞察點(diǎn)點(diǎn)
2026-05-19 08:11:57
巴媒:安帥公布名單前備有兩份名單,在內(nèi)馬爾和佩德羅間猶豫

巴媒:安帥公布名單前備有兩份名單,在內(nèi)馬爾和佩德羅間猶豫

懂球帝
2026-05-19 07:03:08
一報(bào)告顯示:逾八成中俄青年認(rèn)為中俄關(guān)系友好

一報(bào)告顯示:逾八成中俄青年認(rèn)為中俄關(guān)系友好

中國(guó)青年報(bào)
2026-05-18 16:33:06
騎士4:3進(jìn)東決!火箭隊(duì)曾拒絕哈登+阿倫+莫布里,斯通悔青腸子?

騎士4:3進(jìn)東決!火箭隊(duì)曾拒絕哈登+阿倫+莫布里,斯通悔青腸子?

熊哥愛(ài)籃球
2026-05-18 21:04:23
國(guó)乒全體放棄!最新WTT賽今天開(kāi)打,日韓多位名將報(bào)名參加

國(guó)乒全體放棄!最新WTT賽今天開(kāi)打,日韓多位名將報(bào)名參加

阿晞體育
2026-05-19 07:15:51
官宣!楊涵玉入選,繆伊雯無(wú)緣,湊夠30人,中國(guó)女排大名單公布

官宣!楊涵玉入選,繆伊雯無(wú)緣,湊夠30人,中國(guó)女排大名單公布

跑者排球視角
2026-05-19 07:00:15
從大疆離職,被雷軍投24億,哈工大女教授造出百億獨(dú)角獸

從大疆離職,被雷軍投24億,哈工大女教授造出百億獨(dú)角獸

趣文說(shuō)娛
2026-05-14 21:25:42
2026-05-19 09:56:49
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
133756文章數(shù) 862164關(guān)注度
往期回顧 全部

科技要聞

蘋果WWDC26定檔6月9日凌晨:iOS27將亮相

頭條要聞

牛彈琴:馬斯克輸官司氣壞 他孩子的媽出庭講二人私情

頭條要聞

牛彈琴:馬斯克輸官司氣壞 他孩子的媽出庭講二人私情

體育要聞

58順位的保羅,最強(qiáng)第三中鋒

娛樂(lè)要聞

票房會(huì)破14億!口碑第一電影出現(xiàn)了

財(cái)經(jīng)要聞

從賣流量到賣Token,運(yùn)營(yíng)商算力生意破局

汽車要聞

40.98萬(wàn)起!充電5分鐘純電續(xù)航420km 騰勢(shì)N9閃充版勝算有多少?

態(tài)度原創(chuàng)

時(shí)尚
游戲
藝術(shù)
本地
公開(kāi)課

今夏超流行這6個(gè)顏色,每一種都是顯白高手

索尼確認(rèn)PS獨(dú)占回歸!單人敘事型游戲不上PC

藝術(shù)要聞

蔣萬(wàn)安手寫賀卡成焦點(diǎn)!網(wǎng)友:字軟人弱!練書法3年,該如何提高

本地新聞

用蘇繡的方式,打開(kāi)江西婺源

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版