无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

世界模型的門檻,谷歌可能邁過去了

0
分享至

文 | 世界模型工場

Google可能要放大招了。

就在Google I/O 2026開幕前夕,兩條由Google尚未發布的新視頻模型Gemini Omni生成的視頻悄悄流出。

沒有任何官方預告,沒有任何發布會造勢,整個社交媒體都炸翻了。

一條視頻是一位教授站在黑板前,手持粉筆,一步步推導三角恒等式;

另一條是兩名男士坐在海邊高檔餐廳,安靜地吃意大利面。

Reddit和X的評論區,鋪天蓋地的都是同一句話:"這不可能是現有的技術水平。"

兩個看似普通的日常場景,為什么讓見慣了AI生成內容的技術圈集體側目?

令人震驚的視頻

先說“教授黑板講課”視頻,生成它只用了一條prompt:

"一位教授在傳統黑板上寫出三角恒等式的數學證明,同時用語言解釋他當前正在推導的步驟。"

一條指令,沒有多輪對話,沒有分步驟控制。

出來的結果是,教授手持粉筆,逐步寫下公式,同時開口講解,畫面流暢,板書工整。


聽起來好像平平無奇。

但如果你了解當前視頻生成模型的技術邊界在哪里,就會明白Gemini Omni同時做到了三件事,而這三件事,以前從來不會同時出現。

第一,推理對了。

黑板上的證明過程在數學上是成立的,不是視覺上長得像公式的符號堆砌,而是數學意義上真實有效的推導。

要做到這一點,模型至少要在token預測之外,具備一定的符號推理能力(symbolic reasoning)。

即知道下一步應該出現什么公式,而不是隨機采樣一個看起來像數學的圖案。

語義準確性疊加在視覺生成之上,正是大多數視頻模型會在這類測試中失敗的原因。

第二,空間關系對了。

評測者描述,粉筆書寫時的手部和手臂動作"讀起來是自然的",黑板上的方程式清晰可辨。

手部,是AI視頻生成里公認最容易穿幫的地方。

手指數量錯誤、關節扭曲、與物體的空間關系失真,這是行業里幾乎每一代視頻模型都栽過的坑。

一支粉筆被正確握持,在黑板上留下有意義的筆跡,手腕的力道、落筆的角度,都在合理的范圍內。

這一關,比畫一只正常的手還要難,因為手在這里還要和黑板、粉筆、書寫行為,形成完整的空間邏輯。

第三,時序對了。

這是最被低估的一件事。

教授寫下某個推導步驟的同時,口頭講解的正是這個步驟,板書進度與語音內容保持同步。

這不只是音視頻的幀級對齊(frame-level alignment),而是視覺事件、語義事件、時間事件三者之間的跨模態協調。

任何一個維度的理解出現偏差,結果就會是"手在寫A,嘴在講C"。

這種錯位,人類觀眾一眼就能感知到。

如果這三件事只是分別做到,我們可以認為是三個專項模塊拼在一起的結果。

但三者同時成立、彼此協調,更可能是模型在某個表征層面上,已經對"教授在黑板上講課"這件事形成了整體性的語義理解。

換句話說,它知道這件事在現實世界里是什么樣子,知道其中各個元素之間的約束關系。

這也是為什么"世界模型"這個詞,會在這條視頻流出后開始被頻繁提及。

在黑板視頻流出的同時,還有另一條視頻一起曝光:兩名男士在海邊高檔餐廳吃意大利面。

這個場景的選擇,不是隨機的。

2024年,一段AI生成的"Will Smith吃意大利面"視頻在網上瘋傳。

畫面里的手指數量不對,面條像活物一樣扭動,叉子和嘴的空間關系完全失控。

那段視頻成了早期AI視頻生成能力的恥辱柱。


圖為"Will Smith吃意大利面"視頻截圖

而這一次,Gemini Omni生成的結果,有用戶評論是"令人難以置信地真實"。

這背后考驗的,是模型對剛體與柔性體之間動態交互的建模能力:

叉子是硬的,面條是軟的,兩者在接觸時會產生形變,而形變的方式必須符合現實世界里的物理直覺。

這正是早期生成模型在隱式物理模擬(implicit physics simulation)上的致命短板。

一個模型,在兩條視頻里,分別碰到了視頻生成最難的兩類問題:

一類是符號、語音與畫面的同步,另一類是人與物體、剛體與柔性體的交互,并把這些問題推進到一個更可用的狀態。

Gemini Omni展示的,更像是一個對世界有著更深理解的基座模型。

Gemini Omni的沖擊

截至目前,Google還沒有發布Gemini Omni的任何技術文檔,也沒有公開任何模型參數或基準測試數據。

但關于Gemini Omni的架構,目前外界存在三種解讀。

最保守的說法是,Omni只是Veo的品牌重命名,底層推理引擎沒有根本變化;

第二種說法是,Omni是在Gemini架構下重新訓練的全新視頻模型,與Veo并行但獨立;

第三種說法最激進,認為Omni是一個真正意義上的原生多模態統一模型,在單一架構里原生處理文字、圖像、視頻和音頻。

基于以上兩段視頻的表現,第三種解讀反而像是"Omni"這個命名最合理的指向,畢竟在拉丁語中,"omnis"意味著所有。

如果Omni真正打通了多模態鏈路,模型競爭的焦點就會發生根本性的轉變。

不再是誰能拍出更像電影的畫面,而是誰是內容創作者的唯一目的地。

雖然現在還不能說Gemini Omni已經是世界模型,但它至少說明,視頻生成正在逼近世界模型要解決的問題:

如何在時間中維持一個可解釋、可編輯、可連續推演的場景。

產品層面的沖擊同樣不容忽視。

今天一條AI視頻的生產鏈路,通常需要串聯語言模型寫腳本、圖像模型做故事板、視頻模型做動畫渲染、再加外部剪輯軟件做后期處理。

每一次跨工具切換,都意味著信息損耗和風格漂移。

一旦Gemini Omni對話式視頻編輯成立,這條鏈路就可能被一個對話窗口替代了。

更關鍵的是,如果Omni被放入Gemini入口,并與Gmail、Google Docs、YouTube、Android深度打通,這是字節Seedance、快手Kling在分發層面根本無法復制的生態優勢。

技術能力決定上限,生態決定規模。

Gemini Omni真正的威脅,或許不在于它今天生成的視頻有多好,而在于它把視頻生成能力放在了一個競爭對手根本進不去的地方,后者對前者幾乎構成降維打擊。

世界模型時刻或許來臨

過去幾年,生成式AI的進化路徑相對清晰。

語言模型學會了讀和寫,圖像模型學會了看和畫,視頻模型學會了動。

每一個模態都在自己的賽道上快速迭代,但它們之間始終存在一道隱形的墻。

模型知道文字,也知道圖像,但它不理解文字和圖像之間、聲音和動作之間、邏輯和畫面之間的約束關系。

如果說ChatGPT時刻定義了語言的邊界,Sora時刻定義了視頻的邊界,那Gemini Omni指向的,很可能是第一個真正意義上的"世界模型時刻"。

模型第一次開始理解,模態與模態之間在現實世界里的約束關系,而不只是分別生成它們。

這是一次質的飛躍。

當然,Gemini Omni是否真正實現了這一點,在5月19日Google I/O 2026大會之前,沒有人能給出確定的答案。

但泄露出來的視頻,給出的信號已經足夠有力。

接下來Google會在臺上說什么,我們很快就會知道。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
三星堆驚天謎團解開!7號祭祀坑挖出的這把斧子,來自外星

三星堆驚天謎團解開!7號祭祀坑挖出的這把斧子,來自外星

垛垛糖
2026-05-14 12:18:35
最新!國內油價或將迎調整

最新!國內油價或將迎調整

91.6陜西交通廣播
2026-05-16 18:50:59
陪特朗普訪華后,魯比奧態度大變,臺灣問題回答令人意想不到

陪特朗普訪華后,魯比奧態度大變,臺灣問題回答令人意想不到

三毛看世界
2026-05-18 14:52:39
上甘嶺英雄團長,結婚多年才驚覺,妻子的舅舅竟是老蔣頭號心腹!

上甘嶺英雄團長,結婚多年才驚覺,妻子的舅舅竟是老蔣頭號心腹!

阿器談史
2026-05-18 09:39:20
翟曉川:要研究對洛夫頓的防守,G2我和曾凡博的消耗效果不錯

翟曉川:要研究對洛夫頓的防守,G2我和曾凡博的消耗效果不錯

懂球帝
2026-05-18 15:27:05
臺灣星二代孫安佐又被抓,親媽狄鶯直播發瘋,一家三口沒一個正常

臺灣星二代孫安佐又被抓,親媽狄鶯直播發瘋,一家三口沒一個正常

一盅情懷
2026-05-17 17:04:18
2013年大陸最后剩下的3名軍統特務低調碰了面,笑著留下一張合影

2013年大陸最后剩下的3名軍統特務低調碰了面,笑著留下一張合影

小豫講故事
2026-05-17 06:00:20
林有,任福建省統計局副局長!上海市委政法委副書記呂南停,擬任新職!

林有,任福建省統計局副局長!上海市委政法委副書記呂南停,擬任新職!

愛意隨風起呀
2026-05-18 08:05:11
重啟打擊伊朗的行動將被賦名“大錘行動”

重啟打擊伊朗的行動將被賦名“大錘行動”

深度報
2026-05-17 22:02:32
不裝了?張柏芝謝霆鋒復合僅三天,56歲王菲被爆與男人親密照

不裝了?張柏芝謝霆鋒復合僅三天,56歲王菲被爆與男人親密照

草莓解說體育
2026-05-18 09:44:45
盧秀燕叫囂:不管特朗普說了什么,我們要對自己的“國家”有信心

盧秀燕叫囂:不管特朗普說了什么,我們要對自己的“國家”有信心

達文西看世界
2026-05-17 14:59:59
從大疆離職,被雷軍投24億,哈工大女教授造出百億獨角獸

從大疆離職,被雷軍投24億,哈工大女教授造出百億獨角獸

趣文說娛
2026-05-14 21:25:42
韓國U16被中國隊打爆!韓媒氣炸:奇恥大辱 他們還學孫興慜的慶祝

韓國U16被中國隊打爆!韓媒氣炸:奇恥大辱 他們還學孫興慜的慶祝

風過鄉
2026-05-17 18:14:23
“農村父母就是這樣被騙的”,中職女孩穿廉價警服,畢業就傻眼了

“農村父母就是這樣被騙的”,中職女孩穿廉價警服,畢業就傻眼了

妍妍教育日記
2026-05-11 18:59:23
曼城,再見!“后防頭牌”將7000萬轉投皇馬!“截胡”天才后腰

曼城,再見!“后防頭牌”將7000萬轉投皇馬!“截胡”天才后腰

頭狼追球
2026-05-17 18:39:28
8年再進分區決賽!生涯首次客場搶七贏球!全場9分,哈登躺贏啊

8年再進分區決賽!生涯首次客場搶七贏球!全場9分,哈登躺贏啊

Haviven聊球
2026-05-18 15:36:13
我在伊朗經商,娶了3位當地妻子,得知老母親病危立馬回國

我在伊朗經商,娶了3位當地妻子,得知老母親病危立馬回國

娛樂圈見解說
2026-05-17 20:58:56
長腿美女,身材真好

長腿美女,身材真好

藍色海洋009
2026-05-15 19:38:42
74歲布麗吉特:為了馬克龍,整容扮嫩撐了9年,如今終于可以解脫

74歲布麗吉特:為了馬克龍,整容扮嫩撐了9年,如今終于可以解脫

毒舌小紅帽
2026-05-14 16:09:46
暴漲17倍,上市14個交易日登頂A股一哥位置,這只新股為何這么狂

暴漲17倍,上市14個交易日登頂A股一哥位置,這只新股為何這么狂

丁丁鯉史紀
2026-05-18 14:56:17
2026-05-18 16:40:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
133721文章數 862162關注度
往期回顧 全部

科技要聞

同一公司,有人獎金是6年工資,我卻只有半年

頭條要聞

丈夫帶人當街搶娃 清華博士媽媽時隔200多天見到幼子

頭條要聞

丈夫帶人當街搶娃 清華博士媽媽時隔200多天見到幼子

體育要聞

41歲,他還想第5次踢世界杯

娛樂要聞

票房會破14億!口碑第一電影出現了

財經要聞

前4月工業生產較快增長 失業率5.3%

汽車要聞

有五座有七座全系配四驅 哈弗猛龍PLUS限時售16.18萬起

態度原創

教育
游戲
藝術
手機
公開課

教育要聞

丹鳳何以朝陽:人大附中朝陽學校高中部跨越式發展的觀察與思考

索尼不做我來做!大神歷時4年打造純原生PS2掌機

藝術要聞

嚇一跳!京東上海總部大樓歪了?最新官方把事說清楚了

手機要聞

消息稱OPPO Bubble潮玩自拍屏可吸附在手機背面,或有高刷加持

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版