AI視頻生成的天花板要被捅破了?就在Google I/O 2026開幕前,兩條還沒正式發布的Gemini Omni生成視頻悄悄泄露,整個社交媒體直接炸了,Reddit和X上全是“這不可能是現有技術水平”的驚呼!
沒有官方預告,沒有發布會造勢,就靠兩條日常場景的視頻,讓見慣了AI內容的技術圈集體破防,到底發生了什么?
泄露的兩條視頻看起來平平無奇:一條是教授站在黑板前推導三角恒等式,另一條是兩個男士在海邊餐廳吃意大利面。但懂行的人都知道,這背后藏著AI視頻生成的三大突破,以前從來沒人能同時做到。
先說教授講課的視頻,生成它只用了一句話的指令:“一位教授在傳統黑板上寫出三角恒等式的數學證明,同時用語言解釋他當前正在推導的步驟。”
沒有多輪對話,沒有分步驟控制,結果卻讓人大吃一驚:教授的板書不僅工整,推導過程在數學上完全正確,不是隨便畫一堆像公式的符號,而是真的懂數學邏輯,知道下一步該寫什么。
![]()
更絕的是手部動作:AI生成的手向來是重災區,要么手指數量不對,要么關節扭曲,連拿個東西都像在抓空氣。
但這里的教授,粉筆握得穩穩的,寫字時手腕的轉動、粉筆和黑板的接觸角度,都跟真人一模一樣。最被低估的是時序同步:教授寫某個步驟的同時,嘴里講的正好是這個步驟,板書進度和語音完全對齊,這不是簡單的音視頻拼接,而是模型真的理解“講課”這件事的邏輯。
這三件事同時成立,說明模型不再是零散地生成畫面和聲音,而是對“教授講課”這個場景有了整體性的理解:它知道現實中這件事該是什么樣子,各個元素之間有什么約束關系。
另一條海邊餐廳的視頻,更是直接打臉了過去的AI視頻。2024年,一段“Will Smith吃意大利面”的AI視頻曾被群嘲:手指數量不對,面條像活物一樣扭動,叉子和嘴的空間關系完全混亂,成了早期AI視頻的“恥辱柱”。
而Gemini Omni生成的海邊餐廳視頻,用戶評論是“令人難以置信地真實”。這背后考驗的是模型對剛體和柔性體交互的建模能力:叉子是硬的,面條是軟的,兩者接觸時的形變必須符合物理直覺。
以前的AI根本做不到這一點,但Gemini Omni不僅讓叉子正確叉起面條,還讓面條的彎曲、纏繞都自然得像真人在吃,這意味著模型開始理解現實世界的物理規則了。
![]()
現在做一條AI視頻,要先讓語言模型寫腳本,再用圖像模型做故事板,最后用視頻模型渲染,還要后期剪輯,每一步都有信息損耗。但如果Gemini Omni能通過對話直接生成視頻,整個鏈路就被簡化成一個對話窗口,效率提升不是一星半點。
更可怕的是生態優勢:如果Gemini Omni和Gmail、Google Docs、YouTube、Android深度打通,其他競爭對手根本沒法復制。技術決定上限,生態決定規模,這才是Gemini Omni最致命的威脅。
ChatGPT定義了語言的邊界,Sora定義了視頻的邊界,而Gemini Omni指向的,可能是第一個“世界模型時刻”:模型開始理解現實世界里各個模態之間的聯系,而不是分別生成它們。這是質的飛躍,意味著AI離“理解世界”又近了一步。
當然,Gemini Omni到底是不是真的實現了這些,還要等5月19日Google I/O大會揭曉。但泄露的視頻已經給出了足夠強烈的信號:AI視頻生成的游戲規則,可能要變了。
你覺得Gemini Omni能成為AI視頻的下一個顛覆者嗎?5月19日的Google I/O大會會不會放出更多猛料?評論區聊聊你的預測,別忘了轉發給身邊關注AI的朋友,這可能是見證行業拐點的時刻!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.