![]()
新智元報道
![]()
【新智元導讀】過去AI視頻是「生成內容」,Omni直接升級成「生成世界」。它懂動能、重力、因果,還能把復雜概念瞬間可視化。人類距離「言出法隨」的夢想,還剩幾個Gemini Omni的距離?
醞釀許久的Gemini Omni來了,堪稱視頻界的Banana時刻!
今日深夜Google I/O大會中,最大的主角Gemini Omni正式亮相!
![]()
谷歌DeepMind豪言,Gemini Omni結合了Gemini推理能力與生成能力,在世界理解、多模態和視頻編輯上的重大飛躍。
![]()
據悉,這是谷歌邁向萬能生成模型的第一步:
? Gemini Omni是Google的全新世界模型
? Google表示,AI正從預測文本轉向模擬現實
? 它能生成逼真的視頻、圖像和交互式模擬
? 它展現出更強的直觀物理理解能力,包括動能和重力
? 它能將復雜概念轉化為可視化講解
? 它支持對話式視頻編輯
![]()
這次,導演的飯碗,恐怕也要丟了。
所有人的共識就是:Gemini Omni就是視頻版的「Nano Banana」。
![]()
從此,人類進入「動動嘴就能剪視頻」的時代,徹底告別「眼見為實」時代!
![]()
![]()
![]()
![]()
![]()
AI改變世界,動動嘴剪視頻
谷歌這次引領AI視頻,人類距離「言出法隨」的夢想又近一步!
除了整體能力的提升,硅谷風投巨頭a16z的合伙人Justine Moore透露,有兩個具體特點讓Gemini Omni脫穎而出:
第一,Omni將大語言模型級別的對話式編輯能力引入了視頻模型,迭代修改生成結果以及在多個場景中延展角色變得更加容易。
第二,數字分身功能,你可以創建自己的形象和聲音的克隆,并將其植入到生成的場景中。
![]()
Gemini Omni這次真實現了動動嘴編輯視頻:
![]()
Gemini Omni Flash甚至能一邊編輯一邊保留原有的動作,即便是場景切換也不在話下,非常擅長理解輸入的視頻:
更厲害的是,Omni結合了更強的物理理解和Gemini豐富的歷史、生物、文化知識,實現了從「畫得真」到「講好故事」的跨越。
Gemini Omni在處理人體特寫鏡頭和解釋生物學方面表現出色:
Gemini Omni Flash能展示蒙娜麗莎從顏料到分子、原子的縮放過程,文字渲染也非常到位。
這遠遠不止「AI生成內容」,簡直是「AI生成世界」!
![]()
為什么是Omni,而非Veo 4?
過去三年,谷歌給AI模型起名是有規律的。
Gemini 1.5、2.0、2.5。Veo 1、2、3。Nano Banana → Nano Banana 2。
數字+小數點,工整、保守,典型的工程師文化命名學。
版本號是連續的,因為路徑是連續的。
但Gemini Omni打破了這套體系。
一個全新的詞,一個不屬于任何現有產品線的名字。
在隨后的發布訪談里,Google DeepMind的Nicole Brichtova、Dumitru Erhan、Gabe Barth-Maron和Shlomi Fruchter與主持人 Logan Kilpatrick一起,介紹了Gemini Omni。
![]()
在對話中,他們探討了:
是什么讓Omni相比Veo實現了跨越式升級,
圖像、音頻和視頻參考如何結合以實現通過簡單提示進行無縫編輯,
以及Google在生成視頻方面如何踐行安全與透明。
產品負責人Nicole Brichtova,被問到「這跟Veo有什么區別」時,回答幾乎不像產品經理——
這不是Veo的升級。
我們必須從地基重新思考怎么造這個模型。
![]()
她用了一個詞:step change(階躍變化)。在訪談45分鐘里,這個詞出現了5次。
聽明白了嗎?這不是新版本。這是新物種。
而當一家工程師文化主導的公司,愿意打破自己用了三年的命名體系,只為了一個產品,這是一份公開張貼的戰略備忘錄。
Veo的訓練目標是經典的text-to-video——給一段文本,生成一段視頻。
后來產品團隊希望它能接受圖像參考(給一張你的臉,生成你在視頻里),團隊的做法是:在已經訓練好的模型上,加一層條件輸入。
這就是Nicole在訪談里反復強調的那個詞——「layered into」(疊加進去)。
Veo的能力是補丁,不是骨架。
Omni的訓練目標,從第一天起就完全不同——「multimodal in, multimodal out」(多模態進、多模態出)。
圖像、音頻、視頻、文本,這些不是Omni訓練時的「額外條件」,它們是Omni學會「什么是世界」的原始數據。
現場,Hassabis坦言「我們必須重新思考訓練目標」。
這就是的含義——他們改的不是模型,是訓練目標本身。
基礎模型重做的代價是什么?
Gemini Omni聯合負責人Dumitru Erhan給了一組數字:評估階段,他們需要同時跑視頻生成、視頻編輯、圖像生成、文本對齊、音頻同步五條評估管線。
![]()
而每一條管線之間存在權衡:
優化一條,另一條可能退步。
「判斷在哪里取舍,需要極深的直覺。」
但回報是什么?回報是「涌現」。
Google DeepMind研究總監Shlomi Fruchter講了兩個故事,團隊自己都沒準備好。
![]()
第一個,風格遷移。
Omni的訓練數據里根本沒有「同一段視頻、不同風格」的成對樣本——這種數據本來就極難獲得。
但當用戶輸入「把這段視頻換成蠟筆畫風格」的時候,模型自己學會了。
第二個,續寫場景。
某個prompt寫的是:「視頻里一個女人走在走廊上,讓一個怪物從門里出來,鏡頭轉過拐角繼續。」
這個任務他們從來沒顯式訓練過。Omni續上了故事,保留了走廊的幾何、女人的樣子、光照的方向,然后讓怪物出現,鏡頭自然轉過去。
「這不是我們設計的功能,」Dumitru在訪談里說,「這是模型自己長出來的。」
涌現(emergence)——AI 研究里最反直覺、也最讓人后背發涼的概念。它的意思是:模型能做的事,超出了訓練數據里出現過的事。
而Omni 展示的涌現,不止兩個。
最后,Shlomi忍不住說:「我自己最期待的事,是看用戶會發現這個模型還能做什么——因為我們自己肯定還沒發現完。」
![]()
當你換掉地基,會長出你沒蓋過的房間。
視頻的Nano Banan時刻
Omni真正驚人的能力,不是從零生成,是編輯。
這里有一個反直覺的發現,可能是整場訪談最有信息量的一句話。Shlomi說:
我們發現,把不同模態放在一起訓練,反而讓每個模態都變得更好。
如果你讓模型學會「在視頻里生成音樂」,它必須先學會「生成音樂」本身——而這個能力,反過來讓它生成的視頻更連貫了。
請把這句話讀三遍。
它的意思是——模態之間不是疊加關系,是互相喂養關系。
學會畫畫的過程,會讓模型更懂物理,因為畫畫必須懂光影和透視。
學會生成音樂的過程,會讓模型更懂時間結構,因為音樂是結構化的時間序列。
學會編輯視頻的過程,會讓模型更懂因果關系,因為編輯必須知道「動這里會影響哪里」。
![]()
這是過去十年AI行業默認路徑選擇的對立面。
而要做成這件事,Google 必須解決一個之前所有視頻模型都沒解決好的問題——
怎么讓模型同時聽懂圖像、音頻、視頻、文本這四種參考,并且在編輯時不「把孩子和洗澡水一起倒掉」。
答案是:讓它們從一開始就一起學。
這就是為什么Demis Hassabis說 Omni是「走向 AGI 的一步」。
不是因為它能拍電影,是因為只有真正理解世界的模型,才能編輯這個世界。
他們「要把猛虎關進籠子」
真正讓Omni變得耐人尋味的,是谷歌同時發布的另一件事——他們主動給這個模型套上了一些籠子。
第一道籠子:Avatar Flow。
你想讓「你自己」出現在Omni生成的視頻里,不能直接上傳一張自拍就開始。
你必須一次性注冊:多角度面孔采集 + 朗讀一串數字錄音。
這套數據存成一個「Avatar」,以后所有用你臉的生成,必須調用這個 Avatar,你不能任意上傳圖像。
Nicole說得很直白:「你可能會覺得我們封鎖了很多東西。」
這是一種明知會讓用戶嫌麻煩、但還是要做的語氣。
第二道籠子:強制水印。
所有Omni生成的視頻,都嵌入兩層標記:Google自家的SynthID不可見水印 + C2PA 跨平臺元數據。
哪怕視頻被剪輯、被搬運、被壓縮,水印依然能追蹤。
你上傳任何一段視頻到Gemini App,問一句「這是AI生成的嗎?」,它會查給你看。
谷歌不僅是發布了產品,更是在告訴市場:下一輪AI戰爭,不只拼聊天,不只拼搜索,而是拼誰能生成、編輯、模擬整個世界。
AI行業的舊秩序,已經開始松動。
參考資料:
https://x.com/MTSlive/status/2056895733207597244
https://x.com/joshwoodward/status/2056827449556845051
https://x.com/jerrod_lew/status/2056865054130319828
https://www.youtube.com/watch?v=5T0yRNmNRi4
編輯:KingHZ David
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.