无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

全網實測Gemini Omni!一句話改視頻,草圖變大片

0
分享至


新智元報道


【新智元導讀】過去AI視頻是「生成內容」,Omni直接升級成「生成世界」。它懂動能、重力、因果,還能把復雜概念瞬間可視化。人類距離「言出法隨」的夢想,還剩幾個Gemini Omni的距離?

醞釀許久的Gemini Omni來了,堪稱視頻界的Banana時刻!

今日深夜Google I/O大會中,最大的主角Gemini Omni正式亮相!


谷歌DeepMind豪言,Gemini Omni結合了Gemini推理能力與生成能力,在世界理解、多模態和視頻編輯上的重大飛躍。


據悉,這是谷歌邁向萬能生成模型的第一步:

? Gemini Omni是Google的全新世界模型

? Google表示,AI正從預測文本轉向模擬現實

? 它能生成逼真的視頻、圖像和交互式模擬

? 它展現出更強的直觀物理理解能力,包括動能和重力

? 它能將復雜概念轉化為可視化講解

? 它支持對話式視頻編輯


這次,導演的飯碗,恐怕也要丟了。

所有人的共識就是:Gemini Omni就是視頻版的「Nano Banana」。


從此,人類進入「動動嘴就能剪視頻」的時代,徹底告別「眼見為實」時代!






AI改變世界,動動嘴剪視頻

谷歌這次引領AI視頻,人類距離「言出法隨」的夢想又近一步!

除了整體能力的提升,硅谷風投巨頭a16z的合伙人Justine Moore透露,有兩個具體特點讓Gemini Omni脫穎而出:

第一,Omni將大語言模型級別的對話式編輯能力引入了視頻模型,迭代修改生成結果以及在多個場景中延展角色變得更加容易。

第二,數字分身功能,你可以創建自己的形象和聲音的克隆,并將其植入到生成的場景中。


Gemini Omni這次真實現了動動嘴編輯視頻:


Gemini Omni Flash甚至能一邊編輯一邊保留原有的動作,即便是場景切換也不在話下,非常擅長理解輸入的視頻:

更厲害的是,Omni結合了更強的物理理解和Gemini豐富的歷史、生物、文化知識,實現了從「畫得真」到「講好故事」的跨越。

Gemini Omni在處理人體特寫鏡頭和解釋生物學方面表現出色:

Gemini Omni Flash能展示蒙娜麗莎從顏料到分子、原子的縮放過程,文字渲染也非常到位。

這遠遠不止「AI生成內容」,簡直是「AI生成世界」!


為什么是Omni,而非Veo 4?

過去三年,谷歌給AI模型起名是有規律的。

Gemini 1.5、2.0、2.5。Veo 1、2、3。Nano Banana → Nano Banana 2。

數字+小數點,工整、保守,典型的工程師文化命名學。

版本號是連續的,因為路徑是連續的。

但Gemini Omni打破了這套體系。

一個全新的詞,一個不屬于任何現有產品線的名字。

在隨后的發布訪談里,Google DeepMind的Nicole Brichtova、Dumitru Erhan、Gabe Barth-Maron和Shlomi Fruchter與主持人 Logan Kilpatrick一起,介紹了Gemini Omni。


在對話中,他們探討了:

是什么讓Omni相比Veo實現了跨越式升級,

圖像、音頻和視頻參考如何結合以實現通過簡單提示進行無縫編輯,

以及Google在生成視頻方面如何踐行安全與透明。

產品負責人Nicole Brichtova,被問到「這跟Veo有什么區別」時,回答幾乎不像產品經理——

這不是Veo的升級。

我們必須從地基重新思考怎么造這個模型。


她用了一個詞:step change(階躍變化)。在訪談45分鐘里,這個詞出現了5次。

聽明白了嗎?這不是新版本。這是新物種。

而當一家工程師文化主導的公司,愿意打破自己用了三年的命名體系,只為了一個產品,這是一份公開張貼的戰略備忘錄

Veo的訓練目標是經典的text-to-video——給一段文本,生成一段視頻。

后來產品團隊希望它能接受圖像參考(給一張你的臉,生成你在視頻里),團隊的做法是:在已經訓練好的模型上,加一層條件輸入

這就是Nicole在訪談里反復強調的那個詞——「layered into」(疊加進去)

Veo的能力是補丁,不是骨架。

Omni的訓練目標,從第一天起就完全不同——「multimodal in, multimodal out」(多模態進、多模態出)。

圖像、音頻、視頻、文本,這些不是Omni訓練時的「額外條件」,它們是Omni學會「什么是世界」的原始數據

現場,Hassabis坦言「我們必須重新思考訓練目標」。

這就是的含義——他們改的不是模型,是訓練目標本身

基礎模型重做的代價是什么?

Gemini Omni聯合負責人Dumitru Erhan給了一組數字:評估階段,他們需要同時跑視頻生成、視頻編輯、圖像生成、文本對齊、音頻同步五條評估管線。


而每一條管線之間存在權衡:

優化一條,另一條可能退步。

「判斷在哪里取舍,需要極深的直覺。」

但回報是什么?回報是「涌現」

Google DeepMind研究總監Shlomi Fruchter講了兩個故事,團隊自己都沒準備好。


第一個,風格遷移

Omni的訓練數據里根本沒有「同一段視頻、不同風格」的成對樣本——這種數據本來就極難獲得。

但當用戶輸入「把這段視頻換成蠟筆畫風格」的時候,模型自己學會了。

第二個,續寫場景

某個prompt寫的是:「視頻里一個女人走在走廊上,讓一個怪物從門里出來,鏡頭轉過拐角繼續。」

這個任務他們從來沒顯式訓練過。Omni續上了故事,保留了走廊的幾何、女人的樣子、光照的方向,然后讓怪物出現,鏡頭自然轉過去。

「這不是我們設計的功能,」Dumitru在訪談里說,「這是模型自己長出來的。」

涌現(emergence)——AI 研究里最反直覺、也最讓人后背發涼的概念。它的意思是:模型能做的事,超出了訓練數據里出現過的事

而Omni 展示的涌現,不止兩個

最后,Shlomi忍不住說:「我自己最期待的事,是看用戶會發現這個模型還能做什么——因為我們自己肯定還沒發現完。」


當你換掉地基,會長出你沒蓋過的房間

視頻的Nano Banan時刻

Omni真正驚人的能力,不是從零生成,是編輯

這里有一個反直覺的發現,可能是整場訪談最有信息量的一句話。Shlomi說:

我們發現,把不同模態放在一起訓練,反而讓每個模態都變得更好

如果你讓模型學會「在視頻里生成音樂」,它必須先學會「生成音樂」本身——而這個能力,反過來讓它生成的視頻更連貫了。

請把這句話讀三遍。

它的意思是——模態之間不是疊加關系,是互相喂養關系

學會畫畫的過程,會讓模型更懂物理,因為畫畫必須懂光影和透視。

學會生成音樂的過程,會讓模型更懂時間結構,因為音樂是結構化的時間序列。

學會編輯視頻的過程,會讓模型更懂因果關系,因為編輯必須知道「動這里會影響哪里」。


這是過去十年AI行業默認路徑選擇的對立面

而要做成這件事,Google 必須解決一個之前所有視頻模型都沒解決好的問題——

怎么讓模型同時聽懂圖像、音頻、視頻、文本這四種參考,并且在編輯時不「把孩子和洗澡水一起倒掉」。

答案是:讓它們從一開始就一起學

這就是為什么Demis Hassabis說 Omni是「走向 AGI 的一步」。

不是因為它能拍電影,是因為只有真正理解世界的模型,才能編輯這個世界

他們「要把猛虎關進籠子」

真正讓Omni變得耐人尋味的,是谷歌同時發布的另一件事——他們主動給這個模型套上了一些籠子

第一道籠子:Avatar Flow。

你想讓「你自己」出現在Omni生成的視頻里,不能直接上傳一張自拍就開始。

你必須一次性注冊:多角度面孔采集 + 朗讀一串數字錄音

這套數據存成一個「Avatar」,以后所有用你臉的生成,必須調用這個 Avatar,你不能任意上傳圖像

Nicole說得很直白:「你可能會覺得我們封鎖了很多東西。」

這是一種明知會讓用戶嫌麻煩、但還是要做的語氣。

第二道籠子:強制水印。

所有Omni生成的視頻,都嵌入兩層標記:Google自家的SynthID不可見水印 + C2PA 跨平臺元數據。

哪怕視頻被剪輯、被搬運、被壓縮,水印依然能追蹤。

你上傳任何一段視頻到Gemini App,問一句「這是AI生成的嗎?」,它會查給你看。

谷歌不僅是發布了產品,更是在告訴市場:下一輪AI戰爭,不只拼聊天,不只拼搜索,而是拼誰能生成、編輯、模擬整個世界。

AI行業的舊秩序,已經開始松動。

參考資料:

https://x.com/MTSlive/status/2056895733207597244

https://x.com/joshwoodward/status/2056827449556845051

https://x.com/jerrod_lew/status/2056865054130319828

https://www.youtube.com/watch?v=5T0yRNmNRi4

編輯:KingHZ David

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
3歲被周總理帶身邊十幾年,李鵬澄清:我是養子,這說法并不正確

3歲被周總理帶身邊十幾年,李鵬澄清:我是養子,這說法并不正確

人生錄
2026-05-29 17:51:24
文班亞馬西絕創神跡成歷史首人!賽后:還沒結束 我們需4場勝利

文班亞馬西絕創神跡成歷史首人!賽后:還沒結束 我們需4場勝利

Emily說個球
2026-05-31 11:13:40
上海隊記:洛夫頓是否出戰G3賽前再決定,白邊未隨隊來到杭州

上海隊記:洛夫頓是否出戰G3賽前再決定,白邊未隨隊來到杭州

懂球帝
2026-05-31 12:05:37
遇上劉紅兵這樣的男人,別說億秦娥,哪個女的不迷糊,任誰逃不掉

遇上劉紅兵這樣的男人,別說億秦娥,哪個女的不迷糊,任誰逃不掉

草莓解說體育
2026-05-31 14:05:48
“扶弟魔”姐姐十年買房又給錢,卻被弟弟一怒砍殺:錢給得不夠花

“扶弟魔”姐姐十年買房又給錢,卻被弟弟一怒砍殺:錢給得不夠花

就一點
2026-05-31 13:47:42
廣西農機手爬梯被偷后續!事件引起重視,當事人回應,已圓滿解決

廣西農機手爬梯被偷后續!事件引起重視,當事人回應,已圓滿解決

小鋭有話說
2026-05-30 22:24:41
北京三口之家搬來新鄰居,老人放棄香港安逸晚年,丈夫斷了職業路~

北京三口之家搬來新鄰居,老人放棄香港安逸晚年,丈夫斷了職業路~

娛樂圈的筆娛君
2026-05-30 18:54:28
燃盡所有終獲歐冠亞軍,“不認命”的阿森納還有機會圓夢嗎?

燃盡所有終獲歐冠亞軍,“不認命”的阿森納還有機會圓夢嗎?

新浪財經
2026-05-31 12:14:24
家業:田榮華回京后性情大變?對父兄頤指氣使,卻把李禎推向深淵

家業:田榮華回京后性情大變?對父兄頤指氣使,卻把李禎推向深淵

白淺娛樂聊
2026-05-31 12:37:31
日本防相未料與美防長密談后,美香會即呼吁尊重中國

日本防相未料與美防長密談后,美香會即呼吁尊重中國

無心小姐姐
2026-05-31 13:19:43
銀行后院起火,最頭疼的并不是貸款放不出去而是留不住

銀行后院起火,最頭疼的并不是貸款放不出去而是留不住

職場資深秘書
2026-05-31 11:41:25
點球大戰制勝!大巴黎總分6-5阿森納 成功衛冕歐冠 槍手2將失點

點球大戰制勝!大巴黎總分6-5阿森納 成功衛冕歐冠 槍手2將失點

我愛英超
2026-05-31 03:05:29
“搖曳”,不要再讀 yáo yì了,出不起那個丑!

“搖曳”,不要再讀 yáo yì了,出不起那個丑!

未央看點
2026-05-31 12:27:08
釋永信被女徒弟爆料,凌晨4點去他房間,拿到皈依證就算師徒關系

釋永信被女徒弟爆料,凌晨4點去他房間,拿到皈依證就算師徒關系

漢史趣聞
2025-07-30 09:57:38
背叛中國、出賣孟晚舟兇手現形后,如今遭到了哪些報應?

背叛中國、出賣孟晚舟兇手現形后,如今遭到了哪些報應?

混沌錄
2026-05-30 23:51:06
清算!MVP投票!沒投亞歷山大的、都被曝光了

清算!MVP投票!沒投亞歷山大的、都被曝光了

林子說事
2026-05-30 19:29:38
《主角》大結局!憶秦娥痛失所愛,胡三元圓滿,唯獨楚嘉禾意難平

《主角》大結局!憶秦娥痛失所愛,胡三元圓滿,唯獨楚嘉禾意難平

鄉野小珥
2026-05-30 19:31:51
顛覆認知!近2萬人研究:每周一次性生活,男性癌癥風險降低69%

顛覆認知!近2萬人研究:每周一次性生活,男性癌癥風險降低69%

科技虎虎
2026-05-31 10:09:27
性生活是不是人的剛需?

性生活是不是人的剛需?

宇宙時空
2026-05-31 12:30:18
如今看似已“銷聲匿跡”的宋祖英,其實早已過上另一種人生

如今看似已“銷聲匿跡”的宋祖英,其實早已過上另一種人生

觀史搜尋著
2026-05-31 13:48:40
2026-05-31 14:43:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15349文章數 66894關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

頭條要聞

男子懷疑妻子出軌在車上裝定位:兄弟不給我借錢給她借

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

健康
親子
數碼
手機
公開課

嘗試干細胞療法如何避免踩坑?

親子要聞

我國兒童新藥連續五年增長,2025年批準138個

數碼要聞

球星亞馬爾預熱Beats Studio Pro 2耳機:全新設計,粉色配色

手機要聞

微軟宣布下周攜手英偉達開啟PC新時代;蘋果iPhone 18機模曝光

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版