无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

全網實測Gemini Omni!一句話改視頻,草圖變大片

0
分享至


新智元報道


【新智元導讀】過去AI視頻是「生成內容」,Omni直接升級成「生成世界」。它懂動能、重力、因果,還能把復雜概念瞬間可視化。人類距離「言出法隨」的夢想,還剩幾個Gemini Omni的距離?

醞釀許久的Gemini Omni來了,堪稱視頻界的Banana時刻!

今日深夜Google I/O大會中,最大的主角Gemini Omni正式亮相!


谷歌DeepMind豪言,Gemini Omni結合了Gemini推理能力與生成能力,在世界理解、多模態和視頻編輯上的重大飛躍。


據悉,這是谷歌邁向萬能生成模型的第一步:

? Gemini Omni是Google的全新世界模型

? Google表示,AI正從預測文本轉向模擬現實

? 它能生成逼真的視頻、圖像和交互式模擬

? 它展現出更強的直觀物理理解能力,包括動能和重力

? 它能將復雜概念轉化為可視化講解

? 它支持對話式視頻編輯


這次,導演的飯碗,恐怕也要丟了。

所有人的共識就是:Gemini Omni就是視頻版的「Nano Banana」。


從此,人類進入「動動嘴就能剪視頻」的時代,徹底告別「眼見為實」時代!






AI改變世界,動動嘴剪視頻

谷歌這次引領AI視頻,人類距離「言出法隨」的夢想又近一步!

除了整體能力的提升,硅谷風投巨頭a16z的合伙人Justine Moore透露,有兩個具體特點讓Gemini Omni脫穎而出:

第一,Omni將大語言模型級別的對話式編輯能力引入了視頻模型,迭代修改生成結果以及在多個場景中延展角色變得更加容易。

第二,數字分身功能,你可以創建自己的形象和聲音的克隆,并將其植入到生成的場景中。


Gemini Omni這次真實現了動動嘴編輯視頻:


Gemini Omni Flash甚至能一邊編輯一邊保留原有的動作,即便是場景切換也不在話下,非常擅長理解輸入的視頻:

更厲害的是,Omni結合了更強的物理理解和Gemini豐富的歷史、生物、文化知識,實現了從「畫得真」到「講好故事」的跨越。

Gemini Omni在處理人體特寫鏡頭和解釋生物學方面表現出色:

Gemini Omni Flash能展示蒙娜麗莎從顏料到分子、原子的縮放過程,文字渲染也非常到位。

這遠遠不止「AI生成內容」,簡直是「AI生成世界」!


為什么是Omni,而非Veo 4?

過去三年,谷歌給AI模型起名是有規律的。

Gemini 1.5、2.0、2.5。Veo 1、2、3。Nano Banana → Nano Banana 2。

數字+小數點,工整、保守,典型的工程師文化命名學。

版本號是連續的,因為路徑是連續的。

但Gemini Omni打破了這套體系。

一個全新的詞,一個不屬于任何現有產品線的名字。

在隨后的發布訪談里,Google DeepMind的Nicole Brichtova、Dumitru Erhan、Gabe Barth-Maron和Shlomi Fruchter與主持人 Logan Kilpatrick一起,介紹了Gemini Omni。


在對話中,他們探討了:

是什么讓Omni相比Veo實現了跨越式升級,

圖像、音頻和視頻參考如何結合以實現通過簡單提示進行無縫編輯,

以及Google在生成視頻方面如何踐行安全與透明。

產品負責人Nicole Brichtova,被問到「這跟Veo有什么區別」時,回答幾乎不像產品經理——

這不是Veo的升級。

我們必須從地基重新思考怎么造這個模型。


她用了一個詞:step change(階躍變化)。在訪談45分鐘里,這個詞出現了5次。

聽明白了嗎?這不是新版本。這是新物種。

而當一家工程師文化主導的公司,愿意打破自己用了三年的命名體系,只為了一個產品,這是一份公開張貼的戰略備忘錄

Veo的訓練目標是經典的text-to-video——給一段文本,生成一段視頻。

后來產品團隊希望它能接受圖像參考(給一張你的臉,生成你在視頻里),團隊的做法是:在已經訓練好的模型上,加一層條件輸入

這就是Nicole在訪談里反復強調的那個詞——「layered into」(疊加進去)

Veo的能力是補丁,不是骨架。

Omni的訓練目標,從第一天起就完全不同——「multimodal in, multimodal out」(多模態進、多模態出)。

圖像、音頻、視頻、文本,這些不是Omni訓練時的「額外條件」,它們是Omni學會「什么是世界」的原始數據

現場,Hassabis坦言「我們必須重新思考訓練目標」。

這就是的含義——他們改的不是模型,是訓練目標本身

基礎模型重做的代價是什么?

Gemini Omni聯合負責人Dumitru Erhan給了一組數字:評估階段,他們需要同時跑視頻生成、視頻編輯、圖像生成、文本對齊、音頻同步五條評估管線。


而每一條管線之間存在權衡:

優化一條,另一條可能退步。

「判斷在哪里取舍,需要極深的直覺。」

但回報是什么?回報是「涌現」

Google DeepMind研究總監Shlomi Fruchter講了兩個故事,團隊自己都沒準備好。


第一個,風格遷移

Omni的訓練數據里根本沒有「同一段視頻、不同風格」的成對樣本——這種數據本來就極難獲得。

但當用戶輸入「把這段視頻換成蠟筆畫風格」的時候,模型自己學會了。

第二個,續寫場景

某個prompt寫的是:「視頻里一個女人走在走廊上,讓一個怪物從門里出來,鏡頭轉過拐角繼續。」

這個任務他們從來沒顯式訓練過。Omni續上了故事,保留了走廊的幾何、女人的樣子、光照的方向,然后讓怪物出現,鏡頭自然轉過去。

「這不是我們設計的功能,」Dumitru在訪談里說,「這是模型自己長出來的。」

涌現(emergence)——AI 研究里最反直覺、也最讓人后背發涼的概念。它的意思是:模型能做的事,超出了訓練數據里出現過的事

而Omni 展示的涌現,不止兩個

最后,Shlomi忍不住說:「我自己最期待的事,是看用戶會發現這個模型還能做什么——因為我們自己肯定還沒發現完。」


當你換掉地基,會長出你沒蓋過的房間

視頻的Nano Banan時刻

Omni真正驚人的能力,不是從零生成,是編輯

這里有一個反直覺的發現,可能是整場訪談最有信息量的一句話。Shlomi說:

我們發現,把不同模態放在一起訓練,反而讓每個模態都變得更好

如果你讓模型學會「在視頻里生成音樂」,它必須先學會「生成音樂」本身——而這個能力,反過來讓它生成的視頻更連貫了。

請把這句話讀三遍。

它的意思是——模態之間不是疊加關系,是互相喂養關系

學會畫畫的過程,會讓模型更懂物理,因為畫畫必須懂光影和透視。

學會生成音樂的過程,會讓模型更懂時間結構,因為音樂是結構化的時間序列。

學會編輯視頻的過程,會讓模型更懂因果關系,因為編輯必須知道「動這里會影響哪里」。


這是過去十年AI行業默認路徑選擇的對立面

而要做成這件事,Google 必須解決一個之前所有視頻模型都沒解決好的問題——

怎么讓模型同時聽懂圖像、音頻、視頻、文本這四種參考,并且在編輯時不「把孩子和洗澡水一起倒掉」。

答案是:讓它們從一開始就一起學

這就是為什么Demis Hassabis說 Omni是「走向 AGI 的一步」。

不是因為它能拍電影,是因為只有真正理解世界的模型,才能編輯這個世界

他們「要把猛虎關進籠子」

真正讓Omni變得耐人尋味的,是谷歌同時發布的另一件事——他們主動給這個模型套上了一些籠子

第一道籠子:Avatar Flow。

你想讓「你自己」出現在Omni生成的視頻里,不能直接上傳一張自拍就開始。

你必須一次性注冊:多角度面孔采集 + 朗讀一串數字錄音

這套數據存成一個「Avatar」,以后所有用你臉的生成,必須調用這個 Avatar,你不能任意上傳圖像

Nicole說得很直白:「你可能會覺得我們封鎖了很多東西。」

這是一種明知會讓用戶嫌麻煩、但還是要做的語氣。

第二道籠子:強制水印。

所有Omni生成的視頻,都嵌入兩層標記:Google自家的SynthID不可見水印 + C2PA 跨平臺元數據。

哪怕視頻被剪輯、被搬運、被壓縮,水印依然能追蹤。

你上傳任何一段視頻到Gemini App,問一句「這是AI生成的嗎?」,它會查給你看。

谷歌不僅是發布了產品,更是在告訴市場:下一輪AI戰爭,不只拼聊天,不只拼搜索,而是拼誰能生成、編輯、模擬整個世界。

AI行業的舊秩序,已經開始松動。

參考資料:

https://x.com/MTSlive/status/2056895733207597244

https://x.com/joshwoodward/status/2056827449556845051

https://x.com/jerrod_lew/status/2056865054130319828

https://www.youtube.com/watch?v=5T0yRNmNRi4

編輯:KingHZ David

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
普京專機抵達北京,只在中國待24小時,卻點名要見一位中國男孩

普京專機抵達北京,只在中國待24小時,卻點名要見一位中國男孩

史行途
2026-05-20 08:03:50
上海一大學生暴躁反應擾亂課堂教學 校方:已開展調查,會出通報

上海一大學生暴躁反應擾亂課堂教學 校方:已開展調查,會出通報

封面新聞
2026-05-20 15:16:28
上海日料店發生持刀傷人事件 2名日本人送醫治療

上海日料店發生持刀傷人事件 2名日本人送醫治療

東瀛萬事通
2026-05-20 14:48:56
悲催!東莞一大廠拉下永別序幕,投資超1億美元,巔峰時員工1.3萬

悲催!東莞一大廠拉下永別序幕,投資超1億美元,巔峰時員工1.3萬

火山詩話
2026-05-20 07:43:38
汪小菲為流量曬10歲兒子正臉!眉眼復刻大S,全然不管兒子凸牙問題

汪小菲為流量曬10歲兒子正臉!眉眼復刻大S,全然不管兒子凸牙問題

八卦王者
2026-05-19 14:06:54
這么快就打臉了…

這么快就打臉了…

子說一點
2026-05-19 18:25:04
520大瓜!曝網紅白冰婚內出軌,大尺度聊天曝光,女方錄音威脅

520大瓜!曝網紅白冰婚內出軌,大尺度聊天曝光,女方錄音威脅

180視角
2026-05-20 13:13:48
“不搶不是英吉利”,老牌帝國對中企的“掠奪”刷新下限

“不搶不是英吉利”,老牌帝國對中企的“掠奪”刷新下限

觀察者網
2026-05-20 11:12:37
中國GDP全球排名第二,但居民消費率倒數第三,2023年僅39.6%。所以,錢都去哪了?

中國GDP全球排名第二,但居民消費率倒數第三,2023年僅39.6%。所以,錢都去哪了?

六子吃涼粉
2026-05-20 11:27:44
賴清德想與特朗普對話?外交部回應

賴清德想與特朗普對話?外交部回應

中國網
2026-05-20 16:28:01
有人注意過上交大樊同學的座右銘嗎?

有人注意過上交大樊同學的座右銘嗎?

老張侃詩詞
2026-05-20 14:04:14
越扒越嚇人!福建楊梅再添實錘,不止是商戶投毒,還有一地更惡劣

越扒越嚇人!福建楊梅再添實錘,不止是商戶投毒,還有一地更惡劣

三農雷哥
2026-05-18 20:34:19
浮嶋敏:我是日本人但我也是中國隊教練;有針對日本隊的竅門

浮嶋敏:我是日本人但我也是中國隊教練;有針對日本隊的竅門

懂球帝
2026-05-20 10:50:55
博主揭國產芯片大廠亂象,近70%工作靠外包,自研乏力內耗嚴重

博主揭國產芯片大廠亂象,近70%工作靠外包,自研乏力內耗嚴重

風向觀察
2026-05-19 23:55:25
時隔兩年半回歸巴西國家隊,34歲內馬爾哭了 主教練:哪怕上場1分鐘,他都能幫球隊

時隔兩年半回歸巴西國家隊,34歲內馬爾哭了 主教練:哪怕上場1分鐘,他都能幫球隊

紅星新聞
2026-05-20 15:59:30
200萬!華為系“邁巴赫”,6月正式上市!

200萬!華為系“邁巴赫”,6月正式上市!

新浪財經
2026-05-19 20:53:18
美記者挖坑:中國統一臺灣,俄會不會插手?普京一個回懟太解氣了

美記者挖坑:中國統一臺灣,俄會不會插手?普京一個回懟太解氣了

清沐執筆
2026-05-20 11:46:30
跑馬拉松跑出高潮,是一種什么體驗?

跑馬拉松跑出高潮,是一種什么體驗?

馬拉松跑步健身
2026-05-19 21:38:40
身家320億元,時尚巨頭Mango創始人墜崖身亡,其子涉嫌謀殺被逮捕:事發前3次勘察現場,因被裁撤對父生恨

身家320億元,時尚巨頭Mango創始人墜崖身亡,其子涉嫌謀殺被逮捕:事發前3次勘察現場,因被裁撤對父生恨

揚子晚報
2026-05-20 14:46:21
明天仍有降雨!廣東加長版“龍舟水” 即將開啟

明天仍有降雨!廣東加長版“龍舟水” 即將開啟

廣東發布
2026-05-20 15:36:43
2026-05-20 18:27:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15261文章數 66877關注度
往期回顧 全部

科技要聞

一文看懂谷歌I/O2026:谷歌打響智能體大戰

頭條要聞

捷克總理重申政府將堅定奉行一個中國政策 外交部表態

頭條要聞

捷克總理重申政府將堅定奉行一個中國政策 外交部表態

體育要聞

不再美麗的阿森納,終于成為英超冠軍

娛樂要聞

王菲“沒事兒”,成年人學不來的松弛

財經要聞

白酒榜|汾酒營收凈利雙增 口子窖"造富"

汽車要聞

煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

態度原創

親子
房產
數碼
公開課
軍事航空

親子要聞

職場媽媽和全職媽媽帶的娃,上小學就能看出來,三方面差距很明顯

房產要聞

別被中介帶了節奏,你的房子可能比你想的值錢

數碼要聞

米粉狂喜!佳能 61 款打印機全面接入米家,小米生態再添硬核盟友

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄媒盛贊中國軍人:身姿挺拔 站如松柏

無障礙瀏覽 進入關懷版