![]()
新智元報道
![]()
【新智元導讀】谷歌深夜狂甩王炸:4秒極速出圖,成本僅需兩毛!新模型Nano Banana 2 Lite聯(lián)手視頻神器Omni Flash,徹底打通圖生視頻流水線,引爆AI創(chuàng)作效率革命。
昨晚,Google DeepMind悄然上線兩枚重磅殺器。
![]()
Nano Banana 2 Lite(gemini-3.1-flash-lite-image),堪稱史上最快最便宜的文生圖模型,4秒生圖,每張1K分辨率高清圖成本低至0.24元。
Gemini Omni Flash則是面向開發(fā)者的高質量視頻生成模型,支持圖、文、視頻混合輸入,帶來史詩級的「對話式視頻編輯」體驗!
不過,要說谷歌這次真正的必殺技,是把這兩個模型通過Interactions API強強串聯(lián)。
Lite高速生圖,Omni Flash把圖動畫化,配合Interactions API最多可連續(xù)疊三次編輯。
這樣,一條「文字??生圖??生視頻」的創(chuàng)作流水線,就這么被谷歌打通了!
性價比之王Nano Banana:
4秒一張圖,兩毛多成本
先看主角之一:Nano Banana 2 Lite(gemini-3.1-flash-lite-image) 。
這是Nano Banana家族中速度最快、成本最優(yōu)的圖像模型。
速度有多快?4秒出圖。
![]()
你輸入一段文字描述,它能在4秒內(nèi)生成一張1024x1024的圖像。
![]()
對于需要快速迭代創(chuàng)意、頻繁調(diào)整畫面的開發(fā)者來說,這個速度可以即時反饋——不再需要盯著進度條發(fā)呆,創(chuàng)作節(jié)奏可以快得像聊天一樣自然。
而它的成本,也是低至每1K張圖像僅需0.034美元,換算成人民幣,大約兩毛多一張。
![]()
所以,我們可以大規(guī)模批量生成圖像,而不用擔心預算爆炸。谷歌官方直接給出了硬核答復:非但不掉隊,反而建議初代用戶直接升級替換!
關鍵性能指標上,Lite版本在三個方面保持了競爭力:
提示詞遵循:你說什么,它畫什么,不會理解偏差
角色一致性:多張圖中同一角色保持穩(wěn)定的形象特征,非常適合AI漫畫或者連載IP
圖中文字清晰度:生成的圖像里,文字可讀、不模糊,「讓AI在圖里寫字」這個行業(yè)難題直接被攻克
這意味著,即便它主打速度和成本,該有的基本功一樣沒落下。
![]()
![]()
將 Nano Banana 2 和 2 Lite 與競爭對手的 AI 圖像模型進行性能基準測試,評估生成/編輯質量(Elo 分數(shù))、處理延遲和每張 1K 分辨率圖像的成本之間的權衡
理解Nano Banana家族:
四款模型,各有所長
谷歌這次把Nano Banana家族做了一個清晰的定位分層,方便開發(fā)者按需選擇:
![]()
Nano Banana 2 Lite (Gemini 3.1 Flash Lite Image):速度狂魔,專為近乎實時的超大批量工作流設計,追求極致低延遲。
Nano Banana 2 (Gemini 3.1 Flash Image):六邊形戰(zhàn)士,通用型主力軍,在較低延遲下提供極高質量,性價比平衡的最佳選擇。
Nano Banana Pro (Gemini 3 Pro Image):專業(yè)大師,專為復雜的專業(yè)級使用場景優(yōu)化,提供最強大的控制力和高級推理能力,適合對精度要求遠大于速度的任務。
Nano Banana (初代,Gemini 2.5 Flash Image):舊時代的殘黨傳統(tǒng)型號,官方建議:別用了,趕緊升級到2 Lite版享受降維打擊!
目前,Nano Banana 2 Lite 已經(jīng)全面登陸 Google AI Studio、Gemini API 以及 Gemini 企業(yè)代理平臺。
更令人驚喜的是,它實際上迅速滲透到谷歌的 C 端全家桶中,包括搜索 AI 模式、Gemini App、NotebookLM、Google Photos 甚至 Google Ads。
所以,普通用戶很快也能在日常產(chǎn)品里體驗到4秒出圖的速度感!
![]()
![]()
一場效率的狂歡,已經(jīng)拉開帷幕。
測評機構Arena.ai,也已經(jīng)給出評分——得分高達1251分!
![]()
![]()
另一個研究機構也在提前體驗后給出高分。
![]()
并且,已經(jīng)有網(wǎng)友給出實測。
![]()
![]()
另一位網(wǎng)友測試后表示,從速度上來說,Nano Banana 2 Lite讓人印象深刻。
![]()
![]()
Gemini Omni Flash:首度向開發(fā)者開放的AI視頻生成模型
如果說Nano Banana 2 Lite是高效的制圖工廠,那么這次首度向開發(fā)者開放的Gemini Omni Flash,就是引爆好萊塢的魔法引擎!
![]()
![]()
這款模型在今年Google I/O大會上首次亮相,當時就引發(fā)了不小的關注。如今,它正式向開發(fā)者開放——通過Gemini API和Google AI Studio即可調(diào)用。
定價與 Veo 3.1 Fast 持平,視頻輸出0.10美元/秒,它帶來的絕不僅僅是生成視頻,而是顛覆傳統(tǒng)的視頻編輯方式。
Omni Flas的核心能力是:高質量視頻生成 + 對話式編輯。
支持以下輸入組合:
純文本 → 生成視頻
文本 + 圖像 → 生成視頻
文本 + 圖像 + 視頻 → 生成視頻
你可以在對話中用自然語言反復修改、調(diào)整視頻內(nèi)容——就像跟一個視頻剪輯師聊天一樣。
目前,它僅支持10秒視頻生成,更長的時長將在后續(xù)版本推出。
插入視頻
Omni Flash的四大亮點:
① 對話式視頻編輯
Omni Flash 最大的亮點,就在于可以用自然語言就能修改視頻——「把背景換成黃昏」「讓主角看向左邊」「加快動作節(jié)奏」,不需要復雜的剪輯軟件操作。
這就是大模型多模態(tài)推理能力對傳統(tǒng)視頻剪輯的降維打擊。
② 多模態(tài)參考輸入
Omni Flash 支持真正的「大雜燴」式輸入。你可以同時丟給它一段文字、一張圖片、甚至一段短視頻,生成符合要求的視頻。
同時輸入文本、圖像、視頻三種模態(tài)的信息,模型就能更理解你的創(chuàng)作意圖。
③ 真實世界知識的視頻大腦
很多視頻生成大模型容易出現(xiàn)反人類物理常識的「詭異畫面」(比如人長出六根手指、水往高處流)。但Omni Flash背后依靠的是Gemini龐大的知識庫,精通歷史、生物學和敘事邏輯!
生成「中世紀騎士沖鋒」,它會調(diào)用歷史知識;生成細胞分裂,它會遵循生物學常識。
④ 文字與動作同步
通過簡單的提示詞,就能讓文字、圖形與視頻中的動作產(chǎn)生聯(lián)動——比如在畫面左上角顯示NEW字樣,同時鏡頭拉近。
同時,谷歌官方公開了一些限制,方便開發(fā)者避坑:
-僅支持10秒視頻生成
-暫不支持上傳音頻參考
-場景擴展功能暫未開放
-視頻參考輸入雖已在API中支持,但當前版本處理尚不完善
-場景切換或平移時的角色一致性存在一定局限
但是,作為一個定價僅0.10美元/秒的生產(chǎn)力工具,Omni Flash已經(jīng)展現(xiàn)出可怕的商業(yè)潛力。
有人實測了替換視頻中角色的功能。
![]()
真正的殺招:兩者串聯(lián),一條龍創(chuàng)作
單獨拿出一個模型,或許只是工具的升級。
然而谷歌的真正的意圖是,讓兩者串聯(lián)使用!
![]()
官方推薦的玩法是,借助 Interactions API,將 Nano Banana 2 Lite 和 Gemini Omni Flash 串聯(lián)起來,打造出「秒級生圖 + 順滑生視頻」的多輪交互體驗!
在這個工作流中,先用Nano Banana 2 Lite 快速生成一張圖像;隨后,把這張圖作為參考,傳給Gemini Omni Flash,生成一段高質量視頻。
更牛的是,得益于 Interactions API,系統(tǒng)會保持會話歷史和上下文記憶。
這意味著,用戶可以在生成的視頻基礎上,繼續(xù)用自然語言進行最多連續(xù)三次的迭代編輯!
為了讓開發(fā)者立刻領略這套組合拳的威力,谷歌一口氣開源了三個極具啟發(fā)性的Demo應用,每一個都精準踩在了不同行業(yè)的痛點上
Demo 1:Anywhere(一秒穿越全世界)
應用場景:社交媒體、旅游營銷、個人娛樂
上傳一張自拍或照片,Lite會把你傳送到數(shù)十個地標場景中,比如巴黎埃菲爾鐵塔下、埃及金字塔旁,或是富士山的櫻花林。
點擊任意一張生成圖,Omni Flash就會把它變成一段動態(tài)視頻,一段專屬于你的「環(huán)游世界」微電影就此誕生!
Demo 2:Space Lift(空間煥新魔術師)
應用場景:室內(nèi)設計、房地產(chǎn)中介、家居電商
室內(nèi)設計師和裝修業(yè)主們的終極神器來了!
上傳一張房間照片,Lite會自動生成多種裝修風格的概念圖。
選定心儀的風格后,點擊視頻按鈕,Omni Flash會把靜態(tài)設計圖變成一段沉浸式漫游視頻,讓你在裝修前就能「走進」未來的家。
Demo 3:Omni Product Studio(電商爆款制造機)
應用場景:淘寶/亞馬遜賣家、廣告營銷、自媒體矩陣
對于中小電商賣家來說,拍視頻是一個高成本的門檻,但這個Demo將徹底打破規(guī)則。
把Lite生成的靜態(tài)產(chǎn)品圖,交給Omni Flash轉化為電影級電商展示視頻。
這三個Demo只是冰山一角。當「廉價極速生圖」與「高智商視頻編輯」碰撞在一起,未來我們能看到怎樣的爆款應用,全憑開發(fā)者的想象力!
另外,這次谷歌給兩類產(chǎn)品全面集成了SynthID水印技術。
是一種數(shù)字水印,人眼看不見,但可以通過工具檢測。
用戶可以通過Gemini應用、Chrome瀏覽器或Search來驗證一段內(nèi)容是否由AI生成。這有助于保護創(chuàng)作者權益,也讓AI生成內(nèi)容在網(wǎng)絡上更加透明。
總之,谷歌DeepMind這次的雙發(fā),看似是兩個獨立模型的上線,實則是一條完整創(chuàng)作流水線的落成,讓每個人都有能力把腦海中的創(chuàng)意變成視覺內(nèi)容。
AI創(chuàng)作的下一站,正在加速到來。
參考資料:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/
https://x.com/GoogleDeepMind/status/2071988044878516466
編輯:Aeneas 馬可
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.