Jay 發自 凹非寺
量子位 | 公眾號 QbitAI
雖然Coding還是一坨,但谷歌搞「多模態」確實有兩把刷子。
Gemini Omni Flash正式開放API,視頻版Nano Banana。
麻瓜爆改「哈利波特」不再是夢想。且看官方用Gemini Omni表演的這四個數字魔術:
太離譜了,這一致性和文字清晰度,還要啥綠幕和特效,直接現場直播奇異博士。
與此同時,大家心心念念的「香蕉」,也迎來了「光速版」。
Nano Banana 2 Lite:迄今為止最快、最經濟高效的Gemini圖像模型。
毫不夸張——4秒出一張圖,1K分辨率圖像僅需約2毛多。
![]()
和Nano Banana 2放在一起對比,這個速度,簡直起飛了。
更別說一次生圖能干3分鐘的GPT Image 2……
怪不得半天沒憋出來Gemini 3.5 Pro,敢情時間全花在心心念念的多模態上了是吧,哈薩比斯!!
Gemini Omni Flash
Google I/O 2026大會上首次亮相的Gemini Omni Flash,把Gemini的多模態推理能力與視頻生成、編輯深度結合,當時就引發了不少關注。
如今,這個模型已通過Gemini API和Google AI Studio正式向開發者開放。能基于文本、圖像和視頻等多種輸入,輕松生成高質量視頻并進行編輯。
四項關鍵能力:
- 對話式視頻編輯:用自然語言修改和精修視頻,跟改飛書文檔似的。
- 多模態參考:組合圖像、文本、視頻輸入,保持場景控制和一致性。
- 現實世界知識:調用Gemini在歷史、生物、敘事邏輯等方面的知識來構建視頻,不用你再寫三頁Prompt描述建筑風格。
- 文字與動作同步:通過簡單提示詞,將文字和圖形直接連接到視頻動作。
![]()
價格也很有競爭力:每秒視頻輸出成本0.10美元,跟Veo 3.1 Fast持平。
定位方面,同為輕量版視頻生成模型,Omni Flash更強調Gemini世界知識,生態方面也是全面朝Gemini層靠攏的。
不過谷歌也挺坦誠,主動列了一堆現階段局限:
1、目前只支持10秒視頻生成,后續會支持更長;
2、暫不支持音頻參考上傳和場景擴展;
3、API支持最長3秒的視頻作為參考素材,但目前模型還無法正確處理這類輸入;
4、場景切換和運鏡時的人物一致性仍有局限。
Nano Banana 2 Lite
Nano Banana 2 Lite(又名gemini-3.1-flash-lite-image),專為高速處理而設計。
經過針對性優化,它瞄準的是那些對延遲極度敏感、需要短時間內批量處理大量圖像的實時應用場景——比如電商素材批量生成、廣告創意快速迭代、自動化內容流水線。
兩大核心賣點——
- 光速:出圖延遲約4秒,是Nano Banana 2的五分之一(后者約20秒)。
- 白菜價:一張1K圖片僅需約0.034美元,是Nano Banana 2的一半,Nano Banana Pro的四分之一。
速度砍了,價格砍了,但生圖和圖像編輯能力并沒有明顯縮水。Nano Banana 2 Lite 依然保持了出色的文字渲染效果,在benchmark上和Grok等模型處于同一水平線。
![]()
因此谷歌的建議是:如果你還在貪便宜用初代Nano Banana,趕緊換。Lite版在各項關鍵指標上已經全方位碾壓了。
雙劍合璧
等等,先別走。
本以為這只是兩款并行的模型發布,沒想到谷歌表示:還有新花樣。
真正的神奇之處,在于將這些模型串聯起來使用。
眾所周知,AIGC創作需要反復迭代,素材管理相當麻煩。
如今,借助這兩個模型,終于不用再反復上傳文件了,圖像生成與視頻創作無縫銜接。
具體來說,可以先用Nano Banana 2 Lite高速出圖,再把生成的圖像作為參考素材喂給 Gemini Omni Flash,一鍵轉化為視頻。
為了展示這套1+1>2的魔法Workflow,谷歌甚至專門做了3個Demo APP:
1、Anywhere
自拍一張或上傳照片,NB2 Lite瞬間把你P到幾十個地標景點里。
接著點一下圖片,Omni Flash把靜態景點變成動態短片。
賽博旅游,這下也端到端了。
2、Space Lift
這有點嚇人,感覺再和Genie世界模型結合一下,未來怕是要威脅到不少傳統裝修方案SaaS公司。
上傳一張房間照片,NB2 Lite先出各種裝修風格方案。找到喜歡的,點視頻按鈕,Omni能直接給你一段電影級空間漫游。
3、Omni product studio
跨境電商的福音來了。
給產品拍張白底圖,NB2 Lite出各種場景化商品圖,Omni Flash再把靜態圖變成電商短視頻。
從「產品」到「廣告素材」,全鏈路自動跑完。
所以,多模態到底有什么用?
這個問題谷歌肯定被問了無數次。
尤其在2026年,Coding幾乎等同于模型智商的代名詞。每家都在Coding上往死里卷。
死磕多模態,圖什么?
AGI敘事那一套就不說了,短期來看的話,谷歌這套多模態模型確實能賦能旗下不少產品。
AGI敘事那一套就不展開了。短期來看,谷歌這套多模態模型確實能賦能旗下不少產品——Stitch是一個,Pixel內置的P圖是一個,NotebookLM的橫空出世也蠻驚艷。
這次發的兩個新模型,則讓人看到了多模態在垂直場景落地的更多潛力。電商、裝修、短視頻……這些業務的需求是真的,錢也是真的。
加上有安卓生態加持,基本不用太擔心商業化的問題。
Coding谷歌暫時追不上,但多模態這張牌桌,谷歌可能是唯一能組齊一套牌的玩家。
不過……
Gemni 3.5 Pro到底啥時候來啊!!!
![]()
參考鏈接:
[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.