視頻大模型登頂榜首，居然是這家中國AI公司

2025-05-18 22:59:39　來源: 深水研究

廣東舉報

分享至

用AI生成視頻，很多人可能還停留在Sora當(dāng)年文生視頻帶來的震撼。

但到了今天，能夠生成視頻的已經(jīng)不只是一行文字。2025年，生成式AI的多模態(tài)能力正以難以想象的速度進化，挑戰(zhàn)很多人認(rèn)知的是，現(xiàn)在AI已經(jīng)進化到給出一張圖片，大模型就能夠根據(jù)圖片來生成一則完整的視頻。

而更加令人意外的是，這條最前沿圖生視頻賽道榜首居然是由一個來自中國公司的團隊開發(fā)的。

5月17日，全球最為權(quán)威的視頻生成評測榜單 VBench Leaderboard 更新了最新一期圖生視頻榜單。一款名為Steamer-I2V的視頻生成模型以總分89.38%的成績，登上 VBench-I2V圖生視頻榜首。

Steamer-I2V 是一種基礎(chǔ)圖像到視頻（I2V）生成模型，旨在將靜態(tài)圖像轉(zhuǎn)換為時間上連貫且具有視覺吸引力的視頻序列，并具有增強的可控性和保真度。

換句話說，Steamer-I2V 現(xiàn)在是圖生視頻最好的大模型產(chǎn)品。

最開始甚至有人懷疑，這是游戲平臺Steam跨界AI了？但很快發(fā)現(xiàn)不是。按照 VBench Leaderboard官網(wǎng)公布的介紹：

Steamer團隊，來自百度公司。

當(dāng)前全球科技巨頭都在競逐多模態(tài)生成賽道，這場AI競賽的烈度還在不斷上升之中。

誰能想到，就像當(dāng)年DeepSeek-V2最初發(fā)布時無人關(guān)注一樣。在悄無聲息間，圖生視頻大模型的榜一王座，已經(jīng)被百度公司拿下了。

未來賽道

2025年AI行業(yè)公認(rèn)的熱門賽道，除了AI Agent，恐怕就是視頻生成模型了。

后者作為多模態(tài)中技術(shù)難度最高、需求最為復(fù)雜的領(lǐng)域，一直被認(rèn)為是本輪生成式AI競速的最前沿。

而圖生視頻之所以被視為多模態(tài)人工智能領(lǐng)域中最具前景的賽道之一，其核心在于它既是技術(shù)創(chuàng)新的前沿陣地，也是連接虛擬與現(xiàn)實世界的樞紐。

隨著生成式AI從文本、圖像向視頻跨越，這一技術(shù)不僅突破了靜態(tài)表達的局限，更通過動態(tài)內(nèi)容生成重構(gòu)了人類對數(shù)字世界的交互方式。

國內(nèi)也已經(jīng)有人迫不及待測試了Steamer-I2V的表現(xiàn)，其呈現(xiàn)效果已經(jīng)堪比電影級制作。

「開大船的ai劇組」近日上傳了由Steamer-I2V制作生成的半分鐘視頻。這則視頻由一張致敬《流浪地球》的圖片生成。

如果要用語言文本來表達這則圖片，文本語義復(fù)雜不說，可能結(jié)果也會見仁見智。但如果是文本+圖片聯(lián)合對模型提出prompt，效果則大不相同。圖片本身所蘊含的豐富信息，使得AI能夠更加精準(zhǔn)地捕捉用戶需求。

·從視頻本身可以看出，Steamer-I2V已經(jīng)能夠以導(dǎo)演拍攝的角度，在原有圖片的基礎(chǔ)上進行理解，并且能夠?qū)σ曨l基本劇情、畫面形成一個判斷，在保障模型對畫面細(xì)節(jié)、主體運動軌跡、風(fēng)格屬性和鏡頭語言的遵循的基礎(chǔ)上，輸出一個相對結(jié)構(gòu)完整的視頻。

·從畫面清晰度來看，基于前沿的生成式方法與Transformer擴散架構(gòu)，模型可生成分辨率高達1080P的高清視頻，呈現(xiàn)流暢的過渡效果與逼真的物理運動規(guī)律。

·而這背后的底層其實不僅僅是分辨率，而是「技術(shù)美學(xué)」的偏好。

按照其技術(shù)參數(shù)報告，Steamer-I2V 基于條件控制的微調(diào)（Conditional Fine-Tuning, CFT）策略，可以幫助引導(dǎo)模型對于圖片美學(xué)元素進行分析和拆解并進而再生成同一元素的視頻，以保證實現(xiàn)用戶意圖的一致性，而非僅僅停留在簡單的、表面的模仿。

·而且相比最早OpenAI的Sora,Steamer-I2V的優(yōu)勢在于更懂中國用戶。眾所周知中文博大精深，要理解語義的多樣性，必須基于龐大的語言訓(xùn)練數(shù)據(jù)基礎(chǔ)。

據(jù)了解，Steamer-I2V 背后基于的是億級規(guī)模的中文多模態(tài)訓(xùn)練數(shù)據(jù)庫，它通過「篩選-凈化-配比」這樣的三級數(shù)據(jù)優(yōu)化體系，這意味著其具備了專業(yè)級中文概念解析能力。

回過頭再來看產(chǎn)業(yè)側(cè)的趨勢，文生視頻目前已經(jīng)處于爆發(fā)階段。

根據(jù) GIR (Global Info Research)調(diào)研，2023 年全球文生視頻大模型收入大約為720 萬美元，預(yù)計 2030 年達到 22.19 億美元，2024 至 2030 期間，年復(fù)合增長率 CAGR 有望達到 56.6%。

而作為更為前沿的領(lǐng)域，圖生視頻技術(shù)雖然目前缺乏直接的市場規(guī)模數(shù)據(jù)，但其應(yīng)用場景廣泛，廣告、影視、游戲等領(lǐng)域?qū)Ω哔|(zhì)量圖像和視頻的需求正在持續(xù)增長。

企業(yè)可以通過圖生視頻工具快速生成個性化的廣告視頻，影視制作中可以利用圖生視頻技術(shù)快速生成故事板、分鏡頭腳本等，這顯然比簡單的單一文字模態(tài)更加具有吸引力。

也就是說，AI應(yīng)用的新賽道競速，中國企業(yè)也已經(jīng)領(lǐng)先半子。

百度進擊

百度AI今年可謂是動作頻頻。

年初推出的「百看」智能搜索，就正在意圖超越傳統(tǒng)模式，通過大模型整合全網(wǎng)信息生成結(jié)構(gòu)化答案，將搜索從「鏈接陳列」升級為「決策助手」。

這項變革讓搜索結(jié)果告別碎片化，AI能結(jié)合用戶興趣與未明說的需求，日均數(shù)十億次搜索沉淀的數(shù)據(jù)洞察成為精準(zhǔn)服務(wù)的基石。

其中多模態(tài)輸入突破文字框限制，語音、圖像皆可觸發(fā)自然對話式交互，而「任務(wù)助力」功能整合服務(wù)與工具，使搜索從信息入口進化為連接AI服務(wù)的超級站點。

其實從這個時期就可以看出，多模態(tài)正在成為百度AI的核心產(chǎn)品戰(zhàn)略之一。

而現(xiàn)在，Steamer-I2V在VBench榜單的意外悄然登頂，這不僅意味著在多模態(tài)進化和提振內(nèi)容生產(chǎn)力方向上，百度再落下關(guān)鍵一子，而且再一次證明一件事，外界可能還是大大低估了百度的技術(shù)實力。

而技術(shù)實力和應(yīng)用創(chuàng)新密不可分。

圖生視頻技術(shù)能與現(xiàn)有AI產(chǎn)品矩陣形成深度協(xié)同。未來用戶輸入一張商品圖片，AI不僅能生成營銷文案和PPT，還能自動創(chuàng)建展示視頻，實現(xiàn)「圖文影音一體化交付」，大幅提升企業(yè)內(nèi)容生產(chǎn)效率。

這種多模態(tài)能力的融合，將鞏固百度在AI辦公賽道的核心競爭力，尤其在電商、廣告等視頻依賴型行業(yè)中形成差異化優(yōu)勢。

而當(dāng)圖生視頻與搜索、文庫、網(wǎng)盤等超級應(yīng)用的數(shù)據(jù)流、工作流深度耦合時，百度構(gòu)建的將不僅是單一技術(shù)優(yōu)勢，而是一個自進化、高壁壘的AI生態(tài)體系。

這場生成式AI競賽，真是越來越值得期待了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.