網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

字節(jié)最便宜視頻模型來了！1.6毛/秒，比Fast快，實(shí)測(cè)讓黃仁勛和豆包一起踢球

2026-06-16 12:59:57　來源: 智東西

北京舉報(bào)

分享至

智東西
作者畢偉豪
編輯李水青

智東西6月16日?qǐng)?bào)道，昨晚，字節(jié)新模型Seedance 2.0 Mini深夜來襲，該模型主打性價(jià)比，側(cè)重于提供更低的價(jià)格以及更快的生成速度。

Seedance 2.0 Mini雖然定價(jià)更低，但保留了核心能力參考生成，用戶可以通過融合提示詞與最多12個(gè)多種模態(tài)的參考素材（包括6張圖片、3段音頻、3段視頻）來鎖定人物一致性、精細(xì)化控制運(yùn)動(dòng)軌跡、卡準(zhǔn)劇情節(jié)奏。

字節(jié)方面稱，在早期測(cè)試中，Seedance 2.0 Mini在運(yùn)動(dòng)表現(xiàn)方面超過了Seedance 2.0和Seedance 2.0 Fast。

和Seedance 2.0 Fast相比，Seedance 2.0 Mini的運(yùn)動(dòng)質(zhì)量更好，畫面穩(wěn)定性更強(qiáng)，單次生成更便宜，在短視頻和快速測(cè)試場(chǎng)景里效率更高。Fast模型現(xiàn)在更適合短電影草稿這類輕量用途，Seedance 2.0則適合預(yù)算充足的高端制作。

對(duì)比強(qiáng)調(diào)高電影感的畫面和原生音頻整合的Veo 3以及重視物理真實(shí)感、延展場(chǎng)景和復(fù)雜敘事的Sora 2，Seedance 2.0 Mini在渲染速度、產(chǎn)出成本、短視頻創(chuàng)意上占據(jù)優(yōu)勢(shì)。

一句話總結(jié)，如果追求快速批量創(chuàng)意視頻生成、高端項(xiàng)目前期草稿、短視頻制作以及節(jié)省預(yù)算，Mini是更好的選擇。

API價(jià)格方面，Seedance 2.0 Mini相比Seedance 2.0有大幅度的下降，生成成本降低約50%，目前僅支持在小云雀和即夢(mèng)AI中使用，或者在火山方舟大模型體驗(yàn)中心進(jìn)行體驗(yàn)，API將在6月22日開放，當(dāng)前在火山方舟大模型體驗(yàn)中心的價(jià)格為0.023元/千tokens。

C端價(jià)格上，目前在即夢(mèng)和小云雀兩個(gè)平臺(tái)，如果想體驗(yàn)新模型，需要訂閱會(huì)員，6月15日到6月21日有限時(shí)會(huì)員和積分消耗折扣。

官方宣傳的最低價(jià)位是每秒鐘0.16元，但折扣價(jià)格只有標(biāo)準(zhǔn)及以上會(huì)員才能享受，如果是最低檔位的基礎(chǔ)會(huì)員，實(shí)際使用中按照小云雀積分計(jì)算，一條10秒鐘的視頻平均在80積分左右，折合人民幣約為8元，平均每秒為0.8元。

Seedance 2.0 Mini核心亮點(diǎn)如下：

1、視覺效果比前代Seedance模型更好；

2、生成速度更快，等待時(shí)間更短；

3、單次生成視頻的積分消耗量更低；

4、運(yùn)動(dòng)一致性和指令遵循能力出色；

5、支持多模態(tài)輸入的參考系統(tǒng)，可以實(shí)現(xiàn)多個(gè)圖片、音頻和視頻引用。

為了驗(yàn)證這款新模型的實(shí)際表現(xiàn)，我們第一時(shí)間在小云雀上進(jìn)行了體驗(yàn)。

體驗(yàn)發(fā)現(xiàn)，Seedance 2.0 Mini在生成速度上有所提升，同時(shí)視頻生成的質(zhì)量也可圈可點(diǎn)，模型在多模態(tài)輸入、長(zhǎng)文本提示詞的處理、音畫同步以及人物一致性方面有不錯(cuò)的表現(xiàn)，但也存在對(duì)物理定律的遵循不嚴(yán)謹(jǐn)以及鏡頭切換不太自然等問題。

一、口播、說唱、空中飛鯨，速度與質(zhì)量兼具，但問題也不少

此次測(cè)試共設(shè)計(jì)了四組不同難度的場(chǎng)景，覆蓋長(zhǎng)文本理解、音畫同步、復(fù)雜物理規(guī)律模擬、超現(xiàn)實(shí)場(chǎng)景生成以及電商短視頻等場(chǎng)景，重點(diǎn)觀察Seedance 2.0 Mini在畫面一致性、動(dòng)作還原、音畫同步以及生成速度等方面的表現(xiàn)。

首先，作為主打性價(jià)比的模型，首先測(cè)試的一定是生成效率，我們選擇了一個(gè)相對(duì)簡(jiǎn)單，但對(duì)速度、質(zhì)量以及數(shù)量均有要求的電商口播場(chǎng)景，在該場(chǎng)景中，用戶往往需要批量生成帶數(shù)字人口播的商品介紹視頻。如果生成時(shí)間過長(zhǎng)，即便效果優(yōu)秀，也難以滿足實(shí)際生產(chǎn)需求。

因此，我們?cè)O(shè)計(jì)了一個(gè)典型的電商帶貨場(chǎng)景，在測(cè)試模型生成速度的同時(shí)，也觀察其對(duì)于數(shù)字人口播、商品展示和鏡頭切換的綜合表現(xiàn)。

提示詞：現(xiàn)代直播電商工作室內(nèi)，一位25歲左右的年輕女性主播站在商品展示臺(tái)前，面向鏡頭進(jìn)行口播。主播身穿簡(jiǎn)潔干練的職業(yè)裝，面帶自然微笑，手中拿著一款白色無線降噪耳機(jī)。背景是干凈明亮的科技風(fēng)直播間，桌面擺放著耳機(jī)充電倉(cāng)和產(chǎn)品包裝盒。視頻開始時(shí)，主播看向鏡頭并說道：“如果你最近正在尋找一款高性價(jià)比無線降噪耳機(jī)，那么一定不要錯(cuò)過這款產(chǎn)品。”

Seedance 2.0 Mini花費(fèi)了2分鐘左右給出了視頻，口播內(nèi)容與嘴型精準(zhǔn)對(duì)應(yīng)，產(chǎn)品展示鏡頭完整且符合帶貨邏輯，主播形象保持一致，真實(shí)度很高，但出現(xiàn)了展示的耳機(jī)過大，不符合現(xiàn)實(shí)邏輯的問題。

緊接著，我們嘗試了一個(gè)涉及多人互動(dòng)和嘴型同步的高難度場(chǎng)景：地下說唱Battle。相比簡(jiǎn)單的人物對(duì)話，說唱不僅語(yǔ)速極快，而且伴隨著大量表情變化、肢體動(dòng)作和觀眾互動(dòng)，這對(duì)視頻模型的音畫同步能力提出了更高要求。

提示詞：紐約布魯克林地下街區(qū)的夜晚，兩位年輕說唱歌手正在進(jìn)行激烈的街頭Battle。四周聚集著大量圍觀者，霓虹燈與街頭涂鴉構(gòu)成充滿張力的背景。第一位歌手以極快語(yǔ)速輸出歌詞，同時(shí)配合夸張而富有節(jié)奏感的手勢(shì)動(dòng)作；第二位歌手則不斷點(diǎn)頭、挑眉、微笑或露出不屑表情進(jìn)行回應(yīng)。鏡頭在近距離面部特寫和全景群體畫面之間切換。要求每一個(gè)單詞、每一個(gè)音節(jié)都與嘴部動(dòng)作精準(zhǔn)同步。圍觀群眾不斷發(fā)出歡呼、笑聲和喝彩，舉起手機(jī)錄制視頻，揮舞雙手響應(yīng)節(jié)奏。背景音樂為重低音Hip-Hop Beat，所有人聲與嘴型必須達(dá)到真人級(jí)同步效果，整體呈現(xiàn)高真實(shí)度紀(jì)錄片風(fēng)格。

可以看到視頻中的Rapper聲音和嘴型保持同步，快速吐字時(shí)口部動(dòng)作依然清晰自然；人物的表情、手勢(shì)和身體律動(dòng)能夠跟隨節(jié)拍變化；圍觀群眾會(huì)在精彩段落做出及時(shí)反饋，整個(gè)現(xiàn)場(chǎng)呈現(xiàn)出真實(shí)街頭Battle的沉浸感。但視頻存在說唱的歌詞混亂，聽著不像英語(yǔ)的問題。

除了音畫同步之外，物理規(guī)律模擬同樣是當(dāng)前視頻生成模型的一大難點(diǎn)。因此，我們?cè)O(shè)計(jì)了一個(gè)違背日常經(jīng)驗(yàn)、同時(shí)又要求遵循物理邏輯的失重場(chǎng)景，來測(cè)試模型對(duì)空間關(guān)系、慣性運(yùn)動(dòng)以及流體行為的理解能力。

提示詞：一家現(xiàn)代風(fēng)格咖啡館內(nèi)，重力突然消失。顧客、桌椅、書本和各種物品緩慢漂浮到空中。咖啡師漂浮著繼續(xù)制作咖啡，液態(tài)咖啡從杯中溢出后形成無數(shù)漂浮液球。一只橘貓像在水中游泳一樣緩慢穿過空間。鏡頭持續(xù)旋轉(zhuǎn)并自由移動(dòng)，展示整個(gè)失重環(huán)境。所有漂浮物體都必須遵循真實(shí)慣性和動(dòng)量規(guī)律，液體運(yùn)動(dòng)需要符合流體物理特征。整體呈現(xiàn)極高真實(shí)感和復(fù)雜物理模擬能力。

視頻中顧客、物品、貓咪會(huì)緩慢漂浮并保持在無重力狀態(tài)下的運(yùn)動(dòng)軌跡，但出現(xiàn)了部分顧客沒有失重，有人漂浮有人坐著的情況，且液態(tài)咖啡還在咖啡師的杯子里沒有飄出來，與真實(shí)失重狀態(tài)有所出入。

最后，我們選擇了一個(gè)超現(xiàn)實(shí)場(chǎng)景來測(cè)試模型的創(chuàng)造力和泛化能力。相比街道、人物等高頻訓(xùn)練內(nèi)容，這類現(xiàn)實(shí)中不存在的場(chǎng)景往往在訓(xùn)練數(shù)據(jù)中占比極低，更能檢驗(yàn)?zāi)Ｐ蛯?duì)罕見視覺元素組合的理解能力。

提示詞：巴黎市中心的街道上，一頭長(zhǎng)達(dá)數(shù)十米的巨大藍(lán)鯨正像在海洋中一樣緩慢游過天空。陽(yáng)光透過半透明魚鰭投射出夢(mèng)幻般的光影，數(shù)百條發(fā)光小魚圍繞著鯨魚游動(dòng)。下方汽車仍在正常行駛，路人紛紛停下腳步仰望天空，有人驚訝地舉起手機(jī)拍攝。鏡頭從鯨魚腹部下方緩慢跟隨移動(dòng)，展現(xiàn)鯨魚掠過歷史建筑時(shí)產(chǎn)生的巨大尺度對(duì)比。整體畫面超現(xiàn)實(shí)但極度真實(shí)，所有細(xì)節(jié)均遵循真實(shí)攝影邏輯，營(yíng)造出令人震撼的夢(mèng)境般視覺體驗(yàn)。

視頻中鯨魚、路人和建筑的能夠體現(xiàn)出巨大的尺度差異，鯨魚的擺尾、魚鰭動(dòng)作符合真實(shí)海洋生物運(yùn)動(dòng)規(guī)律；巴黎街景、車輛和行人的反應(yīng)也比較真實(shí)。

二、給圖片和視頻絲滑生成，黃仁勛踢世界杯，貓片魔改白虎降世

相比文生視頻，圖生視頻對(duì)模型的要求實(shí)際上更高。

文生視頻考驗(yàn)的是模型對(duì)文本的理解和視覺生成能力，而圖生視頻則需要模型先準(zhǔn)確識(shí)別圖片中的主體特征，包括人物外貌、服飾細(xì)節(jié)、面部結(jié)構(gòu)以及整體身份特征，然后在此基礎(chǔ)上完成動(dòng)作延展和場(chǎng)景重構(gòu)。

同時(shí)，在視頻生成過程中，模型還需要處理主體一致性、動(dòng)作連貫性、場(chǎng)景融合以及物理規(guī)律等多個(gè)維度的問題，因此圖生視頻往往更容易暴露模型能力短板。

為體驗(yàn)Seedance 2.0 Mini的圖生視頻能力，我們分別上傳了黃仁勛和豆包的照片，并輸入如下提示詞：

幫我生成一個(gè)視頻，圖1和圖2中的人物在世界杯賽場(chǎng)上踢足球，圖1人物進(jìn)攻，圖2人物防守，要有盤帶動(dòng)作，兩個(gè)人都穿上球衣。

足球?qū)儆诘湫偷母邉?dòng)態(tài)運(yùn)動(dòng)場(chǎng)景，盤帶、變向、防守、身體對(duì)抗等動(dòng)作都涉及復(fù)雜的人體運(yùn)動(dòng)邏輯和足球運(yùn)動(dòng)軌跡，模型不僅需要讓兩個(gè)人“像本人”，還要讓他們“像球員”。

從生成結(jié)果來看，Seedance 2.0 Mini成功識(shí)別出了黃仁勛的核心面部特征，并將他進(jìn)行了動(dòng)漫化處理。視頻中，黃仁勛負(fù)責(zé)帶球推進(jìn)，豆包則進(jìn)行貼身防守，足球運(yùn)動(dòng)軌跡與人物動(dòng)作基本保持一致，美中不足的是鏡頭不是一鏡到底，中間盤帶過人的時(shí)候切鏡頭導(dǎo)致畫面不順暢。

根據(jù)已有視頻素材進(jìn)行創(chuàng)意生成，也非常考驗(yàn)?zāi)Ｐ湍芰Γ谑俏覀兩蟼髁艘欢味贺埖囊曨l，并輸入了另一組提示詞：

生成一段小貓逐漸長(zhǎng)大成為白虎的視頻。

在這個(gè)視頻里，小貓逐漸長(zhǎng)大的過程中，對(duì)于毛色、頭部和眼睛等關(guān)鍵區(qū)域，模型保留了較好的連續(xù)性，使觀眾能夠明顯感受到這是同一個(gè)主體在不斷成長(zhǎng)，不過由于沒有進(jìn)行分鏡設(shè)計(jì)，因此長(zhǎng)大的過程中背景的切換比較生硬。

為了檢驗(yàn)Seedance 2.0 Mini基于多模態(tài)素材的生成水準(zhǔn)，我們上傳了兩張圖片、一段視頻以及一個(gè)音頻，讓Seedance 2.0 Mini生成一個(gè)夏日動(dòng)物出游的視頻，提示詞如下：

Seedance 2.0 Mini很快輸出了視頻，能看到視頻中的動(dòng)物形象保持了不錯(cuò)的一致性，與背景環(huán)境以及音樂的融合也比較融洽，模型對(duì)于多種模態(tài)素材的處理較為精細(xì)。

從測(cè)試中可以看出，Seedance 2.0 Mini不僅能夠完成常規(guī)的人物動(dòng)作生成，在涉及身份保持、角色成長(zhǎng)和形態(tài)演變等更復(fù)雜的多模態(tài)素材處理時(shí)，也具備較強(qiáng)的視覺連續(xù)性和穩(wěn)定性。但不可否認(rèn)的是，模型在一些細(xì)節(jié)的處理上還存在一些問題。

總結(jié)：視頻生成模型卷起性價(jià)比，價(jià)格低但質(zhì)量不低

整體看這次測(cè)試，無論是長(zhǎng)文本理解、音畫同步、圖生視頻，還是超現(xiàn)實(shí)場(chǎng)景生成，作為一款主打高性價(jià)比的輕量化模型，Seedance 2.0 Mini都交出了一份超出預(yù)期的答卷。

過去很長(zhǎng)一段時(shí)間里，視頻生成領(lǐng)域始終面臨一個(gè)經(jīng)典難題：質(zhì)量、速度和成本三者難以兼得。

想要更好的畫質(zhì)，就需要更大的模型和更長(zhǎng)的推理時(shí)間，想要更快的速度，就不得不犧牲部分效果，而當(dāng)用戶開始大規(guī)模生產(chǎn)內(nèi)容時(shí)，成本又會(huì)成為新的瓶頸。

但從Seedance 2.0 Mini的表現(xiàn)來看，字節(jié)正在試圖找到速度、價(jià)格和質(zhì)量之間的平衡。Seedance20 Mini主要面向頭腦風(fēng)暴、快速測(cè)試、視頻原型制作以及短視頻創(chuàng)作等場(chǎng)景，在這些場(chǎng)景中，創(chuàng)作者主要使用720p的分辨率生成視頻，這將進(jìn)一步降低成本。

在我們的測(cè)試中，雖然存在一些問題，但對(duì)于普通用戶來說，它已經(jīng)能夠滿足日常創(chuàng)作需求了。

而對(duì)于自媒體、MCN機(jī)構(gòu)、電商團(tuán)隊(duì)以及短劇工作室而言，其生成效率和價(jià)格優(yōu)勢(shì)則意味著可以實(shí)現(xiàn)更具性價(jià)比的批量化生產(chǎn)。不過若是追求視頻的質(zhì)量以及細(xì)節(jié)，那這款模型就不太夠用了，但如果放在精細(xì)化視頻生成的前期“草稿”階段，這款量大管飽的模型是非常合適的。

視頻生成模型發(fā)展到今天，越來越多用戶開始關(guān)心AI視頻生成的價(jià)格問題，能否在生產(chǎn)環(huán)境中大規(guī)模運(yùn)用至關(guān)重要。

從這個(gè)角度來看，Seedance 2.0 Mini的意義在于進(jìn)一步降低了AI視頻內(nèi)容的生產(chǎn)門檻，價(jià)格雖然低了，但質(zhì)量依然有保證。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.