![]()
智東西
作者 畢偉豪
編輯 李水青
智東西6月16日?qǐng)?bào)道,昨晚,字節(jié)新模型Seedance 2.0 Mini深夜來襲,該模型主打性價(jià)比,側(cè)重于提供更低的價(jià)格以及更快的生成速度。
Seedance 2.0 Mini雖然定價(jià)更低,但保留了核心能力參考生成,用戶可以通過融合提示詞與最多12個(gè)多種模態(tài)的參考素材(包括6張圖片、3段音頻、3段視頻)來鎖定人物一致性、精細(xì)化控制運(yùn)動(dòng)軌跡、卡準(zhǔn)劇情節(jié)奏。
字節(jié)方面稱,在早期測(cè)試中,Seedance 2.0 Mini在運(yùn)動(dòng)表現(xiàn)方面超過了Seedance 2.0和Seedance 2.0 Fast。
和Seedance 2.0 Fast相比,Seedance 2.0 Mini的運(yùn)動(dòng)質(zhì)量更好,畫面穩(wěn)定性更強(qiáng),單次生成更便宜,在短視頻和快速測(cè)試場(chǎng)景里效率更高。Fast模型現(xiàn)在更適合短電影草稿這類輕量用途,Seedance 2.0則適合預(yù)算充足的高端制作。
對(duì)比強(qiáng)調(diào)高電影感的畫面和原生音頻整合的Veo 3以及重視物理真實(shí)感、延展場(chǎng)景和復(fù)雜敘事的Sora 2,Seedance 2.0 Mini在渲染速度、產(chǎn)出成本、短視頻創(chuàng)意上占據(jù)優(yōu)勢(shì)。
一句話總結(jié),如果追求快速批量創(chuàng)意視頻生成、高端項(xiàng)目前期草稿、短視頻制作以及節(jié)省預(yù)算,Mini是更好的選擇。
API價(jià)格方面,Seedance 2.0 Mini相比Seedance 2.0有大幅度的下降,生成成本降低約50%,目前僅支持在小云雀和即夢(mèng)AI中使用,或者在火山方舟大模型體驗(yàn)中心進(jìn)行體驗(yàn),API將在6月22日開放,當(dāng)前在火山方舟大模型體驗(yàn)中心的價(jià)格為0.023元/千tokens。
![]()
C端價(jià)格上,目前在即夢(mèng)和小云雀兩個(gè)平臺(tái),如果想體驗(yàn)新模型,需要訂閱會(huì)員,6月15日到6月21日有限時(shí)會(huì)員和積分消耗折扣。
官方宣傳的最低價(jià)位是每秒鐘0.16元,但折扣價(jià)格只有標(biāo)準(zhǔn)及以上會(huì)員才能享受,如果是最低檔位的基礎(chǔ)會(huì)員,實(shí)際使用中按照小云雀積分計(jì)算,一條10秒鐘的視頻平均在80積分左右,折合人民幣約為8元,平均每秒為0.8元。
![]()
Seedance 2.0 Mini核心亮點(diǎn)如下:
1、視覺效果比前代Seedance模型更好;
2、生成速度更快,等待時(shí)間更短;
3、單次生成視頻的積分消耗量更低;
4、運(yùn)動(dòng)一致性和指令遵循能力出色;
5、支持多模態(tài)輸入的參考系統(tǒng),可以實(shí)現(xiàn)多個(gè)圖片、音頻和視頻引用。
為了驗(yàn)證這款新模型的實(shí)際表現(xiàn),我們第一時(shí)間在小云雀上進(jìn)行了體驗(yàn)。
體驗(yàn)發(fā)現(xiàn),Seedance 2.0 Mini在生成速度上有所提升,同時(shí)視頻生成的質(zhì)量也可圈可點(diǎn),模型在多模態(tài)輸入、長(zhǎng)文本提示詞的處理、音畫同步以及人物一致性方面有不錯(cuò)的表現(xiàn),但也存在對(duì)物理定律的遵循不嚴(yán)謹(jǐn)以及鏡頭切換不太自然等問題。
一、口播、說唱、空中飛鯨,速度與質(zhì)量兼具,但問題也不少
此次測(cè)試共設(shè)計(jì)了四組不同難度的場(chǎng)景,覆蓋長(zhǎng)文本理解、音畫同步、復(fù)雜物理規(guī)律模擬、超現(xiàn)實(shí)場(chǎng)景生成以及電商短視頻等場(chǎng)景,重點(diǎn)觀察Seedance 2.0 Mini在畫面一致性、動(dòng)作還原、音畫同步以及生成速度等方面的表現(xiàn)。
首先,作為主打性價(jià)比的模型,首先測(cè)試的一定是生成效率,我們選擇了一個(gè)相對(duì)簡(jiǎn)單,但對(duì)速度、質(zhì)量以及數(shù)量均有要求的電商口播場(chǎng)景,在該場(chǎng)景中,用戶往往需要批量生成帶數(shù)字人口播的商品介紹視頻。如果生成時(shí)間過長(zhǎng),即便效果優(yōu)秀,也難以滿足實(shí)際生產(chǎn)需求。
因此,我們?cè)O(shè)計(jì)了一個(gè)典型的電商帶貨場(chǎng)景,在測(cè)試模型生成速度的同時(shí),也觀察其對(duì)于數(shù)字人口播、商品展示和鏡頭切換的綜合表現(xiàn)。
提示詞:現(xiàn)代直播電商工作室內(nèi),一位25歲左右的年輕女性主播站在商品展示臺(tái)前,面向鏡頭進(jìn)行口播。主播身穿簡(jiǎn)潔干練的職業(yè)裝,面帶自然微笑,手中拿著一款白色無線降噪耳機(jī)。背景是干凈明亮的科技風(fēng)直播間,桌面擺放著耳機(jī)充電倉(cāng)和產(chǎn)品包裝盒。視頻開始時(shí),主播看向鏡頭并說道:“如果你最近正在尋找一款高性價(jià)比無線降噪耳機(jī),那么一定不要錯(cuò)過這款產(chǎn)品。”
Seedance 2.0 Mini花費(fèi)了2分鐘左右給出了視頻,口播內(nèi)容與嘴型精準(zhǔn)對(duì)應(yīng),產(chǎn)品展示鏡頭完整且符合帶貨邏輯,主播形象保持一致,真實(shí)度很高,但出現(xiàn)了展示的耳機(jī)過大,不符合現(xiàn)實(shí)邏輯的問題。
緊接著,我們嘗試了一個(gè)涉及多人互動(dòng)和嘴型同步的高難度場(chǎng)景:地下說唱Battle。相比簡(jiǎn)單的人物對(duì)話,說唱不僅語(yǔ)速極快,而且伴隨著大量表情變化、肢體動(dòng)作和觀眾互動(dòng),這對(duì)視頻模型的音畫同步能力提出了更高要求。
提示詞:紐約布魯克林地下街區(qū)的夜晚,兩位年輕說唱歌手正在進(jìn)行激烈的街頭Battle。四周聚集著大量圍觀者,霓虹燈與街頭涂鴉構(gòu)成充滿張力的背景。第一位歌手以極快語(yǔ)速輸出歌詞,同時(shí)配合夸張而富有節(jié)奏感的手勢(shì)動(dòng)作;第二位歌手則不斷點(diǎn)頭、挑眉、微笑或露出不屑表情進(jìn)行回應(yīng)。鏡頭在近距離面部特寫和全景群體畫面之間切換。要求每一個(gè)單詞、每一個(gè)音節(jié)都與嘴部動(dòng)作精準(zhǔn)同步。圍觀群眾不斷發(fā)出歡呼、笑聲和喝彩,舉起手機(jī)錄制視頻,揮舞雙手響應(yīng)節(jié)奏。背景音樂為重低音Hip-Hop Beat,所有人聲與嘴型必須達(dá)到真人級(jí)同步效果,整體呈現(xiàn)高真實(shí)度紀(jì)錄片風(fēng)格。
可以看到視頻中的Rapper聲音和嘴型保持同步,快速吐字時(shí)口部動(dòng)作依然清晰自然;人物的表情、手勢(shì)和身體律動(dòng)能夠跟隨節(jié)拍變化;圍觀群眾會(huì)在精彩段落做出及時(shí)反饋,整個(gè)現(xiàn)場(chǎng)呈現(xiàn)出真實(shí)街頭Battle的沉浸感。但視頻存在說唱的歌詞混亂,聽著不像英語(yǔ)的問題。
除了音畫同步之外,物理規(guī)律模擬同樣是當(dāng)前視頻生成模型的一大難點(diǎn)。因此,我們?cè)O(shè)計(jì)了一個(gè)違背日常經(jīng)驗(yàn)、同時(shí)又要求遵循物理邏輯的失重場(chǎng)景,來測(cè)試模型對(duì)空間關(guān)系、慣性運(yùn)動(dòng)以及流體行為的理解能力。
提示詞:一家現(xiàn)代風(fēng)格咖啡館內(nèi),重力突然消失。顧客、桌椅、書本和各種物品緩慢漂浮到空中。咖啡師漂浮著繼續(xù)制作咖啡,液態(tài)咖啡從杯中溢出后形成無數(shù)漂浮液球。一只橘貓像在水中游泳一樣緩慢穿過空間。鏡頭持續(xù)旋轉(zhuǎn)并自由移動(dòng),展示整個(gè)失重環(huán)境。所有漂浮物體都必須遵循真實(shí)慣性和動(dòng)量規(guī)律,液體運(yùn)動(dòng)需要符合流體物理特征。整體呈現(xiàn)極高真實(shí)感和復(fù)雜物理模擬能力。
視頻中顧客、物品、貓咪會(huì)緩慢漂浮并保持在無重力狀態(tài)下的運(yùn)動(dòng)軌跡,但出現(xiàn)了部分顧客沒有失重,有人漂浮有人坐著的情況,且液態(tài)咖啡還在咖啡師的杯子里沒有飄出來,與真實(shí)失重狀態(tài)有所出入。
最后,我們選擇了一個(gè)超現(xiàn)實(shí)場(chǎng)景來測(cè)試模型的創(chuàng)造力和泛化能力。相比街道、人物等高頻訓(xùn)練內(nèi)容,這類現(xiàn)實(shí)中不存在的場(chǎng)景往往在訓(xùn)練數(shù)據(jù)中占比極低,更能檢驗(yàn)?zāi)P蛯?duì)罕見視覺元素組合的理解能力。
提示詞:巴黎市中心的街道上,一頭長(zhǎng)達(dá)數(shù)十米的巨大藍(lán)鯨正像在海洋中一樣緩慢游過天空。陽(yáng)光透過半透明魚鰭投射出夢(mèng)幻般的光影,數(shù)百條發(fā)光小魚圍繞著鯨魚游動(dòng)。下方汽車仍在正常行駛,路人紛紛停下腳步仰望天空,有人驚訝地舉起手機(jī)拍攝。鏡頭從鯨魚腹部下方緩慢跟隨移動(dòng),展現(xiàn)鯨魚掠過歷史建筑時(shí)產(chǎn)生的巨大尺度對(duì)比。整體畫面超現(xiàn)實(shí)但極度真實(shí),所有細(xì)節(jié)均遵循真實(shí)攝影邏輯,營(yíng)造出令人震撼的夢(mèng)境般視覺體驗(yàn)。
視頻中鯨魚、路人和建筑的能夠體現(xiàn)出巨大的尺度差異,鯨魚的擺尾、魚鰭動(dòng)作符合真實(shí)海洋生物運(yùn)動(dòng)規(guī)律;巴黎街景、車輛和行人的反應(yīng)也比較真實(shí)。
二、給圖片和視頻絲滑生成,黃仁勛踢世界杯,貓片魔改白虎降世
相比文生視頻,圖生視頻對(duì)模型的要求實(shí)際上更高。
文生視頻考驗(yàn)的是模型對(duì)文本的理解和視覺生成能力,而圖生視頻則需要模型先準(zhǔn)確識(shí)別圖片中的主體特征,包括人物外貌、服飾細(xì)節(jié)、面部結(jié)構(gòu)以及整體身份特征,然后在此基礎(chǔ)上完成動(dòng)作延展和場(chǎng)景重構(gòu)。
同時(shí),在視頻生成過程中,模型還需要處理主體一致性、動(dòng)作連貫性、場(chǎng)景融合以及物理規(guī)律等多個(gè)維度的問題,因此圖生視頻往往更容易暴露模型能力短板。
為體驗(yàn)Seedance 2.0 Mini的圖生視頻能力,我們分別上傳了黃仁勛和豆包的照片,并輸入如下提示詞:
幫我生成一個(gè)視頻,圖1和圖2中的人物在世界杯賽場(chǎng)上踢足球,圖1人物進(jìn)攻,圖2人物防守,要有盤帶動(dòng)作,兩個(gè)人都穿上球衣。
足球?qū)儆诘湫偷母邉?dòng)態(tài)運(yùn)動(dòng)場(chǎng)景,盤帶、變向、防守、身體對(duì)抗等動(dòng)作都涉及復(fù)雜的人體運(yùn)動(dòng)邏輯和足球運(yùn)動(dòng)軌跡,模型不僅需要讓兩個(gè)人“像本人”,還要讓他們“像球員”。
從生成結(jié)果來看,Seedance 2.0 Mini成功識(shí)別出了黃仁勛的核心面部特征,并將他進(jìn)行了動(dòng)漫化處理。視頻中,黃仁勛負(fù)責(zé)帶球推進(jìn),豆包則進(jìn)行貼身防守,足球運(yùn)動(dòng)軌跡與人物動(dòng)作基本保持一致,美中不足的是鏡頭不是一鏡到底,中間盤帶過人的時(shí)候切鏡頭導(dǎo)致畫面不順暢。
根據(jù)已有視頻素材進(jìn)行創(chuàng)意生成,也非常考驗(yàn)?zāi)P湍芰Γ谑俏覀兩蟼髁艘欢味贺埖囊曨l,并輸入了另一組提示詞:
生成一段小貓逐漸長(zhǎng)大成為白虎的視頻。
在這個(gè)視頻里,小貓逐漸長(zhǎng)大的過程中,對(duì)于毛色、頭部和眼睛等關(guān)鍵區(qū)域,模型保留了較好的連續(xù)性,使觀眾能夠明顯感受到這是同一個(gè)主體在不斷成長(zhǎng),不過由于沒有進(jìn)行分鏡設(shè)計(jì),因此長(zhǎng)大的過程中背景的切換比較生硬。
為了檢驗(yàn)Seedance 2.0 Mini基于多模態(tài)素材的生成水準(zhǔn),我們上傳了兩張圖片、一段視頻以及一個(gè)音頻,讓Seedance 2.0 Mini生成一個(gè)夏日動(dòng)物出游的視頻,提示詞如下:
![]()
Seedance 2.0 Mini很快輸出了視頻,能看到視頻中的動(dòng)物形象保持了不錯(cuò)的一致性,與背景環(huán)境以及音樂的融合也比較融洽,模型對(duì)于多種模態(tài)素材的處理較為精細(xì)。
從測(cè)試中可以看出,Seedance 2.0 Mini不僅能夠完成常規(guī)的人物動(dòng)作生成,在涉及身份保持、角色成長(zhǎng)和形態(tài)演變等更復(fù)雜的多模態(tài)素材處理時(shí),也具備較強(qiáng)的視覺連續(xù)性和穩(wěn)定性。但不可否認(rèn)的是,模型在一些細(xì)節(jié)的處理上還存在一些問題。
總結(jié):視頻生成模型卷起性價(jià)比,價(jià)格低但質(zhì)量不低
整體看這次測(cè)試,無論是長(zhǎng)文本理解、音畫同步、圖生視頻,還是超現(xiàn)實(shí)場(chǎng)景生成,作為一款主打高性價(jià)比的輕量化模型,Seedance 2.0 Mini都交出了一份超出預(yù)期的答卷。
過去很長(zhǎng)一段時(shí)間里,視頻生成領(lǐng)域始終面臨一個(gè)經(jīng)典難題:質(zhì)量、速度和成本三者難以兼得。
想要更好的畫質(zhì),就需要更大的模型和更長(zhǎng)的推理時(shí)間,想要更快的速度,就不得不犧牲部分效果,而當(dāng)用戶開始大規(guī)模生產(chǎn)內(nèi)容時(shí),成本又會(huì)成為新的瓶頸。
但從Seedance 2.0 Mini的表現(xiàn)來看,字節(jié)正在試圖找到速度、價(jià)格和質(zhì)量之間的平衡。Seedance20 Mini主要面向頭腦風(fēng)暴、快速測(cè)試、視頻原型制作以及短視頻創(chuàng)作等場(chǎng)景,在這些場(chǎng)景中,創(chuàng)作者主要使用720p的分辨率生成視頻,這將進(jìn)一步降低成本。
在我們的測(cè)試中,雖然存在一些問題,但對(duì)于普通用戶來說,它已經(jīng)能夠滿足日常創(chuàng)作需求了。
而對(duì)于自媒體、MCN機(jī)構(gòu)、電商團(tuán)隊(duì)以及短劇工作室而言,其生成效率和價(jià)格優(yōu)勢(shì)則意味著可以實(shí)現(xiàn)更具性價(jià)比的批量化生產(chǎn)。不過若是追求視頻的質(zhì)量以及細(xì)節(jié),那這款模型就不太夠用了,但如果放在精細(xì)化視頻生成的前期“草稿”階段,這款量大管飽的模型是非常合適的。
視頻生成模型發(fā)展到今天,越來越多用戶開始關(guān)心AI視頻生成的價(jià)格問題,能否在生產(chǎn)環(huán)境中大規(guī)模運(yùn)用至關(guān)重要。
從這個(gè)角度來看,Seedance 2.0 Mini的意義在于進(jìn)一步降低了AI視頻內(nèi)容的生產(chǎn)門檻,價(jià)格雖然低了,但質(zhì)量依然有保證。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.