DoNews4月9日消息,據(jù)AIPress報道,剛剛,拳打字節(jié)Seedance2.0,腳踢快手可靈的AI視頻生成模型Happy Horse 1.0開源了。目前在官網(wǎng)可通過文本生成和圖片生成兩種方式體驗生成視頻。不同模型對制作時長的限制各不相同。
Happy Horse 1.0的核心賣點,是把視頻和音頻的生成徹底合并進了同一個流程。大多數(shù)開源視頻模型的工作方式是:先生成一段沒有聲音的視頻,再找另一個模型配音,再找另一個工具做口型對齊,幾道工序下來,時間和誤差都在疊加。
而Happy Horse 1.0用一個統(tǒng)一的Transformer同時處理視頻和音頻,一次前向推理直接輸出帶聲音的成片,口型、腳步聲、環(huán)境音全部在同一個過程里生成,不需要任何后期拼接。
模型參數(shù)量是150億,架構(gòu)上是純自注意力Transformer,沒有交叉注意力,沒有獨立的音頻分支,也沒有專門的條件網(wǎng)絡(luò)。整體設(shè)計刻意追求極簡——把所有模態(tài)(文本、圖像、視頻、音頻)的token拼成同一個序列,讓模型在去噪過程中自己學(xué)會跨模態(tài)對齊。
在結(jié)構(gòu)上,40層Transformer采用了一種“三明治”布局:頭4層和尾4層用模態(tài)專屬的投影層處理各自的輸入輸出,中間32層則是所有模態(tài)共享參數(shù)。實際的跨模態(tài)推理就發(fā)生在這32層里,這也是整個架構(gòu)參數(shù)效率最高的地方。
此外,每個注意力頭都有一個可學(xué)習(xí)的標(biāo)量門控,用sigmoid激活,專門用來穩(wěn)定多模態(tài)聯(lián)合訓(xùn)練時的梯度——畢竟音頻損失和視頻損失同時反傳,很容易互相打架。
速度方面,模型采用了DMD-2蒸餾技術(shù)(Distribution Matching Distillation v2),把去噪步數(shù)從通常的25到50步壓縮到了8步,同時不需要無分類器引導(dǎo)(CFG),這一項本身就能砍掉將近一半的計算量。再配合MagiCompiler全圖編譯運行時帶來的約1.2倍額外加速,在單張H100上,生成一段1080p視頻只需要大約38秒,256p的預(yù)覽版本則在2秒左右就能出來。
同時,模型原生支持英語、普通話、粵語、日語、韓語、德語和法語七種語言唇形同步,這些語言的口型、語調(diào)和語音時序是和視頻一起聯(lián)合訓(xùn)練出來的,不是后期貼上去的。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.