阿里HappyHorse-1.0視頻模型宣布開源

2026-04-09 06:47:32　來源: DoNews

北京舉報

分享至

DoNews4月9日消息，據(jù)AIPress報道，剛剛，拳打字節(jié)Seedance2.0，腳踢快手可靈的AI視頻生成模型Happy Horse 1.0開源了。目前在官網(wǎng)可通過文本生成和圖片生成兩種方式體驗生成視頻。不同模型對制作時長的限制各不相同。

Happy Horse 1.0的核心賣點，是把視頻和音頻的生成徹底合并進了同一個流程。大多數(shù)開源視頻模型的工作方式是：先生成一段沒有聲音的視頻，再找另一個模型配音，再找另一個工具做口型對齊，幾道工序下來，時間和誤差都在疊加。

而Happy Horse 1.0用一個統(tǒng)一的Transformer同時處理視頻和音頻，一次前向推理直接輸出帶聲音的成片，口型、腳步聲、環(huán)境音全部在同一個過程里生成，不需要任何后期拼接。

模型參數(shù)量是150億，架構(gòu)上是純自注意力Transformer，沒有交叉注意力，沒有獨立的音頻分支，也沒有專門的條件網(wǎng)絡(luò)。整體設(shè)計刻意追求極簡——把所有模態(tài)（文本、圖像、視頻、音頻）的token拼成同一個序列，讓模型在去噪過程中自己學(xué)會跨模態(tài)對齊。

在結(jié)構(gòu)上，40層Transformer采用了一種“三明治”布局：頭4層和尾4層用模態(tài)專屬的投影層處理各自的輸入輸出，中間32層則是所有模態(tài)共享參數(shù)。實際的跨模態(tài)推理就發(fā)生在這32層里，這也是整個架構(gòu)參數(shù)效率最高的地方。

此外，每個注意力頭都有一個可學(xué)習(xí)的標(biāo)量門控，用sigmoid激活，專門用來穩(wěn)定多模態(tài)聯(lián)合訓(xùn)練時的梯度——畢竟音頻損失和視頻損失同時反傳，很容易互相打架。

速度方面，模型采用了DMD-2蒸餾技術(shù)（Distribution Matching Distillation v2），把去噪步數(shù)從通常的25到50步壓縮到了8步，同時不需要無分類器引導(dǎo)（CFG），這一項本身就能砍掉將近一半的計算量。再配合MagiCompiler全圖編譯運行時帶來的約1.2倍額外加速，在單張H100上，生成一段1080p視頻只需要大約38秒，256p的預(yù)覽版本則在2秒左右就能出來。

同時，模型原生支持英語、普通話、粵語、日語、韓語、德語和法語七種語言唇形同步，這些語言的口型、語調(diào)和語音時序是和視頻一起聯(lián)合訓(xùn)練出來的，不是后期貼上去的。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.