![]()
4月7日,一個(gè)沒(méi)有公司署名、沒(méi)有官方聲明、連GitHub倉(cāng)庫(kù)都指向"即將上線"的視頻生成模型,悄悄出現(xiàn)在了全球最權(quán)威的AI視頻競(jìng)技場(chǎng)Artificial Analysis的排行榜上。
七天之后,它登上了榜首。
它的名字叫HappyHorse-1.0。在Artificial Analysis的盲測(cè)體系中,文生視頻方向Elo分1333、圖生視頻方向Elo分1392,兩個(gè)榜單雙料第一,將字節(jié)跳動(dòng)的Seedance 2.0、快手的Kling 3.0、谷歌的Veo 3.1遠(yuǎn)遠(yuǎn)甩在身后。這是迄今為止圖生視頻方向的歷史最高分。
讓這件事更耐人尋味的是:在奪得榜首之前,沒(méi)有人知道它是誰(shuí)做的。
這個(gè)排行榜,為什么騙不了人
大多數(shù)AI基準(zhǔn)測(cè)試都有同一個(gè)漏洞:發(fā)布數(shù)字的,正是做出模型的人。
Artificial Analysis不一樣。它的Video Arena采用的是盲測(cè)加Elo積分制——用戶提交一個(gè)提示詞,系統(tǒng)同時(shí)用兩個(gè)匿名模型生成視頻,用戶在不知道來(lái)源的情況下選出更好的那個(gè),票數(shù)按Elo算法(與國(guó)際象棋等級(jí)分相同的數(shù)學(xué)邏輯)累計(jì)成最終排名。60分的Elo差距,意味著一個(gè)模型在兩兩對(duì)決中大約有58%到59%的勝率。而HappyHorse-1.0在文生視頻方向領(lǐng)先第二名整整60分。
這個(gè)分?jǐn)?shù)是數(shù)萬(wàn)個(gè)人類真實(shí)偏好投票的結(jié)果,沒(méi)有實(shí)驗(yàn)室的自我匯報(bào),沒(méi)有精心挑選的演示樣本。Artificial Analysis在宣布這個(gè)模型進(jìn)入競(jìng)技場(chǎng)時(shí),用了一個(gè)詞:"pseudonymous"(匿名投稿)。換句話說(shuō),連平臺(tái)自己都不知道背后是誰(shuí)。
那段時(shí)間,榜單上的排名每天都在變。HappyHorse-1.0短暫從榜單消失了一次,然后又回來(lái)了。事后復(fù)盤,那很可能不是技術(shù)故障,而是一次刻意的停頓——在確認(rèn)公開(kāi)聲明之前,先暫時(shí)撤下。
在最好的時(shí)機(jī),踢開(kāi)了最脆弱的門
4月10日,阿里巴巴旗下淘天集團(tuán)的Future Life Lab正式承認(rèn):HappyHorse-1.0是他們做的,隸屬ATH AI創(chuàng)新部門,技術(shù)負(fù)責(zé)人張迪,此前是快手副總裁、Kling AI的技術(shù)主導(dǎo)者。
這個(gè)時(shí)機(jī),幾乎算是精準(zhǔn)踩點(diǎn)。
就在HappyHorse出現(xiàn)前后,AI視頻生成賽道兩個(gè)最強(qiáng)的西方選手接連出了問(wèn)題。OpenAI在2026年初關(guān)閉了Sora的獨(dú)立應(yīng)用和平臺(tái),給出的理由是算力成本過(guò)高、戰(zhàn)略重心轉(zhuǎn)向AGI和企業(yè)工具;而字節(jié)跳動(dòng)的Seedance 2.0雖然憑借自帶剪輯分鏡的視頻效果引爆了AI漫劇行業(yè)(甚至有制作公司把上班時(shí)間改到凌晨三點(diǎn),只為搶占低峰期的算力),卻在全球推廣中撞上了好萊塢主要制片廠和流媒體平臺(tái)的版權(quán)投訴,被迫暫停國(guó)際擴(kuò)張。
兩強(qiáng)同時(shí)空出位置,留下了一個(gè)等待被填補(bǔ)的真空。用一位觀察者的話說(shuō):"HappyHorse不是打贏了對(duì)手,是對(duì)手在同一時(shí)間倒下了,而它剛好站在那里。"
當(dāng)然,"剛好站在那里"本身就需要過(guò)硬的東西。Elo分不會(huì)說(shuō)謊。
一個(gè)架構(gòu)決定,讓音頻不再是"后期"
視頻生成領(lǐng)域長(zhǎng)期存在一個(gè)隱性的分裂:生成視頻是一件事,配上聲音是另一件事,二者由不同的模型或工具完成,然后拼接在一起。這套流程的代價(jià)是明顯的——嘴型對(duì)不上,環(huán)境音突兀,配樂(lè)像是粘貼進(jìn)去的。
HappyHorse-1.0的架構(gòu)選擇打破了這個(gè)分裂。
它采用的是單流統(tǒng)一Transformer結(jié)構(gòu),40層自注意力網(wǎng)絡(luò),文字、圖像、視頻幀、音頻四種模態(tài)的token從始至終在同一個(gè)序列里處理,沒(méi)有專門的跨模態(tài)注意力模塊。官方的說(shuō)法是"三明治架構(gòu)":首尾各4層模態(tài)專屬層,中間32層全模態(tài)共享層。音頻和視頻在生成過(guò)程中始終是同一次前向傳播(forward pass)的產(chǎn)物,不是事后合成的。
結(jié)果是什么?口型精確對(duì)上了語(yǔ)音,腳步聲踩在地面接觸的那一幀,背景噪音隨著場(chǎng)景切換自然過(guò)渡。它目前支持7種語(yǔ)言的音視頻同步生成,包括英語(yǔ)、普通話、粵語(yǔ)、日語(yǔ)、韓語(yǔ)、德語(yǔ)和法語(yǔ)。在"有音頻"類別的排行上,HappyHorse-1.0位列第二,僅次于谷歌Veo 3.1。
這個(gè)排名有意思的地方在于:在傳統(tǒng)上最難做好的維度,一個(gè)"神秘新來(lái)者"的表現(xiàn)接近了調(diào)動(dòng)了谷歌全部多模態(tài)研究積累的Veo系列。
開(kāi)源的承諾,和一個(gè)"即將上線"的空鏈接
故事到這里有一個(gè)裂縫,值得直接說(shuō)清楚。
HappyHorse-1.0官網(wǎng)上寫著:基礎(chǔ)模型、蒸餾模型、超分辨率模塊、推理代碼,全部開(kāi)源,Apache 2.0授權(quán),允許商用。這在技術(shù)圈引發(fā)了大量轉(zhuǎn)發(fā)和期待。
截至4月14日,HuggingFace的模型頁(yè)已經(jīng)存在,README文檔在當(dāng)天仍在持續(xù)更新——但文件列表里只有兩個(gè)文件:.gitattributes 和 README.md。沒(méi)有模型權(quán)重,沒(méi)有推理代碼,沒(méi)有任何可以實(shí)際運(yùn)行的東西。比起此前各家官網(wǎng)指向的"coming soon"空鏈接,這是一個(gè)進(jìn)步,但距離"真正可用的開(kāi)源"還差最關(guān)鍵的一步。
"名義上開(kāi)源"和"真正可用的開(kāi)源"之間,有一道需要被跨過(guò)的門。
對(duì)開(kāi)發(fā)者來(lái)說(shuō),開(kāi)源意味著能下載權(quán)重、運(yùn)行推理代碼、基于它做微調(diào)。目前這些都還不存在。阿里巴巴承諾了API接入的計(jì)劃,但時(shí)間表不明確。
這不是要否定這個(gè)模型的技術(shù)成就。Elo排名是真實(shí)的人類偏好數(shù)據(jù),跑不掉。但如果把HappyHorse-1.0納入實(shí)際產(chǎn)品決策,現(xiàn)在需要的不是Elo分,而是一個(gè)可以調(diào)用的接口或可以運(yùn)行的權(quán)重文件。兩者都還不在。
快手出走的人,在阿里做出了什么
前快手副總裁、Kling AI技術(shù)主導(dǎo)者張迪,是這個(gè)項(xiàng)目公開(kāi)身份中可見(jiàn)度最高的名字。
Kling系列是快手在視頻生成賽道的代表作,2024年以流暢的人物動(dòng)作生成在業(yè)內(nèi)建立了口碑。張迪之后加入阿里巴巴淘天集團(tuán),主導(dǎo)了Future Life Lab。HappyHorse-1.0的推理速度優(yōu)化思路——用DMD-2蒸餾將去噪步驟壓縮到8步,配合自研的MagiCompiler推理編譯器——在Kling系列的工程迭代中能看到類似的脈絡(luò)。
這條人員流動(dòng)線索,某種程度上解釋了為什么一個(gè)"神秘模型"能在上線一周內(nèi)就達(dá)到歷史最高Elo分:做模型的人,不是第一次做模型了。
不過(guò)阿里的"認(rèn)領(lǐng)"聲明里有一句話耐人尋味:項(xiàng)目"仍在開(kāi)發(fā)中"。這通常意味著眼前的版本不是終態(tài)——它更像是一次技術(shù)摸底,用真實(shí)榜單驗(yàn)證架構(gòu)方向是否正確,然后決定下一步怎么走。
當(dāng)Sora退出,戰(zhàn)場(chǎng)變成了中國(guó)公司的主場(chǎng)
更大的背景是:AI視頻生成這條賽道,正在快速變成一場(chǎng)中國(guó)公司之間的競(jìng)爭(zhēng)。
OpenAI關(guān)閉Sora之后,其他主要選手還剩Runway Gen-4和Luma Dream Machine。但這兩家的Elo分與頭部中國(guó)模型的差距在過(guò)去三個(gè)月內(nèi)持續(xù)擴(kuò)大。字節(jié)的Seedance 2.0雖然遭遇版權(quán)風(fēng)波,但技術(shù)底子依然扎實(shí)。阿里的HappyHorse橫空出世,把Wan 2.7系列的既有積累與新架構(gòu)整合,直接沖到榜首。還有快手Kling 3.0、PixVerse V6持續(xù)迭代。
這不是一兩個(gè)爆款模型的偶然,而是整個(gè)中國(guó)視頻生成研究群體在過(guò)去兩年密集積累之后的集中浮現(xiàn)。
一個(gè)值得關(guān)注的價(jià)格信號(hào):中國(guó)AI視頻工具目前的商用定價(jià),普遍在每秒生成內(nèi)容約4美分左右,而西方同類服務(wù)的價(jià)格高出數(shù)倍。如果HappyHorse-1.0的API如期開(kāi)放,開(kāi)發(fā)者將面臨一個(gè)真實(shí)的選擇:在畫質(zhì)和速度接近甚至超越的前提下,是否愿意把視頻生成底層依托在一個(gè)中國(guó)公司提供的接口上?
這個(gè)問(wèn)題,答案不會(huì)只有一種。
Q&A
Q1:HappyHorse-1.0的Elo排名是否可信,會(huì)不會(huì)是刷榜?
Artificial Analysis Video Arena的機(jī)制本身針對(duì)刷榜做了設(shè)計(jì)——用戶看不到是哪個(gè)模型生成的,投票基于真實(shí)偏好,Elo算法會(huì)根據(jù)對(duì)手強(qiáng)度加權(quán)。另一個(gè)佐證是,HappyHorse在"有音頻"類別中排名第二,如果是刷榜優(yōu)化,通常會(huì)針對(duì)全部類別同時(shí)拉高,而非在某些維度有明顯落差。短期內(nèi)憑借某類生成風(fēng)格的優(yōu)化偶爾占優(yōu)是可能的,但持續(xù)領(lǐng)先60+ Elo分需要大量比賽場(chǎng)次的穩(wěn)定勝出,這不是短期操縱能做到的。
Q2:HappyHorse-1.0最核心的技術(shù)突破是什么?
最值得關(guān)注的是單流統(tǒng)一Transformer對(duì)音視頻的聯(lián)合建模。傳統(tǒng)模型把視頻和音頻分開(kāi)生成再合并,導(dǎo)致同步誤差。HappyHorse把所有模態(tài)放進(jìn)同一個(gè)token序列,在一次推理過(guò)程中同時(shí)輸出視頻幀和同步音頻,這從根本上消除了"拼接"帶來(lái)的對(duì)不上問(wèn)題。配合DMD-2蒸餾(8步去噪)和MagiCompiler加速,在H100上生成1080p視頻約38秒,比同級(jí)別模型快30%。
Q3:現(xiàn)在能用HappyHorse-1.0做項(xiàng)目嗎?
目前只能通過(guò)官方在線平臺(tái)試用,沒(méi)有公開(kāi)的API接口,也沒(méi)有可下載的模型權(quán)重。HuggingFace頁(yè)面已上線,文檔持續(xù)在更新,但模型權(quán)重和推理代碼尚未發(fā)布。對(duì)需要接入實(shí)際產(chǎn)品或工作流的開(kāi)發(fā)者和制作團(tuán)隊(duì)來(lái)說(shuō),HappyHorse-1.0現(xiàn)在的價(jià)值更多在于"了解技術(shù)方向",而非立刻可以落地部署的工具。
END本文來(lái)自至頂AI實(shí)驗(yàn)室,一個(gè)專注于對(duì)AI計(jì)算機(jī)、工作站及各類AI相關(guān)硬件設(shè)備,開(kāi)展基于真實(shí)使用場(chǎng)景評(píng)測(cè)的研究機(jī)構(gòu)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.