網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

它沒(méi)有名字，沒(méi)有團(tuán)隊(duì)—卻在一周內(nèi)擊敗了全球最強(qiáng)的AI視頻模型

2026-04-14 22:43:01　來(lái)源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

4月7日，一個(gè)沒(méi)有公司署名、沒(méi)有官方聲明、連GitHub倉(cāng)庫(kù)都指向"即將上線"的視頻生成模型，悄悄出現(xiàn)在了全球最權(quán)威的AI視頻競(jìng)技場(chǎng)Artificial Analysis的排行榜上。

七天之后，它登上了榜首。

它的名字叫HappyHorse-1.0。在Artificial Analysis的盲測(cè)體系中，文生視頻方向Elo分1333、圖生視頻方向Elo分1392，兩個(gè)榜單雙料第一，將字節(jié)跳動(dòng)的Seedance 2.0、快手的Kling 3.0、谷歌的Veo 3.1遠(yuǎn)遠(yuǎn)甩在身后。這是迄今為止圖生視頻方向的歷史最高分。

讓這件事更耐人尋味的是：在奪得榜首之前，沒(méi)有人知道它是誰(shuí)做的。

這個(gè)排行榜，為什么騙不了人

大多數(shù)AI基準(zhǔn)測(cè)試都有同一個(gè)漏洞：發(fā)布數(shù)字的，正是做出模型的人。

Artificial Analysis不一樣。它的Video Arena采用的是盲測(cè)加Elo積分制——用戶提交一個(gè)提示詞，系統(tǒng)同時(shí)用兩個(gè)匿名模型生成視頻，用戶在不知道來(lái)源的情況下選出更好的那個(gè)，票數(shù)按Elo算法（與國(guó)際象棋等級(jí)分相同的數(shù)學(xué)邏輯）累計(jì)成最終排名。60分的Elo差距，意味著一個(gè)模型在兩兩對(duì)決中大約有58%到59%的勝率。而HappyHorse-1.0在文生視頻方向領(lǐng)先第二名整整60分。

這個(gè)分?jǐn)?shù)是數(shù)萬(wàn)個(gè)人類真實(shí)偏好投票的結(jié)果，沒(méi)有實(shí)驗(yàn)室的自我匯報(bào)，沒(méi)有精心挑選的演示樣本。Artificial Analysis在宣布這個(gè)模型進(jìn)入競(jìng)技場(chǎng)時(shí)，用了一個(gè)詞："pseudonymous"（匿名投稿）。換句話說(shuō)，連平臺(tái)自己都不知道背后是誰(shuí)。

那段時(shí)間，榜單上的排名每天都在變。HappyHorse-1.0短暫從榜單消失了一次，然后又回來(lái)了。事后復(fù)盤，那很可能不是技術(shù)故障，而是一次刻意的停頓——在確認(rèn)公開(kāi)聲明之前，先暫時(shí)撤下。

在最好的時(shí)機(jī)，踢開(kāi)了最脆弱的門

4月10日，阿里巴巴旗下淘天集團(tuán)的Future Life Lab正式承認(rèn)：HappyHorse-1.0是他們做的，隸屬ATH AI創(chuàng)新部門，技術(shù)負(fù)責(zé)人張迪，此前是快手副總裁、Kling AI的技術(shù)主導(dǎo)者。

這個(gè)時(shí)機(jī)，幾乎算是精準(zhǔn)踩點(diǎn)。

就在HappyHorse出現(xiàn)前后，AI視頻生成賽道兩個(gè)最強(qiáng)的西方選手接連出了問(wèn)題。OpenAI在2026年初關(guān)閉了Sora的獨(dú)立應(yīng)用和平臺(tái)，給出的理由是算力成本過(guò)高、戰(zhàn)略重心轉(zhuǎn)向AGI和企業(yè)工具；而字節(jié)跳動(dòng)的Seedance 2.0雖然憑借自帶剪輯分鏡的視頻效果引爆了AI漫劇行業(yè)（甚至有制作公司把上班時(shí)間改到凌晨三點(diǎn)，只為搶占低峰期的算力），卻在全球推廣中撞上了好萊塢主要制片廠和流媒體平臺(tái)的版權(quán)投訴，被迫暫停國(guó)際擴(kuò)張。

兩強(qiáng)同時(shí)空出位置，留下了一個(gè)等待被填補(bǔ)的真空。用一位觀察者的話說(shuō)："HappyHorse不是打贏了對(duì)手，是對(duì)手在同一時(shí)間倒下了，而它剛好站在那里。"

當(dāng)然，"剛好站在那里"本身就需要過(guò)硬的東西。Elo分不會(huì)說(shuō)謊。

一個(gè)架構(gòu)決定，讓音頻不再是"后期"

視頻生成領(lǐng)域長(zhǎng)期存在一個(gè)隱性的分裂：生成視頻是一件事，配上聲音是另一件事，二者由不同的模型或工具完成，然后拼接在一起。這套流程的代價(jià)是明顯的——嘴型對(duì)不上，環(huán)境音突兀，配樂(lè)像是粘貼進(jìn)去的。

HappyHorse-1.0的架構(gòu)選擇打破了這個(gè)分裂。

它采用的是單流統(tǒng)一Transformer結(jié)構(gòu)，40層自注意力網(wǎng)絡(luò)，文字、圖像、視頻幀、音頻四種模態(tài)的token從始至終在同一個(gè)序列里處理，沒(méi)有專門的跨模態(tài)注意力模塊。官方的說(shuō)法是"三明治架構(gòu)"：首尾各4層模態(tài)專屬層，中間32層全模態(tài)共享層。音頻和視頻在生成過(guò)程中始終是同一次前向傳播（forward pass）的產(chǎn)物，不是事后合成的。

結(jié)果是什么？口型精確對(duì)上了語(yǔ)音，腳步聲踩在地面接觸的那一幀，背景噪音隨著場(chǎng)景切換自然過(guò)渡。它目前支持7種語(yǔ)言的音視頻同步生成，包括英語(yǔ)、普通話、粵語(yǔ)、日語(yǔ)、韓語(yǔ)、德語(yǔ)和法語(yǔ)。在"有音頻"類別的排行上，HappyHorse-1.0位列第二，僅次于谷歌Veo 3.1。

這個(gè)排名有意思的地方在于：在傳統(tǒng)上最難做好的維度，一個(gè)"神秘新來(lái)者"的表現(xiàn)接近了調(diào)動(dòng)了谷歌全部多模態(tài)研究積累的Veo系列。

開(kāi)源的承諾，和一個(gè)"即將上線"的空鏈接

故事到這里有一個(gè)裂縫，值得直接說(shuō)清楚。

HappyHorse-1.0官網(wǎng)上寫著：基礎(chǔ)模型、蒸餾模型、超分辨率模塊、推理代碼，全部開(kāi)源，Apache 2.0授權(quán)，允許商用。這在技術(shù)圈引發(fā)了大量轉(zhuǎn)發(fā)和期待。

截至4月14日，HuggingFace的模型頁(yè)已經(jīng)存在，README文檔在當(dāng)天仍在持續(xù)更新——但文件列表里只有兩個(gè)文件：.gitattributes 和 README.md。沒(méi)有模型權(quán)重，沒(méi)有推理代碼，沒(méi)有任何可以實(shí)際運(yùn)行的東西。比起此前各家官網(wǎng)指向的"coming soon"空鏈接，這是一個(gè)進(jìn)步，但距離"真正可用的開(kāi)源"還差最關(guān)鍵的一步。

"名義上開(kāi)源"和"真正可用的開(kāi)源"之間，有一道需要被跨過(guò)的門。

對(duì)開(kāi)發(fā)者來(lái)說(shuō)，開(kāi)源意味著能下載權(quán)重、運(yùn)行推理代碼、基于它做微調(diào)。目前這些都還不存在。阿里巴巴承諾了API接入的計(jì)劃，但時(shí)間表不明確。

這不是要否定這個(gè)模型的技術(shù)成就。Elo排名是真實(shí)的人類偏好數(shù)據(jù)，跑不掉。但如果把HappyHorse-1.0納入實(shí)際產(chǎn)品決策，現(xiàn)在需要的不是Elo分，而是一個(gè)可以調(diào)用的接口或可以運(yùn)行的權(quán)重文件。兩者都還不在。

快手出走的人，在阿里做出了什么

前快手副總裁、Kling AI技術(shù)主導(dǎo)者張迪，是這個(gè)項(xiàng)目公開(kāi)身份中可見(jiàn)度最高的名字。

Kling系列是快手在視頻生成賽道的代表作，2024年以流暢的人物動(dòng)作生成在業(yè)內(nèi)建立了口碑。張迪之后加入阿里巴巴淘天集團(tuán)，主導(dǎo)了Future Life Lab。HappyHorse-1.0的推理速度優(yōu)化思路——用DMD-2蒸餾將去噪步驟壓縮到8步，配合自研的MagiCompiler推理編譯器——在Kling系列的工程迭代中能看到類似的脈絡(luò)。

這條人員流動(dòng)線索，某種程度上解釋了為什么一個(gè)"神秘模型"能在上線一周內(nèi)就達(dá)到歷史最高Elo分：做模型的人，不是第一次做模型了。

不過(guò)阿里的"認(rèn)領(lǐng)"聲明里有一句話耐人尋味：項(xiàng)目"仍在開(kāi)發(fā)中"。這通常意味著眼前的版本不是終態(tài)——它更像是一次技術(shù)摸底，用真實(shí)榜單驗(yàn)證架構(gòu)方向是否正確，然后決定下一步怎么走。

當(dāng)Sora退出，戰(zhàn)場(chǎng)變成了中國(guó)公司的主場(chǎng)

更大的背景是：AI視頻生成這條賽道，正在快速變成一場(chǎng)中國(guó)公司之間的競(jìng)爭(zhēng)。

OpenAI關(guān)閉Sora之后，其他主要選手還剩Runway Gen-4和Luma Dream Machine。但這兩家的Elo分與頭部中國(guó)模型的差距在過(guò)去三個(gè)月內(nèi)持續(xù)擴(kuò)大。字節(jié)的Seedance 2.0雖然遭遇版權(quán)風(fēng)波，但技術(shù)底子依然扎實(shí)。阿里的HappyHorse橫空出世，把Wan 2.7系列的既有積累與新架構(gòu)整合，直接沖到榜首。還有快手Kling 3.0、PixVerse V6持續(xù)迭代。

這不是一兩個(gè)爆款模型的偶然，而是整個(gè)中國(guó)視頻生成研究群體在過(guò)去兩年密集積累之后的集中浮現(xiàn)。

一個(gè)值得關(guān)注的價(jià)格信號(hào)：中國(guó)AI視頻工具目前的商用定價(jià)，普遍在每秒生成內(nèi)容約4美分左右，而西方同類服務(wù)的價(jià)格高出數(shù)倍。如果HappyHorse-1.0的API如期開(kāi)放，開(kāi)發(fā)者將面臨一個(gè)真實(shí)的選擇：在畫質(zhì)和速度接近甚至超越的前提下，是否愿意把視頻生成底層依托在一個(gè)中國(guó)公司提供的接口上？

這個(gè)問(wèn)題，答案不會(huì)只有一種。

Q&A

Q1：HappyHorse-1.0的Elo排名是否可信，會(huì)不會(huì)是刷榜？

Artificial Analysis Video Arena的機(jī)制本身針對(duì)刷榜做了設(shè)計(jì)——用戶看不到是哪個(gè)模型生成的，投票基于真實(shí)偏好，Elo算法會(huì)根據(jù)對(duì)手強(qiáng)度加權(quán)。另一個(gè)佐證是，HappyHorse在"有音頻"類別中排名第二，如果是刷榜優(yōu)化，通常會(huì)針對(duì)全部類別同時(shí)拉高，而非在某些維度有明顯落差。短期內(nèi)憑借某類生成風(fēng)格的優(yōu)化偶爾占優(yōu)是可能的，但持續(xù)領(lǐng)先60+ Elo分需要大量比賽場(chǎng)次的穩(wěn)定勝出，這不是短期操縱能做到的。

Q2：HappyHorse-1.0最核心的技術(shù)突破是什么？

最值得關(guān)注的是單流統(tǒng)一Transformer對(duì)音視頻的聯(lián)合建模。傳統(tǒng)模型把視頻和音頻分開(kāi)生成再合并，導(dǎo)致同步誤差。HappyHorse把所有模態(tài)放進(jìn)同一個(gè)token序列，在一次推理過(guò)程中同時(shí)輸出視頻幀和同步音頻，這從根本上消除了"拼接"帶來(lái)的對(duì)不上問(wèn)題。配合DMD-2蒸餾（8步去噪）和MagiCompiler加速，在H100上生成1080p視頻約38秒，比同級(jí)別模型快30%。

Q3：現(xiàn)在能用HappyHorse-1.0做項(xiàng)目嗎？

目前只能通過(guò)官方在線平臺(tái)試用，沒(méi)有公開(kāi)的API接口，也沒(méi)有可下載的模型權(quán)重。HuggingFace頁(yè)面已上線，文檔持續(xù)在更新，但模型權(quán)重和推理代碼尚未發(fā)布。對(duì)需要接入實(shí)際產(chǎn)品或工作流的開(kāi)發(fā)者和制作團(tuán)隊(duì)來(lái)說(shuō)，HappyHorse-1.0現(xiàn)在的價(jià)值更多在于"了解技術(shù)方向"，而非立刻可以落地部署的工具。

END本文來(lái)自至頂AI實(shí)驗(yàn)室，一個(gè)專注于對(duì)AI計(jì)算機(jī)、工作站及各類AI相關(guān)硬件設(shè)備，開(kāi)展基于真實(shí)使用場(chǎng)景評(píng)測(cè)的研究機(jī)構(gòu)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.