網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Hallo-Live 讓文本驅(qū)動(dòng)音視頻數(shù)字人邁入實(shí)時(shí)流式生成

2026-05-24 18:46:41　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

本文第一作者李淳譽(yù)為復(fù)旦大學(xué)博士生，主要研究方向?yàn)橐曨l生成擴(kuò)散模型；復(fù)旦大學(xué)碩士生李佳燁為共同一作。復(fù)旦大學(xué)教授，上海創(chuàng)智學(xué)院全時(shí)導(dǎo)師朱思語(yǔ)為通訊作者。

文本驅(qū)動(dòng)的音視頻數(shù)字人，正在從 “能生成” 走向 “能實(shí)時(shí)交互”。但這條路并不好走。一方面，視頻和語(yǔ)音的聯(lián)合生成本身就是高維、重計(jì)算任務(wù)；另一方面，一旦為了速度做激進(jìn)加速，嘴型同步、語(yǔ)音自然度和人物細(xì)節(jié)往往會(huì)一起下滑。

最近，來(lái)自上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)等機(jī)構(gòu)的研究者提出了Hallo-Live，試圖正面解決這個(gè)矛盾。論文于2026 年 4 月 26 日發(fā)布在 arXiv。該方法將異步雙流擴(kuò)散（Asynchronous Dual-Stream Diffusion）與人類(lèi)偏好引導(dǎo)蒸餾（Human-Centric Preference-Guided DMD）結(jié)合起來(lái)，在兩張 NVIDIA H200 GPU 上實(shí)現(xiàn)了20.38 FPS的吞吐與0.94 秒的端到端延遲；相較教師模型 Ovi，吞吐提升16.0 倍，延遲下降99.3%，同時(shí)仍保持接近教師模型的視覺(jué)質(zhì)量和音畫(huà)同步效果。

論文標(biāo)題：Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
論文鏈接：https://arxiv.org/abs/2604.23632
代碼地址：https://github.com/fudan-generative-vision/Hallo-Live

此 demo 展示了 Hallo-Live 在動(dòng)漫風(fēng)格、寫(xiě)實(shí)人物和 Multi-speaker 場(chǎng)景下的實(shí)時(shí)文本驅(qū)動(dòng)音視頻生成效果。

為什么實(shí)時(shí)音視頻生成這么難？

和傳統(tǒng)的音頻驅(qū)動(dòng)數(shù)字人不同，文本驅(qū)動(dòng)音視頻生成要同時(shí)完成兩件事：先 “理解” 文本里的人物、場(chǎng)景、語(yǔ)氣和聲學(xué)環(huán)境，再同步生成對(duì)應(yīng)的說(shuō)話視頻與語(yǔ)音。這意味著模型不僅要保證畫(huà)面質(zhì)量和語(yǔ)音自然度，還要把嘴型、發(fā)音、表情甚至上半身動(dòng)作卡在同一個(gè)時(shí)間軸上。

已有工作里，Ovi 等雙流擴(kuò)散模型已經(jīng)證明，音頻流和視頻流分開(kāi)建模、再做跨模態(tài)融合，是一條有效路線。但問(wèn)題在于，這類(lèi)模型通常更偏向離線高質(zhì)量生成，離實(shí)時(shí)交互還有明顯距離。作者指出，真正把它改造成流式系統(tǒng)時(shí)，會(huì)遇到兩個(gè)核心瓶頸：

嚴(yán)格因果的塊級(jí)注意力看不到 “短時(shí)未來(lái)” 語(yǔ)音信息。但真實(shí)說(shuō)話中，嘴唇動(dòng)作往往會(huì)先于聲音到來(lái)，存在明顯的協(xié)同發(fā)音現(xiàn)象。
少步蒸餾雖然能提速，但容易帶來(lái) “均值化” 退化。結(jié)果就是視頻紋理變糊、語(yǔ)音更機(jī)械、音畫(huà)對(duì)齊也更容易漂移。

Hallo-Live 整體框架

Hallo-Live 包含兩個(gè)訓(xùn)練階段。Stage 1 是Dual-Stream ODE Init：模型同時(shí)輸入不同 noise level 的音視頻 blocks，基于單模態(tài)和跨模態(tài)的 Block-Causal Mask 訓(xùn)練雙流 DiT，使訓(xùn)練階段的可見(jiàn)性約束和流式推理保持一致。Stage 2 是Self-Rollout + Dual-Stream DMD：學(xué)生模型基于音視頻 KV Cache 自回歸生成完整音視頻，再引入音頻、視頻和音視頻同步相關(guān)的 reward，對(duì)雙流 DMD 損失進(jìn)行加權(quán)，從而把教師模型蒸餾為 few-step 模型。

Causal Fusion Block則是 Hallo-Live 雙流 DiT 的核心單元：視頻流和音頻流先分別做單模態(tài) Block-Causal Self-Attention，再注入文本條件，隨后通過(guò)跨模態(tài) Block-Causal Cross-Attention 交換信息，在流式生成下完成音視頻融合。其中，視頻到音頻的注意力使用 Future-Expanding Block-Causal Mask，讓當(dāng)前視頻塊能夠看到少量未來(lái)音頻上下文。

關(guān)鍵技術(shù) 1：

Future-Expanding Attention

論文第一個(gè)創(chuàng)新設(shè)計(jì)，是Future-Expanding Attention。作者觀察到，如果視頻流只能看到當(dāng)前和過(guò)去的音頻塊，那么模型很難做出自然的提前張口、閉口、唇齒過(guò)渡等動(dòng)作。于是，他們把視頻到音頻的跨模態(tài)注意力做成 “非對(duì)稱(chēng)” 的：視頻仍然聚焦當(dāng)前塊，但音頻鍵值范圍會(huì)額外向前擴(kuò)一小段 look-ahead 窗口。

這相當(dāng)于給視頻流一個(gè)短時(shí)的 “預(yù)讀區(qū)”。重要的是，這個(gè)未來(lái)音頻塊并不是最終輸出，而是一個(gè)臨時(shí)的、可被下一步覆蓋的過(guò)渡塊，因此不會(huì)損失最終生成的音頻質(zhì)量。

從直覺(jué)上看，Strict Block-Causal Attention 只能看當(dāng)前音頻，而 Future-Expanding Attention 允許視頻塊訪問(wèn)少量未來(lái)音頻，從而改善口型同步效果。

關(guān)鍵技術(shù) 2：

把 “偏好” 直接蒸餾進(jìn)學(xué)生模型

如果說(shuō) Future-Expanding Attention 解決的是 “看不見(jiàn)未來(lái)語(yǔ)音” 的問(wèn)題，那么HP-DMD解決的則是 “加速以后為什么會(huì)變丑、變僵、變不同步”。

作者的做法是把蒸餾目標(biāo)從單純模仿教師分布，轉(zhuǎn)向 “獎(jiǎng)勵(lì)加權(quán)后的教師分布”。其中：

VideoAlign負(fù)責(zé)衡量視頻美學(xué)與文本 / 畫(huà)面對(duì)齊
SyncNet負(fù)責(zé)衡量唇形與語(yǔ)音是否同步
AudioBox負(fù)責(zé)衡量語(yǔ)音自然度與聲學(xué)質(zhì)量

如果用更接近 RL / reward optimization 的語(yǔ)言來(lái)寫(xiě)，Hallo-Live 的核心不是直接做 policy gradient，而是先給學(xué)生模型生成的樣本打分，再把這些 reward 通過(guò)指數(shù)重加權(quán)注入蒸餾目標(biāo)。從分布視角看，它等價(jià)于不再單純擬合教師分布 p_T，而是去擬合一個(gè)被 reward 傾斜過(guò)的新目標(biāo)分布：

直觀理解，這套寫(xiě)法更像 “reward-weighted distillation” 而不是傳統(tǒng)強(qiáng)化學(xué)習(xí)里的策略梯度更新：模型并不直接對(duì)動(dòng)作概率做 RL 優(yōu)化，而是通過(guò) reward 重新塑形 student 要逼近的目標(biāo)分布。

結(jié)果如何？

速度幾乎 “斷層領(lǐng)先”，質(zhì)量接近重型教師模型

從主要結(jié)果來(lái)看，Hallo-Live 最突出的優(yōu)勢(shì)就是把文本到音視頻生成首次真正推入了實(shí)時(shí)區(qū)間。

從指標(biāo)結(jié)果來(lái)看：

速度：Hallo-Live 達(dá)到20.38 FPS0.94 秒延遲，明顯快于 Ovi、LTX-2、JavisDiT 和 UniVerse-1 等方法。
質(zhì)量：在VideoAlign Overall（2.32）Sync-C（4.72）以及人類(lèi)保真度（0.90 / 0.98 / 0.92）等指標(biāo)上，Hallo-Live 整體接近 Ovi 和 LTX-2，沒(méi)有因?yàn)樘崴俣霈F(xiàn)明顯失真。

這組結(jié)果說(shuō)明，Hallo-Live 并不是用極端犧牲質(zhì)量去換取速度，而是在質(zhì)量基本守住的前提下，把系統(tǒng)推到了可交互的速度等級(jí)。對(duì)于數(shù)字人直播、角色扮演和虛擬主持等場(chǎng)景，這一點(diǎn)非常關(guān)鍵。

意義與展望

Hallo-Live 的價(jià)值，不只是把速度做快了一點(diǎn)，而是提出了一種很有代表性的技術(shù)路線：在保持流式因果生成框架的前提下，完成視頻和語(yǔ)音的聯(lián)合生成。對(duì)數(shù)字人行業(yè)來(lái)說(shuō)，提供了一種可部署、可交互、可擴(kuò)展的模型形態(tài)。

當(dāng)然，論文也沒(méi)有宣稱(chēng)問(wèn)題已經(jīng)被完全解決。比如，從指標(biāo)看，Hallo-Live 在同步和語(yǔ)音質(zhì)量上仍未全面超過(guò)最強(qiáng)離線或重型模型；另一方面，當(dāng)前實(shí)驗(yàn)平臺(tái)仍依賴(lài)兩張 NVIDIA H200，距離更低成本硬件部署還有優(yōu)化空間。不過(guò)，如果把“實(shí)時(shí)文本驅(qū)動(dòng)音視頻數(shù)字人”看作一個(gè)長(zhǎng)期目標(biāo)，Hallo-Live 已經(jīng)給出了一份相當(dāng)明確的階段性答案。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.