![]()
本文第一作者李淳譽(yù)為復(fù)旦大學(xué)博士生,主要研究方向?yàn)橐曨l生成擴(kuò)散模型;復(fù)旦大學(xué)碩士生李佳燁為共同一作。復(fù)旦大學(xué)教授,上海創(chuàng)智學(xué)院全時(shí)導(dǎo)師朱思語(yǔ)為通訊作者。
文本驅(qū)動(dòng)的音視頻數(shù)字人,正在從 “能生成” 走向 “能實(shí)時(shí)交互”。但這條路并不好走。一方面,視頻和語(yǔ)音的聯(lián)合生成本身就是高維、重計(jì)算任務(wù);另一方面,一旦為了速度做激進(jìn)加速,嘴型同步、語(yǔ)音自然度和人物細(xì)節(jié)往往會(huì)一起下滑。
最近,來(lái)自上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)等機(jī)構(gòu)的研究者提出了Hallo-Live,試圖正面解決這個(gè)矛盾。論文于2026 年 4 月 26 日發(fā)布在 arXiv。該方法將 異步雙流擴(kuò)散(Asynchronous Dual-Stream Diffusion) 與人類(lèi)偏好引導(dǎo)蒸餾(Human-Centric Preference-Guided DMD)結(jié)合起來(lái),在兩張 NVIDIA H200 GPU 上實(shí)現(xiàn)了20.38 FPS的吞吐與0.94 秒的端到端延遲;相較教師模型 Ovi,吞吐提升16.0 倍,延遲下降99.3%,同時(shí)仍保持接近教師模型的視覺(jué)質(zhì)量和音畫(huà)同步效果。
![]()
- 論文標(biāo)題:Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
- 論文鏈接:https://arxiv.org/abs/2604.23632
- 代碼地址:https://github.com/fudan-generative-vision/Hallo-Live
此 demo 展示了 Hallo-Live 在動(dòng)漫風(fēng)格、寫(xiě)實(shí)人物和 Multi-speaker 場(chǎng)景下的實(shí)時(shí)文本驅(qū)動(dòng)音視頻生成效果。
為什么實(shí)時(shí)音視頻生成這么難?
和傳統(tǒng)的音頻驅(qū)動(dòng)數(shù)字人不同,文本驅(qū)動(dòng)音視頻生成要同時(shí)完成兩件事:先 “理解” 文本里的人物、場(chǎng)景、語(yǔ)氣和聲學(xué)環(huán)境,再同步生成對(duì)應(yīng)的說(shuō)話視頻與語(yǔ)音。這意味著模型不僅要保證畫(huà)面質(zhì)量和語(yǔ)音自然度,還要把嘴型、發(fā)音、表情甚至上半身動(dòng)作卡在同一個(gè)時(shí)間軸上。
已有工作里,Ovi 等雙流擴(kuò)散模型已經(jīng)證明,音頻流和視頻流分開(kāi)建模、再做跨模態(tài)融合,是一條有效路線。但問(wèn)題在于,這類(lèi)模型通常更偏向離線高質(zhì)量生成,離實(shí)時(shí)交互還有明顯距離。作者指出,真正把它改造成流式系統(tǒng)時(shí),會(huì)遇到兩個(gè)核心瓶頸:
- 嚴(yán)格因果的塊級(jí)注意力看不到 “短時(shí)未來(lái)” 語(yǔ)音信息。但真實(shí)說(shuō)話中,嘴唇動(dòng)作往往會(huì)先于聲音到來(lái),存在明顯的協(xié)同發(fā)音現(xiàn)象。
- 少步蒸餾雖然能提速,但容易帶來(lái) “均值化” 退化。結(jié)果就是視頻紋理變糊、語(yǔ)音更機(jī)械、音畫(huà)對(duì)齊也更容易漂移。
Hallo-Live 整體框架
Hallo-Live 包含兩個(gè)訓(xùn)練階段。Stage 1 是Dual-Stream ODE Init:模型同時(shí)輸入不同 noise level 的音視頻 blocks,基于單模態(tài)和跨模態(tài)的 Block-Causal Mask 訓(xùn)練雙流 DiT,使訓(xùn)練階段的可見(jiàn)性約束和流式推理保持一致。Stage 2 是Self-Rollout + Dual-Stream DMD:學(xué)生模型基于音視頻 KV Cache 自回歸生成完整音視頻,再引入音頻、視頻和音視頻同步相關(guān)的 reward,對(duì)雙流 DMD 損失進(jìn)行加權(quán),從而把教師模型蒸餾為 few-step 模型。
![]()
Causal Fusion Block則是 Hallo-Live 雙流 DiT 的核心單元:視頻流和音頻流先分別做單模態(tài) Block-Causal Self-Attention,再注入文本條件,隨后通過(guò)跨模態(tài) Block-Causal Cross-Attention 交換信息,在流式生成下完成音視頻融合。其中,視頻到音頻的注意力使用 Future-Expanding Block-Causal Mask,讓當(dāng)前視頻塊能夠看到少量未來(lái)音頻上下文。
![]()
關(guān)鍵技術(shù) 1:
Future-Expanding Attention
論文第一個(gè)創(chuàng)新設(shè)計(jì),是Future-Expanding Attention。作者觀察到,如果視頻流只能看到當(dāng)前和過(guò)去的音頻塊,那么模型很難做出自然的提前張口、閉口、唇齒過(guò)渡等動(dòng)作。于是,他們把視頻到音頻的跨模態(tài)注意力做成 “非對(duì)稱(chēng)” 的:視頻仍然聚焦當(dāng)前塊,但音頻鍵值范圍會(huì)額外向前擴(kuò)一小段 look-ahead 窗口。
這相當(dāng)于給視頻流一個(gè)短時(shí)的 “預(yù)讀區(qū)”。重要的是,這個(gè)未來(lái)音頻塊并不是最終輸出,而是一個(gè)臨時(shí)的、可被下一步覆蓋的過(guò)渡塊,因此不會(huì)損失最終生成的音頻質(zhì)量。
![]()
從直覺(jué)上看,Strict Block-Causal Attention 只能看當(dāng)前音頻,而 Future-Expanding Attention 允許視頻塊訪問(wèn)少量未來(lái)音頻,從而改善口型同步效果。
關(guān)鍵技術(shù) 2:
把 “偏好” 直接蒸餾進(jìn)學(xué)生模型
如果說(shuō) Future-Expanding Attention 解決的是 “看不見(jiàn)未來(lái)語(yǔ)音” 的問(wèn)題,那么HP-DMD解決的則是 “加速以后為什么會(huì)變丑、變僵、變不同步”。
作者的做法是把蒸餾目標(biāo)從單純模仿教師分布,轉(zhuǎn)向 “獎(jiǎng)勵(lì)加權(quán)后的教師分布”。其中:
- VideoAlign負(fù)責(zé)衡量視頻美學(xué)與文本 / 畫(huà)面對(duì)齊
- SyncNet負(fù)責(zé)衡量唇形與語(yǔ)音是否同步
- AudioBox負(fù)責(zé)衡量語(yǔ)音自然度與聲學(xué)質(zhì)量
如果用更接近 RL / reward optimization 的語(yǔ)言來(lái)寫(xiě),Hallo-Live 的核心不是直接做 policy gradient,而是先給學(xué)生模型生成的樣本打分,再把這些 reward 通過(guò)指數(shù)重加權(quán)注入蒸餾目標(biāo)。從分布視角看,它等價(jià)于不再單純擬合教師分布 p_T,而是去擬合一個(gè)被 reward 傾斜過(guò)的新目標(biāo)分布:
直觀理解,這套寫(xiě)法更像 “reward-weighted distillation” 而不是傳統(tǒng)強(qiáng)化學(xué)習(xí)里的策略梯度更新:模型并不直接對(duì)動(dòng)作概率做 RL 優(yōu)化,而是通過(guò) reward 重新塑形 student 要逼近的目標(biāo)分布。
結(jié)果如何?
速度幾乎 “斷層領(lǐng)先”,質(zhì)量接近重型教師模型
從主要結(jié)果來(lái)看,Hallo-Live 最突出的優(yōu)勢(shì)就是把文本到音視頻生成首次真正推入了實(shí)時(shí)區(qū)間。
![]()
從指標(biāo)結(jié)果來(lái)看:
- 速度:Hallo-Live 達(dá)到20.38 FPS0.94 秒延遲,明顯快于 Ovi、LTX-2、JavisDiT 和 UniVerse-1 等方法。
- 質(zhì)量:在VideoAlign Overall(2.32)Sync-C(4.72)以及人類(lèi)保真度(0.90 / 0.98 / 0.92)等指標(biāo)上,Hallo-Live 整體接近 Ovi 和 LTX-2,沒(méi)有因?yàn)樘崴俣霈F(xiàn)明顯失真。
這組結(jié)果說(shuō)明,Hallo-Live 并不是用極端犧牲質(zhì)量去換取速度,而是在質(zhì)量基本守住的前提下,把系統(tǒng)推到了可交互的速度等級(jí)。對(duì)于數(shù)字人直播、角色扮演和虛擬主持等場(chǎng)景,這一點(diǎn)非常關(guān)鍵。
意義與展望
Hallo-Live 的價(jià)值,不只是把速度做快了一點(diǎn),而是提出了一種很有代表性的技術(shù)路線:在保持流式因果生成框架的前提下,完成視頻和語(yǔ)音的聯(lián)合生成。對(duì)數(shù)字人行業(yè)來(lái)說(shuō),提供了一種可部署、可交互、可擴(kuò)展的模型形態(tài)。
當(dāng)然,論文也沒(méi)有宣稱(chēng)問(wèn)題已經(jīng)被完全解決。比如,從指標(biāo)看,Hallo-Live 在同步和語(yǔ)音質(zhì)量上仍未全面超過(guò)最強(qiáng)離線或重型模型;另一方面,當(dāng)前實(shí)驗(yàn)平臺(tái)仍依賴(lài)兩張 NVIDIA H200,距離更低成本硬件部署還有優(yōu)化空間。不過(guò),如果把“實(shí)時(shí)文本驅(qū)動(dòng)音視頻數(shù)字人”看作一個(gè)長(zhǎng)期目標(biāo),Hallo-Live 已經(jīng)給出了一份相當(dāng)明確的階段性答案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.