无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Hallo-Live 讓文本驅(qū)動(dòng)音視頻數(shù)字人邁入實(shí)時(shí)流式生成

0
分享至



本文第一作者李淳譽(yù)為復(fù)旦大學(xué)博士生,主要研究方向?yàn)橐曨l生成擴(kuò)散模型;復(fù)旦大學(xué)碩士生李佳燁為共同一作。復(fù)旦大學(xué)教授,上海創(chuàng)智學(xué)院全時(shí)導(dǎo)師朱思語(yǔ)為通訊作者。

文本驅(qū)動(dòng)的音視頻數(shù)字人,正在從 “能生成” 走向 “能實(shí)時(shí)交互”。但這條路并不好走。一方面,視頻和語(yǔ)音的聯(lián)合生成本身就是高維、重計(jì)算任務(wù);另一方面,一旦為了速度做激進(jìn)加速,嘴型同步、語(yǔ)音自然度和人物細(xì)節(jié)往往會(huì)一起下滑。

最近,來(lái)自上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)等機(jī)構(gòu)的研究者提出了Hallo-Live,試圖正面解決這個(gè)矛盾。論文于2026 年 4 月 26 日發(fā)布在 arXiv。該方法將 異步雙流擴(kuò)散(Asynchronous Dual-Stream Diffusion) 與人類(lèi)偏好引導(dǎo)蒸餾(Human-Centric Preference-Guided DMD)結(jié)合起來(lái),在兩張 NVIDIA H200 GPU 上實(shí)現(xiàn)了20.38 FPS的吞吐與0.94 秒的端到端延遲;相較教師模型 Ovi,吞吐提升16.0 倍,延遲下降99.3%,同時(shí)仍保持接近教師模型的視覺(jué)質(zhì)量和音畫(huà)同步效果。



  • 論文標(biāo)題:Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
  • 論文鏈接:https://arxiv.org/abs/2604.23632
  • 代碼地址:https://github.com/fudan-generative-vision/Hallo-Live

此 demo 展示了 Hallo-Live 在動(dòng)漫風(fēng)格、寫(xiě)實(shí)人物和 Multi-speaker 場(chǎng)景下的實(shí)時(shí)文本驅(qū)動(dòng)音視頻生成效果。

為什么實(shí)時(shí)音視頻生成這么難?

和傳統(tǒng)的音頻驅(qū)動(dòng)數(shù)字人不同,文本驅(qū)動(dòng)音視頻生成要同時(shí)完成兩件事:先 “理解” 文本里的人物、場(chǎng)景、語(yǔ)氣和聲學(xué)環(huán)境,再同步生成對(duì)應(yīng)的說(shuō)話視頻與語(yǔ)音。這意味著模型不僅要保證畫(huà)面質(zhì)量和語(yǔ)音自然度,還要把嘴型、發(fā)音、表情甚至上半身動(dòng)作卡在同一個(gè)時(shí)間軸上。

已有工作里,Ovi 等雙流擴(kuò)散模型已經(jīng)證明,音頻流和視頻流分開(kāi)建模、再做跨模態(tài)融合,是一條有效路線。但問(wèn)題在于,這類(lèi)模型通常更偏向離線高質(zhì)量生成,離實(shí)時(shí)交互還有明顯距離。作者指出,真正把它改造成流式系統(tǒng)時(shí),會(huì)遇到兩個(gè)核心瓶頸:

  • 嚴(yán)格因果的塊級(jí)注意力看不到 “短時(shí)未來(lái)” 語(yǔ)音信息。但真實(shí)說(shuō)話中,嘴唇動(dòng)作往往會(huì)先于聲音到來(lái),存在明顯的協(xié)同發(fā)音現(xiàn)象。
  • 少步蒸餾雖然能提速,但容易帶來(lái) “均值化” 退化。結(jié)果就是視頻紋理變糊、語(yǔ)音更機(jī)械、音畫(huà)對(duì)齊也更容易漂移。

Hallo-Live 整體框架

Hallo-Live 包含兩個(gè)訓(xùn)練階段。Stage 1 是Dual-Stream ODE Init:模型同時(shí)輸入不同 noise level 的音視頻 blocks,基于單模態(tài)和跨模態(tài)的 Block-Causal Mask 訓(xùn)練雙流 DiT,使訓(xùn)練階段的可見(jiàn)性約束和流式推理保持一致。Stage 2 是Self-Rollout + Dual-Stream DMD:學(xué)生模型基于音視頻 KV Cache 自回歸生成完整音視頻,再引入音頻、視頻和音視頻同步相關(guān)的 reward,對(duì)雙流 DMD 損失進(jìn)行加權(quán),從而把教師模型蒸餾為 few-step 模型。



Causal Fusion Block則是 Hallo-Live 雙流 DiT 的核心單元:視頻流和音頻流先分別做單模態(tài) Block-Causal Self-Attention,再注入文本條件,隨后通過(guò)跨模態(tài) Block-Causal Cross-Attention 交換信息,在流式生成下完成音視頻融合。其中,視頻到音頻的注意力使用 Future-Expanding Block-Causal Mask,讓當(dāng)前視頻塊能夠看到少量未來(lái)音頻上下文。



關(guān)鍵技術(shù) 1:

Future-Expanding Attention

論文第一個(gè)創(chuàng)新設(shè)計(jì),是Future-Expanding Attention。作者觀察到,如果視頻流只能看到當(dāng)前和過(guò)去的音頻塊,那么模型很難做出自然的提前張口、閉口、唇齒過(guò)渡等動(dòng)作。于是,他們把視頻到音頻的跨模態(tài)注意力做成 “非對(duì)稱(chēng)” 的:視頻仍然聚焦當(dāng)前塊,但音頻鍵值范圍會(huì)額外向前擴(kuò)一小段 look-ahead 窗口。

這相當(dāng)于給視頻流一個(gè)短時(shí)的 “預(yù)讀區(qū)”。重要的是,這個(gè)未來(lái)音頻塊并不是最終輸出,而是一個(gè)臨時(shí)的、可被下一步覆蓋的過(guò)渡塊,因此不會(huì)損失最終生成的音頻質(zhì)量。



從直覺(jué)上看,Strict Block-Causal Attention 只能看當(dāng)前音頻,而 Future-Expanding Attention 允許視頻塊訪問(wèn)少量未來(lái)音頻,從而改善口型同步效果。

關(guān)鍵技術(shù) 2:

把 “偏好” 直接蒸餾進(jìn)學(xué)生模型

如果說(shuō) Future-Expanding Attention 解決的是 “看不見(jiàn)未來(lái)語(yǔ)音” 的問(wèn)題,那么HP-DMD解決的則是 “加速以后為什么會(huì)變丑、變僵、變不同步”。

作者的做法是把蒸餾目標(biāo)從單純模仿教師分布,轉(zhuǎn)向 “獎(jiǎng)勵(lì)加權(quán)后的教師分布”。其中:

  • VideoAlign負(fù)責(zé)衡量視頻美學(xué)與文本 / 畫(huà)面對(duì)齊
  • SyncNet負(fù)責(zé)衡量唇形與語(yǔ)音是否同步
  • AudioBox負(fù)責(zé)衡量語(yǔ)音自然度與聲學(xué)質(zhì)量

如果用更接近 RL / reward optimization 的語(yǔ)言來(lái)寫(xiě),Hallo-Live 的核心不是直接做 policy gradient,而是先給學(xué)生模型生成的樣本打分,再把這些 reward 通過(guò)指數(shù)重加權(quán)注入蒸餾目標(biāo)。從分布視角看,它等價(jià)于不再單純擬合教師分布 p_T,而是去擬合一個(gè)被 reward 傾斜過(guò)的新目標(biāo)分布:

直觀理解,這套寫(xiě)法更像 “reward-weighted distillation” 而不是傳統(tǒng)強(qiáng)化學(xué)習(xí)里的策略梯度更新:模型并不直接對(duì)動(dòng)作概率做 RL 優(yōu)化,而是通過(guò) reward 重新塑形 student 要逼近的目標(biāo)分布。

結(jié)果如何?

速度幾乎 “斷層領(lǐng)先”,質(zhì)量接近重型教師模型

從主要結(jié)果來(lái)看,Hallo-Live 最突出的優(yōu)勢(shì)就是把文本到音視頻生成首次真正推入了實(shí)時(shí)區(qū)間。



從指標(biāo)結(jié)果來(lái)看:

  • 速度:Hallo-Live 達(dá)到20.38 FPS0.94 秒延遲,明顯快于 Ovi、LTX-2、JavisDiT 和 UniVerse-1 等方法。
  • 質(zhì)量:在VideoAlign Overall(2.32)Sync-C(4.72)以及人類(lèi)保真度(0.90 / 0.98 / 0.92)等指標(biāo)上,Hallo-Live 整體接近 Ovi 和 LTX-2,沒(méi)有因?yàn)樘崴俣霈F(xiàn)明顯失真。

這組結(jié)果說(shuō)明,Hallo-Live 并不是用極端犧牲質(zhì)量去換取速度,而是在質(zhì)量基本守住的前提下,把系統(tǒng)推到了可交互的速度等級(jí)。對(duì)于數(shù)字人直播、角色扮演和虛擬主持等場(chǎng)景,這一點(diǎn)非常關(guān)鍵。

意義與展望

Hallo-Live 的價(jià)值,不只是把速度做快了一點(diǎn),而是提出了一種很有代表性的技術(shù)路線:在保持流式因果生成框架的前提下,完成視頻和語(yǔ)音的聯(lián)合生成。對(duì)數(shù)字人行業(yè)來(lái)說(shuō),提供了一種可部署、可交互、可擴(kuò)展的模型形態(tài)。

當(dāng)然,論文也沒(méi)有宣稱(chēng)問(wèn)題已經(jīng)被完全解決。比如,從指標(biāo)看,Hallo-Live 在同步和語(yǔ)音質(zhì)量上仍未全面超過(guò)最強(qiáng)離線或重型模型;另一方面,當(dāng)前實(shí)驗(yàn)平臺(tái)仍依賴(lài)兩張 NVIDIA H200,距離更低成本硬件部署還有優(yōu)化空間。不過(guò),如果把“實(shí)時(shí)文本驅(qū)動(dòng)音視頻數(shù)字人”看作一個(gè)長(zhǎng)期目標(biāo),Hallo-Live 已經(jīng)給出了一份相當(dāng)明確的階段性答案。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
古巴8個(gè)鮮為人知的事實(shí):曾迫使數(shù)萬(wàn)華人流亡,從富裕國(guó)家滑落至極度困難

古巴8個(gè)鮮為人知的事實(shí):曾迫使數(shù)萬(wàn)華人流亡,從富裕國(guó)家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對(duì)羅馬尼亞迅速采取報(bào)復(fù)措施

扎哈羅娃:俄將對(duì)羅馬尼亞迅速采取報(bào)復(fù)措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現(xiàn),兩千億巨頭陷熱門(mén)概念敘事與資本套現(xiàn)割裂

三花智控高管“為孩子教育”減持套現(xiàn),兩千億巨頭陷熱門(mén)概念敘事與資本套現(xiàn)割裂

每日經(jīng)濟(jì)新聞
2026-05-30 14:41:08
“結(jié)婚22年后發(fā)現(xiàn)兩兒子均非親生”當(dāng)事人發(fā)聲:我對(duì)他們恨之入骨!

“結(jié)婚22年后發(fā)現(xiàn)兩兒子均非親生”當(dāng)事人發(fā)聲:我對(duì)他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時(shí)!求救幾十次后,保安回應(yīng):不要再按電梯玩了

兩名9歲女孩被困電梯近2小時(shí)!求救幾十次后,保安回應(yīng):不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰(zhàn)爭(zhēng),如果俄羅斯最終贏了,你我在有生之年很可能會(huì)親歷戰(zhàn)爭(zhēng)

俄烏戰(zhàn)爭(zhēng),如果俄羅斯最終贏了,你我在有生之年很可能會(huì)親歷戰(zhàn)爭(zhēng)

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德?tīng)栂到y(tǒng)

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德?tīng)栂到y(tǒng)

項(xiàng)鵬飛
2026-05-30 16:28:01
西決搶七大戰(zhàn)裁判出爐:戴維斯擔(dān)任主裁 三人執(zhí)哨兩隊(duì)勝率曝光

西決搶七大戰(zhàn)裁判出爐:戴維斯擔(dān)任主裁 三人執(zhí)哨兩隊(duì)勝率曝光

羅說(shuō)NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛(ài)喝

央視曝光!涉事品牌:全部下架!天熱很多人愛(ài)喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報(bào)
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫(yī)生提醒:每周不應(yīng)超過(guò)一個(gè)數(shù)

41歲夫妻因“房事頻繁”雙雙入院,醫(yī)生提醒:每周不應(yīng)超過(guò)一個(gè)數(shù)

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷(xiāo)毀,特朗普就伊朗戰(zhàn)事最新表態(tài)

伊朗濃縮鈾材料將被挖出銷(xiāo)毀,特朗普就伊朗戰(zhàn)事最新表態(tài)

上游新聞
2026-05-29 23:35:03
D1804次列車(chē)受電弓遭異物擊打,被困隧道內(nèi)超2小時(shí),乘客稱(chēng)全車(chē)停電悶熱異常,身上像從水里撈出來(lái)的,備用列車(chē)已到現(xiàn)場(chǎng)并開(kāi)始轉(zhuǎn)運(yùn)

D1804次列車(chē)受電弓遭異物擊打,被困隧道內(nèi)超2小時(shí),乘客稱(chēng)全車(chē)停電悶熱異常,身上像從水里撈出來(lái)的,備用列車(chē)已到現(xiàn)場(chǎng)并開(kāi)始轉(zhuǎn)運(yùn)

臺(tái)州交通廣播
2026-05-30 13:47:54
耿同學(xué)再下一城!南開(kāi)免去陳某院長(zhǎng)職務(wù),14張圖表確認(rèn)學(xué)術(shù)不端

耿同學(xué)再下一城!南開(kāi)免去陳某院長(zhǎng)職務(wù),14張圖表確認(rèn)學(xué)術(shù)不端

聽(tīng)心堂
2026-05-30 20:24:06
中方代表:日本沒(méi)有資格談國(guó)際防務(wù)合作 須警惕軍國(guó)主義思潮借機(jī)復(fù)活

中方代表:日本沒(méi)有資格談國(guó)際防務(wù)合作 須警惕軍國(guó)主義思潮借機(jī)復(fù)活

環(huán)球網(wǎng)資訊
2026-05-30 19:36:11
禁投美股,難得全球大國(guó)中惟一正確

禁投美股,難得全球大國(guó)中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫(yī)院空調(diào)外機(jī)安在室內(nèi)走廊,患者吐槽“看病比室外還熱”,院方回應(yīng)

海南一三甲醫(yī)院空調(diào)外機(jī)安在室內(nèi)走廊,患者吐槽“看病比室外還熱”,院方回應(yīng)

上游新聞
2026-05-30 16:05:05
中建八局資質(zhì)被正式撤銷(xiāo),給全行業(yè)敲響警鐘,考公需要注意了。

中建八局資質(zhì)被正式撤銷(xiāo),給全行業(yè)敲響警鐘,考公需要注意了。

解說(shuō)阿洎
2026-05-29 12:34:21
最新!債務(wù)突破100萬(wàn)億!

最新!債務(wù)突破100萬(wàn)億!

葉初七
2026-05-30 10:28:14
網(wǎng)紅狗被偷后續(xù):男子被帶走,老婆還在哺乳期,收狗人曝更多內(nèi)情

網(wǎng)紅狗被偷后續(xù):男子被帶走,老婆還在哺乳期,收狗人曝更多內(nèi)情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
13116文章數(shù) 142655關(guān)注度
往期回顧 全部

科技要聞

車(chē)圈大佬發(fā)聲:價(jià)格戰(zhàn)遠(yuǎn)去,但競(jìng)爭(zhēng)仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時(shí) 求救幾十次物業(yè)無(wú)動(dòng)于衷

頭條要聞

兩名9歲女孩被困電梯近2小時(shí) 求救幾十次物業(yè)無(wú)動(dòng)于衷

體育要聞

歲月不饒人!39歲德約鏖戰(zhàn)近5小時(shí)拼到嘔吐

娛樂(lè)要聞

張碧晨《歌手》 “活人微死” 自嘲

財(cái)經(jīng)要聞

雙匯管不住一頭豬

汽車(chē)要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬(wàn)元起

態(tài)度原創(chuàng)

游戲
健康
手機(jī)
本地
公開(kāi)課

索尼PS第一方大作更新上線!超分來(lái)了 體驗(yàn)大加強(qiáng)

嘗試干細(xì)胞療法如何避免踩坑?

手機(jī)要聞

REDMI K90至尊版入網(wǎng)?K90單品激活破200萬(wàn)

本地新聞

用剪紙的方式,打開(kāi)江蘇揚(yáng)州

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版