網易首頁 > 網易號 > 正文 申請入駐

告別傾聽「撲克臉」,UniLS框架來了,刷新數字人對話SOTA

0
分享至



本文由來自盛大東京 AI 研究院、東京大學、和東京科學大學的研究者合作完成。作者團隊在數字人方向有長期積累。部分工作為共同第一作者 Xuangeng Chu (https://xg-chu.site) 和 Ruicong Liu (https://ruicongliu.github.io) 在盛大東京研究院擔任研究實習生時完成。

在游戲 NPC、虛擬主播、在線客服等數字人對話場景中,傾聽時的 “撲克臉”問題一直是行業長期痛點 —— 虛擬人說話時口型可以做到精準同步,但傾聽時卻表情僵硬、毫無反應,嚴重影響對話的自然感和沉浸感。盛大 AI 研究院(東京)與東京大學聯合提出UniLS(Unified Listening and Speaking),首個僅憑雙軌音頻即可端到端同時驅動說話和傾聽面部動作的統一框架。該方法在說話精度上達到 SOTA,傾聽自然度分布指標提升高達 44.1%,同時支持 500+ FPS 的實時生成,已被 CVPR 2026 錄用。



  • 論文地址:https://arxiv.org/abs/2512.09327
  • 項目主頁: https://xg-chu.site/project_unils/
  • 代碼地址: https://github.com/xg-chu/UniLS
  • 數據地址: https://huggingface.co/datasets/xg-chu/UniLSTalkDataset

背景

構建逼真的對話式數字人需要同時處理說話和傾聽兩種狀態。說話時需要精準的口型同步和面部表情協調,傾聽時則需要展現自然的點頭、眨眼和微表情等互動反應。然而,現有方法大多只關注單向生成:speak-only 方法(如 ARTalk、DiffPoseTalk 等)僅生成說話動作,listen-only 方法僅生成傾聽反應,二者無法在統一框架內協同工作。

唯一嘗試聯合建模的 DualTalk 依賴對方說話者的預計算面部序列作為額外輸入,導致系統非端到端、無法實時部署。UniLS 針對這一空白,提出將傾聽行為分解為 “內在運動先驗” 與 “外部音頻調制” 兩個獨立組成部分,通過兩階段訓練范式分別學習,僅以雙軌音頻作為輸入,端到端地生成雙方的面部動作。



圖 1: 現有方法與本文提出的方案之間的對比。大多數之前的研究仍局限于單向生成,即僅針對 “說話” 或僅針對 “傾聽”。先前的 “說 - 聽” 交互方法需要先生成演講者 A 的面部序列,然后才能產生演講者 B 的動作。這種對演講者 A 生成過程的依賴,使其無法實現端到端訓練,并阻礙了實時性能。相比之下,本文方法提供了一個端到端框架,能夠實現統一且實時的 “說 - 聽” 動作生成。

UniLS 的方法和設計

1. 核心發現:音頻 - 動作關聯的不平衡

為什么直接端到端訓練會導致傾聽僵硬?研究者通過對音頻特征與面部動作參數在 t-SNE 空間的分布分析揭示了根本原因。如下圖 1 所示,說話時音頻與面部動作高度關聯,二者在嵌入空間中緊密聚集、距離一致性強;而傾聽時面部動作與對方音頻的關聯非常微弱 —— 因為傾聽中的許多行為(如眨眼頻率、微表情、肌肉協調)本質上獨立于對方語音信號。

這種不平衡導致聯合訓練時網絡能輕松為說話分支學到強映射,卻為傾聽分支接收到的監督信號不足,使其退化為安全的、低方差的靜態表情。這一發現直接啟發了 UniLS 的核心設計思路:不應將傾聽建模為音頻到動作的直接映射,而應分兩步走 —— 先學習運動本身的內在規律,再引入音頻進行調制。



圖 2: 面部表情參數與對應音頻特征之間的相關性。對于說話狀態,音頻是指說話者自身的語音;對于傾聽狀態,音頻則來自對方的語音。

2. 兩階段訓練框架

Stage 1:無音頻生成器訓練 —— 學習內在運動先驗。第一階段在大規模非配對多場景視頻數據上訓練一個無音頻的自回歸生成器。訓練數據來自 CelebV、TalkingHead-1KH、TEDTalk、VFHQ 等多個數據集,涵蓋新聞播報、訪談、演講、日常對話等多種場景,共計 546.5 小時。面部動作使用 FLAME 3D 參數化模型表示(包含表情、頭部姿態和眼球注視),通過多尺度 VQ 編解碼器離散化。生成器以過去的運動 chunk 和風格嵌入為輸入預測下一個運動 chunk。由于完全不使用音頻,模型只能依賴運動本身的時序規律來預測未來,從而自然地學習到眨眼頻率、頭部微動、表情轉換等內在運動先驗。

Stage 2:音頻驅動微調 —— 引入雙軌音頻調制。第二階段使用 Seamless Interaction 配對對話數據(251.5 小時說話 + 406.0 小時傾聽)對生成器進行微調。架構在 Stage 1 基礎上新增兩個交叉注意力層:一個關注說話者 A 自身的音頻(驅動口型同步和面部表情),另一個關注說話者 B 的音頻(調制傾聽反應)。Stage 1 的自注意力和 FFN 骨干權重通過 LoRA 高效微調,新增的交叉注意力層從頭訓練。這一設計既保留了 Stage 1 習得的豐富內在運動先驗,又賦予模型根據雙軌音頻信號分別調制說話和傾聽的能力。



圖 3: 兩階段訓練策略概覽。第一階段: 在不使用音頻的情況下,基于非配對的多場景視頻數據訓練一個無音頻生成器。該模型根據過去的動作序列和風格嵌入,預測未來的動作塊。第二階段: 在配對的對話片段上對生成器進行微調。通過交叉注意力機制,將說話者 A 和說話者 B 的音頻作為條件輸入,從而生成由音頻驅動的 “說 - 聽” 動作。

實驗結果

1. 定量對比(Seamless Interaction 數據集)



表 1: 在 Seamless Interaction 測試集上評估說話和聆聽時的面部動作。分別用金色和銀色表示第一名和第二名。

表 1 的量化指標顯示 UniLS 在全部指標上取得最優:說話方面,LVE 降至 5.83、MHD 降至 1.89,表明模型不僅精確追蹤了音素 - 動作對應,還捕捉到了上臉參與和頭 - 頜協調運動等動態特征。傾聽方面,FDD 從 DualTalk 的 43.58 大幅降至 17.12,F-FID 從 13.143 降至 4.304,P-FID 從 0.079 降至 0.038,分布指標提升高達 44.1%,有效解決了傾聽僵硬問題。

2. 用戶研究

與 DualTalk 相比,超過 91% 的用戶偏好 UniLS 的傾聽反應自然度,90% 偏好其表情自然度,86% 偏好其口型同步質量。



表 2: UniLS 的用戶研究結果。數字(%)表示用戶更喜歡本文方法而非各基線方法的比例。“同步” 衡量唇部同步性,而 “Exp”、“Re-act” 和 “Pose” 分別評估面部表情的自然度、聆聽反應和頭部姿勢。

3. 實時性能

在出色的生成質量之外,UniLS 在單張 RTX 5090 GPU 上以 560.6 FPS 運行(參數量 421.3M),顯著優于 ARTalk * 的 357.7 FPS(489.5M),而 DualTalk 由于非端到端設計無法支持實時。UniLS 在質量、速度與規模之間實現了最優平衡。

總結

UniLS 是首個能夠生成統一 “說 - 聽” 面部動作的端到端音頻驅動框架。通過對音頻與動作相關性的深入分析,作者發現了傳統端到端訓練中導致 “傾聽僵硬感”(listening stiffness)的根本原因。基于這一見解,該研究引入了一種兩階段訓練范式,將內部動作先驗的學習與音頻驅動的調制過程分離開來。在大型對話數據集上進行的大量實驗表明,UniLS 實現了優秀的口型同步準確度,豐富多樣且自然的傾聽表情和出色的實時性能。總而言之,UniLS 為對話式數字人奠定了基礎,并為極具互動感、逼真的 AI 人機交互開啟了新的可能性。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
反超重慶!中國最強省會,逆轉了

反超重慶!中國最強省會,逆轉了

國民經略
2026-04-23 11:44:00
去掉機頂盒!我國一體化電視全國推廣正式啟動

去掉機頂盒!我國一體化電視全國推廣正式啟動

IT之家
2026-04-23 17:16:54
SWIFT:3月人民幣位居全球第五大支付貨幣,占比3.10%

SWIFT:3月人民幣位居全球第五大支付貨幣,占比3.10%

界面新聞
2026-04-23 18:38:50
又抓一個!知名男星被判刑,整個事件太離譜了……

又抓一個!知名男星被判刑,整個事件太離譜了……

桌子的生活觀
2026-04-23 12:01:50
個人微信建了600多個工作群,離職時賬號歸誰

個人微信建了600多個工作群,離職時賬號歸誰

現代快報
2026-04-23 13:49:11
用戶都氣笑了!700元路由器保修剩15天壞了:廠商只愿退款10元了事

用戶都氣笑了!700元路由器保修剩15天壞了:廠商只愿退款10元了事

快科技
2026-04-23 19:07:05
公安部緊急提醒:AI詐騙席卷全國,幾分鐘騙光一輩子積蓄

公安部緊急提醒:AI詐騙席卷全國,幾分鐘騙光一輩子積蓄

娛樂圈見解說
2026-04-23 06:50:17
一雞爆火,老板直接累癱了

一雞爆火,老板直接累癱了

南風窗
2026-04-23 16:11:15
“19歲女生受邀去泰國潑水節被轉賣電詐園”最新消息:園區初步同意放人,可遲遲不給具體位置,雙方仍在協商接人事宜

“19歲女生受邀去泰國潑水節被轉賣電詐園”最新消息:園區初步同意放人,可遲遲不給具體位置,雙方仍在協商接人事宜

三湘都市報
2026-04-23 17:18:29
網傳上海公司發氦氣斷供聲明 霍爾木茲海峽封鎖限制全球氦氣供應鏈

網傳上海公司發氦氣斷供聲明 霍爾木茲海峽封鎖限制全球氦氣供應鏈

六子吃涼粉
2026-04-23 11:19:07
華誼兄弟被申請破產

華誼兄弟被申請破產

雷達財經
2026-04-23 15:51:26
糾偏“吞并論”:戰略協同是阿維塔高端化最強“助推器”

糾偏“吞并論”:戰略協同是阿維塔高端化最強“助推器”

AutoBusiness
2026-04-23 15:25:05
加拿大歌手取消原定于北京的巡演,主辦方:藝人未買到高鐵票,怕影響接下來的行程

加拿大歌手取消原定于北京的巡演,主辦方:藝人未買到高鐵票,怕影響接下來的行程

東方不敗然多多
2026-04-23 16:50:42
ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

芯火相承
2026-04-23 17:33:03
50億!國產保溫杯賣爆美國:為了成為中國人,這幫老外也是拼了!

50億!國產保溫杯賣爆美國:為了成為中國人,這幫老外也是拼了!

李砍柴
2026-04-23 16:41:54
不打了!退出G3和G4!雷霆遭遇最大危機

不打了!退出G3和G4!雷霆遭遇最大危機

籃球教學論壇
2026-04-23 17:14:19
快訊!歐盟全票通過對烏克蘭900億歐元貸款!

快訊!歐盟全票通過對烏克蘭900億歐元貸款!

達文西看世界
2026-04-23 12:57:09
運營商白送三星旗艦機,背后藏著什么算盤?

運營商白送三星旗艦機,背后藏著什么算盤?

摸魚算法
2026-04-22 23:04:21
官宣退出G3和G4!今年冠軍,麻煩了…

官宣退出G3和G4!今年冠軍,麻煩了…

左右為籃
2026-04-23 21:34:07
快訊!臺灣地區前領導人陳水扁發表聲明了!

快訊!臺灣地區前領導人陳水扁發表聲明了!

達文西看世界
2026-04-23 10:45:53
2026-04-24 00:35:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12839文章數 142635關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

頭條要聞

媒體:海軍宣傳片出現的"新兵何劍" 傳遞了巨大信息量

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

健康
數碼
游戲
手機
藝術

干細胞如何讓燒燙傷皮膚"再生"?

數碼要聞

榮耀WIN游戲本發布,多款新品亮相!

韓國巨頭打造成人新游!包含頻繁裸露畫面 Steam鎖區

手機要聞

爆火!榮耀閃電機器人站臺PC發布會 散熱技術藏不住了

藝術要聞

看!這些美女的眼神能讓你心醉神迷

無障礙瀏覽 進入關懷版