網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

24小時(shí)直播，只靠一張照片？虎牙實(shí)時(shí)多模態(tài)數(shù)字人VAM 1.0來(lái)了

2026-06-30 14:36:45　來(lái)源: 量子位

北京舉報(bào)

分享至

打臉了，家人們！！

每天在網(wǎng)上沖浪，經(jīng)常能刷到各種AI數(shù)字人，什么播新聞的、講世界杯的、直播間帶貨的……

本以為自己對(duì)這種「一眼假、莫得情感」的「人」沒(méi)啥興趣，結(jié)果轉(zhuǎn)頭我就和虎牙的AI數(shù)字人聊了整整一小時(shí)。

一開(kāi)始我還挺警惕，提前準(zhǔn)備了一堆問(wèn)題，生怕冷場(chǎng)，結(jié)果完全是我多慮了。

她真就像朋友一樣，既能回答我的問(wèn)題，又能不斷拋出新話題，接梗也是不在話下。聊了一個(gè)多小時(shí)，我倆終于在最喜歡的歌手是周杰倫和孫燕姿這件事上，達(dá)成了默契。

這個(gè)AI數(shù)字人形象，來(lái)自虎牙剛剛推出的虎牙VAM 1.0（Vivid Avatar Model），一個(gè)基于DiT架構(gòu)的實(shí)時(shí)多模態(tài)數(shù)字人基礎(chǔ)模型。

用它的方式簡(jiǎn)單到有點(diǎn)離譜：只要扔進(jìn)去一張照片，就能轉(zhuǎn)化成一個(gè)能說(shuō)話、能聽(tīng)你說(shuō)話、能唱歌跳舞的「全能」AI數(shù)字人。

大家要知道，它并不是直接生成一段視頻播給你看，而是直接在線開(kāi)播、實(shí)時(shí)互動(dòng)。

480×832分辨率，28幀實(shí)時(shí)流式輸出，連續(xù)運(yùn)行24小時(shí)以上不下線。

這幾個(gè)指標(biāo)含金量如何，稍微了解AI數(shù)字人的朋友們，一定都懂。

我們也實(shí)際體驗(yàn)了一下，看看虎牙做得到底怎么樣，再和大家聊聊這個(gè)行業(yè)已經(jīng)發(fā)展到什么程度了。

實(shí)測(cè)：和AI數(shù)字人聊了一小時(shí)，是種什么體驗(yàn)？

以前刷到的AI數(shù)字人，說(shuō)白了更像是「循環(huán)播放的AI視頻」，基本都是照著腳本念，沒(méi)啥互動(dòng)感，體態(tài)和聲音也比較生硬。

但虎牙這個(gè)不太一樣，很明顯骨子里就帶著那種「直播基因」，真能跟你聊得有來(lái)有回。

為什么讓數(shù)字人具備實(shí)時(shí)互動(dòng)能力很重要？

因?yàn)椤盖艘幻妗沟腁I視頻只能播，「千人千面」的直播間才能接住人。觀眾發(fā)彈幕你得回，有人打斷你得停，冷場(chǎng)三秒人就劃走了。

能互動(dòng)，才有真實(shí)的用戶粘性和商業(yè)價(jià)值。

當(dāng)然了，這個(gè)道理行業(yè)玩家都懂，但受限于技術(shù)，很多AI數(shù)字人還停留在「能播不能聊」的尷尬階段。

你發(fā)彈幕它不理睬，你打斷它沒(méi)反應(yīng)，不說(shuō)話的時(shí)候直接「僵住」或者給你播放循環(huán)畫(huà)面，能做的事也就是念念口播，唱歌跳舞自然就不要想了。

而虎牙VAM 1.0，則基本把這幾個(gè)槽點(diǎn)挨個(gè)回應(yīng)了一遍。

我拿到的內(nèi)測(cè)產(chǎn)品大致長(zhǎng)下面這樣，可以在首頁(yè)pick你最想聊的「主播」：

進(jìn)去后就更像「直播間」了，你可以通過(guò)文字和語(yǔ)音兩種方式和Ta交流。

這里我選了「來(lái)自成都的雪兒」。

聊了幾輪下來(lái)，有幾個(gè)細(xì)節(jié)印象挺深的：

一開(kāi)口我就「不小心」打斷了對(duì)方，結(jié)果雪兒反應(yīng)挺快，很自然就把話題接過(guò)去了；

另外呢，作為一個(gè)i人，我實(shí)在不想讓她叫我「寶子」，我告訴她換一個(gè)對(duì)我的稱呼，喊我「小紅」就行，然后她真的全程就叫我「小紅」了，一次沒(méi)錯(cuò)過(guò)。

而且，在我們聊天的過(guò)程中，雪兒全程都不用我來(lái)想話題，她會(huì)順著我們聊的內(nèi)容自己往下延展。聊到成都時(shí)我隨口問(wèn)了句「那你會(huì)說(shuō)四川話嗎」，她秒回「會(huì)呀」，然后直接開(kāi)始用四川話給我擺龍門(mén)陣。

即便在聊天過(guò)程中間有過(guò)一次誤解，我糾正之后她也能重新接上語(yǔ)境，沒(méi)有死循環(huán)，也沒(méi)有跳到預(yù)設(shè)話題。

視頻地址：https://mp.weixin.qq.com/s/vIizVJWUqz3rlYW3t2UVcA

還有一個(gè)很加分的細(xì)節(jié)來(lái)自她的狀態(tài)：

我打字的時(shí)候她不會(huì)傻站著，會(huì)微微側(cè)頭、眨眨眼，像在等你說(shuō)完；我說(shuō)話的時(shí)候她也會(huì)輕輕點(diǎn)頭，眼神方向跟著你。

而輪到她說(shuō)的時(shí)候，她的表情和內(nèi)容是相匹配的，聊到開(kāi)心的話題時(shí)嘴角上揚(yáng)幅度明顯變大，情緒感染力十足。

我研究了下，虎牙管這個(gè)叫「全狀態(tài)擬人交互仿真」，能夠覆蓋靜默、聆聽(tīng)、說(shuō)話三種狀態(tài)。

講真，能把AI數(shù)字人聊天做出這種「面對(duì)面」的既視感，私以為虎牙VAM 1.0已經(jīng)比其他玩家領(lǐng)先不少了。

接著說(shuō)體驗(yàn)，我和雪兒聊完歌手話題之后，你猜發(fā)生了什么？

雪兒還會(huì)唱歌跳舞，而且還熱情大方地給我這個(gè)新朋友展示了一番（中間又演示了一次打斷）：

視頻地址：https://mp.weixin.qq.com/s/vIizVJWUqz3rlYW3t2UVcA

她的嘴型跟歌詞是同步的、肢體動(dòng)作的幅度和流暢度是自然的，手指也沒(méi)有出現(xiàn)常見(jiàn)的畸變和穿模。

為了考驗(yàn)她，我還特意反復(fù)打開(kāi)退出了好幾次，結(jié)果發(fā)現(xiàn)她會(huì)的歌和舞都不重樣，這說(shuō)明歌舞并非預(yù)設(shè)模板，而是真·實(shí)時(shí)生成的。

除了歌舞之外，既然都說(shuō)到虎牙了，想必你也應(yīng)該能猜到接下來(lái)我要測(cè)試什么——

沒(méi)錯(cuò)，正是游戲。

我問(wèn)雪兒會(huì)玩哪些游戲，她提到了狼人殺和塔羅，正好我對(duì)星座運(yùn)勢(shì)這些話題很感興趣，于是選了塔羅。

我剛一選定，雪兒就立馬絲滑換裝進(jìn)入了「塔羅游戲模式」，開(kāi)始指引我抽卡，并幫忙解讀。

視頻地址：https://mp.weixin.qq.com/s/vIizVJWUqz3rlYW3t2UVcA

這種玩法沉浸感不要太強(qiáng)，比看分析文章有意思多了。

喜歡狼人殺的朋友也別著急，我特意去官網(wǎng)圍觀了一下（本狼人殺黑洞先遁了）。

這個(gè)游戲難度比塔羅高出不止一個(gè)量級(jí)：10個(gè)角色同場(chǎng)博弈，每個(gè)人要有自己的立場(chǎng)和發(fā)言風(fēng)格，還得互相質(zhì)疑、投票站隊(duì)，對(duì)多角色協(xié)同的要求極高。

整體看下來(lái)，泳池派對(duì)場(chǎng)景里9個(gè)AI角色輪流開(kāi)麥，互相@點(diǎn)名質(zhì)疑，有人上來(lái)就帶節(jié)奏，有人全程謹(jǐn)慎試探，不像是共用一套臺(tái)詞。

虎牙VAM1.0能把多人策略游戲的體驗(yàn)做到這個(gè)程度，至少說(shuō)明其多角色驅(qū)動(dòng)能力是在線的。

缺人的深夜想來(lái)一局，這桌還真能湊上。

視頻地址：https://mp.weixin.qq.com/s/vIizVJWUqz3rlYW3t2UVcA

能陪聊、能唱跳、能玩游戲，我以為這就是虎牙VAM 1.0的極限。

結(jié)果再一仔細(xì)研究官網(wǎng)，我又out了…

拿直播來(lái)說(shuō)，既然雪兒能直接看到我發(fā)的文字，那這項(xiàng)技術(shù)完全可以用在真實(shí)的直播間里——她通過(guò)「讀彈幕」就能和大家實(shí)時(shí)互動(dòng)。

能滿足直播這種高實(shí)時(shí)、高互動(dòng)、長(zhǎng)時(shí)間的嚴(yán)苛要求，更多應(yīng)用場(chǎng)景一下就打開(kāi)了：

直播帶貨、新聞播報(bào)、虛擬演唱會(huì)……每個(gè)場(chǎng)景單拎出來(lái)都是不小的想象空間。

目前，虎牙VAM 1.0官網(wǎng)展示了幾個(gè)已經(jīng)跑通的方向：

才藝主播一邊給大家唱歌，一邊回復(fù)大家的提問(wèn)，真實(shí)得令人恍惚；
帶貨主播在家中沉浸式推薦好物，口條流暢、肢體配合自然；
新聞主播24小時(shí)在線播報(bào)，角色形象全程不走樣；

視頻地址：https://mp.weixin.qq.com/s/vIizVJWUqz3rlYW3t2UVcA

如果現(xiàn)在再來(lái)回答對(duì)虎牙AI數(shù)字人的印象，我想可以歸納為最核心的三個(gè)字：穩(wěn)、準(zhǔn)、快。

第一個(gè)，穩(wěn)。

從聊天到唱跳到塔羅到換裝，我前后折騰了不少輪測(cè)試，全程沒(méi)發(fā)現(xiàn)面部漂移、畫(huà)面撕裂、凍屏這些情況。

官方說(shuō)能連續(xù)跑24小時(shí)以上不崩，從我的體驗(yàn)來(lái)看，也確實(shí)沒(méi)有看到「時(shí)間一長(zhǎng)就走樣」的跡象。

再加上中間那次絲滑換裝，畫(huà)面沒(méi)卡、沒(méi)黑、沒(méi)閃，這個(gè)穩(wěn)定性確實(shí)有點(diǎn)東西。

第二個(gè)，準(zhǔn)。

這數(shù)字人原生覆蓋了靜默、聆聽(tīng)、說(shuō)話三大類交互狀態(tài)，面部微表情和肢體動(dòng)作的調(diào)控精度都不錯(cuò)，整體交互節(jié)奏已經(jīng)很接近真人的溝通體驗(yàn)了。

第三個(gè)，快。

不管是打斷后的響應(yīng)、彈幕的回復(fù)、還是話題切換后的接話，體感上幾乎沒(méi)有可感知的等待。

官方數(shù)據(jù)首幀延遲約1.3秒，后續(xù)每生成一個(gè)片段的延遲只有0.77秒，落到實(shí)際體驗(yàn)里就是：流暢，不出戲。

說(shuō)到底，虎牙VAM1.0在體感上的「穩(wěn)」、「準(zhǔn)」和「快」都是技術(shù)撐起來(lái)的。

這些能力背后，分別對(duì)應(yīng)了AI數(shù)字人行業(yè)幾道公認(rèn)的技術(shù)硬墻。

AI數(shù)字人行業(yè)的三堵墻

AI數(shù)字人賽道這兩年聲量很大：

一是確實(shí)不缺應(yīng)用想象空間，二是還有羅永浩、劉強(qiáng)東這樣的名人效應(yīng)加持。

但跟行業(yè)里的人深聊就會(huì)發(fā)現(xiàn)一個(gè)有意思的現(xiàn)象：不管哪家的方案，幾乎都在同樣的地方碰壁。

撞上的第一堵墻：時(shí)間墻

最古老也是最頑固的「敵人」，便是時(shí)間。一句話，跑久了會(huì)崩：

面部特征開(kāi)始漂移，五官慢慢走形，膚色偏移，嚴(yán)重的時(shí)候直接畫(huà)面撕裂。

為什么會(huì)這樣？

技術(shù)上叫累積誤差，每一幀的生成都基于前一幀，誤差像滾雪球一樣越滾越大，這也是為什么大多數(shù)方案撐不了太久的根本原因。

虎牙VAM 1.0怎么解的？三階段訓(xùn)練。

第一階段教模型「長(zhǎng)時(shí)間不走樣」。

用多張參考圖和運(yùn)動(dòng)幀來(lái)「錨定」人物形象，讓模型在生成每一幀的時(shí)候都有校準(zhǔn)依據(jù)，不容易跑偏；

同時(shí)引入運(yùn)動(dòng)控制模塊豐富表情和動(dòng)作的多樣性，再加上音頻自適應(yīng)注入模塊，讓嘴型速度跟上說(shuō)話節(jié)奏，語(yǔ)音停頓時(shí)頭部和肢體也同步放緩，甚至聽(tīng)到音樂(lè)會(huì)跟著節(jié)拍點(diǎn)頭。

最狠的一招是：

訓(xùn)練的時(shí)候故意給模型喂各種「畫(huà)面劣化」的場(chǎng)景，讓它提前學(xué)會(huì)在惡劣條件下怎么穩(wěn)住畫(huà)面。

第二階段教模型「各方面都好看」。

數(shù)字人要同時(shí)做到好幾件事：嘴型要準(zhǔn)、表情要自然、動(dòng)作要協(xié)調(diào)，這些目標(biāo)之間經(jīng)常互相打架。

虎牙VAM 1.0用了一種叫DPO的偏好優(yōu)化算法，讓模型學(xué)會(huì)在多個(gè)目標(biāo)之間找到平衡點(diǎn)，不偏科。

第三階段教模型「算得又快又穩(wěn)」。

前兩個(gè)階段效果雖好，但計(jì)算量大，直接跑實(shí)時(shí)推理扛不住。

這一步通過(guò)模型蒸餾把計(jì)算步驟大幅壓縮（從20步→4步），同時(shí)用全局和局部的特征對(duì)照來(lái)保證「抄近路」之后畫(huà)面質(zhì)量不掉。

第一階段的運(yùn)動(dòng)幀策略在這里繼續(xù)沿用，保持動(dòng)作連貫性，在此基礎(chǔ)上再引入一個(gè)自糾錯(cuò)機(jī)制：

模型會(huì)拿自己之前生成的畫(huà)面當(dāng)作輸入繼續(xù)往下跑，在訓(xùn)練階段就學(xué)會(huì)「自己給自己糾偏」，不讓誤差越積越大。

這是實(shí)時(shí)推理速度能拉上去的關(guān)鍵。

這些就是虎牙VAM 1.0能連續(xù)跑24小時(shí)以上「不崩」的秘訣。

撞上的第二堵墻：交互墻

接下來(lái)的第二堵墻，更隱蔽、也更難翻——交互。

數(shù)字人能說(shuō)話就等于有交互能力了嗎？非也。

真正的交互至少三層。

第一層「說(shuō)」。嘴型對(duì)上音頻，表情跟上情緒。

這一層行業(yè)整體已經(jīng)不錯(cuò)了，從最早的唇形同步到全身表演，進(jìn)步飛快。

第二層「聽(tīng)」。注意，這里說(shuō)的「聽(tīng)」跟語(yǔ)音識(shí)別不同。

當(dāng)你在說(shuō)話的時(shí)候，數(shù)字人的面部和身體要呈現(xiàn)出「我在聽(tīng)你說(shuō)話」的狀態(tài)，比如點(diǎn)頭、注視、微微前傾。

這也是大多數(shù)方案目前做不到的一點(diǎn)，因?yàn)槟Ｐ陀?xùn)練的時(shí)候根本沒(méi)有「聆聽(tīng)?wèi)B(tài)」的概念。

它只學(xué)過(guò)怎么說(shuō)，沒(méi)學(xué)過(guò)怎么聽(tīng)。

第三層「打斷和接話」，也就是虎牙VAM 1.0著重提到的「全雙工」。

如果說(shuō)傳統(tǒng)AI對(duì)話更像「你問(wèn)一句我答一句」的回合制，那虎牙VAM 1.0的「全雙工」就是一場(chǎng)可以隨時(shí)插話、隨時(shí)接話的真人聊天。

這一層，幾乎沒(méi)人做好。

歸根結(jié)底，大多數(shù)模型在解決「內(nèi)容生成」問(wèn)題：給定輸入，輸出一段視頻。

但真正的交互，是兩個(gè)主體之間的實(shí)時(shí)雙向?qū)υ挘@是兩個(gè)完全不同的技術(shù)命題。

虎牙VAM 1.0的做法是從模型設(shè)計(jì)階段就把交互當(dāng)核心目標(biāo)：

原生覆蓋靜默、聆聽(tīng)、說(shuō)話三種狀態(tài)，支持即時(shí)打斷和自然過(guò)渡，彈幕加語(yǔ)音雙鏈路并行。

前面實(shí)測(cè)里那個(gè)「打斷后愣一下再接話」的感覺(jué)，就是交互墻被翻過(guò)去之后的產(chǎn)物。

撞上的第三堵墻：部署墻

如果說(shuō)前兩堵墻解決的是「能不能跑」，那么這一堵解決的就是「能不能規(guī)模化上線」。

能在實(shí)驗(yàn)室里跑通是一回事，但真正進(jìn)入業(yè)務(wù)場(chǎng)景中，問(wèn)題會(huì)立刻變得完全不同：

算力開(kāi)銷會(huì)迅速放大，延遲會(huì)被持續(xù)放大，任何輕微的不穩(wěn)定都會(huì)在高并發(fā)和長(zhǎng)時(shí)間運(yùn)行中被放大成可見(jiàn)問(wèn)題。

因此，要想實(shí)現(xiàn)7×24小時(shí)穩(wěn)定在線跑直播、做AI數(shù)字人互動(dòng)，你的整個(gè)系統(tǒng)得足夠能打。

虎牙VAM 1.0在這一層做了全鏈路工程優(yōu)化，從底層算子一路優(yōu)化到模型權(quán)重：

編譯加速、注意力計(jì)算優(yōu)化、VAE解碼加速、多種量化策略覆蓋全網(wǎng)絡(luò)層，能壓的全壓了。

最終跑出來(lái)的成績(jī)單如下：

在8塊H200 GPU的集群上，達(dá)到36.4幀每秒的推理速度，每生成一個(gè)片段的延遲僅0.77秒，首幀延遲約1.3秒。

什么概念？和多個(gè)學(xué)術(shù)前沿方法對(duì)比，虎牙VAM 1.0推理速度最快、延遲最低。

不僅是快，虎牙VAM1.0在真實(shí)感、身份保持、同步精度、動(dòng)作自然度四個(gè)維度上也全面領(lǐng)先，而且計(jì)算開(kāi)銷還更低。

又好又快還省錢(qián)，這在工程上通常很難實(shí)現(xiàn)，但虎牙VAM 1.0至少在公開(kāi)的benchmark里，確實(shí)同時(shí)做到了。

三堵墻說(shuō)完了。

退后一步看，三堵墻背后其實(shí)是一個(gè)更本質(zhì)的分野：

數(shù)字人到底是「內(nèi)容生產(chǎn)工具」，還是「實(shí)時(shí)交互主體」？

選前者，重畫(huà)質(zhì)和表演力，時(shí)間墻和交互墻可以先不管。選后者，三堵墻必須全翻。

實(shí)際來(lái)看，虎牙VAM 1.0選了后者。

選后者意味著什么？意味著不僅要解決模型問(wèn)題，還要解決工程問(wèn)題，還要有場(chǎng)景來(lái)驗(yàn)證和迭代。

必須要三件事同時(shí)做，才能成立。

那么問(wèn)題來(lái)了，面對(duì)這肉眼可見(jiàn)的地獄難度，為什么偏偏是虎牙做到了？

虎牙，偏向「虎山行」？

老實(shí)說(shuō)，虎牙做AI數(shù)字人這件事，邏輯上并不讓人意外。

作為國(guó)內(nèi)第一家上市的游戲直播公司，虎牙在直播這個(gè)場(chǎng)景里泡了超過(guò)十年：

流量在這匯聚，主播在這生長(zhǎng)，用戶在這停留。

也正因?yàn)槿绱耍?dāng)AI數(shù)字人開(kāi)始從概念走向落地，真正進(jìn)入「直播間級(jí)別的實(shí)時(shí)交互」時(shí)，虎牙幾乎天然站在了一個(gè)更靠近入口的位置。

它要面對(duì)的問(wèn)題也很直接：

如果未來(lái)直播間里不再只有真人主播，AI數(shù)字人和虛擬主播也開(kāi)始常駐，這個(gè)平臺(tái)還能不能撐住下一代內(nèi)容形態(tài)？

所以對(duì)它來(lái)說(shuō)，這更像是一次對(duì)未來(lái)內(nèi)容生態(tài)的提前布局。

實(shí)際上，這場(chǎng)布局從幾年前就開(kāi)始了。

把時(shí)間往回翻到2019年，虎牙就已推出過(guò)AI數(shù)字人「晚玉」和HERO開(kāi)放平臺(tái)；2025年上線AI電競(jìng)智能體「虎小Ai」，在自制賽事里實(shí)際用了起來(lái)，同年開(kāi)始用AI驅(qū)動(dòng)虛擬主播，還給真人主播做了數(shù)字人分身。

如今虎牙VAM 1.0的出現(xiàn)，就是把這些散點(diǎn)連成了一條線，從「給直播加AI功能」到「用AI做直播本身」。

說(shuō)白了，虎牙做AI數(shù)字人并非新手，而且前路也愈發(fā)清晰：

AI正從外掛變成直播系統(tǒng)的一部分。

在這個(gè)過(guò)程中，虎牙之所以能在技術(shù)上取得快速進(jìn)展，顯然離不開(kāi)它天然的場(chǎng)景優(yōu)勢(shì)——

彈幕互動(dòng)、語(yǔ)音連麥、禮物打賞，這些現(xiàn)成的交互基礎(chǔ)設(shè)施直接就在手邊，別的團(tuán)隊(duì)做完模型還得到處找場(chǎng)景，虎牙直接就坐在場(chǎng)景上面。

△虎牙上的AI游戲主播

而且場(chǎng)景不是被動(dòng)等在那里的，它在主動(dòng)倒逼技術(shù)適配。

虎牙VAM 1.0為什么原生支持彈幕加語(yǔ)音雙鏈路？因?yàn)檎鎸?shí)的直播間里，有人打字有人連麥，用戶需求如此。

為什么把全雙工做成模型內(nèi)置能力？因?yàn)橹辈ラg的觀眾不會(huì)等你說(shuō)完再發(fā)彈幕。

有模型的人不少，但有模型、有場(chǎng)景、場(chǎng)景還是7×24小時(shí)運(yùn)轉(zhuǎn)的直播平臺(tái)。

這個(gè)組合，現(xiàn)在確實(shí)比較稀缺。

虎牙VAM1.0官網(wǎng)地址：https://vam.huya.cn/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.