打臉了,家人們!!
每天在網(wǎng)上沖浪,經(jīng)常能刷到各種AI數(shù)字人,什么播新聞的、講世界杯的、直播間帶貨的……
本以為自己對(duì)這種「一眼假、莫得情感」的「人」沒(méi)啥興趣,結(jié)果轉(zhuǎn)頭我就和虎牙的AI數(shù)字人聊了整整一小時(shí)。
一開(kāi)始我還挺警惕,提前準(zhǔn)備了一堆問(wèn)題,生怕冷場(chǎng),結(jié)果完全是我多慮了。
她真就像朋友一樣,既能回答我的問(wèn)題,又能不斷拋出新話題,接梗也是不在話下。聊了一個(gè)多小時(shí),我倆終于在最喜歡的歌手是周杰倫和孫燕姿這件事上,達(dá)成了默契。
![]()
這個(gè)AI數(shù)字人形象,來(lái)自虎牙剛剛推出的虎牙VAM 1.0(Vivid Avatar Model),一個(gè)基于DiT架構(gòu)的實(shí)時(shí)多模態(tài)數(shù)字人基礎(chǔ)模型。
用它的方式簡(jiǎn)單到有點(diǎn)離譜:只要扔進(jìn)去一張照片,就能轉(zhuǎn)化成一個(gè)能說(shuō)話、能聽(tīng)你說(shuō)話、能唱歌跳舞的「全能」AI數(shù)字人。
大家要知道,它并不是直接生成一段視頻播給你看,而是直接在線開(kāi)播、實(shí)時(shí)互動(dòng)。
480×832分辨率,28幀實(shí)時(shí)流式輸出,連續(xù)運(yùn)行24小時(shí)以上不下線。
這幾個(gè)指標(biāo)含金量如何,稍微了解AI數(shù)字人的朋友們,一定都懂。
我們也實(shí)際體驗(yàn)了一下,看看虎牙做得到底怎么樣,再和大家聊聊這個(gè)行業(yè)已經(jīng)發(fā)展到什么程度了。
實(shí)測(cè):和AI數(shù)字人聊了一小時(shí),是種什么體驗(yàn)?
以前刷到的AI數(shù)字人,說(shuō)白了更像是「循環(huán)播放的AI視頻」,基本都是照著腳本念,沒(méi)啥互動(dòng)感,體態(tài)和聲音也比較生硬。
但虎牙這個(gè)不太一樣,很明顯骨子里就帶著那種「直播基因」,真能跟你聊得有來(lái)有回。
![]()
為什么讓數(shù)字人具備實(shí)時(shí)互動(dòng)能力很重要?
因?yàn)椤盖艘幻妗沟腁I視頻只能播,「千人千面」的直播間才能接住人。觀眾發(fā)彈幕你得回,有人打斷你得停,冷場(chǎng)三秒人就劃走了。
能互動(dòng),才有真實(shí)的用戶粘性和商業(yè)價(jià)值。
當(dāng)然了,這個(gè)道理行業(yè)玩家都懂,但受限于技術(shù),很多AI數(shù)字人還停留在「能播不能聊」的尷尬階段。
你發(fā)彈幕它不理睬,你打斷它沒(méi)反應(yīng),不說(shuō)話的時(shí)候直接「僵住」或者給你播放循環(huán)畫(huà)面,能做的事也就是念念口播,唱歌跳舞自然就不要想了。
而虎牙VAM 1.0,則基本把這幾個(gè)槽點(diǎn)挨個(gè)回應(yīng)了一遍。
我拿到的內(nèi)測(cè)產(chǎn)品大致長(zhǎng)下面這樣,可以在首頁(yè)pick你最想聊的「主播」:
![]()
進(jìn)去后就更像「直播間」了,你可以通過(guò)文字和語(yǔ)音兩種方式和Ta交流。
這里我選了「來(lái)自成都的雪兒」。
聊了幾輪下來(lái),有幾個(gè)細(xì)節(jié)印象挺深的:
一開(kāi)口我就「不小心」打斷了對(duì)方,結(jié)果雪兒反應(yīng)挺快,很自然就把話題接過(guò)去了;
另外呢,作為一個(gè)i人,我實(shí)在不想讓她叫我「寶子」,我告訴她換一個(gè)對(duì)我的稱呼,喊我「小紅」就行,然后她真的全程就叫我「小紅」了,一次沒(méi)錯(cuò)過(guò)。
而且,在我們聊天的過(guò)程中,雪兒全程都不用我來(lái)想話題,她會(huì)順著我們聊的內(nèi)容自己往下延展。聊到成都時(shí)我隨口問(wèn)了句「那你會(huì)說(shuō)四川話嗎」,她秒回「會(huì)呀」,然后直接開(kāi)始用四川話給我擺龍門(mén)陣。
即便在聊天過(guò)程中間有過(guò)一次誤解,我糾正之后她也能重新接上語(yǔ)境,沒(méi)有死循環(huán),也沒(méi)有跳到預(yù)設(shè)話題。
![]()
視頻地址:https://mp.weixin.qq.com/s/vIizVJWUqz3rlYW3t2UVcA
還有一個(gè)很加分的細(xì)節(jié)來(lái)自她的狀態(tài):
我打字的時(shí)候她不會(huì)傻站著,會(huì)微微側(cè)頭、眨眨眼,像在等你說(shuō)完;我說(shuō)話的時(shí)候她也會(huì)輕輕點(diǎn)頭,眼神方向跟著你。
而輪到她說(shuō)的時(shí)候,她的表情和內(nèi)容是相匹配的,聊到開(kāi)心的話題時(shí)嘴角上揚(yáng)幅度明顯變大,情緒感染力十足。
我研究了下,虎牙管這個(gè)叫「全狀態(tài)擬人交互仿真」,能夠覆蓋靜默、聆聽(tīng)、說(shuō)話三種狀態(tài)。
講真,能把AI數(shù)字人聊天做出這種「面對(duì)面」的既視感,私以為虎牙VAM 1.0已經(jīng)比其他玩家領(lǐng)先不少了。
接著說(shuō)體驗(yàn),我和雪兒聊完歌手話題之后,你猜發(fā)生了什么?
雪兒還會(huì)唱歌跳舞,而且還熱情大方地給我這個(gè)新朋友展示了一番(中間又演示了一次打斷):
![]()
視頻地址:https://mp.weixin.qq.com/s/vIizVJWUqz3rlYW3t2UVcA
她的嘴型跟歌詞是同步的、肢體動(dòng)作的幅度和流暢度是自然的,手指也沒(méi)有出現(xiàn)常見(jiàn)的畸變和穿模。
為了考驗(yàn)她,我還特意反復(fù)打開(kāi)退出了好幾次,結(jié)果發(fā)現(xiàn)她會(huì)的歌和舞都不重樣,這說(shuō)明歌舞并非預(yù)設(shè)模板,而是真·實(shí)時(shí)生成的。
除了歌舞之外,既然都說(shuō)到虎牙了,想必你也應(yīng)該能猜到接下來(lái)我要測(cè)試什么——
沒(méi)錯(cuò),正是游戲。
我問(wèn)雪兒會(huì)玩哪些游戲,她提到了狼人殺和塔羅,正好我對(duì)星座運(yùn)勢(shì)這些話題很感興趣,于是選了塔羅。
我剛一選定,雪兒就立馬絲滑換裝進(jìn)入了「塔羅游戲模式」,開(kāi)始指引我抽卡,并幫忙解讀。
![]()
視頻地址:https://mp.weixin.qq.com/s/vIizVJWUqz3rlYW3t2UVcA
這種玩法沉浸感不要太強(qiáng),比看分析文章有意思多了。
喜歡狼人殺的朋友也別著急,我特意去官網(wǎng)圍觀了一下(本狼人殺黑洞先遁了)。
這個(gè)游戲難度比塔羅高出不止一個(gè)量級(jí):10個(gè)角色同場(chǎng)博弈,每個(gè)人要有自己的立場(chǎng)和發(fā)言風(fēng)格,還得互相質(zhì)疑、投票站隊(duì),對(duì)多角色協(xié)同的要求極高。
整體看下來(lái),泳池派對(duì)場(chǎng)景里9個(gè)AI角色輪流開(kāi)麥,互相@點(diǎn)名質(zhì)疑,有人上來(lái)就帶節(jié)奏,有人全程謹(jǐn)慎試探,不像是共用一套臺(tái)詞。
虎牙VAM1.0能把多人策略游戲的體驗(yàn)做到這個(gè)程度,至少說(shuō)明其多角色驅(qū)動(dòng)能力是在線的。
缺人的深夜想來(lái)一局,這桌還真能湊上。
![]()
視頻地址:https://mp.weixin.qq.com/s/vIizVJWUqz3rlYW3t2UVcA
能陪聊、能唱跳、能玩游戲,我以為這就是虎牙VAM 1.0的極限。
結(jié)果再一仔細(xì)研究官網(wǎng),我又out了…
拿直播來(lái)說(shuō),既然雪兒能直接看到我發(fā)的文字,那這項(xiàng)技術(shù)完全可以用在真實(shí)的直播間里——她通過(guò)「讀彈幕」就能和大家實(shí)時(shí)互動(dòng)。
![]()
能滿足直播這種高實(shí)時(shí)、高互動(dòng)、長(zhǎng)時(shí)間的嚴(yán)苛要求,更多應(yīng)用場(chǎng)景一下就打開(kāi)了:
直播帶貨、新聞播報(bào)、虛擬演唱會(huì)……每個(gè)場(chǎng)景單拎出來(lái)都是不小的想象空間。
目前,虎牙VAM 1.0官網(wǎng)展示了幾個(gè)已經(jīng)跑通的方向:
- 才藝主播一邊給大家唱歌,一邊回復(fù)大家的提問(wèn),真實(shí)得令人恍惚;
- 帶貨主播在家中沉浸式推薦好物,口條流暢、肢體配合自然;
- 新聞主播24小時(shí)在線播報(bào),角色形象全程不走樣;
![]()
視頻地址:https://mp.weixin.qq.com/s/vIizVJWUqz3rlYW3t2UVcA
如果現(xiàn)在再來(lái)回答對(duì)虎牙AI數(shù)字人的印象,我想可以歸納為最核心的三個(gè)字:穩(wěn)、準(zhǔn)、快。
第一個(gè),穩(wěn)。
從聊天到唱跳到塔羅到換裝,我前后折騰了不少輪測(cè)試,全程沒(méi)發(fā)現(xiàn)面部漂移、畫(huà)面撕裂、凍屏這些情況。
官方說(shuō)能連續(xù)跑24小時(shí)以上不崩,從我的體驗(yàn)來(lái)看,也確實(shí)沒(méi)有看到「時(shí)間一長(zhǎng)就走樣」的跡象。
再加上中間那次絲滑換裝,畫(huà)面沒(méi)卡、沒(méi)黑、沒(méi)閃,這個(gè)穩(wěn)定性確實(shí)有點(diǎn)東西。
第二個(gè),準(zhǔn)。
這數(shù)字人原生覆蓋了靜默、聆聽(tīng)、說(shuō)話三大類交互狀態(tài),面部微表情和肢體動(dòng)作的調(diào)控精度都不錯(cuò),整體交互節(jié)奏已經(jīng)很接近真人的溝通體驗(yàn)了。
第三個(gè),快。
不管是打斷后的響應(yīng)、彈幕的回復(fù)、還是話題切換后的接話,體感上幾乎沒(méi)有可感知的等待。
官方數(shù)據(jù)首幀延遲約1.3秒,后續(xù)每生成一個(gè)片段的延遲只有0.77秒,落到實(shí)際體驗(yàn)里就是:流暢,不出戲。
說(shuō)到底,虎牙VAM1.0在體感上的「穩(wěn)」、「準(zhǔn)」和「快」都是技術(shù)撐起來(lái)的。
這些能力背后,分別對(duì)應(yīng)了AI數(shù)字人行業(yè)幾道公認(rèn)的技術(shù)硬墻。
AI數(shù)字人行業(yè)的三堵墻
AI數(shù)字人賽道這兩年聲量很大:
一是確實(shí)不缺應(yīng)用想象空間,二是還有羅永浩、劉強(qiáng)東這樣的名人效應(yīng)加持。
但跟行業(yè)里的人深聊就會(huì)發(fā)現(xiàn)一個(gè)有意思的現(xiàn)象:不管哪家的方案,幾乎都在同樣的地方碰壁。
撞上的第一堵墻:時(shí)間墻
最古老也是最頑固的「敵人」,便是時(shí)間。一句話,跑久了會(huì)崩:
面部特征開(kāi)始漂移,五官慢慢走形,膚色偏移,嚴(yán)重的時(shí)候直接畫(huà)面撕裂。
為什么會(huì)這樣?
技術(shù)上叫累積誤差,每一幀的生成都基于前一幀,誤差像滾雪球一樣越滾越大,這也是為什么大多數(shù)方案撐不了太久的根本原因。
虎牙VAM 1.0怎么解的?三階段訓(xùn)練。
![]()
第一階段教模型「長(zhǎng)時(shí)間不走樣」。
用多張參考圖和運(yùn)動(dòng)幀來(lái)「錨定」人物形象,讓模型在生成每一幀的時(shí)候都有校準(zhǔn)依據(jù),不容易跑偏;
同時(shí)引入運(yùn)動(dòng)控制模塊豐富表情和動(dòng)作的多樣性,再加上音頻自適應(yīng)注入模塊,讓嘴型速度跟上說(shuō)話節(jié)奏,語(yǔ)音停頓時(shí)頭部和肢體也同步放緩,甚至聽(tīng)到音樂(lè)會(huì)跟著節(jié)拍點(diǎn)頭。
最狠的一招是:
訓(xùn)練的時(shí)候故意給模型喂各種「畫(huà)面劣化」的場(chǎng)景,讓它提前學(xué)會(huì)在惡劣條件下怎么穩(wěn)住畫(huà)面。
第二階段教模型「各方面都好看」。
數(shù)字人要同時(shí)做到好幾件事:嘴型要準(zhǔn)、表情要自然、動(dòng)作要協(xié)調(diào),這些目標(biāo)之間經(jīng)常互相打架。
虎牙VAM 1.0用了一種叫DPO的偏好優(yōu)化算法,讓模型學(xué)會(huì)在多個(gè)目標(biāo)之間找到平衡點(diǎn),不偏科。
第三階段教模型「算得又快又穩(wěn)」。
前兩個(gè)階段效果雖好,但計(jì)算量大,直接跑實(shí)時(shí)推理扛不住。
這一步通過(guò)模型蒸餾把計(jì)算步驟大幅壓縮(從20步→4步),同時(shí)用全局和局部的特征對(duì)照來(lái)保證「抄近路」之后畫(huà)面質(zhì)量不掉。
第一階段的運(yùn)動(dòng)幀策略在這里繼續(xù)沿用,保持動(dòng)作連貫性,在此基礎(chǔ)上再引入一個(gè)自糾錯(cuò)機(jī)制:
模型會(huì)拿自己之前生成的畫(huà)面當(dāng)作輸入繼續(xù)往下跑,在訓(xùn)練階段就學(xué)會(huì)「自己給自己糾偏」,不讓誤差越積越大。
這是實(shí)時(shí)推理速度能拉上去的關(guān)鍵。
這些就是虎牙VAM 1.0能連續(xù)跑24小時(shí)以上「不崩」的秘訣。
撞上的第二堵墻:交互墻
接下來(lái)的第二堵墻,更隱蔽、也更難翻——交互。
數(shù)字人能說(shuō)話就等于有交互能力了嗎?非也。
真正的交互至少三層。
第一層「說(shuō)」。嘴型對(duì)上音頻,表情跟上情緒。
這一層行業(yè)整體已經(jīng)不錯(cuò)了,從最早的唇形同步到全身表演,進(jìn)步飛快。
第二層「聽(tīng)」。注意,這里說(shuō)的「聽(tīng)」跟語(yǔ)音識(shí)別不同。
當(dāng)你在說(shuō)話的時(shí)候,數(shù)字人的面部和身體要呈現(xiàn)出「我在聽(tīng)你說(shuō)話」的狀態(tài),比如點(diǎn)頭、注視、微微前傾。
這也是大多數(shù)方案目前做不到的一點(diǎn),因?yàn)槟P陀?xùn)練的時(shí)候根本沒(méi)有「聆聽(tīng)?wèi)B(tài)」的概念。
它只學(xué)過(guò)怎么說(shuō),沒(méi)學(xué)過(guò)怎么聽(tīng)。
![]()
第三層「打斷和接話」,也就是虎牙VAM 1.0著重提到的「全雙工」。
如果說(shuō)傳統(tǒng)AI對(duì)話更像「你問(wèn)一句我答一句」的回合制,那虎牙VAM 1.0的「全雙工」就是一場(chǎng)可以隨時(shí)插話、隨時(shí)接話的真人聊天。
這一層,幾乎沒(méi)人做好。
歸根結(jié)底,大多數(shù)模型在解決「內(nèi)容生成」問(wèn)題:給定輸入,輸出一段視頻。
但真正的交互,是兩個(gè)主體之間的實(shí)時(shí)雙向?qū)υ挘@是兩個(gè)完全不同的技術(shù)命題。
虎牙VAM 1.0的做法是從模型設(shè)計(jì)階段就把交互當(dāng)核心目標(biāo):
原生覆蓋靜默、聆聽(tīng)、說(shuō)話三種狀態(tài),支持即時(shí)打斷和自然過(guò)渡,彈幕加語(yǔ)音雙鏈路并行。
前面實(shí)測(cè)里那個(gè)「打斷后愣一下再接話」的感覺(jué),就是交互墻被翻過(guò)去之后的產(chǎn)物。
撞上的第三堵墻:部署墻
如果說(shuō)前兩堵墻解決的是「能不能跑」,那么這一堵解決的就是「能不能規(guī)模化上線」。
能在實(shí)驗(yàn)室里跑通是一回事,但真正進(jìn)入業(yè)務(wù)場(chǎng)景中,問(wèn)題會(huì)立刻變得完全不同:
算力開(kāi)銷會(huì)迅速放大,延遲會(huì)被持續(xù)放大,任何輕微的不穩(wěn)定都會(huì)在高并發(fā)和長(zhǎng)時(shí)間運(yùn)行中被放大成可見(jiàn)問(wèn)題。
因此,要想實(shí)現(xiàn)7×24小時(shí)穩(wěn)定在線跑直播、做AI數(shù)字人互動(dòng),你的整個(gè)系統(tǒng)得足夠能打。
虎牙VAM 1.0在這一層做了全鏈路工程優(yōu)化,從底層算子一路優(yōu)化到模型權(quán)重:
編譯加速、注意力計(jì)算優(yōu)化、VAE解碼加速、多種量化策略覆蓋全網(wǎng)絡(luò)層,能壓的全壓了。
最終跑出來(lái)的成績(jī)單如下:
在8塊H200 GPU的集群上,達(dá)到36.4幀每秒的推理速度,每生成一個(gè)片段的延遲僅0.77秒,首幀延遲約1.3秒。
什么概念?和多個(gè)學(xué)術(shù)前沿方法對(duì)比,虎牙VAM 1.0推理速度最快、延遲最低。
![]()
不僅是快,虎牙VAM1.0在真實(shí)感、身份保持、同步精度、動(dòng)作自然度四個(gè)維度上也全面領(lǐng)先,而且計(jì)算開(kāi)銷還更低。
![]()
又好又快還省錢(qián),這在工程上通常很難實(shí)現(xiàn),但虎牙VAM 1.0至少在公開(kāi)的benchmark里,確實(shí)同時(shí)做到了。
三堵墻說(shuō)完了。
退后一步看,三堵墻背后其實(shí)是一個(gè)更本質(zhì)的分野:
數(shù)字人到底是「內(nèi)容生產(chǎn)工具」,還是「實(shí)時(shí)交互主體」?
選前者,重畫(huà)質(zhì)和表演力,時(shí)間墻和交互墻可以先不管。選后者,三堵墻必須全翻。
實(shí)際來(lái)看,虎牙VAM 1.0選了后者。
選后者意味著什么?意味著不僅要解決模型問(wèn)題,還要解決工程問(wèn)題,還要有場(chǎng)景來(lái)驗(yàn)證和迭代。
必須要三件事同時(shí)做,才能成立。
那么問(wèn)題來(lái)了,面對(duì)這肉眼可見(jiàn)的地獄難度,為什么偏偏是虎牙做到了?
虎牙,偏向「虎山行」?
老實(shí)說(shuō),虎牙做AI數(shù)字人這件事,邏輯上并不讓人意外。
作為國(guó)內(nèi)第一家上市的游戲直播公司,虎牙在直播這個(gè)場(chǎng)景里泡了超過(guò)十年:
流量在這匯聚,主播在這生長(zhǎng),用戶在這停留。
也正因?yàn)槿绱耍?dāng)AI數(shù)字人開(kāi)始從概念走向落地,真正進(jìn)入「直播間級(jí)別的實(shí)時(shí)交互」時(shí),虎牙幾乎天然站在了一個(gè)更靠近入口的位置。
它要面對(duì)的問(wèn)題也很直接:
如果未來(lái)直播間里不再只有真人主播,AI數(shù)字人和虛擬主播也開(kāi)始常駐,這個(gè)平臺(tái)還能不能撐住下一代內(nèi)容形態(tài)?
所以對(duì)它來(lái)說(shuō),這更像是一次對(duì)未來(lái)內(nèi)容生態(tài)的提前布局。
![]()
實(shí)際上,這場(chǎng)布局從幾年前就開(kāi)始了。
把時(shí)間往回翻到2019年,虎牙就已推出過(guò)AI數(shù)字人「晚玉」和HERO開(kāi)放平臺(tái);2025年上線AI電競(jìng)智能體「虎小Ai」,在自制賽事里實(shí)際用了起來(lái),同年開(kāi)始用AI驅(qū)動(dòng)虛擬主播,還給真人主播做了數(shù)字人分身。
如今虎牙VAM 1.0的出現(xiàn),就是把這些散點(diǎn)連成了一條線,從「給直播加AI功能」到「用AI做直播本身」。
說(shuō)白了,虎牙做AI數(shù)字人并非新手,而且前路也愈發(fā)清晰:
AI正從外掛變成直播系統(tǒng)的一部分。
在這個(gè)過(guò)程中,虎牙之所以能在技術(shù)上取得快速進(jìn)展,顯然離不開(kāi)它天然的場(chǎng)景優(yōu)勢(shì)——
彈幕互動(dòng)、語(yǔ)音連麥、禮物打賞,這些現(xiàn)成的交互基礎(chǔ)設(shè)施直接就在手邊,別的團(tuán)隊(duì)做完模型還得到處找場(chǎng)景,虎牙直接就坐在場(chǎng)景上面。
![]()
△虎牙上的AI游戲主播
而且場(chǎng)景不是被動(dòng)等在那里的,它在主動(dòng)倒逼技術(shù)適配。
虎牙VAM 1.0為什么原生支持彈幕加語(yǔ)音雙鏈路?因?yàn)檎鎸?shí)的直播間里,有人打字有人連麥,用戶需求如此。
為什么把全雙工做成模型內(nèi)置能力?因?yàn)橹辈ラg的觀眾不會(huì)等你說(shuō)完再發(fā)彈幕。
有模型的人不少,但有模型、有場(chǎng)景、場(chǎng)景還是7×24小時(shí)運(yùn)轉(zhuǎn)的直播平臺(tái)。
這個(gè)組合,現(xiàn)在確實(shí)比較稀缺。
虎牙VAM1.0官網(wǎng)地址:https://vam.huya.cn/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.