亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

1張照片+45分鐘實(shí)時(shí)視頻:LPM 1.0把AI對(duì)話從語音卷到了表情

0
分享至


一張靜態(tài)照片,一段音頻,45分鐘不間斷的實(shí)時(shí)對(duì)話——沒有后期渲染,沒有逐幀生成,畫面里的人會(huì)眨眼、會(huì)猶豫、會(huì)在你說話時(shí)微微點(diǎn)頭。這就是LPM 1.0給出的數(shù)字:單圖輸入,流式輸出,最長穩(wěn)定運(yùn)行45分鐘。

研究團(tuán)隊(duì)把這個(gè)模型定位為"純研究項(xiàng)目",卻直接切中了當(dāng)下AI交互最癢的點(diǎn):ChatGPT們能說話了,但用戶對(duì)著黑屏或文字氣泡聊天,體驗(yàn)還停留在打電話的年代。LPM 1.0想做的,是讓AI"顯形"——不是預(yù)錄好的動(dòng)畫,而是實(shí)時(shí)讀取你的語音、生成對(duì)應(yīng)的表情和口型,甚至在你說話的時(shí)候做出傾聽反應(yīng)。

這種技術(shù)路徑的野心,是把對(duì)話從"聽覺契約"變成"視覺契約"。

三模態(tài)同時(shí)進(jìn)場:文本、音頻、圖像的實(shí)時(shí)三角

LPM 1.0的輸入端同時(shí)處理三件事:你想讓角色說什么(文本)、怎么說(音頻)、長什么樣(參考圖像)。輸出端則是一個(gè)持續(xù)流動(dòng)的視頻流,而非傳統(tǒng)生成模型那種"寫完全文再給你看"的批處理模式。

項(xiàng)目管理者曾愛玲(Ailing Zeng)在介紹材料里提到,模型能識(shí)別三種對(duì)話狀態(tài)。聽你說話時(shí),它會(huì)生成點(diǎn)頭、視線轉(zhuǎn)移等反應(yīng)性表情;輪到自己說,音頻驅(qū)動(dòng)口型和肢體語言;沉默間隙,則按文本指令生成自然的待機(jī)動(dòng)作。這種狀態(tài)機(jī)的切分,本質(zhì)上是在模擬人類對(duì)話中的"輪次感"——我們知道什么時(shí)候該接話,什么時(shí)候該給對(duì)方留白。

技術(shù)報(bào)告里有個(gè)細(xì)節(jié)值得注意:LPM 1.0采用了"多粒度身份條件"(multi-granularity identity conditioning)。除了主圖像,模型還會(huì)接收不同角度、不同表情的參考圖。這意味著它不需要憑空發(fā)明牙齒結(jié)構(gòu)、情緒對(duì)應(yīng)的皺紋走向、或者側(cè)臉輪廓——這些細(xì)節(jié)直接從參考庫調(diào)取。對(duì)生成式模型來說,"不發(fā)明"往往比"發(fā)明"更難,因?yàn)榛糜X(hallucination)是擴(kuò)散模型的天性。

這種設(shè)計(jì)選擇暴露了一個(gè)產(chǎn)品直覺:用戶能接受AI生成的臉,但接受不了同一張臉在視頻里突然換了一副牙齒。身份一致性比畫質(zhì)更重要。

實(shí)時(shí)流的代價(jià):45分鐘是上限,也是宣言

研究團(tuán)隊(duì)聲稱視頻"最長可達(dá)45分鐘且保持穩(wěn)定"。這個(gè)數(shù)字在生成式視頻領(lǐng)域相當(dāng)激進(jìn)——多數(shù)同類模型以秒或分鐘為單位計(jì)量,且需要事后渲染。LPM 1.0的流式架構(gòu)意味著它邊生成邊輸出,對(duì)算力和內(nèi)存管理的要求完全不同。

但穩(wěn)定性是有代價(jià)的。技術(shù)報(bào)告坦承,生成視頻仍存在可見瑕疵,量化分析也顯示與真實(shí)視頻有明顯差距。研究團(tuán)隊(duì)沒有放出權(quán)重、代碼或公開演示,所有展示的人臉均為AI生成而非真人。這種謹(jǐn)慎姿態(tài)與近期其他開源視頻模型形成對(duì)比,也暗示了技術(shù)背后的風(fēng)險(xiǎn)計(jì)算。

曾愛玲提到,團(tuán)隊(duì)"只有在充分的安全措施和責(zé)任使用框架到位后,才會(huì)考慮開放訪問"。這句話的潛臺(tái)詞是:他們知道這東西能做什么,也清楚壞人能用它做什么。

離線模式的存在,說明研究團(tuán)隊(duì)已經(jīng)看到了商業(yè)化的縫隙。

除了實(shí)時(shí)對(duì)話,LPM 1.0支持從現(xiàn)有音頻生成離線視頻,適用于播客或電影對(duì)白場景。這個(gè)分支功能的技術(shù)門檻更低——不需要處理實(shí)時(shí)交互的延遲壓力,但保留了口型同步和表情生成的核心能力。對(duì)內(nèi)容創(chuàng)作者來說,這意味著可以用一張角色設(shè)定圖,批量生成多語言版本的動(dòng)畫對(duì)白。

視頻輸入控制(即讓角色模仿真人表情)不在當(dāng)前版本內(nèi),但框架預(yù)留了擴(kuò)展空間。這種模塊化設(shè)計(jì)思路,很像早期語音合成工具的路徑:先解決"從文本到聲音",再疊加"從聲音到情緒",最后才是"從視頻到視頻"的完整映射。

風(fēng)格無關(guān)性:一張照片通吃真人、動(dòng)漫、游戲角色

LPM 1.0的一個(gè)技術(shù)賣點(diǎn)是跨風(fēng)格遷移:同一張參考圖,可以驅(qū)動(dòng)寫實(shí)人臉、動(dòng)漫角色或3D游戲人物,無需額外訓(xùn)練。這種"風(fēng)格無關(guān)"能力的背后是身份特征的解耦——模型提取的是面部結(jié)構(gòu)的幾何關(guān)系,而非像素級(jí)的紋理風(fēng)格。

對(duì)游戲和虛擬偶像行業(yè)來說,這相當(dāng)于把角色動(dòng)畫的制作流程從"逐幀K幀"壓縮到"上傳一張立繪"。傳統(tǒng)管線里,一個(gè)可對(duì)話的NPC需要建模、綁定、動(dòng)作捕捉、口型動(dòng)畫四個(gè)環(huán)節(jié);LPM 1.0的演示暗示,未來可能只剩"設(shè)計(jì)角色外觀"這一步。

但風(fēng)格遷移也有邊界。技術(shù)報(bào)告沒有展示極端風(fēng)格化的案例(比如抽象派繪畫或高度變形的卡通形象),"無需額外訓(xùn)練"的承諾是否覆蓋全譜系風(fēng)格,仍需驗(yàn)證。

接入ChatGPT或豆包的演示,暴露了產(chǎn)品化的野心。

研究團(tuán)隊(duì)展示了LPM 1.0直接接入語音-音頻AI模型的能力,點(diǎn)名提到ChatGPT和豆包(Doubao)。這種即插即用的設(shè)計(jì),意味著它不是要重建一個(gè)對(duì)話系統(tǒng),而是給現(xiàn)有的AI助手"加裝視覺皮層"。對(duì)OpenAI或字節(jié)跳動(dòng)來說,收購或自研類似技術(shù)的優(yōu)先級(jí),可能會(huì)因此重新排序。

值得玩味的是時(shí)間線。LPM 1.0的發(fā)布恰逢多模態(tài)大模型的密集競爭期:GPT-4o的實(shí)時(shí)語音交互、可靈的圖生視頻、快手的視頻生成工具,都在爭奪"AI能看多懂、做多快"的定義權(quán)。LPM 1.0選擇單點(diǎn)突破——不做通用視頻生成,專攻"會(huì)說話的臉",反而在細(xì)分場景建立了技術(shù)縱深。

研究項(xiàng)目的外殼,產(chǎn)業(yè)基礎(chǔ)設(shè)施的內(nèi)核

研究團(tuán)隊(duì)反復(fù)強(qiáng)調(diào)"純研究項(xiàng)目"的定位,但技術(shù)報(bào)告的措辭和演示視頻的制作水準(zhǔn),都指向?qū)W術(shù)機(jī)構(gòu)與產(chǎn)業(yè)界的標(biāo)準(zhǔn)接口。不發(fā)布代碼、不開放演示、所有人物均為AI生成——這三重防火墻,既是倫理審慎,也是技術(shù)保密。

風(fēng)險(xiǎn)清單寫得很直白:實(shí)時(shí)深度偽造(deepfake)基礎(chǔ)設(shè)施、欺詐、操縱、冒名頂替。這些不是假設(shè)性威脅,而是LPM 1.0的能力說明書。當(dāng)生成延遲壓縮到實(shí)時(shí)級(jí)別,檢測偽造的時(shí)間窗口就被同步壓縮了?,F(xiàn)有的深度偽造檢測工具大多針對(duì)離線視頻設(shè)計(jì),流式生成的對(duì)抗是一個(gè)尚未被充分研究的戰(zhàn)場。

曾愛玲提到的"責(zé)任使用框架",目前還是空白。研究團(tuán)隊(duì)沒有給出具體的技術(shù)標(biāo)準(zhǔn)或治理機(jī)制,只是設(shè)定了開放訪問的前提條件。這種"先技術(shù)后倫理"的敘事,在AI領(lǐng)域已經(jīng)引發(fā)過多次爭議——能力一旦存在,封禁往往比擴(kuò)散更難。

教育、游戲、客服、虛擬陪伴——四個(gè)被點(diǎn)名的場景,恰好對(duì)應(yīng)四種不同的監(jiān)管敏感度。

教育需要內(nèi)容準(zhǔn)確性和年齡適宜性,游戲涉及虛擬資產(chǎn)和玩家心理,客服牽扯企業(yè)責(zé)任和數(shù)據(jù)隱私,虛擬陪伴則觸碰情感依賴和身份欺騙的灰色地帶。LPM 1.0的技術(shù)報(bào)告沒有區(qū)分這些場景的風(fēng)險(xiǎn)權(quán)重,但產(chǎn)品化路徑的選擇,將決定它首先進(jìn)入哪個(gè)市場。

一個(gè)細(xì)節(jié)是:演示視頻中的角色始終保持"傾聽-說話-待機(jī)"的循環(huán),沒有展示更復(fù)雜的交互(比如打斷、爭論、情緒爆發(fā))。這種克制可能是技術(shù)限制,也可能是演示策略——把最可控的部分拿出來,把邊界情況留給閉門討論。

研究團(tuán)隊(duì)承認(rèn)視頻質(zhì)量與真實(shí)素材仍有差距,但沒有給出具體的量化指標(biāo)(如FID分?jǐn)?shù)或用戶主觀評(píng)分)。這種模糊處理在學(xué)術(shù)發(fā)布中常見,但對(duì)評(píng)估商業(yè)化可行性的人來說,意味著關(guān)鍵信息缺失。

45分鐘的穩(wěn)定運(yùn)行時(shí)間,是LPM 1.0目前最硬的數(shù)字。它足夠覆蓋一場標(biāo)準(zhǔn)長度的播客、一節(jié)在線課程、或者一次客服通話。但"穩(wěn)定"的定義是什么?畫面抖動(dòng)、口型漂移、表情僵化的閾值在哪里?這些問題決定了它從"演示可用"到"生產(chǎn)可用"的距離。

當(dāng)AI助手終于有了一張能實(shí)時(shí)反應(yīng)的臉,你會(huì)更愿意相信它,還是更警惕它?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
24歲抗癌博主“徐平安”確診黑色素瘤晚期不到一年去世,其母親剛因胃癌離世,17歲弟弟發(fā)聲

24歲抗癌博主“徐平安”確診黑色素瘤晚期不到一年去世,其母親剛因胃癌離世,17歲弟弟發(fā)聲

極目新聞
2026-04-16 10:16:08
家有二老,格林貢獻(xiàn)絕命兩搶斷&霍福德末節(jié)三分4中4

家有二老,格林貢獻(xiàn)絕命兩搶斷&霍福德末節(jié)三分4中4

懂球帝
2026-04-16 13:27:22
美國副總統(tǒng)萬斯:我為美國做得最自豪的一件事就是告訴歐洲,你們想軍援烏克蘭就自己買,美國不會(huì)再買武器送往烏克蘭了

美國副總統(tǒng)萬斯:我為美國做得最自豪的一件事就是告訴歐洲,你們想軍援烏克蘭就自己買,美國不會(huì)再買武器送往烏克蘭了

瀟湘晨報(bào)
2026-04-16 10:56:15
臺(tái)灣突然宣布重磅決定,島內(nèi)數(shù)萬人聯(lián)名反對(duì),鄭麗文成眾望所歸

臺(tái)灣突然宣布重磅決定,島內(nèi)數(shù)萬人聯(lián)名反對(duì),鄭麗文成眾望所歸

阿器談史
2026-04-16 11:25:29
俄羅斯和阿塞拜疆同意妥善處置阿客機(jī)墜機(jī)事件

俄羅斯和阿塞拜疆同意妥善處置阿客機(jī)墜機(jī)事件

環(huán)球網(wǎng)資訊
2026-04-15 22:52:40
金立手機(jī)創(chuàng)始人消失8年現(xiàn)身,他曾因賭博導(dǎo)致公司破產(chǎn)!網(wǎng)友熱議

金立手機(jī)創(chuàng)始人消失8年現(xiàn)身,他曾因賭博導(dǎo)致公司破產(chǎn)!網(wǎng)友熱議

胡侃社會(huì)百態(tài)
2026-04-16 11:18:12
小卡21+7無緣季后賽:末節(jié)僅2分出局 或打完快船生涯最后一戰(zhàn)

小卡21+7無緣季后賽:末節(jié)僅2分出局 或打完快船生涯最后一戰(zhàn)

醉臥浮生
2026-04-16 12:50:46
“中年返貧三件套”,正在吞掉一代人的存款

“中年返貧三件套”,正在吞掉一代人的存款

閱讀第一
2026-04-15 08:34:45
文章上海餐館端盤陪女兒!17歲愛馬神似馬伊琍,滿屏大長腿太搶鏡

文章上海餐館端盤陪女兒!17歲愛馬神似馬伊琍,滿屏大長腿太搶鏡

娛小余
2026-04-15 23:28:58
消失8年的金立創(chuàng)始人劉立榮,疑在印尼賣家具;曾自曝賭博輸?shù)羰畮變|元,其中不乏“借用”公司的錢,稱賭博會(huì)“讓一個(gè)人人格破產(chǎn)”

消失8年的金立創(chuàng)始人劉立榮,疑在印尼賣家具;曾自曝賭博輸?shù)羰畮變|元,其中不乏“借用”公司的錢,稱賭博會(huì)“讓一個(gè)人人格破產(chǎn)”

大風(fēng)新聞
2026-04-16 12:01:05
快船被淘汰誰最開心?保羅第一時(shí)間更新社媒:曬知名梗圖嘲諷舊主

快船被淘汰誰最開心?保羅第一時(shí)間更新社媒:曬知名梗圖嘲諷舊主

羅說NBA
2026-04-16 13:40:47
歐洲100萬人請(qǐng)?jiān)敢笾撇靡陨?內(nèi)塔尼亞胡:歐洲“道德軟弱”

歐洲100萬人請(qǐng)?jiān)敢笾撇靡陨?內(nèi)塔尼亞胡:歐洲“道德軟弱”

紅星新聞
2026-04-15 18:47:24
絲芭傳媒:創(chuàng)始人王子杰去世,享年63歲

絲芭傳媒:創(chuàng)始人王子杰去世,享年63歲

界面新聞
2026-04-16 11:04:57
1898 年,譚嗣同就義,他永遠(yuǎn)不知,自己的后人有多讓人心疼

1898 年,譚嗣同就義,他永遠(yuǎn)不知,自己的后人有多讓人心疼

小燕聊劇
2026-04-14 19:53:58
臺(tái)灣女網(wǎng)紅整理數(shù)據(jù)稱:臺(tái)灣男子性犯罪率是印度20倍,我們要大力引進(jìn)印度人

臺(tái)灣女網(wǎng)紅整理數(shù)據(jù)稱:臺(tái)灣男子性犯罪率是印度20倍,我們要大力引進(jìn)印度人

不掉線電波
2026-04-15 14:30:03
中國留學(xué)生在德國多次迷奸女友,加入色情犯罪群學(xué)技巧,下藥超標(biāo)5-10倍

中國留學(xué)生在德國多次迷奸女友,加入色情犯罪群學(xué)技巧,下藥超標(biāo)5-10倍

揚(yáng)子晚報(bào)
2026-04-15 21:14:31
“最牛服務(wù)員”楊利娟,重回海底撈!從月薪160元服務(wù)員做起,成百億身家CEO,年薪超700萬;海底撈多品牌戰(zhàn)略或進(jìn)入關(guān)鍵落地期

“最牛服務(wù)員”楊利娟,重回海底撈!從月薪160元服務(wù)員做起,成百億身家CEO,年薪超700萬;海底撈多品牌戰(zhàn)略或進(jìn)入關(guān)鍵落地期

大風(fēng)新聞
2026-04-16 12:12:08
女教師群聊“八卦”被拘,起訴公安局再被駁回

女教師群聊“八卦”被拘,起訴公安局再被駁回

中國新聞周刊
2026-04-16 09:02:37
瘋了!浙江坐擁4057座寺廟全國第一,密集關(guān)停早該來了

瘋了!浙江坐擁4057座寺廟全國第一,密集關(guān)停早該來了

魔都姐姐雜談
2026-04-16 05:03:22
河南萬歲山武俠城演出中“大象”露出人腳,景區(qū):沒飼養(yǎng)過大象,是4名工作人員扮的

河南萬歲山武俠城演出中“大象”露出人腳,景區(qū):沒飼養(yǎng)過大象,是4名工作人員扮的

環(huán)球網(wǎng)資訊
2026-04-16 11:29:34
2026-04-16 13:52:49
閃存獵手
閃存獵手
全網(wǎng)蹲好價(jià)的野生捕手,算力與羊毛都不可辜負(fù)。
1427文章數(shù) 10關(guān)注度
往期回顧 全部

科技要聞

39.98萬!小鵬GX預(yù)售“純電增程同價(jià)”

頭條要聞

伊朗媒體:美以襲擊后 伊朗經(jīng)濟(jì)可能需要12年才能修復(fù)

頭條要聞

伊朗媒體:美以襲擊后 伊朗經(jīng)濟(jì)可能需要12年才能修復(fù)

體育要聞

很快,亞洲籃球要有自己的NCAA了?

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

一季度GDP,5.0%!

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

房產(chǎn)
教育
數(shù)碼
時(shí)尚
手機(jī)

房產(chǎn)要聞

業(yè)主狂喜!??诙址績r(jià),終于漲了!

教育要聞

濟(jì)南小學(xué)生手搓紙橋承重43斤!

數(shù)碼要聞

微星18寸游戲本更新:搭載最新酷睿Ultra 200HX Plus:220W功耗地表最強(qiáng)!

赫本愛穿的傘裙,好優(yōu)雅!

手機(jī)要聞

華為Pura 90系列全球代言人易烊千璽,演繹純粹治愈松弛美學(xué)

無障礙瀏覽 進(jìn)入關(guān)懷版