AI視頻生成賽道最近卷得離譜。Seedance 2.0把15秒短視頻做到電影級畫質(zhì),全行業(yè)都在拼誰的畫面更逼真。
但有個"靈魂大法師"偏不走這條路。
這稱號聽著中二,卻是米哈游前董事長蔡浩宇的領(lǐng)英頭銜。卸任后他溜去新加坡,開了家叫Anuttacon的AGI公司。如今LPM 1.0發(fā)布,AI視頻直接從"離線剪輯"跨進(jìn)了"實時生命體"——demo里那個虛擬角色,一口氣聊了45分鐘沒崩。
這相當(dāng)于什么?別人還在當(dāng)攝影師,他已經(jīng)開始養(yǎng)數(shù)字演員了。
行業(yè)有個老毛病叫"表演三難困境":畫面要像、響應(yīng)要快、時間長了不能崩——三者只能取其二。即夢、可靈、Sora們做短視頻無敵,一旦拉長到實時交互,角色臉歪了、身份換了、動作抽搐了,全是家常便飯。
病根在"自回歸漂移"。時間越長,誤差像滾雪球,最后徹底翻車。
LPM的解法是把170億參數(shù)的擴(kuò)散模型,用"分布匹配蒸餾"壓成"主干-精煉器"結(jié)構(gòu)。主干管整體軌跡,精煉器摳表情細(xì)節(jié)。內(nèi)存占用鎖死,身份一致性卻能無限續(xù)杯。
更狠的是全雙工音視頻對話。兩路音頻同時跑:一路AI自己說的話驅(qū)動口型,一路用戶的話驅(qū)動實時反應(yīng)。你停頓,它點頭;你挑眉,它跟上。終于不是復(fù)讀機(jī)了。
畫面確實不如Seedance 2.0精致,但"能演"和"好看"本來就是兩回事。
字節(jié)靠TikTok的海量短視頻喂出Seedance,蔡浩宇手里有什么?米哈游41%的股權(quán)背后,是十幾年游戲工業(yè)攢下的"人類表演學(xué)"家底。
LPM要的不止一張照片,還要全局外觀、多視角、8類預(yù)定義表情。78種精細(xì)情感、5000個動作描述符,全是結(jié)構(gòu)化數(shù)據(jù)。350萬次傾聽行為標(biāo)注,教AI學(xué)會人類對話里的呼吸、猶豫和停頓。
這是"工業(yè)審美"對"流量數(shù)據(jù)"的路線分野。Seedance 2.0畫面栩栩如生,LPM 1.0的角色卻有電影級的"去AI味"質(zhì)感。
但蔡浩宇沒打算開源,也不賣API。LPM本質(zhì)上是一套視覺引擎,不是單純模型。在虛擬角色這個細(xì)分賽道,穩(wěn)定+實時+長效的交互能力,約等于虛擬世界的門票。
門票貴得嚇人。實時生成720P視頻,單GPU 0.35秒處理1秒畫面,大規(guī)模并發(fā)就是燒錢黑洞。試水作《星之低語》33.99元買斷制,顯然蓋不住算力成本。
B端場景倒是現(xiàn)成的。虛擬主播、AI導(dǎo)師、客服,哪個不需要7×24小時穩(wěn)定在線?省掉動捕棚和真人工資,賬本立刻好看很多。UGC平臺更誘人——用戶給張照片說句話,AI包辦全部表演,創(chuàng)作門檻歸零。
LPM沒打算在畫質(zhì)上硬剛Seedance。行業(yè)追像素的時候,它追一致性。
這大概是游戲人對"體驗"的執(zhí)念:角色崩壞一次,沉浸感就永遠(yuǎn)消失。而LPM的實時呼吸感和微表情,正在把恐怖谷效應(yīng)往反方向推。
Anuttacon官網(wǎng)的demo結(jié)尾,那個虛擬角色說完最后一句話,眼睛眨了一下——不是程序預(yù)設(shè)的循環(huán)動畫,是聽完你發(fā)言后的自然反應(yīng)。這個細(xì)節(jié),比45分鐘的時長數(shù)字更說明問題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.