米哈游蔡浩宇的AI公司Anuttacon,首個視頻模型正式曝光!
Anuttacon技術團隊成員@Ailing Zeng,在X上展示了全新視頻角色表演生成模型——LPM 1.0。
主打一個讓AI角色人物表現得更《出神入化》~
![]()
大家先看下面這位AI小哥,生動演繹了一場16秒變換N種情緒的超絕大戲,你就說這情緒拿捏到不到位吧:
不僅如此,在LPM 1.0模型中,連讓AI人物「聽別人說話」這事兒也同步進化了。(天吶.jpg)
哪怕不張口、只是安靜坐著當一個認真聆聽的人,角色的表情、眼神和情緒反饋也都在線,這情緒價值給的:
此外,我們還可以和AI進行「實時互動」。
只要對著電腦屏幕說一句自己的甲方需求,屏幕里的AI角色就能夠根據指令當下做出反應。
哪怕是在長時間交互下,依舊能保證人物形象穩定一致,be like:
表情如此之自然、情緒如此之到位、交互如此之實時,網友直接就是一個《坐不住》,直言:
實時、支持無限長度的AI角色終于來了!!!(大聲.jpg)
![]()
(說真的,我大早上在官網看了這幾個demo效果后,屬實快分不出來AI不AI了…)
LPM 1.0:主打一個讓AI角色變「戲精」
其實對今天的AI視頻產品來說,能把人物角色的表情生動演繹出來,早就不算什么新鮮事了。
但是LPM 1.0模型特殊就特殊在吧——
我們能通過文本、音頻和圖像三種多模態形式,輕松生成一個能實時對話、會聽會說、還能持續保持人物一致性的動態角色。
讓AI角色在視頻里,更會演、更會聽、更會說,還能一直像同一個人~
![]()
我也幫友友們淺淺總結了一下LPM 1.0模型最核心的幾大「能力亮點」:
超絕情緒演繹能力:能同步生成說話、傾聽、微表情和自然動作,情緒表演更到位。
實時視頻生成能力:通過在線生成器,用戶能實現和AI角色實現實時交互,適合做對話型角色。
根據對方說話做出反應的能力:角色可以一邊聽用戶說話一邊做出表情反應,等輪到角色回答時,它再根據合成語音生成說話視頻。
長時間人物一致性:哪怕和AI的互動時間延長之后,AI角色依舊盡量維持同一個人的外觀和身份特征。
emm…這些能力是不是聽上去有點乏味?沒關系,我們直接讓AI演員們上才藝!
先來說說大家很感興趣也很有意思的——「超絕情緒演繹能力」。
具體來說,模型在口型同步、呼吸節奏、情緒表達維度上的表現更貼近人類的表現方式,呈現效果也就更有層次。
比如在下面這個堪比好萊塢大片的視頻,兩位男子僅僅在幾秒鐘的時間,就生動演繹出了多個神態——
前一秒還是猶豫和遲疑,下一秒就出現抿嘴、咬牙、嘆氣這類更細小的動作,能讓人明顯感受到心理狀態在變化。
(老戲骨啊老戲骨,建議送去參加AI版《演員的誕生》!)
再看下面這位老哥,短短9秒時間里,驚恐、緊張、憤怒幾種情緒接連切換,整個過程還挺有壓迫感??
此外不知道大家發沒發現,當人物在說到重音位置時,嘴部開合幅度、面部發力方式也會跟著增強。
臺詞重心和表演重心是對得上的,融合度可以說是非常不錯,be like:
除了對著鏡頭完成這類單人表演,LPM 1.0還有個更有意思的能力——
那就是角色在「傾聽別人說話」時,會同步給出與當下情境相符的的表情和狀態反饋。
讓你覺得,眼前這個AI…好像真的在賽博世界和另一個人真實互動。
比如下面這個女人接孩子電話的片段。
當她聽到電話那頭的聲音時,第一時間先是眼神變化,隨后眼睛微微睜大,帶出一點意外和牽掛,緊接著眉頭收緊,像是在迅速判斷電腦那頭孩子是不是遇到了什么事。
emm…整段反應很像真人接電話時那種「邊聽邊消化信息」的狀態:
再看下面這個神情已經有點略微煩躁的男子。
對方一開口,他的臉上就同步出現了扶頭、疲憊、輕微不耐煩這些反應,整個人的狀態像是在強撐著把這段話聽完。
(像極了我們上班開會聽老板講話時候的表情…狠狠共鳴住了。)
除了上面我們展示的這些單向視頻生成能力外,LPM 1.0還有一個非常值得一提的能力——
那就是我們能與AI角色「實時互動」。
例如你說話時,角色會實時做出正在聽的表情和動作,讓整個互動看起來會更像真人視頻通話。
比如下面這個demo,在視頻對話器中,女子只張口說了句「let’s sing a song」,屏幕里的AI女孩就能做到立刻開始大展歌喉~
再比如,只說一句「請你做個自我介紹」,屏幕里的AI女孩也能快速做出相關反應,更接近真實交流該有的節奏:
最后我們來說說LPM 1.0長時間視頻生成中能力。
具體來說,LPM 1.0能夠讓AI角色在長時間互動里依舊保持穩定輸出,既能持續對話,也能長時間講故事,人物形象還不容易崩。
比如像下面官方案例中22分鐘、48分鐘的視頻也能輕松生成,而且角色形象一致性依舊保持不錯~
![]()
LPM 1.0為啥這么會「演」?
能讓賽博世界里的人物角色表情神態和交互能力如此到位,LPM 1.0背后的技術架構自然也不簡單。
我先給大家小小科普一下,其實目前行業內的視頻模型,一直很難同時兼顧三件事兒——
那就是表現力、實時性、長視頻的角色一致性。
這三項能力可以說是彼此牽制,水火不相容,這也構成了當下AI視頻最核心難題之一…
而為了解決這個大難點,LPM 1.0團隊先是構建了一套以人為中心的多模態數據集——
在這個過程中加入了表演理解,身份感知等多種參考信息內容,目的是讓AI角色更像真人交流時的狀態。
![]()
在此基礎上,團隊又給底層架構直接上了一套有著170億參數的擴散Transformer。
這套架構更擅長處理視頻里空間與時間之間的復雜關聯,能借助強大的自注意力機制,把人物表情、口型、動作,以及前后幀之間的連續關系一起建模。
這樣一來模型就能知道到底怎么演才能更自然更像人類~
而至于我們在剛才看到的能實時交互的模擬器,則是一個因果式流生成器,專門用于實現低延遲、可持續、無限長度的實時交互。
這樣一來我們就和AI角人物進行實時交流了!(暗笑.jpg)
![]()
除了模型本身的能力外,LPM 1.0團隊成員同樣值得關注。
此次在X上披露LPM 1.0模型的@Ailing Zeng,身份為Anuttacon的技術團隊成員,主要負責互動多模態視頻生成模型的相關研究。
她博士畢業于香港中文大學,在加入Anuttacon之前,曾在騰訊混元團隊和IDEA從事大模型相關研究。
![]()
此外,該模型的技術論文由20+位研究人員共同參與完成,感興趣的uu可通過下方論文鏈接了解模型的詳細技術內容~
![]()
Ps:目前,模型還沒有正式對外上線,感興趣的朋友可以蹲蹲。
[1]https://arxiv.org/html/2604.07823v1
[2]https://large-performance-model.github.io/#
文章來源:量子位。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.