網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

看見就想吐的AI演員

2026-07-04 00:40:07　來源: 新浪財經(jīng)

河北舉報

分享至

來源：市場資訊

（來源：AI深度科技）

Yoo友們，還記得這張臉嗎？

這張讓人看見就產(chǎn)生生理性厭惡的「AI臉」。

“一看見這張臉就想吐。很討厭的一張臉。”

關(guān)于為什么大家會對這張臉這么不滿意呢？

我們也隨機抽選了幾位網(wǎng)友的回答：

有人說，這張臉似乎是所有AI視頻中人物的平均長相，“感覺這張臉還是男女老少通用的，真·一個模子刻出來的。”

有人說，這張臉的表情很僵硬刻板，下垂的眼角+招牌的假笑，「偽人感」?jié)M得都要溢出來了，而且永遠在瞪著眼睛吼。

當然，也有人認真分析了下原因：為了節(jié)省成本，人們把模型切換成了Seedance 2.0 Fast，素材庫里的低配臉就長這樣啊。

OK，截至目前，絕大多數(shù)人對AI演員的印象是不是都還停留在：

要么總是手上出點Bug，多一根或少一根手指？

要么總是臉上出點Bug，表情僵硬似“偽人”？

所以，像之前火出圈的AI電影《喪尸清道夫》，就巧妙地用低像素電子屏表情代替了真人臉部表情。誒，簡直是個“甜菜”啊。

圖源：抖音@Mx-Shell《喪尸清道夫》

但，咱們今天要說，朋友們，世道變了，又雙叒變了。

AI演員現(xiàn)在也能演出情緒感了！甚至，她們的情緒還會像洋蔥一樣，一層一層地層層遞進！！！

絕了啊！！！

更刺激的是，不光有情緒，甚至有些內(nèi)娛演員沒法演出來的眼神戲都給整出來了。。。。。

口說無憑，我們找了幾個掛在熱搜上的經(jīng)典網(wǎng)絡(luò)案例。

請看VCR 1：

注意看了，各位。

你能很明顯看到這位「AI女演員」的臉部肌肉是如何隨著情緒而變化的？

特別是，放大再放大，在第2秒的時候，你能看見她眼皮有著些許的輕微顫動。

緊接著，她一個眼神先向上看，而后又向下瞥，你似乎已經(jīng)能感受到她在打量你。

就。。。這種感覺，從屏幕里傳遞出來了。。。

你說說看，就這樣式兒的，是不是已經(jīng)到了絕大多數(shù)普通人已經(jīng)無法用肉眼識別AI演員和真人演員的區(qū)別了？真沒招了啊。

再有VCR 2，有視頻有真相，給你看看「AI演員」飚演技：

不是？？？

這通紅的眼中盈滿了淚水，讓人夢回當年和初戀女友分手的那一年。她似乎也是這么紅著眼對你說：“我們還是分手吧。”

在眼淚掉下來之前，深吸一口氣，試圖控制自己的情緒，但沒控制住。就是這種細節(jié)，這種細節(jié)出來，最有活人味兒了。

當然，也不是絕對完美。看看這兩滴眼淚，這兩行淚水珠子掉下來，就有點假了。

既然如此，我們也根據(jù)網(wǎng)上的提示詞，拿Seedance 2.0做了一場能讓AI演員演出「情緒」的戲：

提示詞模版如下：

一個古裝女生

本片為室內(nèi)寫實主義哭戲獨白片段，采用固定中近景偏特寫、一鏡到底拍攝，機位設(shè)于人物正前方略偏左，全程不切換鏡頭、不做大幅度推拉旋轉(zhuǎn)，僅保留輕微手持呼吸感，畫面走電影級寫實風格,不使用美顏、卡通畫風，全程單人出鏡，嚴禁任何人影、肢體、倒影入畫，無對手戲、無群像，場景保持古代室內(nèi)環(huán)境不變。人物居于畫面中間偏右，全程坐姿不變，整體姿態(tài)微微前傾、雙肩收緊，神態(tài)隱忍委屈。表演節(jié)奏由壓抑逐步遞進至情緒崩潰，最終歸于失望沉默，全程拒絕夸張哭喊、大吼大叫、大幅肢體動作與五官扭曲，表情、動作、臺詞均追求生活化真實感人物每3秒自然眨眼，還原真人神態(tài)。

0秒-2秒

室內(nèi)自然光，人物低頭垂目、不看鏡頭，嘴角下撇、眉頭輕皺，眼眶泛紅強忍淚水，呼吸壓抑、喉頭微哽。低聲隱忍開口：“你讓我自己一個人......語速放緩，似憋悶許久，嘴唇輕顫、聲線發(fā)虛，滿是委屈。

2秒-4秒

頭部微微抬起，視線依舊向下，眉心愈發(fā)緊鎖，雙眼濕潤、鼻翼輕抽，嘴角壓得更低，身體繼續(xù)前傾。接續(xù)臺詞:“叫天天不應(yīng)，叫地地不靈。“聲線持續(xù)發(fā)顫，前半句飽含委屈，后半句語調(diào)低沉絕望，尾音帶哭腔，面部肌肉緊繃，克制住痛哭的情緒。

4秒-6秒

情緒短暫卡頓，低頭吸氣，嘴唇抿動，淚意更濃。再度抬頭、身體向前微壓，迎來首輪情緒起伏，出聲問道：“你讓我怎么辦？“音量小幅提升，以哭腔發(fā)問，無怒吼姿態(tài)，僅靠前傾體態(tài)、蹙眉、唇顫傳遞崩潰感。

6秒-8秒

情緒持續(xù)攀升，眼眶通紅，眼神游離不定，雙肩緊繃，委屈轉(zhuǎn)為無助。念道：“我一個人怎么辦？“加重“我一個人“語氣，滿是無助與苦楚，聲線哽咽帶哭腔，說完后停頓半秒，凸顯瀕臨失控的狀態(tài)。

8秒-11秒

情緒抵達頂峰，身體小幅前探，面部緊繃、眉心緊鎖、嘴唇明顯顫抖。帶著哭腔輕聲質(zhì)問：“你告訴我，我能怎么辦？“為本段最高情緒點，前半句帶著控訴，后半句滿是絕望，音量適度提高但不歇斯底里，尾音拉長帶顫音。視線短暫望向前方，隨即緩緩移開，流露失望。

11秒-13秒

臺詞結(jié)束，保持前傾姿勢，呼吸粗重，眼神空洞，嘴唇開合間盡顯崩潰后的疲憊。情緒慢慢收斂,緩緩轉(zhuǎn)頭望向畫面右側(cè)，動作舒緩自然，傳遞出不愿再多言語的心境，眉頭與嘴角依舊維持低落神態(tài)。13秒-15秒側(cè)臉定格，身體靜立片刻，抬手輕拭眼淚，全程無多余動作。

結(jié)果如上。顯而易見，事實證明，AI演員確實在控制面部肌肉和情緒表達上，有了很明顯的突破。

而這種突破，主要有三個方面的原因：

一方面，是時間維度的連貫性。

早期AI視頻生成，不管是Runway還是Pika，底層是在做幀與幀之間的插值，模型的注意力窗口很短，一兩秒之后就忘了前面發(fā)生過什么。所以那些AI臉永遠只有一個表情，嘴角不會動，眼角不會變，像一張面具。

但Seedance 2.0這一代視頻模型，底層換成了Diffusion Transformer架構(gòu)，注意力窗口被拉長到了整個視頻序列，模型能記住第五秒的眼淚是因為第一秒就開始醞釀了。你就能感覺到TA的情緒變化，是自然而然的。

另一方面，是微表情的物理建模。

回想一下文章里VCR 1那個例子，第二秒眼皮輕微顫動。這個細節(jié)不是隨機噪聲，是模型在訓(xùn)練過程中隱式學到了眼輪匝肌的收縮模式。

人類面部有43塊肌肉，任何一組的細微收縮都會牽動相鄰組織，產(chǎn)生連鎖反應(yīng)。早期的AI生成只是把嘴和眼的坐標獨立地動一動，看起來像提線木偶。現(xiàn)在的模型卻開始學到肌肉協(xié)同的動力學了，所以它不是在「做表情」，它在「演情緒」。

額肌、降眉間肌、顴大肌、口輪匝肌，它們在真實哭泣時的激活序列是有固定模式的，模型通過海量視頻數(shù)據(jù)把這些模式編碼進了潛空間。你看到的眼淚盈眶、深吸氣、試圖控制但沒控制住，本質(zhì)上不是三個獨立動作的拼接，而是一個連續(xù)的情緒坍塌過程，在潛空間里它是一條平滑的曲線。

第三個方面，還是大家的提示詞玩得越來越6了。提示詞精準到秒，什么時間做什么表情。我們翻了翻網(wǎng)上所有的案例，幾乎想到達到AI演員表情以假亂真的效果，那創(chuàng)作者的提示詞，怎么說吧，堪比一篇小論文。

但同時，我們也想小小地埋個「彩蛋」：

話說，大伙有沒有覺得以上三位AI女主，分別神似某某某、某某某和某某女演員呢？

尤其是在某些眼神戲上的表演的時候。

評論區(qū)來對對答案。（狗頭.jpg）

最后的最后，借用一下唐國強老師在上綜藝討論「AI演員是否會取代人類演員」的觀點來收個尾。

演員的本質(zhì)就是在「演」，這個演戲也是有一套定式的，人類可以學，那AI不是也可以學嗎？？？

如果，AI學會了演技，再加上像香港演員吳啟華一樣授權(quán)給他們一張帥臉，那究竟會不會擦出什么火花呢？有時候，真不好說。

但大伙若對AI電影、AI電視劇有本能的生理性厭惡，其實也很正常，有時候你說它有著黃金一樣的顏色，有可能它只是一坨shit。

撰文：南憶玉

編輯：船長

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.