來源:市場資訊
(來源:AI深度科技)
![]()
Yoo友們,還記得這張臉嗎?
這張讓人看見就產(chǎn)生生理性厭惡的「AI臉」。
![]()
“一看見這張臉就想吐。很討厭的一張臉。”
![]()
關(guān)于為什么大家會對這張臉這么不滿意呢?
我們也隨機抽選了幾位網(wǎng)友的回答:
有人說,這張臉似乎是所有AI視頻中人物的平均長相,“感覺這張臉還是男女老少通用的,真·一個模子刻出來的。”
![]()
有人說,這張臉的表情很僵硬刻板,下垂的眼角+招牌的假笑,「偽人感」?jié)M得都要溢出來了,而且永遠在瞪著眼睛吼。
![]()
當然,也有人認真分析了下原因:為了節(jié)省成本,人們把模型切換成了Seedance 2.0 Fast,素材庫里的低配臉就長這樣啊。
![]()
OK,截至目前,絕大多數(shù)人對AI演員的印象是不是都還停留在:
要么總是手上出點Bug,多一根或少一根手指?
要么總是臉上出點Bug,表情僵硬似“偽人”?
所以,像之前火出圈的AI電影《喪尸清道夫》,就巧妙地用低像素電子屏表情代替了真人臉部表情。誒,簡直是個“甜菜”啊。
![]()
圖源:抖音@Mx-Shell《喪尸清道夫》
但,咱們今天要說,朋友們,世道變了,又雙叒變了。
AI演員現(xiàn)在也能演出情緒感了!甚至,她們的情緒還會像洋蔥一樣,一層一層地層層遞進!!!
絕了啊!!!
更刺激的是,不光有情緒,甚至有些內(nèi)娛演員沒法演出來的眼神戲都給整出來了。。。。。
![]()
口說無憑,我們找了幾個掛在熱搜上的經(jīng)典網(wǎng)絡(luò)案例。
請看VCR 1:
注意看了,各位。
你能很明顯看到這位「AI女演員」的臉部肌肉是如何隨著情緒而變化的?
特別是,放大再放大,在第2秒的時候,你能看見她眼皮有著些許的輕微顫動。
緊接著,她一個眼神先向上看,而后又向下瞥,你似乎已經(jīng)能感受到她在打量你。
![]()
就。。。這種感覺,從屏幕里傳遞出來了。。。
你說說看,就這樣式兒的,是不是已經(jīng)到了絕大多數(shù)普通人已經(jīng)無法用肉眼識別AI演員和真人演員的區(qū)別了?真沒招了啊。
再有VCR 2,有視頻有真相,給你看看「AI演員」飚演技:
不是???
這通紅的眼中盈滿了淚水,讓人夢回當年和初戀女友分手的那一年。她似乎也是這么紅著眼對你說:“我們還是分手吧。”
![]()
在眼淚掉下來之前,深吸一口氣,試圖控制自己的情緒,但沒控制住。就是這種細節(jié),這種細節(jié)出來,最有活人味兒了。
![]()
當然,也不是絕對完美。看看這兩滴眼淚,這兩行淚水珠子掉下來,就有點假了。
![]()
既然如此,我們也根據(jù)網(wǎng)上的提示詞,拿Seedance 2.0做了一場能讓AI演員演出「情緒」的戲:
提示詞模版如下:
一個古裝女生
本片為室內(nèi)寫實主義哭戲獨白片段,采用固定中近景偏特寫、一鏡到底拍攝,機位設(shè)于人物正前方略偏左,全程不切換鏡頭、不做大幅度推拉旋轉(zhuǎn),僅保留輕微手持呼吸感,畫面走電影級寫實風格,不使用美顏、卡通畫風,全程單人出鏡,嚴禁任何人影、肢體、倒影入畫,無對手戲、無群像,場景保持古代室內(nèi)環(huán)境不變。人物居于畫面中間偏右,全程坐姿不變,整體姿態(tài)微微前傾、雙肩收緊,神態(tài)隱忍委屈。表演節(jié)奏由壓抑逐步遞進至情緒崩潰,最終歸于失望沉默,全程拒絕夸張哭喊、大吼大叫、大幅肢體動作與五官扭曲,表情、動作、臺詞均追求生活化真實感人物每3秒自然眨眼,還原真人神態(tài)。
0秒-2秒
室內(nèi)自然光,人物低頭垂目、不看鏡頭,嘴角下撇、眉頭輕皺,眼眶泛紅強忍淚水,呼吸壓抑、喉頭微哽。低聲隱忍開口:“你讓我自己一個人......語速放緩,似憋悶許久,嘴唇輕顫、聲線發(fā)虛,滿是委屈。
2秒-4秒
頭部微微抬起,視線依舊向下,眉心愈發(fā)緊鎖,雙眼濕潤、鼻翼輕抽,嘴角壓得更低,身體繼續(xù)前傾。接續(xù)臺詞:“叫天天不應(yīng),叫地地不靈。“聲線持續(xù)發(fā)顫,前半句飽含委屈,后半句語調(diào)低沉絕望,尾音帶哭腔,面部肌肉緊繃,克制住痛哭的情緒。
4秒-6秒
情緒短暫卡頓,低頭吸氣,嘴唇抿動,淚意更濃。再度抬頭、身體向前微壓,迎來首輪情緒起伏,出聲問道:“你讓我怎么辦?“音量小幅提升,以哭腔發(fā)問,無怒吼姿態(tài),僅靠前傾體態(tài)、蹙眉、唇顫傳遞崩潰感。
6秒-8秒
情緒持續(xù)攀升,眼眶通紅,眼神游離不定,雙肩緊繃,委屈轉(zhuǎn)為無助。念道:“我一個人怎么辦?“加重“我一個人“語氣,滿是無助與苦楚,聲線哽咽帶哭腔,說完后停頓半秒,凸顯瀕臨失控的狀態(tài)。
8秒-11秒
情緒抵達頂峰,身體小幅前探,面部緊繃、眉心緊鎖、嘴唇明顯顫抖。帶著哭腔輕聲質(zhì)問:“你告訴我,我能怎么辦?“為本段最高情緒點,前半句帶著控訴,后半句滿是絕望,音量適度提高但不歇斯底里,尾音拉長帶顫音。視線短暫望向前方,隨即緩緩移開,流露失望。
11秒-13秒
臺詞結(jié)束,保持前傾姿勢,呼吸粗重,眼神空洞,嘴唇開合間盡顯崩潰后的疲憊。情緒慢慢收斂,緩緩轉(zhuǎn)頭望向畫面右側(cè),動作舒緩自然,傳遞出不愿再多言語的心境,眉頭與嘴角依舊維持低落神態(tài)。13秒-15秒側(cè)臉定格,身體靜立片刻,抬手輕拭眼淚,全程無多余動作。
結(jié)果如上。顯而易見,事實證明,AI演員確實在控制面部肌肉和情緒表達上,有了很明顯的突破。
而這種突破,主要有三個方面的原因:
一方面,是時間維度的連貫性。
早期AI視頻生成,不管是Runway還是Pika,底層是在做幀與幀之間的插值,模型的注意力窗口很短,一兩秒之后就忘了前面發(fā)生過什么。所以那些AI臉永遠只有一個表情,嘴角不會動,眼角不會變,像一張面具。
但Seedance 2.0這一代視頻模型,底層換成了Diffusion Transformer架構(gòu),注意力窗口被拉長到了整個視頻序列,模型能記住第五秒的眼淚是因為第一秒就開始醞釀了。你就能感覺到TA的情緒變化,是自然而然的。
另一方面,是微表情的物理建模。
回想一下文章里VCR 1那個例子,第二秒眼皮輕微顫動。這個細節(jié)不是隨機噪聲,是模型在訓(xùn)練過程中隱式學到了眼輪匝肌的收縮模式。
人類面部有43塊肌肉,任何一組的細微收縮都會牽動相鄰組織,產(chǎn)生連鎖反應(yīng)。早期的AI生成只是把嘴和眼的坐標獨立地動一動,看起來像提線木偶。現(xiàn)在的模型卻開始學到肌肉協(xié)同的動力學了,所以它不是在「做表情」,它在「演情緒」。
額肌、降眉間肌、顴大肌、口輪匝肌,它們在真實哭泣時的激活序列是有固定模式的,模型通過海量視頻數(shù)據(jù)把這些模式編碼進了潛空間。你看到的眼淚盈眶、深吸氣、試圖控制但沒控制住,本質(zhì)上不是三個獨立動作的拼接,而是一個連續(xù)的情緒坍塌過程,在潛空間里它是一條平滑的曲線。
第三個方面,還是大家的提示詞玩得越來越6了。提示詞精準到秒,什么時間做什么表情。我們翻了翻網(wǎng)上所有的案例,幾乎想到達到AI演員表情以假亂真的效果,那創(chuàng)作者的提示詞,怎么說吧,堪比一篇小論文。
![]()
但同時,我們也想小小地埋個「彩蛋」:
話說,大伙有沒有覺得以上三位AI女主,分別神似某某某、某某某和某某女演員呢?
尤其是在某些眼神戲上的表演的時候。
評論區(qū)來對對答案。(狗頭.jpg)
最后的最后,借用一下唐國強老師在上綜藝討論「AI演員是否會取代人類演員」的觀點來收個尾。
演員的本質(zhì)就是在「演」,這個演戲也是有一套定式的,人類可以學,那AI不是也可以學嗎???
![]()
如果,AI學會了演技,再加上像香港演員吳啟華一樣授權(quán)給他們一張帥臉,那究竟會不會擦出什么火花呢?有時候,真不好說。
但大伙若對AI電影、AI電視劇有本能的生理性厭惡,其實也很正常,有時候你說它有著黃金一樣的顏色,有可能它只是一坨shit。
撰文:南憶玉
編輯:船長
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.