![]()
一個做古風短劇文生圖的客戶找到我,她跟我吐槽,舊版的指令,每次生成的畫面人物外形飄忽不定,同一個女主,這一幀是高髻玉簪,下一幀變成散發,服裝顏色也對不上,根本沒法用。
我看了她用的舊版指令,問題很集中,出在三個地方,也是我優化的主要發力點。
1、人物描述分散在劇情里,AI每次都在"猜"
通用指令的寫法是跟著劇情走,人物描述混在場景里,這一句寫背景,那一句順帶提一下服裝,AI每次讀取的信息是碎的,生成時自然會"腦補"補全,補出來的結果就是每次都不一樣。
我給她定制的新指令,核心改動是把人物外形從劇情里剝離出來,單獨建立視覺檔案,性別、年齡、發型、服飾、氣質,每一項都固定死,寫成標準格式,不允許模糊描述。
檔案建好之后,后面每一條畫面提示詞都強制調用這份檔案,不是"婉婉走進來",而是"一位少女(18歲,黑長發高髻、淡玉簪,穿著月白色淡雅長裙,神情冷漠)走進來",完整描述跟著人物走,AI沒有發揮空間。
2、提示詞結構不統一,場景信息缺失導致畫面飄
她用舊版指令跑出來的畫面提示詞格式不統一,長短不一,有的只寫了動作,有的只寫了環境,沒有固定結構,AI生成時會隨機填充缺失的信息,風格和光影每張都在變。
我在指令里加了場景結構模板,強制要求每一條畫面的提示詞必須包含五個要素:人物含括號描述、動作加神態、時間光影、背景環境、鏡頭語言,缺一不可。
這樣每條提示詞的信息密度是齊的,AI生成時沒有可以自由發揮的空白,畫面風格才能穩下來。
3、沒有空鏡頭規范,非人物畫面處理混亂
短劇里有大量轉場和空鏡,比如院落、燭光、馬車遠景,這類鏡頭原來的指令沒有專門的寫法,客戶要么跳過,要么隨便寫幾個字,生成出來的空鏡和主鏡頭風格完全對不上。
我加了空鏡頭的標準寫法,遇到無人畫面,格式固定為"無人,空鏡頭,……",后面照樣寫完時間光影和背景環境,保持和主鏡頭一致的信息結構,整體視覺才連得上。
優化前(客戶用的舊版指令):"婉婉站在院子里,天色將暮,她看著遠處發呆。"
優化后(定制指令輸出):"一位少女(18歲,黑長發高髻、淡玉簪,穿著月白色淡雅長裙,神情清冷疏離)靜立院中,側身望向遠處,黃昏暖光從側面打來,青磚院落、遠山剪影,中景構圖,逆光側拍。"
客戶用新的指令跑了一組50張連續畫面,人物外形一致率顯著提高。文生圖的人物一致性,不是靠模型記憶,是靠指令把信息鎖死。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.