![]()
這項由復(fù)旦大學(xué)與StepFun(階躍星辰)聯(lián)合開展的研究發(fā)表于2026年6月,論文編號為arXiv:2606.25763,有興趣深入了解的讀者可以通過該編號在arXiv平臺查詢完整論文。
**鏡頭前的兩難困境**
每次掏出手機或相機準備拍照,你大概都經(jīng)歷過這樣的場面:站在對方身后的人努力挪動手機,試圖把畫面框出個好看的樣子;而站在鏡頭前的人則手足無措,不知道該把手放在哪里,腿又該怎么放。拍出來的照片,要么構(gòu)圖歪歪扭扭,要么人物姿勢僵硬得像木頭人。這兩個問題,其實分別需要兩種不同的專業(yè)知識:一個是拍攝者的構(gòu)圖眼光,另一個是被拍者的姿勢經(jīng)驗。
長期以來,學(xué)術(shù)界關(guān)注的主要是第一個問題,也就是如何讓機器自動幫照片"裁剪"得更好看。這類研究通常假設(shè)一張照片只要被裁一裁就能變好,卻忽略了有些照片根本不值得救,有些照片其實已經(jīng)很好不需要動,更忽略了站在鏡頭前那個人同樣需要幫助。正是這個被忽視的空白,促使研究團隊提出了一套全新的系統(tǒng)——ShutterMuse(快門繆斯)。
ShutterMuse的核心理念,是把"拍好一張照片"這件事拆解成兩個同等重要的任務(wù),并用一個統(tǒng)一的AI模型同時解決它們:一端是拿著相機的攝影師,需要知道當前的取景要保留、要調(diào)整還是直接放棄;另一端是站在鏡頭前的被拍者,需要知道在這個具體場景里應(yīng)該擺出什么樣的姿勢才好看。這個思路本身就已經(jīng)是一次重要的突破,因為在此之前,沒有任何一個系統(tǒng)嘗試同時解決這兩側(cè)的問題。
**一、現(xiàn)有工具的短板:要么只會裁圖,要么說不清楚**
現(xiàn)有的工具大致可以分成兩類,它們的局限性恰好互補,合在一起恰好覆蓋了ShutterMuse要解決的問題。
第一類是專門做圖像裁剪的專業(yè)模型,比如InstructCrop和Venus。這類工具經(jīng)過大量專業(yè)照片的訓(xùn)練,能夠精確地畫出一個裁剪框,告訴你把哪個區(qū)域保留下來構(gòu)圖最好看。但問題在于,它們只會做一件事:給你推薦一個裁剪方案。不管你送進去的照片是光線太差還是角度嚴重傾斜,它都照樣給你框出一個區(qū)域,根本不懂得說"這張照片沒救了,不用裁了"。更不要說告訴站在鏡頭前的人應(yīng)該如何擺姿勢。
第二類是通用的多模態(tài)大語言模型,也就是那些既能看圖又能對話的AI,比如GPT系列和Gemini系列。這類模型能理解圖片內(nèi)容,也能做出一定的判斷——比如判斷這張照片構(gòu)圖好不好、需不需要修改。但它們的問題是,在判斷完之后,對于"裁剪框應(yīng)該精確畫在哪里"這個問題,表現(xiàn)往往不夠精準,經(jīng)常說得比做得好聽。至于姿勢建議,這類通用模型同樣無能為力,你用它們直接生成標準化的人體關(guān)鍵點坐標,得到的幾乎都是無法使用的亂碼輸出。
兩類工具的短板如此互補,研究團隊意識到需要一個全新的框架來填補這個空缺。
**二、搭建評測標準:先定義"好"是什么**
在著手開發(fā)新模型之前,研究團隊做了一件更基礎(chǔ)的事情:他們發(fā)現(xiàn)這個領(lǐng)域根本缺乏一套合適的評測標準。現(xiàn)有的圖像裁剪基準測試只評估"裁出來的框有多準",而不評估"該不該裁"以及"怎么擺姿勢"。于是,他們先建立了一套叫做CaptureGuide-Bench的評測基準,專門用來衡量在拍攝過程中的實時引導(dǎo)能力。
這套評測基準分為兩個部分。攝影師側(cè)的評測涵蓋五種有代表性的拍攝場景,包括人像、靜物、風(fēng)景、街頭抓拍和動物。對于每一張照片,系統(tǒng)需要做出一個三選一的判斷:是調(diào)整構(gòu)圖(refine)、保持原樣(keep)、還是直接放棄(reject)。如果判斷為需要調(diào)整,系統(tǒng)還必須輸出一個精確的裁剪框坐標。被拍者側(cè)的評測則包含五種常見的人體姿勢類型,用來檢驗系統(tǒng)能否根據(jù)具體場景推薦合適的擺姿方案。整個評測基準包含421個攝影師側(cè)樣本和552個被拍者側(cè)樣本,全部獨立于訓(xùn)練數(shù)據(jù)之外,確保測試的公正性。
評測指標同樣經(jīng)過精心設(shè)計。對于裁剪質(zhì)量,使用的是兩種幾何度量:IoU(交并比,衡量預(yù)測框與標準框的重合程度,越高越好)和BDE(邊界位移誤差,衡量框的邊界偏移距離,越小越好),以及一個綜合成功率R(IoU超過0.7則算成功)。對于三種判斷決策的準確性,分別統(tǒng)計了拒絕成功率RSR和保留成功率KSR。除此之外,還引入了一個叫MLLM-Score的綜合評分,讓另一個大語言模型扮演裁判角色,從美學(xué)角度評估構(gòu)圖結(jié)果的整體質(zhì)量。
被拍者側(cè)的評測則更加復(fù)雜,因為對于同一個場景來說,合適的姿勢并不只有一種。研究團隊的解決方案是:把模型推薦的關(guān)鍵點坐標渲染成一個骨架圖疊加在場景圖上,然后從三個維度打分——身體姿勢是否符合人體生理可能性(物理合理性)、姿勢與場景環(huán)境的互動是否自然(場景互動性)、姿勢本身是否好看有表現(xiàn)力(姿勢美感)。每個維度都使用0、0.5、1三檔打分。
**三、數(shù)據(jù)從哪來:一個精心設(shè)計的數(shù)據(jù)工廠**
有了評測標準,接下來的問題是:ShutterMuse靠什么數(shù)據(jù)來學(xué)習(xí)?研究團隊構(gòu)建了一個叫做CaptureGuide-Dataset的大規(guī)模數(shù)據(jù)集,總共包含約13萬個樣本,其中攝影師側(cè)約10萬個,被拍者側(cè)約3萬個。
攝影師側(cè)的數(shù)據(jù)來之不易。從網(wǎng)絡(luò)上收集的海量原始圖片,必須經(jīng)過專業(yè)標注才能變成有價值的訓(xùn)練數(shù)據(jù)。研究團隊訓(xùn)練了10位專業(yè)標注人員,采用交叉審核機制,對每張圖片做出三類判斷并寫下理由:如果需要調(diào)整,畫出調(diào)整后的裁剪框并描述構(gòu)圖問題和改進策略;如果可以保留,解釋當前構(gòu)圖的優(yōu)點;如果需要拒絕,說明無法通過裁剪修正的缺陷所在。對于有爭議的樣本,會進行重新標注,最終產(chǎn)出了一個質(zhì)量可靠的1.2萬張種子數(shù)據(jù)集。
但1.2萬張遠遠不夠,專業(yè)標注的成本也不允許無限擴充。研究團隊因此設(shè)計了一套叫做EMDP的自蒸餾擴充流程,就像用一塊面團不斷發(fā)酵出更多面團的過程。具體做法是:先用種子數(shù)據(jù)訓(xùn)練出一個初始模型,再用這個初始模型對未標注的圖片庫(約50萬張)生成偽標注,然后用Gemini 3.0 Pro作為驗證器篩掉不可靠的標注,把通過驗證的樣本加入訓(xùn)練集,再訓(xùn)練出一個更強的模型,如此循環(huán)三輪。為了防止錯誤積累,整個過程中始終保留一個固定的專家驗證集來監(jiān)控每輪的質(zhì)量。三輪循環(huán)之后,訓(xùn)練集從1.2萬張擴展到了10萬張,而且質(zhì)量可控。
被拍者側(cè)的數(shù)據(jù)構(gòu)建思路則完全不同,因為這里需要的不是裁剪框,而是"場景+姿勢+說明"的三元組。研究團隊從已有的人像照片出發(fā),首先用一個叫做Nano-Banana-Pro的工具把照片里的人物擦除,留下一張空場景圖;與此同時,用YOLO26x-Pose模型從原始人像照片中提取出人體的17個關(guān)鍵點坐標,包括鼻子、眼睛、耳朵、肩膀、肘部、手腕、臀部、膝蓋和腳踝。這些關(guān)鍵點來自攝影行業(yè)通用的COCO-17標準格式,每個關(guān)鍵點還被標記了可見性狀態(tài):完全可見記為1,在畫面內(nèi)但被遮擋記為0,超出畫面邊界記為-1。
然后,Gemini 3.0 Pro被用來分析原始人像照片,理解場景環(huán)境和人物姿勢,生成一段解釋"為什么這個姿勢適合這個場景"的推薦理由。五位專業(yè)攝影師進一步審核這些理由和關(guān)鍵點標注,確保內(nèi)容準確且表達風(fēng)格符合實際拍攝建議。整個流程最終產(chǎn)出了3萬個"空場景+關(guān)鍵點+文字理由"的完整訓(xùn)練樣本。
**四、ShutterMuse是如何學(xué)會這些的**
有了數(shù)據(jù),怎么讓一個AI模型真正掌握這些能力?研究團隊采用了兩階段的訓(xùn)練策略,就像先教一個學(xué)生背課本,再通過做題來強化和糾正。
第一階段叫做監(jiān)督微調(diào)(SFT)。他們以Qwen3-VL-8B這個開源多模態(tài)大模型為基礎(chǔ),把整個CaptureGuide-Dataset喂給它,讓它學(xué)習(xí)如何輸出結(jié)構(gòu)化的JSON格式答案。對于攝影師側(cè)的任務(wù),模型輸出包含三個字段:任務(wù)類型標為"composition",推薦理由用自然語言描述,構(gòu)圖坐標用四個歸一化數(shù)值表示(空值代表拒絕,[0,0,1,1]代表全圖保留,其他值代表具體的裁剪框)。對于被拍者側(cè)的任務(wù),輸出字段變?yōu)椋喝蝿?wù)類型標為"pose",推薦理由描述姿勢,17個關(guān)鍵點的歸一化坐標,以及對應(yīng)的17維可見性向量。整個第一階段在8塊A800 GPU上訓(xùn)練了5輪,使用AdamW優(yōu)化器。
第二階段叫做強化微調(diào)(RFT),使用的算法叫GRPO(組相對策略優(yōu)化)。這個階段使用了專門構(gòu)建的2萬個強化學(xué)習(xí)樣本,讓模型通過嘗試-反饋-調(diào)整的方式進一步提升。
強化學(xué)習(xí)的獎勵機制分為攝影師側(cè)和被拍者側(cè)兩套。攝影師側(cè)有兩個獎勵信號。第一個是決策獎勵:如果模型判斷的類別(保留、拒絕、調(diào)整)與標準答案完全一致,得1分,否則得0分。第二個是主體保留獎勵:對于需要調(diào)整的樣本,用BiRefNet這個顯著目標檢測模型從原圖中提取出"最重要的物體"所在的區(qū)域(也就是主體掩碼),然后檢查模型預(yù)測的裁剪框是否覆蓋了至少90%的主體區(qū)域,覆蓋到位得1分,否則得0分。最終攝影師側(cè)的總獎勵就是這兩個分數(shù)之和。被拍者側(cè)則簡潔得多:只要模型預(yù)測的17維可見性向量與標準答案完全一致,就得1分,否則得0分。
每次訓(xùn)練時,模型會對同一個輸入生成32組不同的回答,通過比較這32組回答各自得到的獎勵,計算出相對優(yōu)勢值,再用這個優(yōu)勢值來更新模型參數(shù),讓模型逐漸偏向產(chǎn)出更好答案的方向。整個強化學(xué)習(xí)階段訓(xùn)練了1輪,學(xué)習(xí)率設(shè)為極小的0.000001,并加入了KL散度懲罰防止模型偏離太遠。
**五、和對手比賽的結(jié)果:處處領(lǐng)先或旗鼓相當**
研究團隊在CaptureGuide-Bench上對ShutterMuse進行了全面測試,對手包括閉源的GPT-5.5、GPT-5.4、Gemini系列各版本,開源的Kimi-K2.6、Qwen3-VL各尺寸版本、InternVL3.5,以及專業(yè)裁剪模型CACNet、UNIC、InstructCrop和Venus。
攝影師側(cè)的結(jié)果可以用一個簡單的故事來理解。專業(yè)裁剪模型(比如InstructCrop和Venus)是那種非常擅長畫裁剪框的選手,Venus的IoU能達到69.43,但它們完全不懂得說"不"——拒絕成功率RSR和保留成功率KSR幾乎都是0。這意味著不管你給它什么照片,它都會給你畫一個框,哪怕那張照片已經(jīng)好得不需要動,或者差得沒有救。通用大模型(比如Gemini-3.1-Pro)則像一個有判斷力的顧問,它的RSR能達到79.31,KSR達到89.09,懂得說"這張不用改"或者"這張真的沒救",但畫出來的框不夠精準,IoU只有65.63。
ShutterMuse則在所有維度上取得了最佳或接近最佳的成績:IoU 74.30(最高),BDE 0.054(最低),精修成功率R達70.03%(最高),拒絕成功率RSR達82.76%,保留成功率KSR達74.55%,綜合美學(xué)評分MLLM-Score 0.64(最高)。它是唯一一個在裁剪精度和決策準確性上都表現(xiàn)出色的模型,真正做到了"既會說要不要動,也會說動哪里"。
被拍者側(cè)的情況則稍有不同。由于沒有任何專門的AI模型能處理這個任務(wù),研究團隊用GPT-Image-2和Nano-Banana-Pro這兩個圖像生成編輯工具作為對比——讓它們直接在場景圖里生成一個合適姿勢的人物,然后提取關(guān)鍵點重新渲染成骨架圖,用統(tǒng)一標準評分。Nano-Banana-Pro在物理合理性上表現(xiàn)最好,得0.63,場景互動得0.35,綜合均值0.39;GPT-Image-2綜合均值0.35;ShutterMuse綜合均值0.34,與前者非常接近。
關(guān)鍵的區(qū)別在于效率。Nano-Banana-Pro平均每次姿勢推薦需要55秒,GPT-Image-2需要102秒,而ShutterMuse只需要4.96秒,生成的token數(shù)也只有412個,是前兩者的不到三分之一。換句話說,ShutterMuse用接近的姿勢質(zhì)量換取了約10倍到20倍的速度提升,這對需要實時反饋的拍攝場景來說意義重大。
**六、拆開研究細節(jié):每塊磚都有它的意義**
研究團隊還做了一系列消融實驗,專門檢驗"如果去掉其中某一塊設(shè)計,結(jié)果會變成什么樣"。
先看訓(xùn)練階段的貢獻。僅做完第一階段(監(jiān)督微調(diào))的模型,IoU已經(jīng)達到72.39,RSR 68.97,KSR 63.64,MLLM-Score 0.56。加上第二階段強化微調(diào)后,這些數(shù)字分別提升到74.30、82.76、74.55和0.64。提升幅度最大的是RSR(從68.97跳到82.76)和KSR(從63.64跳到74.55),說明強化學(xué)習(xí)對于學(xué)會"什么時候該說不"這個判斷能力特別有幫助。被拍者側(cè)的物理合理性也從0.52提升到0.58,場景互動性從0.25提升到0.27。
再看各個獎勵信號的貢獻。去掉決策獎勵后,RSR從82.76跌至62.07,KSR從74.55跌至65.45,印證了這個獎勵信號對于三類決策的辨別能力至關(guān)重要。去掉主體保留獎勵后,IoU從74.30跌至73.76,MLLM-Score從0.64跌至0.61,說明這個獎勵幫助模型在裁剪時不把畫面主體切掉。去掉被拍者側(cè)獎勵后,物理合理性從0.58跌至0.53,證明針對可見性預(yù)測的獎勵確實能讓模型更準確地描述哪些身體部位在畫面內(nèi)可見。
EMDP數(shù)據(jù)擴充流程的可靠性也經(jīng)過了獨立檢驗。研究團隊保留了450個專家標注樣本作為固定測試集,三輪循環(huán)完成后,模型在這個測試集上的IoU從66.11%提升至70.99%,RSR從34.48%提升至88.77%,KSR從16.95%提升至54.24%。負責(zé)篩選偽標注的Gemini驗證器,在所有數(shù)據(jù)類別和所有輪次中F1分數(shù)都保持在87%以上,接受率也穩(wěn)定維持在52%以上,證明整個擴充流程是可靠的,沒有產(chǎn)生嚴重的錯誤積累。
**七、真人評審的驗證:機器的判斷和人類的直覺一致嗎**
研究團隊還做了一個用戶研究來驗證MLLM評分系統(tǒng)的可信度。他們從評測基準中各抽取了100個樣本,邀請六位參與者進行盲評,最后把人類評審得出的模型排名與MLLM-Score得出的排名進行比較,用Spearman秩相關(guān)系數(shù)(SRCC)來衡量兩者的一致性。
結(jié)果是SRCC達到0.90,攝影師側(cè)的排名與人類判斷高度吻合——ShutterMuse排第一、Venus排第二、Gemini-3.0-Pro排第三或第四,這個順序人類評審也基本認同。被拍者側(cè)的排名則與人類判斷完全一致,沒有任何差別。這意味著研究團隊設(shè)計的MLLM打分體系,確實在很大程度上能替代人工評審,且結(jié)論可信。
**說到底,這個研究做了什么、意味著什么**
歸根結(jié)底,這項研究打開了一個之前被忽視的門:讓AI在你按下快門之前就介入,而不是只在照片拍完之后才幫你修圖。ShutterMuse做的事情看起來簡單——幫拍照的人決定要不要調(diào)構(gòu)圖、幫被拍的人決定擺什么姿勢——但背后涉及的技術(shù)鏈條相當復(fù)雜,從數(shù)據(jù)構(gòu)建到訓(xùn)練策略再到評測方法,每一環(huán)都有新的設(shè)計。
這項研究的意義不僅僅在于它做出了一個好用的工具,更在于它定義了一個新的研究方向和評測框架。CaptureGuide-Bench和CaptureGuide-Dataset的建立,給這個領(lǐng)域提供了一把可以量化比較的尺子,后續(xù)研究者可以在這個基礎(chǔ)上繼續(xù)推進。而ShutterMuse本身也有明確的局限需要改進,比如被拍者側(cè)使用的COCO-17關(guān)鍵點格式只定位到腳踝,無法準確表示腳與地面的接觸關(guān)系,導(dǎo)致骨架圖有時看起來像在浮空。引入更密集的關(guān)鍵點或?qū)iT的接觸感知表示,是未來值得探索的方向。
如果你對AI在藝術(shù)創(chuàng)作和實用工具之間的交叉地帶感興趣,或者對多模態(tài)大語言模型如何從"看圖說話"進化到"實時行動指導(dǎo)"這件事有好奇心,這篇論文值得一讀。通過arXiv編號2606.25763可以找到完整原文。
Q&A
Q1:ShutterMuse和現(xiàn)有的AI裁圖工具有什么區(qū)別?
A:現(xiàn)有專業(yè)裁圖工具只會給所有照片推薦裁剪方案,不懂得判斷是否需要裁剪。通用大語言模型雖然能做判斷,但裁剪框不夠精準,也無法提供姿勢建議。ShutterMuse同時解決了這兩個問題,能判斷照片該保留、調(diào)整還是放棄,還能告訴被拍者如何在當前場景里擺姿勢,而且推理速度比圖像生成類工具快約10到20倍。
Q2:CaptureGuide-Dataset的13萬條數(shù)據(jù)是怎么收集和標注的?
A:攝影師側(cè)數(shù)據(jù)先由10位專業(yè)標注員人工標注了1.2萬張種子數(shù)據(jù),再通過一套自蒸餾循環(huán)流程擴充到10萬張——用已訓(xùn)練模型生成偽標注,由Gemini 3.0 Pro驗證篩選,然后再訓(xùn)練更強模型,循環(huán)三輪。被拍者側(cè)數(shù)據(jù)則從人像照片出發(fā),擦除人物后提取姿勢關(guān)鍵點,由Gemini生成推薦理由,再經(jīng)五位專業(yè)攝影師審核,最終產(chǎn)出3萬個樣本。
Q3:ShutterMuse在姿勢推薦上的表現(xiàn)和GPT-Image-2相比如何?
A:在姿勢質(zhì)量上,ShutterMuse綜合得分為0.34,GPT-Image-2為0.35,差距極小。但在效率上差距顯著:ShutterMuse平均只需約5秒和412個token完成一次推薦,GPT-Image-2則需要約103秒和1427個token。對于需要實時反饋的拍攝場景,ShutterMuse的速度優(yōu)勢意味著更實際的可用性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.