復(fù)旦大學(xué)與StepFun聯(lián)手打造的AI攝影助手

2026-06-29 21:45:06　來源: 科技行者

北京舉報

分享至

這項由復(fù)旦大學(xué)與StepFun（階躍星辰）聯(lián)合開展的研究發(fā)表于2026年6月，論文編號為arXiv:2606.25763，有興趣深入了解的讀者可以通過該編號在arXiv平臺查詢完整論文。

**鏡頭前的兩難困境**

每次掏出手機或相機準備拍照，你大概都經(jīng)歷過這樣的場面：站在對方身后的人努力挪動手機，試圖把畫面框出個好看的樣子；而站在鏡頭前的人則手足無措，不知道該把手放在哪里，腿又該怎么放。拍出來的照片，要么構(gòu)圖歪歪扭扭，要么人物姿勢僵硬得像木頭人。這兩個問題，其實分別需要兩種不同的專業(yè)知識：一個是拍攝者的構(gòu)圖眼光，另一個是被拍者的姿勢經(jīng)驗。

長期以來，學(xué)術(shù)界關(guān)注的主要是第一個問題，也就是如何讓機器自動幫照片"裁剪"得更好看。這類研究通常假設(shè)一張照片只要被裁一裁就能變好，卻忽略了有些照片根本不值得救，有些照片其實已經(jīng)很好不需要動，更忽略了站在鏡頭前那個人同樣需要幫助。正是這個被忽視的空白，促使研究團隊提出了一套全新的系統(tǒng)——ShutterMuse（快門繆斯）。

ShutterMuse的核心理念，是把"拍好一張照片"這件事拆解成兩個同等重要的任務(wù)，并用一個統(tǒng)一的AI模型同時解決它們：一端是拿著相機的攝影師，需要知道當前的取景要保留、要調(diào)整還是直接放棄；另一端是站在鏡頭前的被拍者，需要知道在這個具體場景里應(yīng)該擺出什么樣的姿勢才好看。這個思路本身就已經(jīng)是一次重要的突破，因為在此之前，沒有任何一個系統(tǒng)嘗試同時解決這兩側(cè)的問題。

**一、現(xiàn)有工具的短板：要么只會裁圖，要么說不清楚**

現(xiàn)有的工具大致可以分成兩類，它們的局限性恰好互補，合在一起恰好覆蓋了ShutterMuse要解決的問題。

第一類是專門做圖像裁剪的專業(yè)模型，比如InstructCrop和Venus。這類工具經(jīng)過大量專業(yè)照片的訓(xùn)練，能夠精確地畫出一個裁剪框，告訴你把哪個區(qū)域保留下來構(gòu)圖最好看。但問題在于，它們只會做一件事：給你推薦一個裁剪方案。不管你送進去的照片是光線太差還是角度嚴重傾斜，它都照樣給你框出一個區(qū)域，根本不懂得說"這張照片沒救了，不用裁了"。更不要說告訴站在鏡頭前的人應(yīng)該如何擺姿勢。

第二類是通用的多模態(tài)大語言模型，也就是那些既能看圖又能對話的AI，比如GPT系列和Gemini系列。這類模型能理解圖片內(nèi)容，也能做出一定的判斷——比如判斷這張照片構(gòu)圖好不好、需不需要修改。但它們的問題是，在判斷完之后，對于"裁剪框應(yīng)該精確畫在哪里"這個問題，表現(xiàn)往往不夠精準，經(jīng)常說得比做得好聽。至于姿勢建議，這類通用模型同樣無能為力，你用它們直接生成標準化的人體關(guān)鍵點坐標，得到的幾乎都是無法使用的亂碼輸出。

兩類工具的短板如此互補，研究團隊意識到需要一個全新的框架來填補這個空缺。

**二、搭建評測標準：先定義"好"是什么**

在著手開發(fā)新模型之前，研究團隊做了一件更基礎(chǔ)的事情：他們發(fā)現(xiàn)這個領(lǐng)域根本缺乏一套合適的評測標準。現(xiàn)有的圖像裁剪基準測試只評估"裁出來的框有多準"，而不評估"該不該裁"以及"怎么擺姿勢"。于是，他們先建立了一套叫做CaptureGuide-Bench的評測基準，專門用來衡量在拍攝過程中的實時引導(dǎo)能力。

這套評測基準分為兩個部分。攝影師側(cè)的評測涵蓋五種有代表性的拍攝場景，包括人像、靜物、風(fēng)景、街頭抓拍和動物。對于每一張照片，系統(tǒng)需要做出一個三選一的判斷：是調(diào)整構(gòu)圖（refine）、保持原樣（keep）、還是直接放棄（reject）。如果判斷為需要調(diào)整，系統(tǒng)還必須輸出一個精確的裁剪框坐標。被拍者側(cè)的評測則包含五種常見的人體姿勢類型，用來檢驗系統(tǒng)能否根據(jù)具體場景推薦合適的擺姿方案。整個評測基準包含421個攝影師側(cè)樣本和552個被拍者側(cè)樣本，全部獨立于訓(xùn)練數(shù)據(jù)之外，確保測試的公正性。

評測指標同樣經(jīng)過精心設(shè)計。對于裁剪質(zhì)量，使用的是兩種幾何度量：IoU（交并比，衡量預(yù)測框與標準框的重合程度，越高越好）和BDE（邊界位移誤差，衡量框的邊界偏移距離，越小越好），以及一個綜合成功率R（IoU超過0.7則算成功）。對于三種判斷決策的準確性，分別統(tǒng)計了拒絕成功率RSR和保留成功率KSR。除此之外，還引入了一個叫MLLM-Score的綜合評分，讓另一個大語言模型扮演裁判角色，從美學(xué)角度評估構(gòu)圖結(jié)果的整體質(zhì)量。

被拍者側(cè)的評測則更加復(fù)雜，因為對于同一個場景來說，合適的姿勢并不只有一種。研究團隊的解決方案是：把模型推薦的關(guān)鍵點坐標渲染成一個骨架圖疊加在場景圖上，然后從三個維度打分——身體姿勢是否符合人體生理可能性（物理合理性）、姿勢與場景環(huán)境的互動是否自然（場景互動性）、姿勢本身是否好看有表現(xiàn)力（姿勢美感）。每個維度都使用0、0.5、1三檔打分。

**三、數(shù)據(jù)從哪來：一個精心設(shè)計的數(shù)據(jù)工廠**

有了評測標準，接下來的問題是：ShutterMuse靠什么數(shù)據(jù)來學(xué)習(xí)？研究團隊構(gòu)建了一個叫做CaptureGuide-Dataset的大規(guī)模數(shù)據(jù)集，總共包含約13萬個樣本，其中攝影師側(cè)約10萬個，被拍者側(cè)約3萬個。

攝影師側(cè)的數(shù)據(jù)來之不易。從網(wǎng)絡(luò)上收集的海量原始圖片，必須經(jīng)過專業(yè)標注才能變成有價值的訓(xùn)練數(shù)據(jù)。研究團隊訓(xùn)練了10位專業(yè)標注人員，采用交叉審核機制，對每張圖片做出三類判斷并寫下理由：如果需要調(diào)整，畫出調(diào)整后的裁剪框并描述構(gòu)圖問題和改進策略；如果可以保留，解釋當前構(gòu)圖的優(yōu)點；如果需要拒絕，說明無法通過裁剪修正的缺陷所在。對于有爭議的樣本，會進行重新標注，最終產(chǎn)出了一個質(zhì)量可靠的1.2萬張種子數(shù)據(jù)集。

但1.2萬張遠遠不夠，專業(yè)標注的成本也不允許無限擴充。研究團隊因此設(shè)計了一套叫做EMDP的自蒸餾擴充流程，就像用一塊面團不斷發(fā)酵出更多面團的過程。具體做法是：先用種子數(shù)據(jù)訓(xùn)練出一個初始模型，再用這個初始模型對未標注的圖片庫（約50萬張）生成偽標注，然后用Gemini 3.0 Pro作為驗證器篩掉不可靠的標注，把通過驗證的樣本加入訓(xùn)練集，再訓(xùn)練出一個更強的模型，如此循環(huán)三輪。為了防止錯誤積累，整個過程中始終保留一個固定的專家驗證集來監(jiān)控每輪的質(zhì)量。三輪循環(huán)之后，訓(xùn)練集從1.2萬張擴展到了10萬張，而且質(zhì)量可控。

被拍者側(cè)的數(shù)據(jù)構(gòu)建思路則完全不同，因為這里需要的不是裁剪框，而是"場景＋姿勢＋說明"的三元組。研究團隊從已有的人像照片出發(fā)，首先用一個叫做Nano-Banana-Pro的工具把照片里的人物擦除，留下一張空場景圖；與此同時，用YOLO26x-Pose模型從原始人像照片中提取出人體的17個關(guān)鍵點坐標，包括鼻子、眼睛、耳朵、肩膀、肘部、手腕、臀部、膝蓋和腳踝。這些關(guān)鍵點來自攝影行業(yè)通用的COCO-17標準格式，每個關(guān)鍵點還被標記了可見性狀態(tài)：完全可見記為1，在畫面內(nèi)但被遮擋記為0，超出畫面邊界記為-1。

然后，Gemini 3.0 Pro被用來分析原始人像照片，理解場景環(huán)境和人物姿勢，生成一段解釋"為什么這個姿勢適合這個場景"的推薦理由。五位專業(yè)攝影師進一步審核這些理由和關(guān)鍵點標注，確保內(nèi)容準確且表達風(fēng)格符合實際拍攝建議。整個流程最終產(chǎn)出了3萬個"空場景＋關(guān)鍵點＋文字理由"的完整訓(xùn)練樣本。

**四、ShutterMuse是如何學(xué)會這些的**

有了數(shù)據(jù)，怎么讓一個AI模型真正掌握這些能力？研究團隊采用了兩階段的訓(xùn)練策略，就像先教一個學(xué)生背課本，再通過做題來強化和糾正。

第一階段叫做監(jiān)督微調(diào)（SFT）。他們以Qwen3-VL-8B這個開源多模態(tài)大模型為基礎(chǔ)，把整個CaptureGuide-Dataset喂給它，讓它學(xué)習(xí)如何輸出結(jié)構(gòu)化的JSON格式答案。對于攝影師側(cè)的任務(wù)，模型輸出包含三個字段：任務(wù)類型標為"composition"，推薦理由用自然語言描述，構(gòu)圖坐標用四個歸一化數(shù)值表示（空值代表拒絕，[0,0,1,1]代表全圖保留，其他值代表具體的裁剪框）。對于被拍者側(cè)的任務(wù)，輸出字段變?yōu)椋喝蝿?wù)類型標為"pose"，推薦理由描述姿勢，17個關(guān)鍵點的歸一化坐標，以及對應(yīng)的17維可見性向量。整個第一階段在8塊A800 GPU上訓(xùn)練了5輪，使用AdamW優(yōu)化器。

第二階段叫做強化微調(diào)（RFT），使用的算法叫GRPO（組相對策略優(yōu)化）。這個階段使用了專門構(gòu)建的2萬個強化學(xué)習(xí)樣本，讓模型通過嘗試-反饋-調(diào)整的方式進一步提升。

強化學(xué)習(xí)的獎勵機制分為攝影師側(cè)和被拍者側(cè)兩套。攝影師側(cè)有兩個獎勵信號。第一個是決策獎勵：如果模型判斷的類別（保留、拒絕、調(diào)整）與標準答案完全一致，得1分，否則得0分。第二個是主體保留獎勵：對于需要調(diào)整的樣本，用BiRefNet這個顯著目標檢測模型從原圖中提取出"最重要的物體"所在的區(qū)域（也就是主體掩碼），然后檢查模型預(yù)測的裁剪框是否覆蓋了至少90%的主體區(qū)域，覆蓋到位得1分，否則得0分。最終攝影師側(cè)的總獎勵就是這兩個分數(shù)之和。被拍者側(cè)則簡潔得多：只要模型預(yù)測的17維可見性向量與標準答案完全一致，就得1分，否則得0分。

每次訓(xùn)練時，模型會對同一個輸入生成32組不同的回答，通過比較這32組回答各自得到的獎勵，計算出相對優(yōu)勢值，再用這個優(yōu)勢值來更新模型參數(shù)，讓模型逐漸偏向產(chǎn)出更好答案的方向。整個強化學(xué)習(xí)階段訓(xùn)練了1輪，學(xué)習(xí)率設(shè)為極小的0.000001，并加入了KL散度懲罰防止模型偏離太遠。

**五、和對手比賽的結(jié)果：處處領(lǐng)先或旗鼓相當**

研究團隊在CaptureGuide-Bench上對ShutterMuse進行了全面測試，對手包括閉源的GPT-5.5、GPT-5.4、Gemini系列各版本，開源的Kimi-K2.6、Qwen3-VL各尺寸版本、InternVL3.5，以及專業(yè)裁剪模型CACNet、UNIC、InstructCrop和Venus。

攝影師側(cè)的結(jié)果可以用一個簡單的故事來理解。專業(yè)裁剪模型（比如InstructCrop和Venus）是那種非常擅長畫裁剪框的選手，Venus的IoU能達到69.43，但它們完全不懂得說"不"——拒絕成功率RSR和保留成功率KSR幾乎都是0。這意味著不管你給它什么照片，它都會給你畫一個框，哪怕那張照片已經(jīng)好得不需要動，或者差得沒有救。通用大模型（比如Gemini-3.1-Pro）則像一個有判斷力的顧問，它的RSR能達到79.31，KSR達到89.09，懂得說"這張不用改"或者"這張真的沒救"，但畫出來的框不夠精準，IoU只有65.63。

ShutterMuse則在所有維度上取得了最佳或接近最佳的成績：IoU 74.30（最高），BDE 0.054（最低），精修成功率R達70.03%（最高），拒絕成功率RSR達82.76%，保留成功率KSR達74.55%，綜合美學(xué)評分MLLM-Score 0.64（最高）。它是唯一一個在裁剪精度和決策準確性上都表現(xiàn)出色的模型，真正做到了"既會說要不要動，也會說動哪里"。

被拍者側(cè)的情況則稍有不同。由于沒有任何專門的AI模型能處理這個任務(wù)，研究團隊用GPT-Image-2和Nano-Banana-Pro這兩個圖像生成編輯工具作為對比——讓它們直接在場景圖里生成一個合適姿勢的人物，然后提取關(guān)鍵點重新渲染成骨架圖，用統(tǒng)一標準評分。Nano-Banana-Pro在物理合理性上表現(xiàn)最好，得0.63，場景互動得0.35，綜合均值0.39；GPT-Image-2綜合均值0.35；ShutterMuse綜合均值0.34，與前者非常接近。

關(guān)鍵的區(qū)別在于效率。Nano-Banana-Pro平均每次姿勢推薦需要55秒，GPT-Image-2需要102秒，而ShutterMuse只需要4.96秒，生成的token數(shù)也只有412個，是前兩者的不到三分之一。換句話說，ShutterMuse用接近的姿勢質(zhì)量換取了約10倍到20倍的速度提升，這對需要實時反饋的拍攝場景來說意義重大。

**六、拆開研究細節(jié)：每塊磚都有它的意義**

研究團隊還做了一系列消融實驗，專門檢驗"如果去掉其中某一塊設(shè)計，結(jié)果會變成什么樣"。

先看訓(xùn)練階段的貢獻。僅做完第一階段（監(jiān)督微調(diào)）的模型，IoU已經(jīng)達到72.39，RSR 68.97，KSR 63.64，MLLM-Score 0.56。加上第二階段強化微調(diào)后，這些數(shù)字分別提升到74.30、82.76、74.55和0.64。提升幅度最大的是RSR（從68.97跳到82.76）和KSR（從63.64跳到74.55），說明強化學(xué)習(xí)對于學(xué)會"什么時候該說不"這個判斷能力特別有幫助。被拍者側(cè)的物理合理性也從0.52提升到0.58，場景互動性從0.25提升到0.27。

再看各個獎勵信號的貢獻。去掉決策獎勵后，RSR從82.76跌至62.07，KSR從74.55跌至65.45，印證了這個獎勵信號對于三類決策的辨別能力至關(guān)重要。去掉主體保留獎勵后，IoU從74.30跌至73.76，MLLM-Score從0.64跌至0.61，說明這個獎勵幫助模型在裁剪時不把畫面主體切掉。去掉被拍者側(cè)獎勵后，物理合理性從0.58跌至0.53，證明針對可見性預(yù)測的獎勵確實能讓模型更準確地描述哪些身體部位在畫面內(nèi)可見。

EMDP數(shù)據(jù)擴充流程的可靠性也經(jīng)過了獨立檢驗。研究團隊保留了450個專家標注樣本作為固定測試集，三輪循環(huán)完成后，模型在這個測試集上的IoU從66.11%提升至70.99%，RSR從34.48%提升至88.77%，KSR從16.95%提升至54.24%。負責(zé)篩選偽標注的Gemini驗證器，在所有數(shù)據(jù)類別和所有輪次中F1分數(shù)都保持在87%以上，接受率也穩(wěn)定維持在52%以上，證明整個擴充流程是可靠的，沒有產(chǎn)生嚴重的錯誤積累。

**七、真人評審的驗證：機器的判斷和人類的直覺一致嗎**

研究團隊還做了一個用戶研究來驗證MLLM評分系統(tǒng)的可信度。他們從評測基準中各抽取了100個樣本，邀請六位參與者進行盲評，最后把人類評審得出的模型排名與MLLM-Score得出的排名進行比較，用Spearman秩相關(guān)系數(shù)（SRCC）來衡量兩者的一致性。

結(jié)果是SRCC達到0.90，攝影師側(cè)的排名與人類判斷高度吻合——ShutterMuse排第一、Venus排第二、Gemini-3.0-Pro排第三或第四，這個順序人類評審也基本認同。被拍者側(cè)的排名則與人類判斷完全一致，沒有任何差別。這意味著研究團隊設(shè)計的MLLM打分體系，確實在很大程度上能替代人工評審，且結(jié)論可信。

**說到底，這個研究做了什么、意味著什么**

歸根結(jié)底，這項研究打開了一個之前被忽視的門：讓AI在你按下快門之前就介入，而不是只在照片拍完之后才幫你修圖。ShutterMuse做的事情看起來簡單——幫拍照的人決定要不要調(diào)構(gòu)圖、幫被拍的人決定擺什么姿勢——但背后涉及的技術(shù)鏈條相當復(fù)雜，從數(shù)據(jù)構(gòu)建到訓(xùn)練策略再到評測方法，每一環(huán)都有新的設(shè)計。

這項研究的意義不僅僅在于它做出了一個好用的工具，更在于它定義了一個新的研究方向和評測框架。CaptureGuide-Bench和CaptureGuide-Dataset的建立，給這個領(lǐng)域提供了一把可以量化比較的尺子，后續(xù)研究者可以在這個基礎(chǔ)上繼續(xù)推進。而ShutterMuse本身也有明確的局限需要改進，比如被拍者側(cè)使用的COCO-17關(guān)鍵點格式只定位到腳踝，無法準確表示腳與地面的接觸關(guān)系，導(dǎo)致骨架圖有時看起來像在浮空。引入更密集的關(guān)鍵點或?qū)ｉT的接觸感知表示，是未來值得探索的方向。

如果你對AI在藝術(shù)創(chuàng)作和實用工具之間的交叉地帶感興趣，或者對多模態(tài)大語言模型如何從"看圖說話"進化到"實時行動指導(dǎo)"這件事有好奇心，這篇論文值得一讀。通過arXiv編號2606.25763可以找到完整原文。

Q&A

Q1：ShutterMuse和現(xiàn)有的AI裁圖工具有什么區(qū)別？

A：現(xiàn)有專業(yè)裁圖工具只會給所有照片推薦裁剪方案，不懂得判斷是否需要裁剪。通用大語言模型雖然能做判斷，但裁剪框不夠精準，也無法提供姿勢建議。ShutterMuse同時解決了這兩個問題，能判斷照片該保留、調(diào)整還是放棄，還能告訴被拍者如何在當前場景里擺姿勢，而且推理速度比圖像生成類工具快約10到20倍。

Q2：CaptureGuide-Dataset的13萬條數(shù)據(jù)是怎么收集和標注的？

A：攝影師側(cè)數(shù)據(jù)先由10位專業(yè)標注員人工標注了1.2萬張種子數(shù)據(jù)，再通過一套自蒸餾循環(huán)流程擴充到10萬張——用已訓(xùn)練模型生成偽標注，由Gemini 3.0 Pro驗證篩選，然后再訓(xùn)練更強模型，循環(huán)三輪。被拍者側(cè)數(shù)據(jù)則從人像照片出發(fā)，擦除人物后提取姿勢關(guān)鍵點，由Gemini生成推薦理由，再經(jīng)五位專業(yè)攝影師審核，最終產(chǎn)出3萬個樣本。

Q3：ShutterMuse在姿勢推薦上的表現(xiàn)和GPT-Image-2相比如何？

A：在姿勢質(zhì)量上，ShutterMuse綜合得分為0.34，GPT-Image-2為0.35，差距極小。但在效率上差距顯著：ShutterMuse平均只需約5秒和412個token完成一次推薦，GPT-Image-2則需要約103秒和1427個token。對于需要實時反饋的拍攝場景，ShutterMuse的速度優(yōu)勢意味著更實際的可用性。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.