Stability AI教會AI"拆解"圖片：讓模型自己學會把照片分層

2026-06-10 21:20:15　來源: 科技行者

天津舉報

分享至

這項來自Stability AI研究團隊的成果發(fā)表于2026年第40屆神經(jīng)信息處理系統(tǒng)大會（NeurIPS 2026），論文編號為arXiv:2605.30257，有興趣深入了解的讀者可通過該編號檢索原文。

當你在手機相冊里給朋友發(fā)一張照片，照片對你來說就是一個整體——天空、人物、背景，全部融為一體。但專業(yè)設計師處理圖片時，他們需要把這張照片拆開，把人單獨放在一層，把背景單獨放在另一層，然后才能對每個部分分別調(diào)整、替換或合成。這個"把圖片分層"的過程，專業(yè)上叫做"圖像層分解"，聽起來平常，但對于人工智能來說，這件事一直非常棘手。

Stability AI的研究團隊決定解決這個棘手問題。他們開發(fā)了一套叫做Stable-Layers的訓練框架，核心創(chuàng)意是：不需要任何人工標注的"分層參考答案"，只用一個能看懂圖片的AI大模型來當"考官"，對分層結(jié)果打分，然后用這些分數(shù)來反復訓練、優(yōu)化分層模型。這套方法最終讓分層質(zhì)量顯著提升——層與層之間的內(nèi)容更清晰地分開了，空白層和損壞層大幅減少，背景的修復填充也更自然了。

一、為什么"分層"這件事對AI來說那么難

要理解這項研究解決的問題，不妨先把"圖像層分解"想象成一道拼圖還原題。你有一張拼好的拼圖，現(xiàn)在要把它拆回成若干組，每組拼圖對應畫面中的一個獨立物體。聽起來很直接，但難點在于：同一張拼好的拼圖，可以有無數(shù)種合理的拆法。一棵樹和樹下的陰影，是同一層還是不同層？前景的人物和他身后的欄桿，應該分在幾層？

對于人來說，這些問題沒有唯一正確答案，而是取決于你之后打算怎么用這些層。正因如此，現(xiàn)有方法大多依賴人工合成的"配對數(shù)據(jù)"——也就是人為制作好"原圖"和"各個層"的成套材料，然后讓AI對照這些樣本學習。問題是，當某張照片存在多種同樣合理的分層方式時，強行讓AI去靠近某一個固定答案，反而會懲罰那些同樣正確的替代方案。

Stability AI的團隊發(fā)現(xiàn)，與其給AI一個固定答案讓它死記，不如讓AI先生成多種分層方案，然后找一個"懂圖片的裁判"來判斷哪種方案更好，再從中學習。這個裁判，就是視覺語言模型（VLM）——一種既能看圖又能理解文字的大型AI模型。

二、給AI當裁判：視覺語言模型如何打分

現(xiàn)在把整個訓練過程想象成一個繪畫班的選拔賽。分層模型是參賽選手，每次對同一張照片畫出多幅"分層作品"（稱為候選分解）。考官是一個視覺語言模型，它的工作是給每幅作品打分。成績好的作品獲得正向反饋，成績差的獲得負向反饋，模型據(jù)此調(diào)整自己的畫法，下一輪再來。

然而，用視覺語言模型打分并不像聽起來那么簡單。研究團隊很快遇到了一個麻煩：當考官單獨看每幅作品時，往往會把分數(shù)都打得很接近，比如同一組候選里四幅作品分別得了0.72、0.74、0.71、0.73。這些分數(shù)之間的差距太小，訓練算法幾乎無法從中判斷誰更好——就像你讓一個老師從四篇作文里選出最好的，結(jié)果老師給的分數(shù)是89、90、89、90，你根本不知道哪篇才是真正的優(yōu)勝者。

這個問題有一個專業(yè)名字叫"分數(shù)壓縮"，是整個研究中需要突破的核心難點之一。Stability AI的團隊為此設計了一套兩階段評分流程。

第一階段，考官對每幅作品進行結(jié)構(gòu)化的逐項打分，共評估五個維度。語義分離度衡量每個前景層是否清晰包含了一個獨立的完整對象；透明度清潔度衡量前景的邊緣是否干凈，有沒有半透明的"幽靈"殘影；背景修復質(zhì)量衡量第0層（背景層）在去掉前景物體后，填補的區(qū)域是否看起來自然合理；特征分布均勻性衡量內(nèi)容是否被合理地分散在各層之間，而非全部堆在一層；內(nèi)容有效性衡量有沒有空白層或只包含噪點的無效層。每個維度從0分到5分，滿分25分，歸一化到0至1之間。

第二階段，研究團隊引入了一個關(guān)鍵的"相對校準"步驟。系統(tǒng)把同組候選的所有分層結(jié)果拼成一張對比網(wǎng)格圖，每個候選用數(shù)字標簽標注，然后把這張網(wǎng)格圖發(fā)給考官，讓它在已知第一階段分數(shù)的前提下，重新對各候選進行相對比較并給出新的分數(shù)。這就好比告訴考官："這四篇作文第一輪分數(shù)都差不多，但你把它們放在一起再看一遍，誰是真的最好？"這樣一來，原來被壓縮到0.71到0.74之間的分數(shù)，經(jīng)過重新校準后可能分散到0.38、0.45、0.82、0.91——差距一下子就拉開了，訓練算法終于能從中學到有用的東西。

三、訓練機制：模型如何從"打分"中成長

整個訓練流程分三個階段循環(huán)進行。第一步是"生成"，模型對同一張輸入圖片產(chǎn)生若干候選分層結(jié)果，這個過程不需要計算梯度，只是單純的采樣。第二步是"打分"，兩階段VLM評分流程對這些候選打出最終分數(shù)。第三步是"學習"，根據(jù)同組候選之間的相對分數(shù)差距，計算每個候選的"優(yōu)勢值"，然后用這個優(yōu)勢值來更新模型參數(shù)。

這里使用的核心優(yōu)化算法叫GRPO（組相對策略優(yōu)化），它的邏輯是：不需要絕對的"正確答案"，只需要在同一組候選里判斷誰比誰好。分數(shù)比組內(nèi)平均水平高的候選，對應的生成方式被鼓勵；分數(shù)低于平均水平的候選，對應的生成方式被抑制。就像一個廚師在同時端出幾道菜之后，聽食客說"第二道比第一道好一點，第三道最差"，然后調(diào)整自己的烹飪方式，即便食客沒有給出精確的配方改進建議。

訓練的底座模型是Qwen-Image-Layered，這是一個能把一張普通RGB圖片分解成若干RGBA層（即帶透明通道的圖層）的流匹配變換器模型。為了節(jié)省計算資源，研究團隊只對模型的注意力投影層和前饋層應用了LoRA（低秩適配）微調(diào)，也就是說大部分模型參數(shù)保持凍結(jié)，只有一小部分新增的低秩矩陣在訓練中被更新。

訓練數(shù)據(jù)來自Fine-T2I數(shù)據(jù)集，這是一個包含照片和藝術(shù)品的高質(zhì)量圖片集合，完全不需要配套的分層標注。每張圖片在訓練時被隨機安排生成2到5層不等的分層結(jié)果，讓模型適應不同復雜度的分解任務。

四、一個額外的工程挑戰(zhàn)：如何讓算法穩(wěn)定運行

把強化學習算法應用到圖像生成模型上，歷來有一個穩(wěn)定性難題，在這項研究中同樣出現(xiàn)了。GRPO算法的運作依賴一個叫"重要性比率"的量，簡單說就是新版模型和舊版模型在同一步驟上行為差異的比較。如果這個比率太極端，訓練就會不穩(wěn)定。

已有的GRPO-Guard方法提出用"比率歸一化"來穩(wěn)定這個量。但Qwen-Image-Layered的結(jié)構(gòu)比較特殊：它把多個RGBA圖層打包成一個超長的潛在向量序列進行處理，序列長度遠超普通單圖生成模型。當你對一個極高維度的序列取平均值時，每一步的對數(shù)概率值會被稀釋得趨近于零，導致比率信號幾乎消失，訓練無法正常進行。

Stability AI的研究團隊針對這個問題做了一個改動：把對空間維度取平均值改為先求和，再除以維度數(shù)的平方根。這個看起來簡單的數(shù)學調(diào)整，實際上讓比率的量級恢復到正常范圍，同時保留了原始歸一化方法的穩(wěn)定性優(yōu)勢。這是這項研究在算法層面的一個具體貢獻，對于未來把強化學習應用到其他高維生成模型上的研究者來說，也是一個可以參考的實用技巧。

五、訓練效果如何：從數(shù)據(jù)中讀出的進步

研究團隊用兩個評估場景來檢驗Stable-Layers的效果。一個是Crello數(shù)據(jù)集，這是一個圖形設計數(shù)據(jù)集，每張設計作品都有對應的多層源文件，可以用來做定量比較。另一個是480張LAION-Aesthetics圖片的保留測試集，用于持續(xù)追蹤訓練過程中的指標變化。

在定量評估上，研究團隊用"每層與最匹配的參考層之間的RGB L1誤差"來衡量重建質(zhì)量，L1誤差越低說明分層結(jié)果與真實分層越接近。之所以用"最匹配"而非"同位置對應"，是因為強化學習訓練可能會改變模型分配各層內(nèi)容的順序，如果固定對位比較反而會錯誤懲罰那些只是換了順序但本質(zhì)正確的分層。結(jié)果顯示，在生成2層、3層、4層時，Stable-Layers在所有層數(shù)設置下的平均誤差都低于基礎模型Qwen-Image-Layered，說明整體分層質(zhì)量確實提升了。

在追蹤訓練過程的三個指標上，變化趨勢更為直觀。"不良層數(shù)"（空白層加上半透明模糊層的總數(shù)）從每次分解平均約1.65個下降到約0.4個，也就是說絕大多數(shù)之前會出現(xiàn)的廢層問題都被消除了。"特征分布均勻性"從約0.53上升到約0.73，意味著內(nèi)容開始真正分散到各個層里，而不是全堆在一層。"背景層修復質(zhì)量"從約0.38上升到約0.62，背景填充變得更加自然合理。這三個指標的變化，在訓練前約100步內(nèi)最為顯著，之后趨于平穩(wěn)——這符合GRPO算法的預期行為：當最明顯的缺陷被解決后，組內(nèi)候選的平均質(zhì)量都在提升，相對差距縮小，絕對分數(shù)不再大幅上漲，但模型仍然在細節(jié)上持續(xù)改善。

從直觀的對比圖來看，效果更為明顯。對于一張登山吊橋的照片，基礎模型的第0層（背景層）呈現(xiàn)純黑色，完全沒有填充背景；而經(jīng)過Stable-Layers微調(diào)的模型，第0層清晰地還原出了山峰和天空的背景。同時，基礎模型在前景各層里幾乎都塞入了完整照片的副本，而微調(diào)后的模型則把人物、橋面和繩索欄桿分別放在了獨立的層里。

六、與其他方法的對比：不同的設計哲學

研究團隊還將Stable-Layers與另一款叫LayerD的分層工具進行了對比，這兩種工具代表了處理分層不確定性時的兩種截然不同的哲學。

LayerD的策略是"保守主義"：當它覺得一張圖片難以分層時，寧可返回一個基本不變的完整圖片作為單層結(jié)果，而不冒險給出可能錯誤的多層分解。這種策略在"背景層質(zhì)量"指標上表現(xiàn)亮眼，因為一張未經(jīng)修改的原始圖片在像素層面和任何參考都很接近。但在"特征分布均勻性"上，LayerD的得分只有0.06，遠低于Stable-Layers的0.73——原因很簡單，如果你只返回一層，當然談不上分布均勻了。

Stable-Layers的策略是"積極填充"：不管難不難分，都盡力把請求的層數(shù)全部填滿有意義的內(nèi)容。這對于真正需要可編輯分層的設計工作流來說，顯然更實用。一張"背景層看起來挺好但其他層都是空的"的分層結(jié)果，對設計師來說幾乎沒有實際價值。

七、兩項消融實驗揭示的規(guī)律

研究團隊還做了兩組對照實驗，來驗證設計中的兩個關(guān)鍵選擇是否真的有效。

第一組實驗比較了不同文字提示對訓練效果的影響。一組使用簡單提示"一張干凈、構(gòu)圖良好的圖片"，另一組使用詳細提示，把評分標準里的多個維度都描述出來，比如"多個獨立對象清晰分離于干凈背景之上，銳利邊緣，生動色彩……"。結(jié)果出人意料：使用詳細提示的那組在各項指標上都表現(xiàn)更差，背景層質(zhì)量甚至從0.44下降到0.32。研究團隊分析認為，當提示內(nèi)容與評分標準高度重疊時，模型可能形成一種混淆，把理想狀態(tài)的描述誤解為輸入場景的描述，反而干擾了學習方向。

第二組實驗比較了"用不用第二階段相對校準"的區(qū)別。結(jié)果顯示，在減少空白層和損壞層這件事上，兩種方式效果相當——因為第一階段的"內(nèi)容有效性"和"透明度清潔度"評分已經(jīng)能產(chǎn)生足夠的差異來指導學習。但在背景層質(zhì)量的精細提升上，加入相對校準的那組從訓練第80步開始始終保持領先：結(jié)構(gòu)相似度（SSIM）在第80步到第200步之間平均為0.52，而沒有校準的那組只有0.45。這驗證了研究團隊的判斷：當明顯的缺陷都已經(jīng)被消除，候選之間的差異變得微妙時，絕對打分無法區(qū)分好壞，必須依靠相對比較來提供有效的訓練信號。

八、這套方法的邊界和局限

Stable-Layers并非沒有代價和限制，研究團隊在論文中也坦誠地列出了這些邊界。評分用的視覺語言模型（gemini-3-flash-preview）是一個商業(yè)API服務，每次訓練都需要調(diào)用大量API，帶來較高的使用成本，而且隨著模型版本更新，打分標準可能發(fā)生偏移。研究團隊建議，如果換了其他VLM作為評分模型，需要重新校準第一階段的評分錨點描述。

評估體系上，所有分析都基于自動化指標和視覺檢查，沒有進行正式的人工研究，因此指標與實際編輯體驗之間的關(guān)聯(lián)有多強，還有待進一步驗證。訓練階段最多只使用了5層的分解，而基礎模型實際上支持最多20層的分解，所以高層數(shù)分解的表現(xiàn)沒有被直接評估——不過訓練得到的LoRA權(quán)重在推理時可以用于更多層數(shù)，只是效果如何還需要額外測試。

歸根結(jié)底，Stable-Layers的核心貢獻不只是一個圖像分層工具的改進，而是一套更通用的思路：對于那些無法獲得"標準答案"的生成任務，可以通過讓一個視覺語言模型充當裁判、精心設計讓裁判打出有區(qū)分度的分數(shù)、然后用這些相對分數(shù)來驅(qū)動強化學習，從而在完全沒有人工標注的情況下提升生成質(zhì)量。這個思路在原則上可以應用于風格遷移、圖像補全、光照調(diào)整、場景重組等一系列類似任務，任何一個能被VLM評估的條件生成問題，都可能從這個框架中受益。

說到底，這項研究解決的問題比"分層"本身更深遠。它提供了一種讓AI在沒有老師給出標準答案的情況下，通過"考官評分"自我提升的可行路徑。未來，隨著視覺語言模型的能力不斷增強，這類"以評分代替標注"的訓練方式或許會成為圖像生成領域的常規(guī)工具。對于那些想要深入了解技術(shù)細節(jié)的讀者，可以通過arXiv編號2605.30257檢索完整論文。

Q&A

Q1：Stable-Layers訓練時為什么不需要人工標注的分層數(shù)據(jù)？

A：因為Stable-Layers使用視覺語言模型（VLM）作為裁判來評分，模型對同一張圖片生成多個候選分層，VLM比較這些候選并給出相對好壞的判斷，訓練算法從分數(shù)差異中學習，全程不依賴人工制作的參考分層答案。

Q2：Stable-Layers的兩階段打分流程解決了什么問題？

A：解決的是"分數(shù)壓縮"問題。VLM單獨給每個候選打分時，分數(shù)往往集中在很窄的范圍里，訓練算法無法區(qū)分好壞。第二階段把所有候選拼成網(wǎng)格圖讓VLM相對比較，強制拉開分數(shù)差距，訓練才能獲得有效信號。

Q3：Stable-Layers和LayerD相比各有什么優(yōu)缺點？

A：LayerD在背景層像素質(zhì)量上略高，因為它遇到難以分層的圖片時傾向于返回原圖不做修改。Stable-Layers則始終嘗試生成請求數(shù)量的完整層數(shù)，特征分布均勻性遠高于LayerD，對需要多個可編輯層的設計工作流更實用。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.