无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Stability AI教會AI"拆解"圖片:讓模型自己學會把照片分層

0
分享至


這項來自Stability AI研究團隊的成果發(fā)表于2026年第40屆神經(jīng)信息處理系統(tǒng)大會(NeurIPS 2026),論文編號為arXiv:2605.30257,有興趣深入了解的讀者可通過該編號檢索原文。

當你在手機相冊里給朋友發(fā)一張照片,照片對你來說就是一個整體——天空、人物、背景,全部融為一體。但專業(yè)設計師處理圖片時,他們需要把這張照片拆開,把人單獨放在一層,把背景單獨放在另一層,然后才能對每個部分分別調(diào)整、替換或合成。這個"把圖片分層"的過程,專業(yè)上叫做"圖像層分解",聽起來平常,但對于人工智能來說,這件事一直非常棘手。

Stability AI的研究團隊決定解決這個棘手問題。他們開發(fā)了一套叫做Stable-Layers的訓練框架,核心創(chuàng)意是:不需要任何人工標注的"分層參考答案",只用一個能看懂圖片的AI大模型來當"考官",對分層結(jié)果打分,然后用這些分數(shù)來反復訓練、優(yōu)化分層模型。這套方法最終讓分層質(zhì)量顯著提升——層與層之間的內(nèi)容更清晰地分開了,空白層和損壞層大幅減少,背景的修復填充也更自然了。

一、為什么"分層"這件事對AI來說那么難

要理解這項研究解決的問題,不妨先把"圖像層分解"想象成一道拼圖還原題。你有一張拼好的拼圖,現(xiàn)在要把它拆回成若干組,每組拼圖對應畫面中的一個獨立物體。聽起來很直接,但難點在于:同一張拼好的拼圖,可以有無數(shù)種合理的拆法。一棵樹和樹下的陰影,是同一層還是不同層?前景的人物和他身后的欄桿,應該分在幾層?

對于人來說,這些問題沒有唯一正確答案,而是取決于你之后打算怎么用這些層。正因如此,現(xiàn)有方法大多依賴人工合成的"配對數(shù)據(jù)"——也就是人為制作好"原圖"和"各個層"的成套材料,然后讓AI對照這些樣本學習。問題是,當某張照片存在多種同樣合理的分層方式時,強行讓AI去靠近某一個固定答案,反而會懲罰那些同樣正確的替代方案。

Stability AI的團隊發(fā)現(xiàn),與其給AI一個固定答案讓它死記,不如讓AI先生成多種分層方案,然后找一個"懂圖片的裁判"來判斷哪種方案更好,再從中學習。這個裁判,就是視覺語言模型(VLM)——一種既能看圖又能理解文字的大型AI模型。

二、給AI當裁判:視覺語言模型如何打分

現(xiàn)在把整個訓練過程想象成一個繪畫班的選拔賽。分層模型是參賽選手,每次對同一張照片畫出多幅"分層作品"(稱為候選分解)。考官是一個視覺語言模型,它的工作是給每幅作品打分。成績好的作品獲得正向反饋,成績差的獲得負向反饋,模型據(jù)此調(diào)整自己的畫法,下一輪再來。

然而,用視覺語言模型打分并不像聽起來那么簡單。研究團隊很快遇到了一個麻煩:當考官單獨看每幅作品時,往往會把分數(shù)都打得很接近,比如同一組候選里四幅作品分別得了0.72、0.74、0.71、0.73。這些分數(shù)之間的差距太小,訓練算法幾乎無法從中判斷誰更好——就像你讓一個老師從四篇作文里選出最好的,結(jié)果老師給的分數(shù)是89、90、89、90,你根本不知道哪篇才是真正的優(yōu)勝者。

這個問題有一個專業(yè)名字叫"分數(shù)壓縮",是整個研究中需要突破的核心難點之一。Stability AI的團隊為此設計了一套兩階段評分流程。

第一階段,考官對每幅作品進行結(jié)構(gòu)化的逐項打分,共評估五個維度。語義分離度衡量每個前景層是否清晰包含了一個獨立的完整對象;透明度清潔度衡量前景的邊緣是否干凈,有沒有半透明的"幽靈"殘影;背景修復質(zhì)量衡量第0層(背景層)在去掉前景物體后,填補的區(qū)域是否看起來自然合理;特征分布均勻性衡量內(nèi)容是否被合理地分散在各層之間,而非全部堆在一層;內(nèi)容有效性衡量有沒有空白層或只包含噪點的無效層。每個維度從0分到5分,滿分25分,歸一化到0至1之間。

第二階段,研究團隊引入了一個關(guān)鍵的"相對校準"步驟。系統(tǒng)把同組候選的所有分層結(jié)果拼成一張對比網(wǎng)格圖,每個候選用數(shù)字標簽標注,然后把這張網(wǎng)格圖發(fā)給考官,讓它在已知第一階段分數(shù)的前提下,重新對各候選進行相對比較并給出新的分數(shù)。這就好比告訴考官:"這四篇作文第一輪分數(shù)都差不多,但你把它們放在一起再看一遍,誰是真的最好?"這樣一來,原來被壓縮到0.71到0.74之間的分數(shù),經(jīng)過重新校準后可能分散到0.38、0.45、0.82、0.91——差距一下子就拉開了,訓練算法終于能從中學到有用的東西。

三、訓練機制:模型如何從"打分"中成長

整個訓練流程分三個階段循環(huán)進行。第一步是"生成",模型對同一張輸入圖片產(chǎn)生若干候選分層結(jié)果,這個過程不需要計算梯度,只是單純的采樣。第二步是"打分",兩階段VLM評分流程對這些候選打出最終分數(shù)。第三步是"學習",根據(jù)同組候選之間的相對分數(shù)差距,計算每個候選的"優(yōu)勢值",然后用這個優(yōu)勢值來更新模型參數(shù)。

這里使用的核心優(yōu)化算法叫GRPO(組相對策略優(yōu)化),它的邏輯是:不需要絕對的"正確答案",只需要在同一組候選里判斷誰比誰好。分數(shù)比組內(nèi)平均水平高的候選,對應的生成方式被鼓勵;分數(shù)低于平均水平的候選,對應的生成方式被抑制。就像一個廚師在同時端出幾道菜之后,聽食客說"第二道比第一道好一點,第三道最差",然后調(diào)整自己的烹飪方式,即便食客沒有給出精確的配方改進建議。

訓練的底座模型是Qwen-Image-Layered,這是一個能把一張普通RGB圖片分解成若干RGBA層(即帶透明通道的圖層)的流匹配變換器模型。為了節(jié)省計算資源,研究團隊只對模型的注意力投影層和前饋層應用了LoRA(低秩適配)微調(diào),也就是說大部分模型參數(shù)保持凍結(jié),只有一小部分新增的低秩矩陣在訓練中被更新。

訓練數(shù)據(jù)來自Fine-T2I數(shù)據(jù)集,這是一個包含照片和藝術(shù)品的高質(zhì)量圖片集合,完全不需要配套的分層標注。每張圖片在訓練時被隨機安排生成2到5層不等的分層結(jié)果,讓模型適應不同復雜度的分解任務。

四、一個額外的工程挑戰(zhàn):如何讓算法穩(wěn)定運行

把強化學習算法應用到圖像生成模型上,歷來有一個穩(wěn)定性難題,在這項研究中同樣出現(xiàn)了。GRPO算法的運作依賴一個叫"重要性比率"的量,簡單說就是新版模型和舊版模型在同一步驟上行為差異的比較。如果這個比率太極端,訓練就會不穩(wěn)定。

已有的GRPO-Guard方法提出用"比率歸一化"來穩(wěn)定這個量。但Qwen-Image-Layered的結(jié)構(gòu)比較特殊:它把多個RGBA圖層打包成一個超長的潛在向量序列進行處理,序列長度遠超普通單圖生成模型。當你對一個極高維度的序列取平均值時,每一步的對數(shù)概率值會被稀釋得趨近于零,導致比率信號幾乎消失,訓練無法正常進行。

Stability AI的研究團隊針對這個問題做了一個改動:把對空間維度取平均值改為先求和,再除以維度數(shù)的平方根。這個看起來簡單的數(shù)學調(diào)整,實際上讓比率的量級恢復到正常范圍,同時保留了原始歸一化方法的穩(wěn)定性優(yōu)勢。這是這項研究在算法層面的一個具體貢獻,對于未來把強化學習應用到其他高維生成模型上的研究者來說,也是一個可以參考的實用技巧。

五、訓練效果如何:從數(shù)據(jù)中讀出的進步

研究團隊用兩個評估場景來檢驗Stable-Layers的效果。一個是Crello數(shù)據(jù)集,這是一個圖形設計數(shù)據(jù)集,每張設計作品都有對應的多層源文件,可以用來做定量比較。另一個是480張LAION-Aesthetics圖片的保留測試集,用于持續(xù)追蹤訓練過程中的指標變化。

在定量評估上,研究團隊用"每層與最匹配的參考層之間的RGB L1誤差"來衡量重建質(zhì)量,L1誤差越低說明分層結(jié)果與真實分層越接近。之所以用"最匹配"而非"同位置對應",是因為強化學習訓練可能會改變模型分配各層內(nèi)容的順序,如果固定對位比較反而會錯誤懲罰那些只是換了順序但本質(zhì)正確的分層。結(jié)果顯示,在生成2層、3層、4層時,Stable-Layers在所有層數(shù)設置下的平均誤差都低于基礎模型Qwen-Image-Layered,說明整體分層質(zhì)量確實提升了。

在追蹤訓練過程的三個指標上,變化趨勢更為直觀。"不良層數(shù)"(空白層加上半透明模糊層的總數(shù))從每次分解平均約1.65個下降到約0.4個,也就是說絕大多數(shù)之前會出現(xiàn)的廢層問題都被消除了。"特征分布均勻性"從約0.53上升到約0.73,意味著內(nèi)容開始真正分散到各個層里,而不是全堆在一層。"背景層修復質(zhì)量"從約0.38上升到約0.62,背景填充變得更加自然合理。這三個指標的變化,在訓練前約100步內(nèi)最為顯著,之后趨于平穩(wěn)——這符合GRPO算法的預期行為:當最明顯的缺陷被解決后,組內(nèi)候選的平均質(zhì)量都在提升,相對差距縮小,絕對分數(shù)不再大幅上漲,但模型仍然在細節(jié)上持續(xù)改善。

從直觀的對比圖來看,效果更為明顯。對于一張登山吊橋的照片,基礎模型的第0層(背景層)呈現(xiàn)純黑色,完全沒有填充背景;而經(jīng)過Stable-Layers微調(diào)的模型,第0層清晰地還原出了山峰和天空的背景。同時,基礎模型在前景各層里幾乎都塞入了完整照片的副本,而微調(diào)后的模型則把人物、橋面和繩索欄桿分別放在了獨立的層里。

六、與其他方法的對比:不同的設計哲學

研究團隊還將Stable-Layers與另一款叫LayerD的分層工具進行了對比,這兩種工具代表了處理分層不確定性時的兩種截然不同的哲學。

LayerD的策略是"保守主義":當它覺得一張圖片難以分層時,寧可返回一個基本不變的完整圖片作為單層結(jié)果,而不冒險給出可能錯誤的多層分解。這種策略在"背景層質(zhì)量"指標上表現(xiàn)亮眼,因為一張未經(jīng)修改的原始圖片在像素層面和任何參考都很接近。但在"特征分布均勻性"上,LayerD的得分只有0.06,遠低于Stable-Layers的0.73——原因很簡單,如果你只返回一層,當然談不上分布均勻了。

Stable-Layers的策略是"積極填充":不管難不難分,都盡力把請求的層數(shù)全部填滿有意義的內(nèi)容。這對于真正需要可編輯分層的設計工作流來說,顯然更實用。一張"背景層看起來挺好但其他層都是空的"的分層結(jié)果,對設計師來說幾乎沒有實際價值。

七、兩項消融實驗揭示的規(guī)律

研究團隊還做了兩組對照實驗,來驗證設計中的兩個關(guān)鍵選擇是否真的有效。

第一組實驗比較了不同文字提示對訓練效果的影響。一組使用簡單提示"一張干凈、構(gòu)圖良好的圖片",另一組使用詳細提示,把評分標準里的多個維度都描述出來,比如"多個獨立對象清晰分離于干凈背景之上,銳利邊緣,生動色彩……"。結(jié)果出人意料:使用詳細提示的那組在各項指標上都表現(xiàn)更差,背景層質(zhì)量甚至從0.44下降到0.32。研究團隊分析認為,當提示內(nèi)容與評分標準高度重疊時,模型可能形成一種混淆,把理想狀態(tài)的描述誤解為輸入場景的描述,反而干擾了學習方向。

第二組實驗比較了"用不用第二階段相對校準"的區(qū)別。結(jié)果顯示,在減少空白層和損壞層這件事上,兩種方式效果相當——因為第一階段的"內(nèi)容有效性"和"透明度清潔度"評分已經(jīng)能產(chǎn)生足夠的差異來指導學習。但在背景層質(zhì)量的精細提升上,加入相對校準的那組從訓練第80步開始始終保持領先:結(jié)構(gòu)相似度(SSIM)在第80步到第200步之間平均為0.52,而沒有校準的那組只有0.45。這驗證了研究團隊的判斷:當明顯的缺陷都已經(jīng)被消除,候選之間的差異變得微妙時,絕對打分無法區(qū)分好壞,必須依靠相對比較來提供有效的訓練信號。

八、這套方法的邊界和局限

Stable-Layers并非沒有代價和限制,研究團隊在論文中也坦誠地列出了這些邊界。評分用的視覺語言模型(gemini-3-flash-preview)是一個商業(yè)API服務,每次訓練都需要調(diào)用大量API,帶來較高的使用成本,而且隨著模型版本更新,打分標準可能發(fā)生偏移。研究團隊建議,如果換了其他VLM作為評分模型,需要重新校準第一階段的評分錨點描述。

評估體系上,所有分析都基于自動化指標和視覺檢查,沒有進行正式的人工研究,因此指標與實際編輯體驗之間的關(guān)聯(lián)有多強,還有待進一步驗證。訓練階段最多只使用了5層的分解,而基礎模型實際上支持最多20層的分解,所以高層數(shù)分解的表現(xiàn)沒有被直接評估——不過訓練得到的LoRA權(quán)重在推理時可以用于更多層數(shù),只是效果如何還需要額外測試。

歸根結(jié)底,Stable-Layers的核心貢獻不只是一個圖像分層工具的改進,而是一套更通用的思路:對于那些無法獲得"標準答案"的生成任務,可以通過讓一個視覺語言模型充當裁判、精心設計讓裁判打出有區(qū)分度的分數(shù)、然后用這些相對分數(shù)來驅(qū)動強化學習,從而在完全沒有人工標注的情況下提升生成質(zhì)量。這個思路在原則上可以應用于風格遷移、圖像補全、光照調(diào)整、場景重組等一系列類似任務,任何一個能被VLM評估的條件生成問題,都可能從這個框架中受益。

說到底,這項研究解決的問題比"分層"本身更深遠。它提供了一種讓AI在沒有老師給出標準答案的情況下,通過"考官評分"自我提升的可行路徑。未來,隨著視覺語言模型的能力不斷增強,這類"以評分代替標注"的訓練方式或許會成為圖像生成領域的常規(guī)工具。對于那些想要深入了解技術(shù)細節(jié)的讀者,可以通過arXiv編號2605.30257檢索完整論文。

Q&A

Q1:Stable-Layers訓練時為什么不需要人工標注的分層數(shù)據(jù)?

A:因為Stable-Layers使用視覺語言模型(VLM)作為裁判來評分,模型對同一張圖片生成多個候選分層,VLM比較這些候選并給出相對好壞的判斷,訓練算法從分數(shù)差異中學習,全程不依賴人工制作的參考分層答案。

Q2:Stable-Layers的兩階段打分流程解決了什么問題?

A:解決的是"分數(shù)壓縮"問題。VLM單獨給每個候選打分時,分數(shù)往往集中在很窄的范圍里,訓練算法無法區(qū)分好壞。第二階段把所有候選拼成網(wǎng)格圖讓VLM相對比較,強制拉開分數(shù)差距,訓練才能獲得有效信號。

Q3:Stable-Layers和LayerD相比各有什么優(yōu)缺點?

A:LayerD在背景層像素質(zhì)量上略高,因為它遇到難以分層的圖片時傾向于返回原圖不做修改。Stable-Layers則始終嘗試生成請求數(shù)量的完整層數(shù),特征分布均勻性遠高于LayerD,對需要多個可編輯層的設計工作流更實用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)或吃蔬菜的人的10倍不止?

上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)或吃蔬菜的人的10倍不止?

劉哥談體育
2026-06-14 12:25:55
南寧哈羅禮德學費飆到350萬,本地老板搶破頭教育成了新身份標簽

南寧哈羅禮德學費飆到350萬,本地老板搶破頭教育成了新身份標簽

手工制作阿愛
2026-06-14 14:22:43
克里米亞慘狀觸目驚心,俄羅斯人想起阿富汗戰(zhàn)爭之痛

克里米亞慘狀觸目驚心,俄羅斯人想起阿富汗戰(zhàn)爭之痛

孤痞野貓
2026-06-13 07:59:12
中紀委怒批:公務員也是人,正常生活不應問責處理!

中紀委怒批:公務員也是人,正常生活不應問責處理!

細說職場
2026-06-13 12:51:02
有人預測:明后年,越來越多人會搬離“第四代住宅”,原因很簡單

有人預測:明后年,越來越多人會搬離“第四代住宅”,原因很簡單

時光在作祟
2026-06-12 11:08:30
藏不住了!人民日報言辭犀利評董路,范志毅早把真相說透了

藏不住了!人民日報言辭犀利評董路,范志毅早把真相說透了

阿訊說天下
2026-06-10 12:28:31
這些年,我第一次見到華為著急的樣子

這些年,我第一次見到華為著急的樣子

趣味萌寵的日常
2026-06-14 06:05:07
連續(xù)三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

連續(xù)三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

素衣讀史
2026-05-15 21:46:27
體面分手!大白邊揭曉CBA總決賽謎團:一對一交易,盧偉絕口不提

體面分手!大白邊揭曉CBA總決賽謎團:一對一交易,盧偉絕口不提

林子說事
2026-06-14 14:27:11
警車被砸、校車起火,尼克斯隊NBA奪冠,紐約街頭球迷慶祝引發(fā)騷亂

警車被砸、校車起火,尼克斯隊NBA奪冠,紐約街頭球迷慶祝引發(fā)騷亂

新京報
2026-06-14 19:04:50
印度突破人類底線!男子和岳母4年亂倫

印度突破人類底線!男子和岳母4年亂倫

歲月有情1314
2026-06-14 02:31:50
谷底已過!馬刺休賽期三條補強路線曝光,下賽季劍指總冠軍

谷底已過!馬刺休賽期三條補強路線曝光,下賽季劍指總冠軍

夜白侃球
2026-06-14 14:08:56
上海男籃傳聞頂薪簽陳盈駿,老將離去核心待漲薪,球隊要的到底是感情還是成績?

上海男籃傳聞頂薪簽陳盈駿,老將離去核心待漲薪,球隊要的到底是感情還是成績?

林子說事
2026-06-14 14:56:16
在荷蘭上班的華人感慨:不要信媒體,荷蘭已經(jīng)相當于我國二線城市

在荷蘭上班的華人感慨:不要信媒體,荷蘭已經(jīng)相當于我國二線城市

離離言幾許
2026-06-14 14:10:29
張雪機車被冠軍推上牌桌

張雪機車被冠軍推上牌桌

鈦媒體APP
2026-06-14 09:38:18
27歲花臂女孩身價1500萬,SpaceX的造富神話里,藏著一個真相

27歲花臂女孩身價1500萬,SpaceX的造富神話里,藏著一個真相

李昕言溫度空間
2026-06-13 22:23:11
美國頂級戰(zhàn)略家一針見血,中國的這場危機不解決,未來后果很嚴重

美國頂級戰(zhàn)略家一針見血,中國的這場危機不解決,未來后果很嚴重

荷蘭豆愛健康
2026-06-14 13:42:59
深圳通報:實控人馬某華等4人,刑拘!涉嫌重大責任事故罪

深圳通報:實控人馬某華等4人,刑拘!涉嫌重大責任事故罪

南方都市報
2026-06-14 18:49:17
16次高考賺30萬?唐尚珺再陷爭議,私生活被扒出,父親也沒逃脫

16次高考賺30萬?唐尚珺再陷爭議,私生活被扒出,父親也沒逃脫

奇思妙想草葉君
2026-06-11 21:39:52
調(diào)整!6月14日晚間央視直播乒乓收官日有變,4場決賽,林詩棟爭冠

調(diào)整!6月14日晚間央視直播乒乓收官日有變,4場決賽,林詩棟爭冠

煙潯渺渺
2026-06-14 14:29:13
2026-06-14 19:51:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8771文章數(shù) 565關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發(fā)生沖突

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發(fā)生沖突

體育要聞

8年8隊奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財經(jīng)要聞

金價跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態(tài)度原創(chuàng)

手機
教育
藝術(shù)
本地
時尚

手機要聞

2026上半年旗艦銷量Top30:蘋果獨攬前三,國產(chǎn)僅華為撐場面

教育要聞

高三生必看!四川省本科高校2026年招生章程要點匯總

藝術(shù)要聞

Lori Putnam | 光感拉滿的印象風景寫生

本地新聞

AK劉彰邂逅河北南大港濕地

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調(diào)查組》......

無障礙瀏覽 進入關(guān)懷版