網易首頁 > 網易號 > 正文 申請入駐

OpenAI參與,重卷ImageNet:終于把FID做成訓練

0
分享至

衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI

統治AI圖像生成近10年的黃金標準,第一次被拉下場當了教練。

我說的是FID(Frechet Inception Distance)。

這個指標從2017年沿用至今,一直無法無法投入日常訓練使用。

現在有人打破了這個窘境——

來自USC、CMU、CUHK和OpenAI的全華陣容研究團隊,提出了一種叫FD-loss的方法,把“算統計的樣本池”和“算梯度的batch”徹底解耦。

依靠數萬張圖像組成的大容量緩存隊列或指數移動平均機制,穩定完成分布估算,僅針對當下小批量數據開展梯度回傳。

僅憑這一個idea,長期受限的FID終于能夠作為訓練損失函數,參與模型的直接優化。

實驗帶來了多項出人意料的結果:

  • 一個已有的單步生成器,后訓練后直接刷出FID 0.72(ImageNet 256×256),而且推理成本零增加。
  • 一個訓練了50步的多步擴散模型,被他們直接repurposing成1步生成器,無需教師蒸餾、無需對抗訓練,效果還能打。
  • 其中最違背固有認知的發現在于,FID數值最優的模型,視覺觀感未必出眾。依托DINOv2、MAE、SigLIP等前沿視覺表征訓練的模型,FID表現不如基于Inception架構優化的版本,但畫面物體結構完整性與細節還原度都會明顯更好。



業內長期扎堆優化FID分數,可這項沿用近十年的評價標準早已達到性能瓶頸,甚至會引導模型走入錯誤的優化方向。

對6種表征空間的歸一化弗雷歇特距離(Fréchet Distance,FD)比值取平均,得到更魯棒的綜合指標FDrk。

按照這套新標準測算,真實驗證集基準數值為1.0,現階段頂尖生成模型的數值依舊高達1.89。

這足以說明ImageNet圖像生成領域,距離技術成熟還有很遠的距離。

解耦統計量與梯度計算

FID是所有生成模型性能測評的核心評判標準。

這個歌值越小,意味著生成圖越真實、分布越接近真實。

它的計算方式是把真實圖和生成圖用Inception-v3提特征,各算一個高斯分布,再求兩個分布之間的距離。

不過過去,FID只能當評測指標。

因為測算一次FID需要50000張圖片的統計數據,而GPU每步訓練能塞下的batch撐死也就1024張。

如果強行把5萬樣本全部參與反向傳播,顯存多半當場爆炸。

新研究的破局思路是“徹底解耦”。

簡單來說,研究團隊用數萬張圖組成的大窗口(隊列或 EMA)穩定估算真實與生成分布的均值、協方差,保證FD計算準確;梯度只回傳當前小批量數據,不增加訓練算力負擔。

研究者設計了兩種工程實現。

第一種叫隊列法(Queue)。

這種方法維護一個超大特征隊列(比如5萬條),每次生成新batch就enqueue,同時把最老的batch踢出去。

算FD時,用整個隊列的均值和協方差;反向傳播時,只給當前這1024條特征開梯度流,歷史特征不參與梯度回傳,保證統計穩健性的同時不增加訓練開銷。

第二種叫EMA法。

這種方法干脆不存儲任何特征數據,僅通過指數移動平均實時更新生成樣本特征的一階矩與二階矩,每一步使用當前批次的統計量平滑更新全局均值與協方差估計,梯度同樣只作用于當前批次。

這種方式無需占用大量顯存,統計結果更平滑穩定,還能輕松適配多表征空間聯合優化,在實驗中表現更優,也成為論文默認的實現方案。



為了驗證這套解耦機制是否真的有效,研究者在最小的pMF-B/16(118M)上做了兩組消融實驗。

(注:論文在實驗中使用了明確的模型規模分級,其中B代表Base小模型,參數規模約89M到131M。)

第一組對比隊列長度。

不用隊列(N=0)時,FID反而從3.31劣化到3.84。

隊列加到5萬時,FID驟降至0.89;但狂堆到50萬后,因歷史特征嚴重stale,FDr6直接崩回17.67。

第二組對比EMA衰減率。

β=0.999時,FID刷到0.81,比隊列版更優,且顯著好于過短的0.9(0.98)和過長的0.9999(0.98)。

因此后續所有實驗——無論pixel/latent空間、多步轉單步、還是2.5B參數的文本模型——均默認采用EMA方案。

三個“反常識”的實驗發現

新提出的FD-loss本質上是一個后訓練的分布對齊目標。

研究者從已經訓練好的生成器出發,只用FD-loss做輕量微調。

真實圖像只在離線階段出現一次——預先把訓練集的均值和協方差算好存盤,之后模型再也不見真圖,只對著自己生成的樣本做自我修正。

這意味著它不需要修改原有架構,不需要從頭訓練,也不需要教師蒸餾或對抗學習,像插件一樣直接嵌入現有流程。

而且無論像素空間還是隱空間、單步還是多步模型,都能即插即用。

有了這個輕量框架,研究團隊才得以系統性地測試當FID真的變成損失函數,生成模型會發生什么。



FD-loss帶來了三個重要的實驗發現。

發現一,FD-loss讓單步生成模型首次實現畫質與速度的新高度。

研究者拿了一個已經訓練好的單步生成器 pMF-H,直接上FD-loss微調100輪。

結果在ImageNet 256×256上,FID從2.29干到了0.77,同時依然保持 1-NFE(單步生成)。

這一分數大幅超越過往多步擴散模型的最好水平,打破了 “高質量必須多步、單步只能低畫質” 的固有枷鎖。

換句話說,推理成本一分錢沒多花,畫質直接躍升。

同樣的操作放到latent-space的iMF-XL上,FID也從1.82壓到0.76。

更關鍵的是,這種提升不是刷分。在論文圖4的定性對比里,后訓練的鸚鵡羽毛更分明,雪豹的斑點也更清晰。



發現二,FD-loss可以直接將成熟的多步擴散模型改造為高性能單步生成器。

研究者把原本訓練來跑50步的多步模型JiT-L,強行拉到單步模式,也就是直接輸入純噪聲,模型只跑一次,輸出就當最終圖像。

結果就是FID直接崩到291.59,畫面糊成一鍋粥。

然后,他們什么都不改,就用FD-loss繼續微調這個的單步模式。

整個過程無需教師蒸餾,無需對抗訓練,無需逐樣本監督信號。

50輪后,FID從291驟降到 0.77,生成質量與原多步模型相當甚至更優,而且推理速度提升數十倍。



發現三,FID最低的,未必是最好的。

這也是該試驗最具行業反思價值的一點。

當研究者把FD-loss放到不同的表征空間里優化時,事情變得詭異起來(驚恐.jpg)。

實驗清晰表明,FID最低的模型,在人眼主觀評價中并非最優。

基于Inception特征優化的模型能獲得最低FID,卻在物體結構、細節紋理、整體感知上弱于使用DINOv2、MAE、SigLIP等現代視覺表征訓練的模型。

后者FID數值更高,但人眼看更銳利、物體結構更完整,視覺質量顯著更優。

這說明長期被奉為金標準的FID可能會誤導研究方向……

團隊提出新標準

那么,如果FID已經靠不住了,我們拿什么來相信生成模型的進步?

研究團隊提出跨6種表征空間的歸一化平均指標FDrk。

該指標通過對Inception-v3、ConvNeXtv2、DINOv2、MAE、SigLIP2、CLIP共6種不同維度的表征空間計算歸一化FD比值并取平均,得到綜合評估結果FDr6。

按照這一標準,真實驗證集的基準值為1.0,而當前最強生成模型的FDr6仍高達1.89,直觀揭示 ImageNet生成任務遠未被解決。

此外,在人類盲選偏好實驗中,即便最優的pMF-H模型,得票率也只有37.4%,真實圖片依舊以62.6%的勝率占優。



值得一提的是,FD?loss具備極低的使用門檻與極強的泛化能力,可作為輕量化后訓練插件直接嵌入現有訓練流程,無需從零搭建模型,也不依賴復雜的訓練策略與工程調優。

該方法同時兼容像素空間與隱空間生成模型,適配單步生成器與多步擴散模型,支持類別條件生成與文生圖等多種任務模式。

在整個優化過程中,FD?loss無需修改原有主干網絡結構,不引入復雜的架構改動和從頭訓練的巨大開銷,依托隊列或EMA統計更新即可穩定收斂,具備優秀的復現性與落地可行性。

憑借簡潔通用的設計,它大幅降低了高質量極速生成模型的工程實現門檻,讓各類生成架構都能快速獲得顯著的質量提升。

低成本、高回報,這正是FD-loss之于工業界的誘惑力所在。

團隊介紹

公開信息顯示,五位作者全部是華人背景。

一作Jiawei Yang,USC計算機系博士生,師從Yue Wang教授,目前的研究聚焦于以視覺為中心的多模態模型的統一生成與理解。

他碩士畢業于UCLA,曾獲NVIDIA Graduate Fellowship。



Zhengyang Geng本科畢業于四川大學計算金融專業,現為CMU計算機科學博士生,導師為Zico Kolter。

他長期專注單步生成、動態系統與模型高效化,是MeanFlow、pMF等系列工作核心作者。

他的個人主頁寫道“與Kaiming He有緊密合作”,兩人曾連續合作多篇單步生成領域核心論文。



Xuan Ju是香港中文大學博士生,師從徐強教授,主攻圖像與視頻生成、高效多模態模型。

她在ICCV、SIGGRAP 等頂會發表多篇成果。



Yonglong Tian博士畢業于MIT計算機科學專業,現為OpenAI研究員。

他是監督對比學習SupContrast等表征學習標志性工作的作者,曾任職于Google DeepMind。



通訊作者Yue Wang,USC助理教授,同時兼任英偉達研究科學家。

他本科畢業于浙江大學,碩士畢業于UCSD,博士畢業于MIT,研究橫跨3D視覺、生成模型與機器人。



論文arXiv:
https://arxiv.org/abs/2604.28190

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
460萬獎金!吳宜澤決賽沖5大紀錄:首位00后冠軍 中國選手兩連冠

460萬獎金!吳宜澤決賽沖5大紀錄:首位00后冠軍 中國選手兩連冠

念洲
2026-05-03 09:49:04
銀行存款大局已定?明后年,存款超過50萬的家庭,切記3件事

銀行存款大局已定?明后年,存款超過50萬的家庭,切記3件事

牛鍋巴小釩
2026-05-03 15:34:57
張雪奪冠后,寧德時代悄悄出手了:這條萬億賽道大佬們同時涌進來

張雪奪冠后,寧德時代悄悄出手了:這條萬億賽道大佬們同時涌進來

獨坐山巔前
2026-04-28 00:56:20
庫里或加盟馬刺!文班愿讓老大位+承諾招募追夢,科爾去留成變量

庫里或加盟馬刺!文班愿讓老大位+承諾招募追夢,科爾去留成變量

夜溟聊體育
2026-05-03 13:06:58
著名演員金玉婷辟謠:我沒有瘋沒有死,老公是媽媽幫我找的

著名演員金玉婷辟謠:我沒有瘋沒有死,老公是媽媽幫我找的

細品名人
2026-05-03 06:09:32
入侵界最大笑話?筍殼魚入侵中國40年,不但沒泛濫還沒吃到瀕危

入侵界最大笑話?筍殼魚入侵中國40年,不但沒泛濫還沒吃到瀕危

貍貓之一的動物圈
2026-03-14 10:17:17
五個已被證實卻讓人難以接受的科學真理,顛覆你對世界的認知

五個已被證實卻讓人難以接受的科學真理,顛覆你對世界的認知

宇宙時空
2026-05-02 17:40:10
央國企的內幕被網友們扒得干干凈凈!

央國企的內幕被網友們扒得干干凈凈!

燈錦年
2026-04-28 00:05:06
史鑒|監督者的特權:為什么“查別人”成了最安全的權力?

史鑒|監督者的特權:為什么“查別人”成了最安全的權力?

一分為三看人生
2026-05-01 00:06:50
原來名字起太大,一般人根本壓不。【W友:教訓,老祖宗早說過了

原來名字起太大,一般人根本壓不!網友:教訓,老祖宗早說過了

夜深愛雜談
2026-04-30 21:37:49
官方回應劉曉慶風波!王婆說話陰陽怪氣,網友:慶奶75了還想怎樣

官方回應劉曉慶風波!王婆說話陰陽怪氣,網友:慶奶75了還想怎樣

天天熱點見聞
2026-05-02 17:15:14
恩比德直言淘汰宿敵很美好,普里查德被打臉,布朗:沒有遺憾

恩比德直言淘汰宿敵很美好,普里查德被打臉,布朗:沒有遺憾

體育新角度
2026-05-03 17:20:35
女子利用天氣預報頻繁購買飛機延誤險,5年買中900多次,獲賠近300萬,被抓時:我符合保險理賠要求

女子利用天氣預報頻繁購買飛機延誤險,5年買中900多次,獲賠近300萬,被抓時:我符合保險理賠要求

譚老師地理大課堂
2026-04-15 20:11:42
美國被踢出局,英國牽頭,10國確定派兵,聯合遠征軍已鎖定俄羅斯

美國被踢出局,英國牽頭,10國確定派兵,聯合遠征軍已鎖定俄羅斯

云鵬敘事
2026-05-03 10:15:58
豆包又更新了!一鍵生成王炸PPT,10分鐘搞定半天工作量!

豆包又更新了!一鍵生成王炸PPT,10分鐘搞定半天工作量!

秋葉PPT
2026-05-03 08:22:37
接到陌生電話先問這3個字!騙子聽到馬上掛斷,記得轉告身邊人

接到陌生電話先問這3個字!騙子聽到馬上掛斷,記得轉告身邊人

小談食刻美食
2026-04-25 09:47:09
11歲男童確認身亡!生前把文具全送給同學,內幕流出,果然有情況

11歲男童確認身亡!生前把文具全送給同學,內幕流出,果然有情況

天天熱點見聞
2026-05-03 10:16:33
每天早上起來,就堅持默念3遍:不是迷信,你的命運就會悄悄改變

每天早上起來,就堅持默念3遍:不是迷信,你的命運就會悄悄改變

金沛的國學筆記
2026-05-03 10:16:13
看來是真的,港媒:055驅逐艦在菲律賓附近發射鷹擊-20導彈

看來是真的,港媒:055驅逐艦在菲律賓附近發射鷹擊-20導彈

愛吃醋的貓咪
2026-04-29 21:16:58
山西橫掃青島卻害慘遼寧?烏戈壓力大了:G3戰輸球直接變遼老十

山西橫掃青島卻害慘遼寧?烏戈壓力大了:G3戰輸球直接變遼老十

籃球快餐車
2026-05-03 05:19:34
2026-05-03 18:31:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12572文章數 176460關注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應鏈卡脖子

頭條要聞

男童在野生景點徒步時落水 34歲父親營救時不幸遇難

頭條要聞

男童在野生景點徒步時落水 34歲父親營救時不幸遇難

體育要聞

裁判準備下班,結果吳宜澤進了決賽

娛樂要聞

蔡卓妍婚后首現身 戴結婚戒指笑容不斷

財經要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

本地
時尚
親子
健康
公開課

本地新聞

用青花瓷的方式,打開西溪濕地

春天別總傻傻穿一身黑,看看這些日常穿搭,高級舒適又優雅

親子要聞

這下虧大了

干細胞治燒燙傷面臨這些“瓶頸”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版