網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

OpenAI參與，重卷ImageNet：終于把FID做成訓練

2026-05-03 15:48:24　來源: 量子位

北京舉報

0

分享至

衡宇發自凹非寺
量子位 | 公眾號 QbitAI

統治AI圖像生成近10年的黃金標準，第一次被拉下場當了教練。

我說的是FID（Frechet Inception Distance）。

這個指標從2017年沿用至今，一直無法無法投入日常訓練使用。

現在有人打破了這個窘境——

來自USC、CMU、CUHK和OpenAI的全華陣容研究團隊，提出了一種叫FD-loss的方法，把“算統計的樣本池”和“算梯度的batch”徹底解耦。

依靠數萬張圖像組成的大容量緩存隊列或指數移動平均機制，穩定完成分布估算，僅針對當下小批量數據開展梯度回傳。

僅憑這一個idea，長期受限的FID終于能夠作為訓練損失函數，參與模型的直接優化。

實驗帶來了多項出人意料的結果：

一個已有的單步生成器，后訓練后直接刷出FID 0.72（ImageNet 256×256），而且推理成本零增加。
一個訓練了50步的多步擴散模型，被他們直接repurposing成1步生成器，無需教師蒸餾、無需對抗訓練，效果還能打。
其中最違背固有認知的發現在于，FID數值最優的模型，視覺觀感未必出眾。依托DINOv2、MAE、SigLIP等前沿視覺表征訓練的模型，FID表現不如基于Inception架構優化的版本，但畫面物體結構完整性與細節還原度都會明顯更好。

業內長期扎堆優化FID分數，可這項沿用近十年的評價標準早已達到性能瓶頸，甚至會引導模型走入錯誤的優化方向。

對6種表征空間的歸一化弗雷歇特距離（Fréchet Distance，FD）比值取平均，得到更魯棒的綜合指標FDrk。

按照這套新標準測算，真實驗證集基準數值為1.0，現階段頂尖生成模型的數值依舊高達1.89。

這足以說明ImageNet圖像生成領域，距離技術成熟還有很遠的距離。

解耦統計量與梯度計算

FID是所有生成模型性能測評的核心評判標準。

這個歌值越小，意味著生成圖越真實、分布越接近真實。

它的計算方式是把真實圖和生成圖用Inception-v3提特征，各算一個高斯分布，再求兩個分布之間的距離。

不過過去，FID只能當評測指標。

因為測算一次FID需要50000張圖片的統計數據，而GPU每步訓練能塞下的batch撐死也就1024張。

如果強行把5萬樣本全部參與反向傳播，顯存多半當場爆炸。

新研究的破局思路是“徹底解耦”。

簡單來說，研究團隊用數萬張圖組成的大窗口（隊列或 EMA）穩定估算真實與生成分布的均值、協方差，保證FD計算準確；梯度只回傳當前小批量數據，不增加訓練算力負擔。

研究者設計了兩種工程實現。

第一種叫隊列法（Queue）。

這種方法維護一個超大特征隊列（比如5萬條），每次生成新batch就enqueue，同時把最老的batch踢出去。

算FD時，用整個隊列的均值和協方差；反向傳播時，只給當前這1024條特征開梯度流，歷史特征不參與梯度回傳，保證統計穩健性的同時不增加訓練開銷。

第二種叫EMA法。

這種方法干脆不存儲任何特征數據，僅通過指數移動平均實時更新生成樣本特征的一階矩與二階矩，每一步使用當前批次的統計量平滑更新全局均值與協方差估計，梯度同樣只作用于當前批次。

這種方式無需占用大量顯存，統計結果更平滑穩定，還能輕松適配多表征空間聯合優化，在實驗中表現更優，也成為論文默認的實現方案。

為了驗證這套解耦機制是否真的有效，研究者在最小的pMF-B/16（118M）上做了兩組消融實驗。

（注：論文在實驗中使用了明確的模型規模分級，其中B代表Base小模型，參數規模約89M到131M。）

第一組對比隊列長度。

不用隊列（N=0）時，FID反而從3.31劣化到3.84。

隊列加到5萬時，FID驟降至0.89；但狂堆到50萬后，因歷史特征嚴重stale，FDr6直接崩回17.67。

第二組對比EMA衰減率。

β=0.999時，FID刷到0.81，比隊列版更優，且顯著好于過短的0.9（0.98）和過長的0.9999（0.98）。

因此后續所有實驗——無論pixel/latent空間、多步轉單步、還是2.5B參數的文本模型——均默認采用EMA方案。

三個“反常識”的實驗發現

新提出的FD-loss本質上是一個后訓練的分布對齊目標。

研究者從已經訓練好的生成器出發，只用FD-loss做輕量微調。

真實圖像只在離線階段出現一次——預先把訓練集的均值和協方差算好存盤，之后模型再也不見真圖，只對著自己生成的樣本做自我修正。

這意味著它不需要修改原有架構，不需要從頭訓練，也不需要教師蒸餾或對抗學習，像插件一樣直接嵌入現有流程。

而且無論像素空間還是隱空間、單步還是多步模型，都能即插即用。

有了這個輕量框架，研究團隊才得以系統性地測試當FID真的變成損失函數，生成模型會發生什么。

FD-loss帶來了三個重要的實驗發現。

發現一，FD-loss讓單步生成模型首次實現畫質與速度的新高度。

研究者拿了一個已經訓練好的單步生成器 pMF-H，直接上FD-loss微調100輪。

結果在ImageNet 256×256上，FID從2.29干到了0.77，同時依然保持 1-NFE（單步生成）。

這一分數大幅超越過往多步擴散模型的最好水平，打破了 “高質量必須多步、單步只能低畫質” 的固有枷鎖。

換句話說，推理成本一分錢沒多花，畫質直接躍升。

同樣的操作放到latent-space的iMF-XL上，FID也從1.82壓到0.76。

更關鍵的是，這種提升不是刷分。在論文圖4的定性對比里，后訓練的鸚鵡羽毛更分明，雪豹的斑點也更清晰。

發現二，FD-loss可以直接將成熟的多步擴散模型改造為高性能單步生成器。

研究者把原本訓練來跑50步的多步模型JiT-L，強行拉到單步模式，也就是直接輸入純噪聲，模型只跑一次，輸出就當最終圖像。

結果就是FID直接崩到291.59，畫面糊成一鍋粥。

然后，他們什么都不改，就用FD-loss繼續微調這個的單步模式。

整個過程無需教師蒸餾，無需對抗訓練，無需逐樣本監督信號。

50輪后，FID從291驟降到 0.77，生成質量與原多步模型相當甚至更優，而且推理速度提升數十倍。

發現三，FID最低的，未必是最好的。

這也是該試驗最具行業反思價值的一點。

當研究者把FD-loss放到不同的表征空間里優化時，事情變得詭異起來（驚恐.jpg）。

實驗清晰表明，FID最低的模型，在人眼主觀評價中并非最優。

基于Inception特征優化的模型能獲得最低FID，卻在物體結構、細節紋理、整體感知上弱于使用DINOv2、MAE、SigLIP等現代視覺表征訓練的模型。

后者FID數值更高，但人眼看更銳利、物體結構更完整，視覺質量顯著更優。

這說明長期被奉為金標準的FID可能會誤導研究方向……

團隊提出新標準

那么，如果FID已經靠不住了，我們拿什么來相信生成模型的進步？

研究團隊提出跨6種表征空間的歸一化平均指標FDrk。

該指標通過對Inception-v3、ConvNeXtv2、DINOv2、MAE、SigLIP2、CLIP共6種不同維度的表征空間計算歸一化FD比值并取平均，得到綜合評估結果FDr6。

按照這一標準，真實驗證集的基準值為1.0，而當前最強生成模型的FDr6仍高達1.89，直觀揭示 ImageNet生成任務遠未被解決。

此外，在人類盲選偏好實驗中，即便最優的pMF-H模型，得票率也只有37.4%，真實圖片依舊以62.6%的勝率占優。

值得一提的是，FD?loss具備極低的使用門檻與極強的泛化能力，可作為輕量化后訓練插件直接嵌入現有訓練流程，無需從零搭建模型，也不依賴復雜的訓練策略與工程調優。

該方法同時兼容像素空間與隱空間生成模型，適配單步生成器與多步擴散模型，支持類別條件生成與文生圖等多種任務模式。

在整個優化過程中，FD?loss無需修改原有主干網絡結構，不引入復雜的架構改動和從頭訓練的巨大開銷，依托隊列或EMA統計更新即可穩定收斂，具備優秀的復現性與落地可行性。

憑借簡潔通用的設計，它大幅降低了高質量極速生成模型的工程實現門檻，讓各類生成架構都能快速獲得顯著的質量提升。

低成本、高回報，這正是FD-loss之于工業界的誘惑力所在。

團隊介紹

公開信息顯示，五位作者全部是華人背景。

一作Jiawei Yang，USC計算機系博士生，師從Yue Wang教授，目前的研究聚焦于以視覺為中心的多模態模型的統一生成與理解。

他碩士畢業于UCLA，曾獲NVIDIA Graduate Fellowship。

Zhengyang Geng本科畢業于四川大學計算金融專業，現為CMU計算機科學博士生，導師為Zico Kolter。

他長期專注單步生成、動態系統與模型高效化，是MeanFlow、pMF等系列工作核心作者。

他的個人主頁寫道“與Kaiming He有緊密合作”，兩人曾連續合作多篇單步生成領域核心論文。

Xuan Ju是香港中文大學博士生，師從徐強教授，主攻圖像與視頻生成、高效多模態模型。

她在ICCV、SIGGRAP 等頂會發表多篇成果。

Yonglong Tian博士畢業于MIT計算機科學專業，現為OpenAI研究員。

他是監督對比學習SupContrast等表征學習標志性工作的作者，曾任職于Google DeepMind。

通訊作者Yue Wang，USC助理教授，同時兼任英偉達研究科學家。

他本科畢業于浙江大學，碩士畢業于UCSD，博士畢業于MIT，研究橫跨3D視覺、生成模型與機器人。

論文arXiv：
https://arxiv.org/abs/2604.28190

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

馬斯克翻車了！一邊告OpenAI，一邊偷偷蒸餾ChatGPT

36氪 2026-05-02 09:29:07
13 跟貼 13
小模型讀書大模型思考：上海AI Lab提出新知識推理解耦方法DRIFT

機器之心Pro 2026-03-16 11:33:51
0 跟貼 0

這套題，GPT-5.5、Opus 4.7加起來沒考到1分，人類卻拿了滿分100

機器之心Pro 2026-05-03 09:22:46
2 跟貼 2

突破長序列與低耗部署核心瓶頸！中國科學院發布類腦大模型瞬悉2.0

新智元 2026-05-02 14:14:33
0 跟貼 0
LLM+運籌優化：工業級多機器人協同控制軟件生成新范式

機器之心Pro 2026-03-30 12:42:25
0 跟貼 0

GPT-5.5參數有10T？病毒式論文剛剛被打假，實際縮水至1.5T

新智元 2026-05-03 17:12:10
0 跟貼 0

不好！1930年的AI都來搶程序員飯碗了

量子位 2026-05-03 17:40:17
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

零樣本 Sim-to-Real ！2

機器之心Pro 2026-03-25 11:40:23
0 跟貼 0
LLM 僅靠自身就能增強推理？SePT 給出簡潔在線自訓練范式

機器之心Pro 2026-04-22 11:01:55
0 跟貼 0
英姿颯爽的女兵，莊嚴的隊列，青春的象征！

及腰長發小女神 2026-05-03 07:23:56
1 跟貼 1
純靠文本獲得全場爆燈的脫口秀！文本太強大了！

徐醇老表哥 2026-05-01 18:43:40
1 跟貼 1
景區裝電梯無痛爬山被質疑過度開發

極目新聞 2026-05-02 17:18:12
3830 跟貼 3830
領導執迷不悟對實驗走火入魔，結果毀了一座城

影中見影 2026-05-03 00:00:00
0 跟貼 0
美國防部與OpenAI等7家AI公司簽約，全面解鎖致命自主武器限制

DeepTech深科技 2026-05-02 18:34:28
0 跟貼 0
美軍正用AI技術在霍爾木茲海峽掃雷！美國國防部已與英偉達、谷歌、OpenAI等7家公司達成協議，將美軍打造為一支“AI主導”的作戰力量

每日經濟新聞 2026-05-02 20:45:39
21 跟貼 21
五一的莫氏雞煲現場爆滿：上午客人沒吃完，下午客人又開始排隊，還有人花80元買號

極目新聞 2026-05-01 18:33:42
3373 跟貼 3373
體檢報告中，若3個指標都正常，基本可排除很多疾病

主持人璐璐lu 2026-05-01 20:17:25
6 跟貼 6
鳥鳥這種純文本的脫口秀，聽完確實享受！

徐醇老表哥 2026-05-01 18:36:51
5 跟貼 5
DeepSeek V4最大的遺憾

量子位 2026-05-03 11:45:33
6 跟貼 6
供應鏈管理數智化的殘酷真相：99%的失敗，與那1%的“唯一解”

鈦媒體APP 2026-03-05 19:29:15
0 跟貼 0
實驗看看人們是否會幫助，一個饑餓的孩子

橙子不是橘子 2026-05-02 16:06:56
1 跟貼 1
古巴外長：美國對古攻擊上升至危險水平

澎湃新聞 2026-05-02 22:59:02
3179 跟貼 3179
游客拍到一公園公廁滿地大小便，被工作人員圍堵要求刪視頻，兩次報警才脫身

蓬勃新聞 2026-05-02 19:27:43
2124 跟貼 2124
水可以燒開兩次嗎

新科文 2026-05-03 16:00:29
0 跟貼 0
親子鑒定師口述：這些我所經歷過的奇葩事，件件讓人覺得不可思議

千秋文化 2026-05-02 19:45:43
0 跟貼 0
余華自嘲“翻車”：輔導兒子語文后兒子沒及格

大象新聞 2026-05-02 16:26:05
1839 跟貼 1839
印度網友：真希望我們的古代文本也有這么朗朗上口的韻律給孩子

為了更好 2026-05-02 03:43:01
2 跟貼 2
充電樁運營商，“扛不住了”

中國新聞周刊 2026-05-02 19:02:21
866 跟貼 866
假日江山麗旅途活力足——“五一”假期掀起出游熱潮

新華社 2026-05-02 20:33:08
2257 跟貼 2257
洛陽白馬寺發布鄭重聲明：不少游客因通過非官方第三方渠道購買非法倒賣的預約門票，導致無法正常入寺，切勿輕信

極目新聞 2026-04-29 18:10:47
903 跟貼 903
025高考數學求給定函數的定義域和值域，對數函數根式函數

我服子佩 2026-04-30 11:22:36
1 跟貼 1
“蘇超”第四周比賽結束，最新戰報出爐：南京隊2:1常州隊，泰州隊3:1揚州隊，蘇州隊0:1淮安隊，鎮江隊1:2鹽城隊

江蘇新聞 2026-05-02 22:02:00
328 跟貼 328
廣東耀明糖廠喊話“求互相體諒”：不要再送帶葉、帶根的甘蔗來了；此前曾有甘蔗夾雜鐵管沙泥造成設備損壞停工

大象新聞 2026-05-03 10:14:05
334 跟貼 334
越南4月出口同比增長21%，預估17.9%

每日經濟新聞 2026-05-03 10:18:05
1356 跟貼 1356
018高中數學函數的奇偶性問題，二次函數對稱性，求特定函數值

我服子佩 2026-04-29 20:43:29
1 跟貼 1
賀嬌龍賬號已更名商品櫥窗清空簡介內容更新

大象新聞 2026-05-02 19:42:07
80 跟貼 80
熬夜后的反彈與修復：我的健康基線探索

王煜全 2026-05-03 16:38:01
0 跟貼 0
“司機到河南被塞30斤蒜薹”背后：有蒜農稱請人抽一斤倒貼幾毛錢，增種、氣溫偏高致供大于求

紅星新聞 2026-05-02 21:40:16
0 跟貼 0
女子陪兒子玩手雷模型，手雷沒扔出尷尬了，竟被教練一腳踢飛

搞笑熱血青年 2026-05-01 09:24:17
2 跟貼 2

460萬獎金！吳宜澤決賽沖5大紀錄：首位00后冠軍中國選手兩連冠

460萬獎金！吳宜澤決賽沖5大紀錄：首位00后冠軍中國選手兩連冠

念洲

2026-05-03 09:49:04

銀行存款大局已定？明后年，存款超過50萬的家庭，切記3件事

銀行存款大局已定？明后年，存款超過50萬的家庭，切記3件事

牛鍋巴小釩

2026-05-03 15:34:57

張雪奪冠后，寧德時代悄悄出手了：這條萬億賽道大佬們同時涌進來

張雪奪冠后，寧德時代悄悄出手了：這條萬億賽道大佬們同時涌進來

獨坐山巔前

2026-04-28 00:56:20

庫里或加盟馬刺！文班愿讓老大位+承諾招募追夢，科爾去留成變量

庫里或加盟馬刺！文班愿讓老大位+承諾招募追夢，科爾去留成變量

夜溟聊體育

2026-05-03 13:06:58

著名演員金玉婷辟謠：我沒有瘋沒有死，老公是媽媽幫我找的

著名演員金玉婷辟謠：我沒有瘋沒有死，老公是媽媽幫我找的

細品名人

2026-05-03 06:09:32

入侵界最大笑話？筍殼魚入侵中國40年，不但沒泛濫還沒吃到瀕危

入侵界最大笑話？筍殼魚入侵中國40年，不但沒泛濫還沒吃到瀕危

貍貓之一的動物圈

2026-03-14 10:17:17

五個已被證實卻讓人難以接受的科學真理，顛覆你對世界的認知

五個已被證實卻讓人難以接受的科學真理，顛覆你對世界的認知

宇宙時空

2026-05-02 17:40:10

央國企的內幕被網友們扒得干干凈凈！

央國企的內幕被網友們扒得干干凈凈！

燈錦年

2026-04-28 00:05:06

史鑒｜監督者的特權：為什么“查別人”成了最安全的權力？

史鑒｜監督者的特權：為什么“查別人”成了最安全的權力？

一分為三看人生

2026-05-01 00:06:50

原來名字起太大，一般人根本壓不�。【W友：教訓，老祖宗早說過了

原來名字起太大，一般人根本壓不��！網友：教訓，老祖宗早說過了

夜深愛雜談

2026-04-30 21:37:49

官方回應劉曉慶風波！王婆說話陰陽怪氣，網友：慶奶75了還想怎樣

官方回應劉曉慶風波！王婆說話陰陽怪氣，網友：慶奶75了還想怎樣

天天熱點見聞

2026-05-02 17:15:14

恩比德直言淘汰宿敵很美好，普里查德被打臉，布朗：沒有遺憾

恩比德直言淘汰宿敵很美好，普里查德被打臉，布朗：沒有遺憾

體育新角度

2026-05-03 17:20:35

女子利用天氣預報頻繁購買飛機延誤險，5年買中900多次，獲賠近300萬，被抓時：我符合保險理賠要求

女子利用天氣預報頻繁購買飛機延誤險，5年買中900多次，獲賠近300萬，被抓時：我符合保險理賠要求

譚老師地理大課堂

2026-04-15 20:11:42

美國被踢出局，英國牽頭，10國確定派兵，聯合遠征軍已鎖定俄羅斯

美國被踢出局，英國牽頭，10國確定派兵，聯合遠征軍已鎖定俄羅斯

云鵬敘事

2026-05-03 10:15:58

豆包又更新了！一鍵生成王炸PPT，10分鐘搞定半天工作量！

豆包又更新了！一鍵生成王炸PPT，10分鐘搞定半天工作量！

秋葉PPT

2026-05-03 08:22:37

接到陌生電話先問這3個字！騙子聽到馬上掛斷，記得轉告身邊人

接到陌生電話先問這3個字！騙子聽到馬上掛斷，記得轉告身邊人

小談食刻美食

2026-04-25 09:47:09

11歲男童確認身亡！生前把文具全送給同學，內幕流出，果然有情況

11歲男童確認身亡！生前把文具全送給同學，內幕流出，果然有情況

天天熱點見聞

2026-05-03 10:16:33

每天早上起來，就堅持默念3遍：不是迷信，你的命運就會悄悄改變

每天早上起來，就堅持默念3遍：不是迷信，你的命運就會悄悄改變

金沛的國學筆記

2026-05-03 10:16:13

看來是真的，港媒：055驅逐艦在菲律賓附近發射鷹擊-20導彈

看來是真的，港媒：055驅逐艦在菲律賓附近發射鷹擊-20導彈

愛吃醋的貓咪

2026-04-29 21:16:58

山西橫掃青島卻害慘遼寧？烏戈壓力大了：G3戰輸球直接變遼老十

山西橫掃青島卻害慘遼寧？烏戈壓力大了：G3戰輸球直接變遼老十

籃球快餐車

2026-05-03 05:19:34

追蹤人工智能動態

12572文章數 176460關注度

往期回顧全部

科技要聞

庫克罕見"拒答"！蘋果正被AI供應鏈卡脖子

頭條要聞

男童在野生景點徒步時落水 34歲父親營救時不幸遇難

頭條要聞

男童在野生景點徒步時落水 34歲父親營救時不幸遇難

體育要聞

裁判準備下班，結果吳宜澤進了決賽

娛樂要聞

蔡卓妍婚后首現身戴結婚戒指笑容不斷

財經要聞

后巴菲特時代，首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

時尚

親子

健康

公開課

本地新聞

用青花瓷的方式，打開西溪濕地

春天別總傻傻穿一身黑，看看這些日常穿搭，高級舒適又優雅

親子要聞

這下虧大了

干細胞治燒燙傷面臨這些“瓶頸”

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版