无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

五位作者全部是華人背景,OpenAI參與,重卷ImageNet:終于把FID做成訓練

0
分享至

統治AI圖像生成近10年的黃金標準,第一次被拉下場當了教練。

我說的是FID(Frechet Inception Distance)。

這個指標從2017年沿用至今,一直無法無法投入日常訓練使用。

現在有人打破了這個窘境——

來自USC、CMU、CUHK和OpenAI的全華陣容研究團隊,提出了一種叫FD-loss的方法,把“算統計的樣本池”和“算梯度的batch”徹底解耦。

依靠數萬張圖像組成的大容量緩存隊列或指數移動平均機制,穩定完成分布估算,僅針對當下小批量數據開展梯度回傳。

僅憑這一個idea,長期受限的FID終于能夠作為訓練損失函數,參與模型的直接優化。

實驗帶來了多項出人意料的結果:

  • 一個已有的單步生成器,后訓練后直接刷出FID 0.72(ImageNet 256×256),而且推理成本零增加。

  • 一個訓練了50步的多步擴散模型,被他們直接repurposing成1步生成器,無需教師蒸餾、無需對抗訓練,效果還能打。

  • 其中最違背固有認知的發現在于,FID數值最優的模型,視覺觀感未必出眾。依托DINOv2、MAE、SigLIP等前沿視覺表征訓練的模型,FID表現不如基于Inception架構優化的版本,但畫面物體結構完整性與細節還原度都會明顯更好。


業內長期扎堆優化FID分數,可這項沿用近十年的評價標準早已達到性能瓶頸,甚至會引導模型走入錯誤的優化方向。

對6種表征空間的歸一化弗雷歇特距離(Fréchet Distance,FD)比值取平均,得到更魯棒的綜合指標FDrk。

按照這套新標準測算,真實驗證集基準數值為1.0,現階段頂尖生成模型的數值依舊高達1.89。

這足以說明ImageNet圖像生成領域,距離技術成熟還有很遠的距離。

解耦統計量與梯度計算

FID是所有生成模型性能測評的核心評判標準。

這個歌值越小,意味著生成圖越真實、分布越接近真實。

它的計算方式是把真實圖和生成圖用Inception-v3提特征,各算一個高斯分布,再求兩個分布之間的距離。

不過過去,FID只能當評測指標。

因為測算一次FID需要50000張圖片的統計數據,而GPU每步訓練能塞下的batch撐死也就1024張。

如果強行把5萬樣本全部參與反向傳播,顯存多半當場爆炸。

新研究的破局思路是“徹底解耦”。

簡單來說,研究團隊用數萬張圖組成的大窗口(隊列或 EMA)穩定估算真實與生成分布的均值、協方差,保證FD計算準確;梯度只回傳當前小批量數據,不增加訓練算力負擔。

研究者設計了兩種工程實現。

第一種叫隊列法(Queue)。

這種方法維護一個超大特征隊列(比如5萬條),每次生成新batch就enqueue,同時把最老的batch踢出去。

算FD時,用整個隊列的均值和協方差;反向傳播時,只給當前這1024條特征開梯度流,歷史特征不參與梯度回傳,保證統計穩健性的同時不增加訓練開銷。

第二種叫EMA法。

這種方法干脆不存儲任何特征數據,僅通過指數移動平均實時更新生成樣本特征的一階矩與二階矩,每一步使用當前批次的統計量平滑更新全局均值與協方差估計,梯度同樣只作用于當前批次。

這種方式無需占用大量顯存,統計結果更平滑穩定,還能輕松適配多表征空間聯合優化,在實驗中表現更優,也成為論文默認的實現方案。


為了驗證這套解耦機制是否真的有效,研究者在最小的pMF-B/16(118M)上做了兩組消融實驗。

(注:論文在實驗中使用了明確的模型規模分級,其中B代表Base小模型,參數規模約89M到131M。)

第一組對比隊列長度。

不用隊列(N=0)時,FID反而從3.31劣化到3.84。

隊列加到5萬時,FID驟降至0.89;但狂堆到50萬后,因歷史特征嚴重stale,FDr6直接崩回17.67。

第二組對比EMA衰減率。

β=0.999時,FID刷到0.81,比隊列版更優,且顯著好于過短的0.9(0.98)和過長的0.9999(0.98)。

因此后續所有實驗——無論pixel/latent空間、多步轉單步、還是2.5B參數的文本模型——均默認采用EMA方案。

三個“反常識”的實驗發現

新提出的FD-loss本質上是一個后訓練的分布對齊目標。

研究者從已經訓練好的生成器出發,只用FD-loss做輕量微調。

真實圖像只在離線階段出現一次——預先把訓練集的均值和協方差算好存盤,之后模型再也不見真圖,只對著自己生成的樣本做自我修正。

這意味著它不需要修改原有架構,不需要從頭訓練,也不需要教師蒸餾或對抗學習,像插件一樣直接嵌入現有流程。

而且無論像素空間還是隱空間、單步還是多步模型,都能即插即用。

有了這個輕量框架,研究團隊才得以系統性地測試當FID真的變成損失函數,生成模型會發生什么。

FD-loss帶來了三個重要的實驗發現。

發現一,FD-loss讓單步生成模型首次實現畫質與速度的新高度。

研究者拿了一個已經訓練好的單步生成器 pMF-H,直接上FD-loss微調100輪。

結果在ImageNet 256×256上,FID從2.29干到了0.77,同時依然保持 1-NFE(單步生成)。

這一分數大幅超越過往多步擴散模型的最好水平,打破了 “高質量必須多步、單步只能低畫質” 的固有枷鎖。

換句話說,推理成本一分錢沒多花,畫質直接躍升。

同樣的操作放到latent-space的iMF-XL上,FID也從1.82壓到0.76。

更關鍵的是,這種提升不是刷分。在論文圖4的定性對比里,后訓練的鸚鵡羽毛更分明,雪豹的斑點也更清晰。


發現二,FD-loss可以直接將成熟的多步擴散模型改造為高性能單步生成器。

研究者把原本訓練來跑50步的多步模型JiT-L,強行拉到單步模式,也就是直接輸入純噪聲,模型只跑一次,輸出就當最終圖像。

結果就是FID直接崩到291.59,畫面糊成一鍋粥。

然后,他們什么都不改,就用FD-loss繼續微調這個的單步模式。

整個過程無需教師蒸餾,無需對抗訓練,無需逐樣本監督信號。

50輪后,FID從291驟降到 0.77,生成質量與原多步模型相當甚至更優,而且推理速度提升數十倍。


發現三,FID最低的,未必是最好的。

這也是該試驗最具行業反思價值的一點。

當研究者把FD-loss放到不同的表征空間里優化時,事情變得詭異起來(驚恐.jpg)。

實驗清晰表明,FID最低的模型,在人眼主觀評價中并非最優。

基于Inception特征優化的模型能獲得最低FID,卻在物體結構、細節紋理、整體感知上弱于使用DINOv2、MAE、SigLIP等現代視覺表征訓練的模型。

后者FID數值更高,但人眼看更銳利、物體結構更完整,視覺質量顯著更優。

這說明長期被奉為金標準的FID可能會誤導研究方向……

團隊提出新標準

那么,如果FID已經靠不住了,我們拿什么來相信生成模型的進步?

研究團隊提出跨6種表征空間的歸一化平均指標FDrk

該指標通過對Inception-v3、ConvNeXtv2、DINOv2、MAE、SigLIP2、CLIP共6種不同維度的表征空間計算歸一化FD比值并取平均,得到綜合評估結果FDr6。

按照這一標準,真實驗證集的基準值為1.0,而當前最強生成模型的FDr6仍高達1.89,直觀揭示 ImageNet生成任務遠未被解決。

此外,在人類盲選偏好實驗中,即便最優的pMF-H模型,得票率也只有37.4%,真實圖片依舊以62.6%的勝率占優。


值得一提的是,FD?loss具備極低的使用門檻與極強的泛化能力,可作為輕量化后訓練插件直接嵌入現有訓練流程,無需從零搭建模型,也不依賴復雜的訓練策略與工程調優。

該方法同時兼容像素空間與隱空間生成模型,適配單步生成器與多步擴散模型,支持類別條件生成與文生圖等多種任務模式。

在整個優化過程中,FD?loss無需修改原有主干網絡結構,不引入復雜的架構改動和從頭訓練的巨大開銷,依托隊列或EMA統計更新即可穩定收斂,具備優秀的復現性與落地可行性。

憑借簡潔通用的設計,它大幅降低了高質量極速生成模型的工程實現門檻,讓各類生成架構都能快速獲得顯著的質量提升。

低成本、高回報,這正是FD-loss之于工業界的誘惑力所在。

團隊介紹

公開信息顯示,五位作者全部是華人背景。

一作Jiawei Yang,USC計算機系博士生,師從Yue Wang教授,目前的研究聚焦于以視覺為中心的多模態模型的統一生成與理解。

他碩士畢業于UCLA,曾獲NVIDIA Graduate Fellowship。


Zhengyang Geng本科畢業于四川大學計算金融專業,現為CMU計算機科學博士生,導師為Zico Kolter。

他長期專注單步生成、動態系統與模型高效化,是MeanFlow、pMF等系列工作核心作者。

他的個人主頁寫道“與Kaiming He有緊密合作”,兩人曾連續合作多篇單步生成領域核心論文。


Xuan Ju是香港中文大學博士生,師從徐強教授,主攻圖像與視頻生成、高效多模態模型。

她在ICCV、SIGGRAP 等頂會發表多篇成果。


Yonglong Tian博士畢業于MIT計算機科學專業,現為OpenAI研究員。

他是監督對比學習SupContrast等表征學習標志性工作的作者,曾任職于Google DeepMind。


通訊作者Yue Wang,USC助理教授,同時兼任英偉達研究科學家。

他本科畢業于浙江大學,碩士畢業于UCSD,博士畢業于MIT,研究橫跨3D視覺、生成模型與機器人。


論文arXiv:
https://arxiv.org/abs/2604.28190

文章來源:量子位。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
NBA|文班32+8,馬刺扳回一城,本賽季大結局還有懸念

NBA|文班32+8,馬刺扳回一城,本賽季大結局還有懸念

澎湃新聞
2026-06-09 11:36:30
美伊沖突升級!特朗普稱“伊朗把我們當傻子耍”,要求“猛烈攻擊”,美軍隨即襲擊伊多個目標;伊朗反擊,宣布對所有船只關閉霍爾木茲海峽

美伊沖突升級!特朗普稱“伊朗把我們當傻子耍”,要求“猛烈攻擊”,美軍隨即襲擊伊多個目標;伊朗反擊,宣布對所有船只關閉霍爾木茲海峽

都市快報橙柿互動
2026-06-11 07:09:38
“未來幾年,不會有一滴水流向巴基斯坦”

“未來幾年,不會有一滴水流向巴基斯坦”

每日經濟新聞
2026-06-10 23:21:05
伊朗革命衛隊:發射12枚彈道導彈,打擊約旦美軍基地F-35、F-15部署點,摧毀了“大量戰機”,特朗普:生日愿望是“世界和平”

伊朗革命衛隊:發射12枚彈道導彈,打擊約旦美軍基地F-35、F-15部署點,摧毀了“大量戰機”,特朗普:生日愿望是“世界和平”

揚子晚報
2026-06-11 12:09:05
iOS 27更新非常大,可惜我們只能用用調休鬧鐘。

iOS 27更新非常大,可惜我們只能用用調休鬧鐘。

差評XPIN
2026-06-09 07:06:39
實探北京新發地批發市場,單個鴨腿批發價約2.5元,比冷凍鵝腿便宜了5倍多

實探北京新發地批發市場,單個鴨腿批發價約2.5元,比冷凍鵝腿便宜了5倍多

界面新聞
2026-06-11 12:33:15
女演員的長相有多重要?看溫崢嶸和任素汐同框,才知何為女人味

女演員的長相有多重要?看溫崢嶸和任素汐同框,才知何為女人味

一娛三分地
2026-06-10 20:39:13
廣西桂林興安縣發生一起爆炸事件,已致7人死亡、17人受傷

廣西桂林興安縣發生一起爆炸事件,已致7人死亡、17人受傷

界面新聞
2026-06-11 08:38:59
旅游旺季,福特銳界L準備好了,你呢?

旅游旺季,福特銳界L準備好了,你呢?

道哥說車
2026-06-11 10:11:34
95年杭州夫妻花50萬囤茅臺酒,15年后,茅臺價格讓他們愣住

95年杭州夫妻花50萬囤茅臺酒,15年后,茅臺價格讓他們愣住

故事秘棧
2025-05-13 22:37:11
河北殘障老人無薪扛水泥20年?被奴役這么久,為何全村裝看不見?

河北殘障老人無薪扛水泥20年?被奴役這么久,為何全村裝看不見?

見骨筆記
2026-06-11 08:15:36
世界杯開幕式:2天3國3場!致敬貝利馬拉多納 夏奇拉水果姐獻唱

世界杯開幕式:2天3國3場!致敬貝利馬拉多納 夏奇拉水果姐獻唱

念洲
2026-06-11 12:40:19
3孩2個非親生后續:更多惡心事曝光,男方身份被扒,單位被舉報

3孩2個非親生后續:更多惡心事曝光,男方身份被扒,單位被舉報

奇思妙想草葉君
2026-06-10 22:54:32
29分史詩逆轉創歷史紀錄!布倫森36+5+7創新高 成FMVP大熱門

29分史詩逆轉創歷史紀錄!布倫森36+5+7創新高 成FMVP大熱門

醉臥浮生
2026-06-11 11:39:56
中紀委怒批:公務員也是人,正常生活不應問責處理

中紀委怒批:公務員也是人,正常生活不應問責處理

細說職場
2026-06-10 18:51:23
文班:付出那么多努力卻把勝利拱手讓人,感覺真的很痛苦

文班:付出那么多努力卻把勝利拱手讓人,感覺真的很痛苦

懂球帝
2026-06-11 12:29:32
欲哭無淚!40多歲的中年男人被裁員了,向6年前同事求助無果…

欲哭無淚!40多歲的中年男人被裁員了,向6年前同事求助無果…

火山詩話
2026-06-11 08:52:39
團滅!65人在浙江被查,大量男性受害!網友:良心痛不痛?

團滅!65人在浙江被查,大量男性受害!網友:良心痛不痛?

環球網資訊
2026-06-11 08:38:05
涉嫌嚴重違紀違法,趙章華被查

涉嫌嚴重違紀違法,趙章華被查

都市快報橙柿互動
2026-06-11 13:17:19
唐斯造28年紀錄,布倫森36+5+7頂級3D絕殺,尼克斯逆轉馬刺創歷史

唐斯造28年紀錄,布倫森36+5+7頂級3D絕殺,尼克斯逆轉馬刺創歷史

釘釘陌上花開
2026-06-11 11:41:12
2026-06-11 14:35:00
算法與數學之美 incentive-icons
算法與數學之美
分享知識,交流思想
5604文章數 64624關注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

伊朗革命衛隊:發射12枚彈道導彈 摧毀美軍"大量戰機"

頭條要聞

伊朗革命衛隊:發射12枚彈道導彈 摧毀美軍"大量戰機"

體育要聞

2026世界杯,我們看什么?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

干細胞生意:17萬一針的希望

汽車要聞

埃安i60 530寧德時代版上市限時煥新價10.36萬起

態度原創

旅游
教育
房產
時尚
本地

旅游要聞

不輸烏鎮周莊!上海浦東這座千年古鎮免費逛,打卡《三十而已》

教育要聞

第23課-開會說這幾句話,讓你贏得客戶領導贊揚

房產要聞

猛砸400億!我敢說,這才是海口最懂生活的神盤!

畢業季,為林徽因正名的年輕女孩們

本地新聞

世界杯還沒開始,蘇超已經火到爆梗

無障礙瀏覽 進入關懷版